搜索引擎蜘蛛爬行規律探秘之一蜘蛛如何抓取鏈接

作者:樂購科技 來源: 2011-12-09 09:31:29 閱讀 我要評論 直達商品

  搜索引擎蜘蛛,對于我們來說非常神秘,本文的配圖使用蜘蛛俠的原因就在于此。當然我們也不是百度的也不是Google的,所以只能說探秘,而不是揭秘。本文內容比較簡單,只是給不知道的朋友一個分享的途徑,高手和牛人請繞行吧。

  傳統意義上,我們感覺搜索引擎蜘蛛(spider)爬行,應該類似于真正的蜘蛛在蜘蛛網上爬行。也就是比如百度蜘蛛找到一個鏈接,順著這個鏈接爬行到一個頁面,然后再順著這個頁面里面的鏈接繼續爬……這個類似于蜘蛛網,也類似于一棵大樹。這個理論雖然正確,但是不準確。

  搜索引擎內部是有一個網址索引庫的,所以搜索引擎蜘蛛是從搜索引擎的服務器出發,順著搜索引擎已有的網址爬行一個網頁,并將網頁內容抓取回來。頁面采集回來之后,搜索引擎會對其進行分析,將內容和鏈接分開,內容暫時先不說。分析出來鏈接之后,搜索引擎并不會馬上去派蜘蛛進行抓取,而是把鏈接和錨文本記錄下來交給網址索引庫進行分析、對比和計算,最后放入網址索引庫。進入了網址索引庫之后,才會有蜘蛛去抓取。

  也就是如果出現了某個網頁的外鏈,并不一定會立刻有蜘蛛去抓取這個頁面,而是會有一個分析計算的過程。即便是這個外鏈在蜘蛛抓取之后被刪除了,這個鏈接也有可能已經被搜索引擎記錄,以后還有抓取的可能。而且下次如果蜘蛛再去抓取這個外鏈所在頁面,發現鏈接不存在了,或者外鏈所在頁面出現了404,那么只是減少了這個外鏈的權重,應該不會去網址索引庫刪除這個鏈接。

  所以說已經不存在的頁面上的鏈接,也有作用。今天就分享這些,以后繼續跟大家分享我自己分析的內容,如果有不準確的地方,請大家批評指正。

  轉載請注明來自逍遙博客@LiboSEO,本文地址:http://liboseo.com/1060.html 除非注明,逍遙博客文章均為原創,轉載請注明出處和鏈接!


  推薦閱讀

  網站更換域名的失敗案例解析

一個真實的網站更改域名的失敗案例分析。>>>詳細閱讀


本文標題:搜索引擎蜘蛛爬行規律探秘之一蜘蛛如何抓取鏈接

地址:http://m.sdlzkt.com/a/34/20111209/18144.html

頂一下

樂購科技部分新聞及文章轉載自互聯網,供讀者交流和學習,若有涉及作者版權等問題請及時與我們聯系,以便更正、刪除或按規定辦理。感謝所有提供資訊的網站,歡迎各類媒體與樂購科技進行文章共享合作。

網友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網友評論(點擊查看更多條評論)
友情提示: 登錄后發表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網友認識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 成人免费ā片在线观看| 欧美国产成人在线| 欧美成人家庭影院| 色噜噜成人综合网站| 欧美成人观看免费完全| 成人精品一区二区三区校园激情| 粗大黑人巨精大战欧美成人| 成人精品视频一区二区三区| 在线观看国产精成人品| 免费成人福利视频| 日韩国产欧美成人一区二区影院| 国内精品国产成人国产三级| 国产成人欧美视频在线| 色综合天天综合网国产成人网| 成人无码免费一区二区三区| 国产成人午夜高潮毛片| 欧美亚洲国产成人不卡| 亚洲成人网在线观看| 揄拍成人国产精品视频| 久久国产精品成人片免费| 成人窝窝午夜看片| 78成人精品电影在线播放日韩精品电影一区亚洲 | 欧美成人免费全部观看天天性色| 国产成人精品日本亚洲直接| 欧美成人一区二区三区在线观看| 国产成人亚洲午夜电影| 成人黄色免费网站| 69国产成人精品午夜福中文| 亚洲欧美日韩成人一区在线| 成人一级黄色大片| 欧美成人片在线观看| 亚洲国产成人久久一区二区三区| 国产成人无码精品一区不卡| 国产成人精品999在线观看| 在线观看成人免费视频| 天天躁日日躁成人字幕aⅴ| 国产精品欧美成人| 四虎精品成人免费视频| 国产v片成人影院在线观看| 亚洲成人激情小说| 亚洲国产成人久久一区www|