搜索引擎蜘蛛爬行規律探秘之一蜘蛛如何抓取鏈接

作者:樂購科技 來源: 2011-12-09 09:31:29 閱讀 我要評論 直達商品

  搜索引擎蜘蛛,對于我們來說非常神秘,本文的配圖使用蜘蛛俠的原因就在于此。當然我們也不是百度的也不是Google的,所以只能說探秘,而不是揭秘。本文內容比較簡單,只是給不知道的朋友一個分享的途徑,高手和牛人請繞行吧。

  傳統意義上,我們感覺搜索引擎蜘蛛(spider)爬行,應該類似于真正的蜘蛛在蜘蛛網上爬行。也就是比如百度蜘蛛找到一個鏈接,順著這個鏈接爬行到一個頁面,然后再順著這個頁面里面的鏈接繼續爬……這個類似于蜘蛛網,也類似于一棵大樹。這個理論雖然正確,但是不準確。

  搜索引擎內部是有一個網址索引庫的,所以搜索引擎蜘蛛是從搜索引擎的服務器出發,順著搜索引擎已有的網址爬行一個網頁,并將網頁內容抓取回來。頁面采集回來之后,搜索引擎會對其進行分析,將內容和鏈接分開,內容暫時先不說。分析出來鏈接之后,搜索引擎并不會馬上去派蜘蛛進行抓取,而是把鏈接和錨文本記錄下來交給網址索引庫進行分析、對比和計算,最后放入網址索引庫。進入了網址索引庫之后,才會有蜘蛛去抓取。

  也就是如果出現了某個網頁的外鏈,并不一定會立刻有蜘蛛去抓取這個頁面,而是會有一個分析計算的過程。即便是這個外鏈在蜘蛛抓取之后被刪除了,這個鏈接也有可能已經被搜索引擎記錄,以后還有抓取的可能。而且下次如果蜘蛛再去抓取這個外鏈所在頁面,發現鏈接不存在了,或者外鏈所在頁面出現了404,那么只是減少了這個外鏈的權重,應該不會去網址索引庫刪除這個鏈接。

  所以說已經不存在的頁面上的鏈接,也有作用。今天就分享這些,以后繼續跟大家分享我自己分析的內容,如果有不準確的地方,請大家批評指正。

  轉載請注明來自逍遙博客@LiboSEO,本文地址:http://liboseo.com/1060.html 除非注明,逍遙博客文章均為原創,轉載請注明出處和鏈接!


  推薦閱讀

  網站更換域名的失敗案例解析

一個真實的網站更改域名的失敗案例分析。>>>詳細閱讀


本文標題:搜索引擎蜘蛛爬行規律探秘之一蜘蛛如何抓取鏈接

地址:http://m.sdlzkt.com/a/34/20111209/18144.html

頂一下

樂購科技部分新聞及文章轉載自互聯網,供讀者交流和學習,若有涉及作者版權等問題請及時與我們聯系,以便更正、刪除或按規定辦理。感謝所有提供資訊的網站,歡迎各類媒體與樂購科技進行文章共享合作。

網友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網友評論(點擊查看更多條評論)
友情提示: 登錄后發表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網友認識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 色噜噜狠狠成人网| 成人欧美一区二区三区在线观看 | 欧美成人www在线观看网页| 亚洲成人福利在线| 久久精品成人国产午夜| 97成人碰碰久久人人超级碰OO| 78成人精品电影在线播放日韩精品电影一区亚洲| 亚洲精品成人网站在线观看| 1314成人网| 午夜成人免费视频| 成人网站在线进入爽爽爽| 国产成人精品永久免费视频| 亚洲国产aⅴ成人精品无吗| 2021最新国产成人精品视频| 成人a视频片在线观看免费| 亚洲AV成人片色在线观看高潮| 日本免费成人网| 久久精品成人欧美大片| 国产成人免费一区二区三区| 草莓视频成人appios| 国产成人精品免费视频大全五级| 香蕉视频成人在线观看| 亚洲国产成人片在线观看| 成人午夜小视频| 欧美成人精品第一区二区三区| 亚洲精品国产成人| 成人午夜一区二区三区视频| 1204国产成人精品视频| 久久亚洲最大成人网4438| 亚洲2022国产成人精品无码区| 国产成人久久久精品二区三区| 成人αv在线视频高清| 国产成人综合亚洲绿色| 成人免费男女视频网站慢动作| 久久成人国产精品一区二区| 亚洲国产成人久久综合区| 国产成人久久av免费| 国产成人精品一区二三区| 成人一区专区在线观看| 国产成人精品福利网站在线| 国产精品成人久久久久久久|