大家都知道大概是 “百度有啊”上線之前,淘寶網為了避免百度惡意抓取,直接屏蔽了百度蜘蛛,也就是當時鬧得沸沸揚揚的 robots.txt協議 。

就算是現在打開淘寶的robots.txt協議,依然可以看到淘寶還在屏蔽百度的蜘蛛。可是事實上真的如此么,看下圖

事實證明淘寶的robots.txt文件根本對百度蜘蛛起不到任何作用。小弟推測 百度之所以這么做是因為百度考慮到戰略方向的問題,因為查詢了一下 發現韓都衣舍、暖倍兒等知名店鋪在百度的排名都很不錯。足以證明百度對淘寶這種店鋪的重要性。更加戲曲化的是 天貓網(淘寶商城)也是使用robots.txt協議的。同樣屏蔽了百度蜘蛛

同樣百度采取的態度是 瘋狂抓取 如圖

還有一種可能就是淘寶網以及天貓網的權重太高了,導致了百度蜘蛛不遵循搜索引擎協議而進行的抓取.不過對于這種事情 可以聯想到前些日子 一淘網惡意抓取京東商城以及新蛋網等的商品數據,也是不遵循搜索引擎規則的。
直到現在京東商城等也在屏蔽一淘網的蜘蛛

小編想說的是 現在的搜索引擎為了自身利益而不遵循互聯網協議的規則,是值得反思的,呼吁這種互聯網大公司能在整個IT行業樹立標榜。不要為了一己之私而不遵循游戲規則。本文由(www.591jiafa.com)供稿。
推薦閱讀
有這么幾種情況會導致網站被百度封殺掉,即百度搜索不到或百度搜索不到首頁。一般這分為兩種情況,一種是封殺,一種是降權。封殺在百度上的表現是根本就一點也搜不到了。降權在百度上的表現是網站主要關鍵詞的排名大>>>詳細閱讀
本文標題:百度抓取淘寶那點事
地址:http://m.sdlzkt.com/a/34/20120206/28555.html