百度蜘蛛,英文名是“baiduspider”,是百度搜索引擎的一個(gè)自動(dòng)程序。它的作用是訪(fǎng)問(wèn)互聯(lián)網(wǎng)上的html網(wǎng)頁(yè),建立索引數(shù)據(jù)庫(kù),使用戶(hù)能在百度搜索引擎中搜索到網(wǎng)站的網(wǎng)頁(yè)。
搜索引擎內(nèi)部是有一個(gè)網(wǎng)址索引庫(kù)的,所以搜索引擎蜘蛛是從搜索引擎的服務(wù)器出發(fā),順著搜索引擎已有的網(wǎng)址爬行一個(gè)網(wǎng)頁(yè),并將網(wǎng)頁(yè)內(nèi)容抓取回來(lái)。頁(yè)面采集回來(lái)之后,搜索引擎會(huì)對(duì)其進(jìn)行分析,將內(nèi)容和鏈接分開(kāi),內(nèi)容暫時(shí)先不說(shuō)。分析出來(lái)鏈接之后,搜索引擎并不會(huì)馬上去派蜘蛛進(jìn)行抓取,而是把鏈接和錨文本記錄下來(lái)交給網(wǎng)址索引庫(kù)進(jìn)行分析、對(duì)比和計(jì)算,最后放入網(wǎng)址索引庫(kù)。進(jìn)入了網(wǎng)址索引庫(kù)之后,才會(huì)有蜘蛛去抓取。
也就是如果出現(xiàn)了某個(gè)網(wǎng)頁(yè)的外鏈,并不一定會(huì)立刻有蜘蛛去抓取這個(gè)頁(yè)面,而是會(huì)有一個(gè)分析計(jì)算的過(guò)程。即便是這個(gè)外鏈在蜘蛛抓取之后被刪除了,這個(gè)鏈接也有可能已經(jīng)被搜索引擎記錄,以后還有抓取的可能。而且下次如果蜘蛛再去抓取這個(gè)外鏈所在頁(yè)面,發(fā)現(xiàn)鏈接不存在了,或者外鏈所在頁(yè)面出現(xiàn)了404,那么只是減少了這個(gè)外鏈的權(quán)重,應(yīng)該不會(huì)去網(wǎng)址索引庫(kù)刪除這個(gè)鏈接。
一:認(rèn)識(shí)百度蜘蛛
1、在一般情況下,Baiduspider對(duì)網(wǎng)站的服務(wù)器不會(huì)造成過(guò)大壓力。Baiduspider會(huì)自動(dòng)根據(jù)服務(wù)器的負(fù)載能力調(diào)節(jié)訪(fǎng)問(wèn)密度。在連續(xù)訪(fǎng)問(wèn)一段時(shí)間后,Baiduspider會(huì)暫停一會(huì),以防止增大服務(wù)器的訪(fǎng)問(wèn)壓力。所以在一般情況下,Baiduspider對(duì)你網(wǎng)站的服務(wù)器不會(huì)造成過(guò)大壓力。
2、不想網(wǎng)站被Baiduspider訪(fǎng)問(wèn),你可以利用robots.txt文件完全禁止Baiduspider訪(fǎng)問(wèn)您的網(wǎng)站,或者禁止Baiduspider訪(fǎng)問(wèn)您網(wǎng)站上的部分文件。 注意:禁止Baiduspider訪(fǎng)問(wèn)您的網(wǎng)站,將使您的網(wǎng)站上的網(wǎng)頁(yè),在百度搜索引擎以及所有百度提供搜索引擎服務(wù)的搜索引擎中無(wú)法被搜索到。
3、如果你希望網(wǎng)站內(nèi)容被百度索引但不被保存快照,你可以利用網(wǎng)頁(yè)meta的設(shè)置,使百度顯示只對(duì)該網(wǎng)頁(yè)建索引,但并不在搜索結(jié)果中顯示該網(wǎng)頁(yè)的快照。
4、防止有人冒充百度蜘蛛。如果你網(wǎng)站的帶寬堵塞,造成此現(xiàn)象可能是由于有人冒充baidu的spider惡意抓取。如果您發(fā)現(xiàn)有名為Baiduspider的agent抓取并且造成帶寬堵塞,您可以將信息反饋至百度網(wǎng)頁(yè)投訴中心。
二:怎么吸引百度蜘蛛
1、導(dǎo)航必須用文字
相信很多的朋友經(jīng)?梢栽诤芏嗟钠髽I(yè)網(wǎng)站上看到圖片導(dǎo)航,而且一般沒(méi)有進(jìn)行相關(guān)的標(biāo)注。做seo的人都知道蜘蛛對(duì)于沒(méi)加ALT標(biāo)簽的圖片和FLASH是不能識(shí)別的。而網(wǎng)站的導(dǎo)航又是位于首頁(yè)的頭部,對(duì)于優(yōu)化來(lái)說(shuō)是十分重要的地方,如婁底人才網(wǎng)(www.ldjob.com)的導(dǎo)航就是全文字,這點(diǎn)很重要?芍^是寸土寸金,可惜就這么白白的浪費(fèi)了。并且在網(wǎng)速不是很好的時(shí)候,加載還很緩慢,等半天圖片都木有刷出來(lái),對(duì)于用戶(hù)體驗(yàn)也很不友好。因此廣大朋友在進(jìn)行網(wǎng)站優(yōu)化的時(shí)候頭部的導(dǎo)航一定要使用文字導(dǎo)航。
2、代碼必須要精簡(jiǎn)
大家都知道蜘蛛爬取的是網(wǎng)頁(yè)的源代碼和我們?nèi)搜劬λ吹降氖遣灰辉诰(xiàn)時(shí)間0小時(shí)
樣的。如果你的網(wǎng)站到處充滿(mǎn)著js、iframe等蜘蛛不能夠識(shí)別的代碼的話(huà),這個(gè)就好像這家餐館的食物都不是你喜歡吃的、都是不符合你的口味的,那么在您去了幾次之后,你還會(huì)再去嗎?答案是否定的。因此我們需要精簡(jiǎn)網(wǎng)頁(yè)的代碼,盡量降低網(wǎng)頁(yè)的信噪比,所以最好使用css+div依照w3c規(guī)格進(jìn)行設(shè)計(jì),讓蜘蛛走進(jìn)你家門(mén)。
3、內(nèi)鏈必須四通八達(dá)
相信大家都見(jiàn)到過(guò)蜘蛛吧,那自然也見(jiàn)到過(guò)蜘蛛結(jié)的蜘蛛網(wǎng)咯。我們可以看到蜘蛛網(wǎng)的結(jié)構(gòu)是十分美好的,四通八達(dá)。同樣我們網(wǎng)站最好也打造成網(wǎng)站內(nèi)部鏈接的四通八達(dá),這樣不僅可以提升網(wǎng)站的收錄量,也可以提高網(wǎng)站的用戶(hù)體驗(yàn),還可以促進(jìn)網(wǎng)站的權(quán)重更好的傳遞,可謂是益處多多。
4、網(wǎng)站更新必須勤快
這一點(diǎn)也是很多朋友最難做到的一點(diǎn),持之以恒。很多的朋友往往是三天打魚(yú)兩天曬網(wǎng),不管是網(wǎng)站還是博客,往往堅(jiān)持更新一段時(shí)間之后,網(wǎng)站博客的更新頻率就越來(lái)越低,越來(lái)越低,直至后面的停止文章的更新。自然而然,蜘蛛來(lái)了一次發(fā)現(xiàn)沒(méi)有更新,第二次來(lái)了還是沒(méi)更新,第三次來(lái)又沒(méi)更新,第四次。。這樣的幾次之后蜘蛛也就不再去你的網(wǎng)站了,或是少去你的網(wǎng)站了。
認(rèn)清百度蜘蛛,網(wǎng)站優(yōu)化就會(huì)事倍功半
本文原創(chuàng)于婁底人才網(wǎng) www.ldjob.com 轉(zhuǎn)載請(qǐng)注明
推薦閱讀
新手站長(zhǎng)必看 網(wǎng)站降權(quán)等級(jí)分析
對(duì)于站長(zhǎng)們來(lái)說(shuō),網(wǎng)站猶如另一個(gè)自己,相信作為很多站長(zhǎng)都會(huì)做同樣的事情,那就是每天早上來(lái)了先看關(guān)鍵詞排名、快照、收錄、外鏈等,為什么說(shuō)網(wǎng)站猶如另一個(gè)自己呢?當(dāng)我們看到查詢(xún)的結(jié)果在我們的預(yù)料之內(nèi)的話(huà),我們>>>詳細(xì)閱讀
本文標(biāo)題:新手站長(zhǎng)要認(rèn)清百度蜘蛛
地址:http://m.sdlzkt.com/a/34/20120223/33864.html