對于每一個優(yōu)化人員來說都需要具備必然的剖析能力,剖析用戶的搜索行為、剖析站點的數(shù)據(jù)流量等等。只有合理的剖析好這一些數(shù)據(jù)才可以更好的擬定我們的優(yōu)化策略。其中在我們的站內(nèi)剖析中不成缺傲幽一項就是剖析搜索引擎蜘蛛的抓取爬行行為。搜索引擎蜘蛛是我們?nèi)庋鬯荒芸吹降模覀円艉纹饰鏊呐佬行袨槟?我們可以經(jīng)由過水平析我們站點的IIS日志。
一:那么年夜剖析IIS日志我們可以年夜我們的站點上獲得什么信息
1:在外鏈的培植中我們知道網(wǎng)站上的每一個外鏈都是搜索引擎蜘蛛進入我們網(wǎng)站的進口,對此我們可以不雅察看日志上的蜘蛛的拜訪情形,就可以年夜另一角度查看我們的外鏈?zhǔn)欠衲軌蚋玫奈街┲耄源藬M定一個加倍合理的外鏈培植策略。
2:站點的空間問題是良多站長棘手的問題之一,站點打不開很可能使我們的站點一夜回到解放前。那么對于我們的站點來說若何最快最早的體味發(fā)現(xiàn)問題呢。對此同樣可以經(jīng)由過水平析該日志上的搜索蜘蛛爬行情形,因為站點空間除了侍趵硎題的第一紡暌鉤就是搜索引擎蜘蛛。
3:經(jīng)由過程該日志我們也可以剖析蜘蛛對于頁面內(nèi)容的爬行情形。體味搜索引擎加倍喜歡我們站點上的什么內(nèi)容。我們可以按照這些數(shù)據(jù)在內(nèi)容上的結(jié)構(gòu)或者微調(diào),是搜索引擎加倍的愛上我們的內(nèi)容。
二:若何獲得我們站點的IIS日志及IIS日志的設(shè)置
首先,我們的站點空間需沖要持站點的日志下載。對于這點我們在采辦站點空間的時辰可以先與空間商進行咨詢,是否撐持該功能,如不美觀撐持的話,一般日志文件置于weblog文件中,我們可以直接FTP到當(dāng)?shù)亍τ贗IS日志的記實設(shè)置,筆者認(rèn)為一般如不美觀站點的內(nèi)容較多,結(jié)構(gòu)較復(fù)雜的可以設(shè)置成一小時生成一次,而內(nèi)容較少的話可以設(shè)置成一天更新一次,這樣可以避免我們的IIS日志呈現(xiàn)信文件過年夜的問題。
三:若何剖析我們站點的IIS日志
1:對IIS日志文件的拆分剖析
我們使用FTP把日志下載當(dāng)?shù)睾螅梢越?jīng)由過程記事本打開文件,同時搜索首要的搜索引擎蜘蛛名稱,其中的百度的蜘蛛名為BaiduSpider、谷歌的蜘蛛名為Googlebot 。如下圖所示

百度蜘蛛

谷歌蜘蛛
我們可以分段進行剖析
2012-04-13 06:47:10 是指蜘蛛爬行該頁面的具體日期和時刻
116.205.156.37 這個地址是指我們站點地址的IP地址
GET 代表事務(wù),跟在這個參數(shù)后面的是指蜘蛛所爬行的頁面,而“/”代表的是站點的主頁。
220.125.51.130 這一IP是指搜索引擎蜘蛛的處事器的IP地址。當(dāng)然這個IP地址并不必然就是真正的搜索引擎蜘蛛處事器的地址,因為有可能是有的酬報了采集你的站點上的內(nèi)容,而假充搜索引擎蜘蛛來爬行你的站點,抓取你的內(nèi)容。這種情形雖然沒有什么年夜的影響,可是如不美觀頻率高的話將會耗損站點的資本。那么我們?nèi)艉畏洲q呢?筆者分先給自己的一小體例。我們可以打開我們電腦的節(jié)制呼吁窗口。然后打入nslookup+IP地址的呼吁。如不美觀是真的蜘蛛會有自己的蜘蛛處事器。我們就可以對假蜘蛛的IP進行屏障措置。如下圖所示

真蜘蛛

假蜘蛛
2:上文我們提到GET參數(shù)后跟的是搜索引擎蜘蛛爬行的頁面,我們可以按照這一信息剖析搜索引蜘蛛對我們站點上什么內(nèi)容更青睞,然后對我們的站點內(nèi)容做響應(yīng)的微調(diào)。
3:我們經(jīng)由過程日志可以發(fā)現(xiàn)蜘蛛對于我們站點頁面的爬行抓取是按照頁面的權(quán)重的遞減分品級的,一般挨次為主頁、目錄頁和內(nèi)容頁。
剖析是我們優(yōu)化工作一一項必不成少的工作,而我們身邊可操作的數(shù)據(jù)也良多。合理的操作好這一些數(shù)據(jù)相信會為我們的優(yōu)化助力不少的。本文由淘寶皇冠店http://www.jgdq.org 獨家供稿,轉(zhuǎn)載請留鏈接,感謝!