搜索引擎的數據分析系統

作者:Lgo100 來源:未知 2012-07-12 14:31:21 閱讀 我要評論 直達商品

  數據分析系統,是搜索引擎整個工作流程的第二個系統,也就是既搜索引擎蜘蛛抓取系統的后一個系統,搜索引擎的數據分析系統主要用來處理蜘蛛抓取回來的網頁,今天呢,小強會給你詳細的講解,搜索引擎的數據分析系統的工作流程及幾個重要的知識點。我們剛剛說了,數據分析系統主要是分析蜘蛛抓取回來的內容,那么怎樣分析呢?主要涵蓋以下幾點。

  網頁結構化

  什么是網頁結構化呢?我們要知道網頁,是由html組成,搜索引擎蜘蛛最后抓取回來的,也都是html的代碼頁面,簡單的說,網頁結構化,就是刪掉html代碼,然后留下其中的內容,如下圖,圖1是網頁結構化之前,圖2就是網頁結構化之后。

  

網頁結構化之前

 

  網頁結構化之前

  

網頁結構化之后

 

  網頁結構化之后

  網頁的內容消噪

  在網頁結構后之后,依然存在著一些搜索引擎不需要的內容,比如說導航欄的菜單文字,底部的版權信息等,這些呢,都是搜索引擎不需要的,搜索引擎只需要內容,那么在這個時候就會對網頁結構化之后的內容進行消噪處理,簡單的說,消噪就是把內容之外的文字全部刪掉,比如菜單上的文字,底部版權的文字等等。

  那么搜索引擎的數據分析系統怎么判斷哪些是菜單文字哪些是版權信息呢?

  其實很簡單,就是對比,比如一個內容頁,除了內容不一樣,其他的內容幾乎一樣,比如導航,每個頁面都有導航,而且文字也一樣,版權也是,當然也會根據html的源碼去分析。

  對頁面的查重

  對頁面的查重其實很好理解,就是搜索引擎蜘蛛在抓取你這個網站所有的頁面中,用你這個頁面去對比抓取的頁面,看看內容是否有重復,如果有,那么就刪掉。

  分詞

  分詞是什么東西呢?簡單的說,就是把一句話切割成N個詞語,分詞又分為中文分詞和英文分詞,搜索引擎有一本自己的數據庫字典,里邊有好多詞語,然后對照著字典進行分詞;其中還有一點,就是在分詞的時候,會把一些無用的字去掉,比如,的、啊等等。

  頁面對應URL的分析

  這個是網頁分析系統的最后一個步驟,主要是根據一些外在因素、內在因素對這個頁面對應URL的權重值的判斷,比如外鏈、內鏈等,這個影響到這個頁面關鍵詞的排名。

  本文地址:http://www.shizhanqiang.com/2012071065.html


  推薦閱讀

  招聘類欺詐網站泛濫 360網址云安全全面攔截

會打字能上網就行,兼/全職均可,日結200-300高薪,伴隨著暑假的到來,近期類似的各種虛假招聘信息開始泛濫。360安全中心提示,這些形同天上掉餡餅式的美差,大多是不法分子精心布置的陷阱,建議廣大同學警惕網絡招聘>>>詳細閱讀


本文標題:搜索引擎的數據分析系統

地址:http://m.sdlzkt.com/a/34/20120712/75213.html

頂一下

樂購科技部分新聞及文章轉載自互聯網,供讀者交流和學習,若有涉及作者版權等問題請及時與我們聯系,以便更正、刪除或按規定辦理。感謝所有提供資訊的網站,歡迎各類媒體與樂購科技進行文章共享合作。

網友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網友評論(點擊查看更多條評論)
友情提示: 登錄后發表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網友認識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 国产精品成人va在线观看| 国产成人精品免费久久久久| 欧美黄成人免费网站大全| 日韩国产成人无码AV毛片| 成人品视频观看在线| 伊人色院成人蜜桃视频| 欧美日韩国产成人高清视频| 成人免费一区二区三区| 亚洲免费成人网| 成人免费一区二区三区| 中文国产成人精品久久不卡| 在线观看国产成人av片| 777精品成人影院| 国产69久久精品成人看| 成人免费无码大片a毛片软件| 亚洲国产精品成人久久久| 成人欧美一区二区三区在线观看 | 国产激情一区二区三区成人91 | 成人看的一级毛片| 亚洲色成人WWW永久在线观看| 成人国产一区二区三区| 欧美成人免费一区在线播放| 亚洲成人动漫在线观看| 国产成人精品1024在线| 在线观看欧洲成人免费视频| 成人免费午间影院在线观看| 成人激情免费视频| 成人网在线免费观看| 欧美成人免费全部网站| 精品国产成人亚洲午夜福利| www亚洲欲色成人久久精品| 七次郎成人免费线路视频| 亚洲最大成人网色| WWW夜片内射视频日韩精品成人 | 成人久久精品一区二区三区| 成人精品视频一区二区三区尤物| 欧美成人免费午夜全| 最新69国产成人精品视频69| 成人国产精品视频频| 成人99国产精品| 免费成人在线电影|