TF-IDF算法在SEO中的衍生應(yīng)用

作者:Lgo100 來源:未知 2012-05-20 17:48:16 閱讀 我要評論 直達(dá)商品

  TF-IDF算法是一種統(tǒng)計(jì)算法,用于對檢索的加權(quán)。簡單的講其作用是評估一字詞對于一個(gè)文件的重要程度。

  在SEO的衍生應(yīng)用中,我們可以這么去理解上面這段話:在一個(gè)公司里,有10個(gè)SEOer,每個(gè)人都寫了一篇關(guān)于SEO的文章,并且把這些文章都放在了一個(gè)文檔集里。我們可以預(yù)料到的是,基本每篇文章中都會(huì)重復(fù)多次出現(xiàn)SEO這個(gè)詞,意味著這十篇文章都與SEO有關(guān)。現(xiàn)在我要查找一篇關(guān)于網(wǎng)站權(quán)重的SEO文章。那么我會(huì)在搜索引擎中輸入“SEO 網(wǎng)站權(quán)重”。

  最終我找到兩篇同時(shí)出現(xiàn)了這兩個(gè)詞的文章,第一篇里面出現(xiàn)了2次“網(wǎng)站權(quán)重”和10次“SEO,另一篇出現(xiàn)了10次“網(wǎng)站權(quán)重”和2次“SEO”。現(xiàn)在的問題是:拋開作者的素質(zhì)(網(wǎng)站整體權(quán)重)、文章質(zhì)量(頁面權(quán)重)、公司內(nèi)專家的推薦(高質(zhì)量外鏈)以及其他種種因素的影響后,誰的文章應(yīng)該排在搜索結(jié)果的前面?

  帶著這個(gè)問題,我們來學(xué)習(xí)TF-IDF算法以及TF-IDF算法在SEO中衍生的應(yīng)用。

  

TF-IDF算法在SEO中的衍生應(yīng)用

 

  TF-IDF的核心概念

  如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。

  同時(shí),如果一篇文章中出現(xiàn)了我們要查詢的詞,我們就會(huì)認(rèn)為該文章與我們要查的詞有比較大的相關(guān)性。延續(xù)這種思路,就是如果一篇文檔中出現(xiàn)要查詢的詞的次數(shù)越多,該文章與要查詢的詞之前的相關(guān)性應(yīng)該越大。

  我們在以往的SEO工作中,運(yùn)用到的關(guān)鍵詞密度技術(shù),基于的就這個(gè)TF原理。

  那么我們在TF-IDF算法中,先定義一個(gè)TF(t,d)表示詞語t在文章d中的出現(xiàn)次數(shù)。

  我們可以通過關(guān)鍵詞密度查詢工具來查詢TF值:

  http://tool.chinaz.com/Tools/Density.aspx

  但僅僅考慮詞出現(xiàn)的次數(shù)是不行的,因?yàn)槌3N覀儾樵兊亩际莾蓚(gè)以上的詞,比如“AA BB”或者“XX YY ZZ”等形式。如果是這種形式的查詢,哪個(gè)詞出現(xiàn)的次數(shù)應(yīng)該做為重要性的依據(jù)呢?這就引出了IDF來測量詞的稀缺度,這里我們定義IDF為IDF(t) = log(N / DF(t))。其中:

  DF(t):該詞(以t為代表)在多少篇文章中出現(xiàn)過。查詢辦法是通過google搜索某一個(gè)詞t,得到的搜索結(jié)果我們可以理解DF(t)。

  N: 總文章數(shù)。這個(gè)數(shù)值在我們SEO工作中沒有什么實(shí)際的用處,因?yàn)槲覀儾豢赡苤浪阉饕嫠饕硕嗌傥恼隆5菍τ谒阉饕鎭碚f,N卻是一個(gè)判定詞權(quán)重的數(shù)據(jù)。

  log:這個(gè)也不是我們SEO工作中需要考慮的數(shù)值,一般而言,log的底數(shù)可以隨便設(shè)定。一般而言,我們采用+1的方式來抑制上述“網(wǎng)站權(quán)重 SEO”例子中第二篇出現(xiàn)10次“網(wǎng)站權(quán)重”的文章比第一篇出現(xiàn)2次“網(wǎng)站權(quán)重”的文章重要5倍的夸張情況出現(xiàn)。

  TF-IDF的SEO應(yīng)用實(shí)戰(zhàn)

  看到這里,是不是覺得很煩躁?我們來進(jìn)入一段廣告……呃,不,進(jìn)入一段實(shí)例:

  TF-IDF值 = TF×IDF(TF乘以IDF) = 1+log tf(t,d) × log(N / DF(t))

  以《網(wǎng)站權(quán)重 SEO》和《SEO學(xué)習(xí):什么是網(wǎng)站權(quán)重》這篇文章為例:

  “網(wǎng)站權(quán)重”TF值為:w=1+log 31(次出現(xiàn))=2.49

  “網(wǎng)站權(quán)重”IDF值為:23,200,000篇/1萬億(假設(shè)值,08年數(shù)據(jù))=4.63

  “網(wǎng)站權(quán)重”TF-IDF值為:2.49*4.63=11.53

  “SEO”TF值為:w=1+log 34(次出現(xiàn))=2.53

  “SEO”IDF值為:1,220,000,000篇/1萬億(假設(shè)值,08年數(shù)據(jù))=2.91

  “SEO”TF-IDF值為:2.53*2.91=7.36

  我們得到了“網(wǎng)站權(quán)重”TF-IDF值11.53和“SEO”TF-IDF值7.36。這有什么用呢?

  TF-IDF值越大,文章與索引詞越相關(guān);

  只有當(dāng)“網(wǎng)站權(quán)重”這個(gè)詞權(quán)重高的頁面,才有可能在“網(wǎng)站權(quán)重 SEO”這個(gè)搜索結(jié)果的排名上有比較好的效果;

  錨文本鏈接需要加強(qiáng)“網(wǎng)站權(quán)重”這個(gè)詞;

  如果我們針對這個(gè)頁面做“SEO”的錨文本,則不會(huì)有太好的表現(xiàn);

  在沒有其他因素加權(quán)或降權(quán)的情況下,小于該頁面的總計(jì)詞權(quán)值18.89(11.53+7.36)的頁面將排名較低,大于18.89的頁面將排名比次文章高

  TF-IDF在SEO應(yīng)用的總結(jié)

  以上只是一個(gè)TF-IDF在SEO衍生應(yīng)用中的一個(gè)例子。無論是TF-IDF的計(jì)算方式,或者是該案例的假設(shè)條件,都是不嚴(yán)謹(jǐn)和準(zhǔn)確的。但這不妨礙我們明白“關(guān)鍵詞密度”這一SEO技術(shù)的原理。同時(shí),也在關(guān)鍵詞排名方面,跟競爭對手有了一個(gè)可以量化的參考。

  無論百度還是谷歌又或者其他搜索引擎,TF-IDF只是其搜索排名算法中很小的一部分。同時(shí)為了打擊關(guān)鍵詞堆砌,各大搜索引擎又都會(huì)對TF值做一定的限制。SEOMoz給的一個(gè)安全的詞頻數(shù)為每篇頁面不重復(fù)15詞關(guān)鍵詞。而不是簡單的用2%-8%的關(guān)鍵詞密度。當(dāng)然這個(gè)建議是基于國外的搜索引擎。

  我們在學(xué)習(xí)SEO時(shí),的確需要了解一些技術(shù)和理論的知識,這些知識有助于我們更好的開展工作。但同時(shí),我們也無需糾結(jié)于一些純理論和技術(shù)方面的問題,畢竟,在SEO這個(gè)行業(yè)中,實(shí)戰(zhàn)和經(jīng)驗(yàn)同樣無比重要。

  本文由楊帆原創(chuàng)于楊氏SEO,轉(zhuǎn)載請保留鏈接:

  http://www.seoyangs.com/tf-idf-seo.html


  推薦閱讀

  從網(wǎng)站“優(yōu)化”角度分析產(chǎn)品頁面設(shè)計(jì)需要注意哪些要點(diǎn)

其實(shí)說實(shí)話做網(wǎng)站不在乎規(guī)模的大小,并不是說草根站長就不能創(chuàng)造奇跡,想想自己做目前這個(gè)網(wǎng)站一年多了,很多關(guān)鍵詞也做到了相關(guān)理想的位置,盈利自然水到渠成,有的朋友就會(huì)問我為什么他們的網(wǎng)站堅(jiān)持不下去呢?有時(shí)候>>>詳細(xì)閱讀


本文標(biāo)題:TF-IDF算法在SEO中的衍生應(yīng)用

地址:http://m.sdlzkt.com/a/34/20120520/61700.html

頂一下

樂購科技部分新聞及文章轉(zhuǎn)載自互聯(lián)網(wǎng),供讀者交流和學(xué)習(xí),若有涉及作者版權(quán)等問題請及時(shí)與我們聯(lián)系,以便更正、刪除或按規(guī)定辦理。感謝所有提供資訊的網(wǎng)站,歡迎各類媒體與樂購科技進(jìn)行文章共享合作。

網(wǎng)友點(diǎn)評
我的評論: 人參與評論
驗(yàn)證碼: 匿名回答
網(wǎng)友評論(點(diǎn)擊查看更多條評論)
友情提示: 登錄后發(fā)表評論,可以直接從評論中的用戶名進(jìn)入您的個(gè)人空間,讓更多網(wǎng)友認(rèn)識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 成人免费黄色网址| 国产成人免费a在线资源| 天堂成人一区二区三区| 国产精品成人亚洲| 亚洲AV成人无码网站| 小明天天看成人免费看 | 国产成人亚洲精品无码青青草原| 亚洲欧美综合乱码精品成人网| 欧美14videosex性欧美成人| 国产成人精品视频一区二区不卡| 国产精品成人免费福利| 78成人精品电影在线播放日韩精品电影一区亚洲 | 国产成人精品综合在线观看| 狠狠色伊人亚洲综合成人| 国产成人精品999在线观看| 日韩成人在线免费视频| 亚洲AV成人片色在线观看高潮| 国产成人精品午夜二三区波多野| 欧美成人亚洲高清在线观看| 亚洲AV午夜成人片| 亚洲av成人无码久久精品老人| 国产成人啪精品| 国产午夜成人AV在线播放| 国产成人免费片在线观看| 成人午夜福利视频镇东影视| 成人黄软件网18免费下载成人黄18免费视频 | 国产成人精品AA毛片| 影音先锋成人资源| 国产成人综合久久精品亚洲| 成人欧美一区二区三区的电影| 色噜噜狠狠色综合成人网| 91欧美激情一区二区三区成人| 一级成人毛片免费观看| 中文国产成人精品久久一区| 2021最新国产成人精品视频| 欧美日韩国产成人在线观看| 日本在线观看成人小视频| 成人免费av一区二区三区| 成人性生交大片免费看好| 日韩成人在线网站| 国产成人精品高清在线观看99|