谷歌搜索演進(騰訊科技配圖)
騰訊科技訊(雷建平)3月12日消息,作為全球使用最廣泛的搜索引擎,谷歌算法一直有一層神秘面紗。近日谷歌工程總監斯科特·霍夫曼向騰訊科技講述谷歌算法幕后故事,稱2011年有520多項改進,自2003年到現在,Google搜索已解決4500億個搜索請求。
據了解,斯科特•霍夫曼加入谷歌已逾5年,負責領導搜索質量評估和移動搜索團隊,還撰寫數十篇學術論文,內容涵蓋信息檢索、機器學習和信息提取領域,專注搜索領域已超過15年,對谷歌算法有很高發言權。
斯科特說,十年前搜索可能只是針對于關鍵詞進行意思和上下文匹配,現在谷歌更了解用戶想干什么,而不是表面字詞匹配。搜索引擎呈現結果給用戶看起來比較簡單,但實際背后有一系列復雜流程,并在1秒鐘內完成。“谷歌通常只需0.25秒便可對搜索請求做出回應,而人平均每眨一次眼睛需0.1秒。”
谷歌算法原理(騰訊科技配圖)
談及谷歌算法原理,斯科特說最基本的概念是索引,即谷歌搜索機器人掃描或搜索幾十億網頁后建立索引,再把索引庫分成幾部分,放在幾千臺計算機上,再復制到全球各地數據中心去,這樣谷歌就可以在全球各地完成搜索任務。
谷歌算法的流程是用戶提交搜索請求,根據用戶具體地理位置,谷歌將搜索請求發送到全球各地數據中心,數據中心再把需求散發到幾千個計算機上去,根據目錄和用戶提交請求的關鍵詞匹配,找到正確郵件或網頁。谷歌從中挑選相關性最高且最新的一些數據,或搜索結果,再把這些搜索結果根據不同屬性和指標排名,確定最合理搜索引擎結果相匹配。平均來說,谷歌每一個搜索請求,往返于電腦和數據中心單程距離是750英里。
谷歌每年會對一些新構思進行必要性評估,如果評估后認為合理就會做一些小規模試驗,主要是請一些獨立評估員,針對幾百個搜索請求做兩組結果來進行對比,一種是使用普通搜索方法做基本組,另一個是對比組,采用新構思。比較這兩組搜索結果哪個相關性和搜索質量更高。之后在通過在線實時實驗隨機挑選用戶參與新構思的體驗。
“如果你是一個谷歌用戶,而且經常使用谷歌搜索,可能在不知不覺間,已參與在線實施的試驗,你所得到的搜索結果,也許就是用新構思方法得到的搜索結果。谷歌在任一時刻都在進行200多項在線實時試驗。”
谷歌算法搜索體驗提升的三部曲(騰訊科技配圖)
通過這些實驗,谷歌可以不斷提升用戶搜索體驗,諸如在搜索結果中剔除垃圾信息;根據用戶需求改變搜索界面呈現的結果數量;相同詞在不同地域搜索,呈現的結果不同。斯科特透露,谷歌在2011年進行了41931次必要性評估、9250次小規模試驗、7363項在線實時實驗,最終完成了520多項改進。
谷歌搜索排名(騰訊科技配圖)
斯科特指出,谷歌對不同搜索請求的衡量指標不同,比如查某一個疾病問題,用戶最重視的是網頁權威性有多高,而不是呈現某一個博客談到這種疾病。在這樣搜索情況下,網頁權威性權重最高。此外,搜索的相關性還與區域位置和時間相關,比如用戶人在北京,搜索上海餐館的價值就不大。再如搜索一個重大事件,會發現這個重大事件發生的后一天得到的搜索結果和前一天搜索結果完全不同。
據斯科特介紹,谷歌搜索算法進行了一系列重大改進,包括新鮮度算法調整、優質網站算法調整、頁面布局算法調整等部分,其中,新鮮度算法調整是指在某些情況下,Google需要為用戶提供最新搜索結果,比如即時新聞、定期發生的重大事件以及內容頻繁更新的話題等。如果搜索“奧運會”,用戶會得到與即將舉辦的倫敦奧運會相關的最新搜索結果,而非關于1984年奧運會的陳舊信息。
優質網站算法調整對包含原始信息、研究調查、深度報道、精準分析等內容的高質量網站十分有利,提高了它們在搜索結果中的排名。頁面布局算法調整這一改進關注用戶在點擊搜索結果后所看到的網頁布局,提升網頁信息的豐富程度 ,提高信息容易被搜索到的網頁的排名。
斯科特稱,隨著Facebook、Twitter這些社交化網站發展,個人化的搜索結果會越來越重要。谷歌近年來推出Google+等產品,在搜索中也融入了社交化的因素。從谷歌來說,會不斷把社交媒體信息整合進來。
推薦閱讀
騰訊科技訊 (過客/編譯)當美國宇航局的最新漫游者今年夏天在紅色星球上著陸的時候,或許在加利福尼亞州噴氣推進實驗室是早晨或者初午的某個時間。這就像當東海岸是下午三點左右時,歐洲是夜晚等等,我們很簡單就能>>>詳細閱讀
本文標題:谷歌算法揭秘:整合Google+ 去年有520項改進
地址:http://m.sdlzkt.com/a/kandian/20120312/39365.html