手寫識別技術(shù)
騰訊研究院的手寫識別技術(shù)實際上已經(jīng)在去年很多產(chǎn)品上都得到了應(yīng)用,主要是QQ輸入法上的手寫功能,包括PC端的QQ輸入法還有幾個主要的手機平臺的QQ手機輸入法,Android和iPhone手機的QQ輸入法。現(xiàn)在識別率可以做到工整字符99%,連筆字符95%以上。為了提高輸入效率,云手寫和QQ輸入法詞庫后臺聯(lián)通,識別出來的字可以聯(lián)想,提高速度。我們還有工作馬上要做,把中文和英文連續(xù)手寫識別作為云服務(wù)提供出來。實際上中文和英文識別引擎開發(fā)完畢,將來找一個合適產(chǎn)品形態(tài)把它提供出來。
在語音識別方面從它的訓(xùn)練過程來看,首先要從訓(xùn)練語音中訓(xùn)練出學(xué)模型。解碼時候需要聲學(xué)模型、語言模型以及用戶詞典共同作用把測試語音解碼出來。這個語音模型存儲量很大,我們采取都是三元的文法,存儲量可以達到上G的規(guī)模。這樣的規(guī)模不可能是在終端來做,必須要在云端做。語音識別有一個特點,對CPU消耗很厲害。云語音服務(wù)器一臺服務(wù)器可以處理幾個并發(fā),所以說對CPU占用很大。
騰訊研究院的QQ云語音
我們這個騰訊研究院的QQ云語音,支持中英文混輸。識別率自己做了測試,聊天常用語的單字識別率可達80%,我們針對QQ聊天應(yīng)用,訓(xùn)練的時候很多采用聊天的語調(diào),畢竟跟真實的口語語調(diào)有差別。上線之后,我們可以通過云服務(wù)可以獲取真實語調(diào),訓(xùn)練我們語音模型,可以使性能得到優(yōu)化。越來越多用戶使用我們服務(wù),包括說話說的快、說的慢的人,有口音的用戶來用,可以對我們的聲音模型有一定優(yōu)化,可以有持續(xù)性的改善。QQ云語音支持桌面端和移動端的語音輸入,在手機的QQ輸入法上也會支持語音輸入功能。
語音識別還有其他的應(yīng)用,語音輸入、語音搜索、語音導(dǎo)航、語音命令控制等等。對模型進行控制或者對語音識別結(jié)果針對性后處理,可以讓識別率變得更加準(zhǔn)確,使得語音識別服務(wù)變得更加得心應(yīng)手。
人臉識別
剛才介紹了云手寫和云語音,現(xiàn)在介紹人臉識別情況,人臉識別有一個技術(shù)難點,光照、姿態(tài)、表情變化對人臉識別影響很大。我們說人臉識別是一個困難的模式識別問題。不同人之間的人臉結(jié)構(gòu)差異并不明顯,在這種情況下識別變得比較困難。另外實際應(yīng)用中往往用戶只能提供一張人臉作為識別模板,這樣為了提高人臉識別的準(zhǔn)確率,我們需要有一個很充分規(guī)模這么一個離線人臉數(shù)據(jù)庫,以便學(xué)習(xí)人臉模式的類內(nèi)變化,這個離線很難建立,成本比較高。通過人臉識別云服務(wù)恰恰就能收集到一個人在很多條件下的樣本,這樣可以使得識別算法性能隨著運營不斷改進。
1.人臉識別的原理框圖,基本上有三個步驟
1)離線訓(xùn)練階段,用離線人臉數(shù)據(jù)庫得到特征變換矩陣,我們可以在線登錄用戶人臉圖象,用戶給一張樣本作為它的模板,可就要會生成用戶人臉模板庫存儲起來。
2)實施階段我們有待測人臉圖象,我們在模板庫中進行匹配,看看哪個相似度最大。
3)如果人臉驗證應(yīng)用,用戶宣稱他是某一個已經(jīng)登錄過的人,一對一進行比對,超過一定分數(shù)就可以認為他通過人臉認證,達不到認為他不是這個人。
2.人臉識別在互聯(lián)網(wǎng)上的應(yīng)用 大致分為三種基本類型
1)人臉識別相似度評價,比較兩張臉是像不像,有多像,打個分數(shù)。這個多見一些趣味性應(yīng)用。比如用戶上傳一張照片,看看他跟哪個明星長的比較像,或者是夫妻兩個照片都有了,看一下夫妻像指數(shù)有多高。這是大家熟悉Facebook應(yīng)用,自動魏上傳圖片中人臉加朋友標(biāo)簽,這是在他的朋友圈子里進行人臉識別。只要他之前標(biāo)定過他的朋友,當(dāng)這個朋友再次上傳這個圖片中有他朋友的時候,通過人臉識別就能自動把這個朋友標(biāo)定出來。
2)一種應(yīng)用像谷歌Picasa相冊這種應(yīng)用。主要是將大量圖片按照人臉批量自動整理,按照人臉之間相似度,一開始是對批量人臉進行聚類,經(jīng)過用戶確認可以把這些聚類中心合并起來,把錯誤人臉去掉,很快圖象可以按照人頭來整理起來,可以自動進行索引。
3)我們現(xiàn)在看一下我們現(xiàn)在兩個Demo,一個是人臉認證Demo,一個是人臉識別的Demo。這個人臉認證Demo,用戶要選中他自己,連續(xù)三幀檢測都是自己,他就接受了。如果選張別人,肯定是通不過的。識別Demo大家可以看一線,人臉庫里面存了三千多用戶圖片,其中只有一張正面人臉作為圖象。我們拿一些測試人臉測試,測試圖片質(zhì)量不錯的情況下測試還是不錯的。
除了剛才介紹手寫、語音識別還有人臉識別的云服務(wù)之外,我們騰訊研究院會進一步擴展模式識別的應(yīng)用范圍。一般的圖象識別,谷歌的Goggles應(yīng)用,拿手機攝象頭拍攝一個書的平面,拍攝一個商標(biāo),一個景色,可以在云端找到匹配這個圖片,這也是我們將來想發(fā)展的方向。
今天我想介紹的內(nèi)容主要就是這些,介紹性的內(nèi)容多了一些,沒有太深入技術(shù)問題,歡迎大家提問,如果回頭大家有什么技術(shù)方面問題可以發(fā)郵件給我。
謝謝大家!
提問:將來有沒有打算把那個服務(wù)作成一開放平臺,其他的人也可以來調(diào)用你這個。
劉海龍:這個問題提的不錯,工作只能一步一步來做,目前的設(shè)想首先服務(wù)于騰訊公司內(nèi)部一些產(chǎn)品。因為我們現(xiàn)在是剛剛起步,內(nèi)部產(chǎn)品還有很多業(yè)務(wù)有很多,先把這塊做好,然后再考慮更向外開放或者是更大的一些事情,還是一步一步來。
提問:如何保證數(shù)據(jù)的安全性?
劉海龍:目前為止我們還沒有看到非常完美的解決方案,只能是說一個是在數(shù)據(jù)傳輸過程中要保證它的安全性,要加密。另外在你的云端,這個云服務(wù)的提供者你要有制度上建設(shè),要有制度來保證數(shù)據(jù)安全性。
提問:剛才聽到講座里面說我們語音識別這塊一臺服務(wù)器同時并發(fā)幾個鏈接,像我們騰訊這么大用戶量這個有沒有可執(zhí)行性?如果部署起來的話。
劉海龍:來用服務(wù)的人到底有多少,另外云服務(wù)的特點要增加部署服務(wù)器其實很快的,你可以按需擴展你的計算資源,可以相應(yīng)來擴展。
提問:谷歌本身有語音識別,放在用戶端,他識別性能沒有這么好。
劉海龍:對,識別性能差一些,語音模型不可能用的很復(fù)雜。
主持人劉江:之前有一期講的跟這個很相關(guān)的話題,就是腦電波就是神念科技,有一個副總演示,你帶著他的東西,你可以指揮那個球,用腦電波指揮那個球,怎么過關(guān)之類的。很經(jīng)典,日本有一個產(chǎn)品就是兔耳朵,小姑娘帶的那個,看到帥哥,耳朵就豎起來了。
提問:我想問一下路香菊、劉海龍,這塊做特征提取主要用什么東西做的?比如剛才說的臉部識別,情緒稍微有一點變化,提取出來的特征會有變化嗎?
推薦閱讀
第一財經(jīng)日報:《桃姐》乍一看很像紀錄片,余力為的攝影也很樸實無華。采用這樣的方式,是不是為了凸顯情感的真實性? 許鞍華:主要是因為可以拍得很快,而且便于抓拍到養(yǎng)老院當(dāng)時的狀況和其他老人的反應(yīng)。劇組拍攝的>>>詳細閱讀
本文標(biāo)題:騰訊研究院劉海龍:當(dāng)模式識別遇上云計算
地址:http://m.sdlzkt.com/a/kandian/20120305/36909.html