呂文龍
“‘漢堡包多少錢一個’英文怎么說?”
科大訊飛董事長劉慶峰對著手中的智能手機問,不料卻因口音緣故,被識別成“‘漢堡包多少錢一個’你這么說”。劉隨即糾正發(fā)音再試,得到滿意答復:“How much is a hamburger?”
這不是蘋果的Siri,而是科大訊飛的“訊飛語點”。
3月22日17時,科大訊飛在新一代“語音云”發(fā)布會正式推出該典型應用。劉慶峰饒有興致地通過語音發(fā)短信、設置提醒、導航、查詢航班、天氣和美食,推銷起訊飛語點的部分功能。
但劉也有意無意像那些美國科技公司老總展示產(chǎn)品時屢屢犯錯,一時著急,他又將“你能做什么?”說成了“你在做什么?”
“我在反思自己的不足呢。”訊飛語點第一次回復十分謙虛。而當劉糾正問題后,訊飛語點如此答道:“我懂一些歷史,會一點算數(shù),能說幾句英語,還會背唐詩,講笑話……”
與以往企業(yè)級產(chǎn)品不同,科大訊飛此次新一代語音云要嘗試移動互聯(lián)網(wǎng)玩法。這是其戰(zhàn)略型業(yè)務,訊飛語音云會將智能語音技術向互聯(lián)網(wǎng)開發(fā)者開放,為各類移動互聯(lián)網(wǎng)創(chuàng)業(yè)者和創(chuàng)新性企業(yè)提供低門檻語音技術服務。
“我們提供開發(fā)運營和支撐,包括優(yōu)質(zhì)語音體驗、全程開發(fā)技術支持、全天候運維保障、自動化業(yè)務分析。”發(fā)布會現(xiàn)場,劉慶峰以水、電作比方,科大訊飛合作伙伴可即開即有、按需取用。
圈地運動先行
“科大訊飛各種突破和技術排名不是主要,更重要的是他們已把技術變成產(chǎn)品,并可預見盈利。”科大訊飛股東、聯(lián)想控股董事局主席柳傳志認為,科大訊飛將實驗室成果變成工廠成果推向市場,并構建整個價值鏈,這一步最難。
目前科大訊飛主要業(yè)務包括:語音支撐軟件,在行業(yè)應用中由于進入早,行業(yè)專業(yè)知識積累較深,擁有一定市場領先優(yōu)勢,如在教育領域給對手建立了進入壁壘。不過,其市場競爭也在加劇。
去年12月,全球最大語音技術公司Nuance、蘋果Siri技術提供商Nuance在上海展出其中文車載語音解決方案,并與四維圖新合作開發(fā)導航用的語音地圖數(shù)據(jù)。意識到中國市場較北美、歐洲等市場增長最快的Nuance已加大中國投入,由幾年前幾十人隊伍擴大到百人以上規(guī)模。
Nuance去年增長最快的是手機及大眾消費者領域,而大眾消費正是科大訊飛“語音云”所要覆蓋的,除訊飛語點外,此前訊飛口訊、訊飛輸入法已有良好市場反饋。
“語音智能交互在全球市場都處于起步和培養(yǎng)期,包括微軟(微博)、谷歌都普遍沒找到好盈利模式。”興業(yè)證券計算機行業(yè)高級分析師李英娟認為,“目前用戶數(shù)增加比找到盈利模式更為現(xiàn)實,而語音云涉及的互聯(lián)網(wǎng)業(yè)務對科大訊飛意義較大,因為該市場前景廣闊。”
科大訊飛副總裁、董秘徐景明則認為,語音云收費雖還在探討階段,但整體路線清晰:“語音云的收費模式會多樣:高級用戶授權收費模式、廣告盈利模式、垂直搜索盈利模式、增值業(yè)務模式都可行。”
據(jù)科大訊飛提供的數(shù)據(jù):目前,科大訊飛在中文語音技術市場占據(jù)70%以上份額,語音合成產(chǎn)品市場份額則高達80%以上。
此外,其語音云用戶規(guī)模已從2011年上半年100萬、2011年底1000萬到目前的3300萬。每天在線用戶數(shù)超120萬,總請求量超700萬次,應用開發(fā)合作伙伴超過3100家,創(chuàng)新應用涉及手機、車載、互聯(lián)網(wǎng)電視、智能家電等各領域。
誰是應用門檻
對微軟和谷歌等在人機語音交互動作方面的表態(tài),劉慶峰表示并不畏懼:“我們早有準備:語音合成自然度超過真人發(fā)音水平;語音識別率達到90%以上;自然語音理解,典型應用領域達到實用要求。”
劉同時指出,語音應用爆發(fā)需要的條件已逐步成熟,關鍵技術達到實用門檻。智能終端、無線網(wǎng)絡、云計算平臺等環(huán)境條件已基本完備。不過,一位不愿具名的管理軟件研究院高層人士告訴記者:“語音智能互動的重任,還在后端云計算平臺。”
后臺技術的任務,是處理用戶通過前端發(fā)出的種種請求,并返回給用戶最匹配結果。而用戶請求五花八門,處理有一定難度,涉及以谷歌為代表的網(wǎng)頁搜索技術、以Wolfram Alpha為代表的知識搜索和計算技術、以維基百科為代表的人類手工編輯知識庫技術、及以Yelp為代表的問答及推薦技術等。
柳傳志坦言,“語音學習系統(tǒng)難點不是掌握算法,解決偏僻詞匯要求更高。”而要解決偏僻詞匯問題,關鍵在基于語料的分析。
對智能語音技術史有所貢獻的創(chuàng)新工場CEO李開復(微博)曾以自己相關博士論文為例:“當時做語音技術都基于語料庫,語料庫大效果就好。一個人能錄的語料很有限。但如果中國有一億用戶,每人一天哪怕講三秒,綜合起來是一個可觀數(shù)字。”
“從3000萬用戶、到一個億、再到三億用戶,用戶量增長會讓語音云功能更強大。”劉慶峰期望通過用戶增長帶來更豐富的語料,“新一代語音云平臺推出后,用戶對口音、專用詞匯進行個性化訓練,可進一步提升語音作用。”
但李開復也表示:“用戶體驗的高期望,會給語音交互技術應用帶來很大挑戰(zhàn)。語音是人類最自然的溝通方式,一旦人們開始用語音和機器交流,就會期望機器像真人一樣。”
李同時指出,如何花費最短時間讓開發(fā)者更快介入對科大訊飛尤為重要。此外,并非所有應用都適合語音交互,如目前創(chuàng)新工場投資的47個項目中,約有五六個可能會適合語音。
“蓋茨很多年前就說,五年后語音會改變世界;可每時隔五年,他又將這話再說一遍。語音智能交互沒爆發(fā),癥結在云計算等技術沒達到水平。”李開復認為,其后會在微博上給出手機語音識別應用發(fā)展四點機會。
首先,精準度上,訊飛平臺利用大量語料和服務器,可以做得不錯;其次,語義要比語音更困難,且不是標準API用上就可以解決;再次,挑選真正需要語音的應用;最后,用戶體驗和期望,深度結合語音語義和應用才能做出優(yōu)質(zhì)應用。
行業(yè)深挖想象力
“訊飛語義理解技術已在各大運營商上有廣泛應用。去年,科大訊飛新承建安徽移動短信營業(yè)廳智能服務系統(tǒng)。同時基于訊飛語義理解技術研發(fā)的呼叫導向智能客服系統(tǒng)已在多家銀行成功應用。”劉慶峰介紹。
語音智能交互的企業(yè)級應用將更為深入。“更上一層樓”科大訊飛發(fā)布會上,一個女主人對手機喊出口令,手機解鎖成功;改換別人喊同樣口令,手機回應:“抱歉,您不是我的主人。”
類似場景,還有《007》電影中,邦德對著自己愛車喊“start”,車先辨別主人聲音,后再啟動start這個命令。一位銷售在與客戶通電話,智能語音模塊自動把溝通信息輸?shù)紺RM中備案,如何時、何地打電話,客戶什么意見、要點等。
推薦閱讀
核心提示:據(jù)中國商務部統(tǒng)計,2011年美國政府對中國企業(yè)發(fā)起涉嫌知識產(chǎn)權侵權的調(diào)查就有16起。 李關云 上海報道 無論是在中美戰(zhàn)略與經(jīng)濟對話會議上,還是在兩國元首的高層互訪之中,美國政商領袖都在不斷抱怨中國知識>>>詳細閱讀
本文標題:科大訊飛智能語音交互 闖關移動互聯(lián)新玩法
地址:http://m.sdlzkt.com/a/kandian/20120324/43974.html