訊飛:成長為影響移動互聯網產業(yè)的力量?

2012-04-14 22:27:02來源:《商業(yè)價值》雜志作者:夏勇峰

一個大學里的語音實驗室,如何成長為一股影響移動互聯網產業(yè)的力量?

一個大學里的語音實驗室,如何成長為一股影響移動互聯網產業(yè)的力量?

在美國熱播劇《生活大爆炸》中有一集十分有趣:宅男Raj手持一部iPhone 4S,愛上了其中的語音助理Siri,雖然后者只是一種發(fā)女聲的手機功能,但Raj深陷其中不能自拔。他會詢問Siri附近的咖啡館在哪兒,并想象自己去那里與它約會,甚至會讓Siri給自己放首歌,深情地邊聽邊說:“只有你最懂我。”

 

訊飛:成長為影響移動互聯網產業(yè)的力量?

雖然劇情夸張,但起碼這從一個側面證明,手機語音功能的普及讓普通老百姓也開始能接受這樣的笑料,也證明了在移動互聯網時代,語音技術正在成為一種流行的、全新的人與手機的交互方式。

在微軟創(chuàng)始人比爾·蓋茨眼中,未來影響世界的三個技術領域——語音、觸摸和視覺中以語音居首;而蘋果公司更是在新一代iPhone中直接將語音助理Siri作為了其最大賣點之一。

擁有語音技術的公司成為大眾熱點,也成為移動互聯網的行業(yè)焦點,這使得一家在公眾視野蟄伏了10年的中國本土公司逐漸浮出水面。

訊飛立足點

1999年春節(jié)前夕,安徽合肥,現在的科大訊飛董事長、當時的中國科技大學在讀博士生劉慶峰實際上正面臨兩難選擇。他所在的中國科技大學的語音實驗室一直與一家福建企業(yè)合作,可對方因為種種問題資金遇上了困難,連實驗室的基本工資都發(fā)不出。作為這個實驗室的負責人,他要么“事了拂身去”,出國并繼續(xù)他的博士學業(yè)——這樣整個團隊勢必會解散;要么留下來牽頭帶領這幫一起干的伙伴們繼續(xù)前行。

據科大訊飛副總裁江濤回憶,“慶峰其實只需要把實際情況跟大家說清楚,跟自己就半點關系沒有,但他還是不動聲色地以個人名義借了錢回來給大家發(fā)工資”。

“當時我還是有點過度樂觀吧。”劉慶峰說,“我們下決心產業(yè)化,當時的信心和現在一樣,認為未來每一部手機、轎車、家電、玩具,語音都將成為一個基本需求點,而且以我們的技術能力,有可能成為行業(yè)領導者。”

在此之前,實驗室參加“863計劃”的比賽剛剛以3.0的高分奪得第一名。中科大的學生當時會聚了全國精英,而在團隊里還有一些外面的技術高手,劉慶峰認為解散太可惜。資方并不懂技術,較為急功近利,經常進行研發(fā)方向的調整,把團隊折騰得夠嗆,劉慶峰決定站出來解決這一切。“本來我們的夢想是成為類似美國貝爾實驗室的存在,我就當個總工程師挺好,可形勢的發(fā)展讓我不得不站出來當CEO。半年之后,感覺還不錯。”他說。

這就是科大訊飛的成立故事,從里面不難看出這家公司的一些特征:技術驅動、對語音未來的篤定以及濃濃的校園風格。這使得它和美國硅谷一些知名技術公司擁有相似的氣質。

可是語音到底什么時候能夠產業(yè)化并且獲得收益?沒有人心里有譜。

其實早在20世紀70年代,世界各國就有很多組織開始研究語音技術,包括語音識別、文本朗讀、指令判斷等。到20世紀80年代,語音就開始被稱為“未來5年的技術”,可過了一個又一個5年,它卻似乎永遠站在遠方,離普羅大眾的距離從未真正接近過。在國內,20世紀80年代“863計劃”也扶持了很多語音實驗室進行相關研究,中科大、清華、聲學所、語言所等均在其列,只是研究的側重方向各有不同。

為什么語音技術難以產業(yè)化?因為語音技術說白了就是機器對人聲音的識別、判斷與輸出,涉及到不同國家、不同口音的人和大量聲學、語言學、數字信號處理知識。作為一項基礎技術,它不僅考驗語音聽和寫的能力、搜索能力、語音合成能力,還有復雜得多的與電腦相關的數據庫等后臺能力。

在單機時代,光是辨別語音所需要的龐大數據庫存儲和計算能力就讓人頭疼。要想語音識別準確,就必須有海量數據庫進行匹配,還要通過算法來讓它實現快捷高效,這幾乎是一件不可能完成的任務,硬件的門檻將無數研究者阻擋在技術商用化的門檻之外。

可是從20世紀末開始,一切似乎正在發(fā)生變化;ヂ摼W的興起讓這樣一種模式成為可能:大量的存儲計算放在服務器端(云端)來完成,而前端的電腦則只需要采集聲音和給出反饋就可以了。只不過網絡帶寬的限制以及電腦麥克風當時并不普及,語音技術還沒獲得生根發(fā)芽的土壤。

此時的科大訊飛,在拿到第一筆投資、還未能盈利之前,就做出了一項“風險很高”的決定:以企業(yè)的方式,與中國在語音研究領域領先或有特色的院校建立聯合實驗室形成了“產學研”結合的雛形。

它的邏輯很簡單:語音技術未來一定很值錢;各個院校擁有不同細分領域的語音技術,融合起來才能具有威力;能將中國最好的做語音研究的人才盡可能網羅到一起。這筆“技術投資”,為訊飛今后的發(fā)展提供了堅實的基礎,這也是訊飛從技術核心出發(fā)的第一項重要決定。

從B到C

心氣高、兵馬壯的訊飛,幾乎在做第一個產品時就遭遇了挫折。“當時我們做了一個面對消費級PC市場的統(tǒng)一輸入法,你可以用語音、手寫等各種方式輸入中文,可產品辛苦研究出來卻沒有人買賬。”江濤說。

對當時的訊飛來說,消費級市場實在是一個難以跨越的坎,因為它意味著要為產品建立一個全國的銷售網絡、服務網絡,光服務成本就入不敷出。再加上2000年初,“統(tǒng)一輸入法”這樣的產品并沒有市場,消費者根本沒有對于語音的認知,而鍵盤和鼠標已經足以滿足他們在PC上簡單的輸入需求。

這時候,劉慶峰做出了第二個重要決定:砍掉辛苦努力了很長時間的B2C業(yè)務,專注于B2B企業(yè)級服務。

在之前1999年中國國際高新技術成果交易會上,科大訊飛只有幾平方米見方的展臺上迎來了幾位客人,他們對訊飛的產品表現出不同一般的興趣與了解。這是華為的人,作為移動通訊設備廠商,他們看到了語音對于移動通信產業(yè)的意義。雙方幾乎一拍即合,華為采購語音引擎,訊飛則成為其技術供應商。

好的技術總會有價值,與消費者相比,企業(yè)客戶更專業(yè)、理解力更強,這讓幾乎全技術班底的科大訊飛不用再去做那些不擅長的事,將精力聚焦在了語音技術本身和運營服務中。

客戶接二連三地來,訊飛也終于擺脫了剛開始的茫然,進入有序發(fā)展,并接連引入了聯想投資、復星資本等投資方。“聯想和復興的風格完全不一樣,前者對我們工作很細致,幫助我們建立了管理體系;后者則完全信任,給了我們更強的信心。”2004年依靠B2B,訊飛實現了盈虧平衡。

已經有了一定實力的訊飛開始將目光再次瞄向最終用戶,可它卻用了一種由企業(yè)到用戶的曲線方式。它向自己的電信運營商客戶如中國電信提出了一項要求:希望從只提供技術引擎,變?yōu)樽约簛碇苯幼鲞\營與維護。這樣來與用戶發(fā)生接觸。

與此同時,它還發(fā)現了另一個“金礦”,那就是教育市場。學習不過是“聽說讀寫”,其中很多層面涉及語音,通過提供這一垂直場景的帶讀、朗誦語音評測等技術功能,訊飛已有斬獲,基本上對教育市場(學習機)形成了近乎壟斷的優(yōu)勢。

2008年,科大訊飛上市。在企業(yè)級市場上技術加實干,為它贏得了極大空間,可上市之后干什么?訊飛將目光重新投注在了其初衷上。

當時做統(tǒng)一輸入法為什么失。“不是模式錯了,而是模式沒有適合當時的背景。”劉慶峰說。而現在,背景環(huán)境似乎已經轉向。

新基礎服務提供商

2007年開始,移動互聯網迅速發(fā)展。iPhone手機和Android系統(tǒng)的發(fā)布讓智能手機迅速開始普及,移動帶寬到3G時代得到了明顯提升,而手機天然的隨身性和麥克風等硬件所賦予的良好交互性,為語音類產品發(fā)展提供了天然機遇。

訊飛一方面深入語音研究,對技術最前沿能做到什么樣心里有底,另一方面,與數千家合作廠商日復一日的密切接觸,能讓它對產業(yè)引爆點的判斷更加精準。

傳統(tǒng)語音技術,無外乎語音合成、語音搜索、語音聽寫三類,在準備了很長時間之后,2010年末,訊飛推出了自己的“語音云”平臺,將語音能力提供輸出接口,讓很多移動互聯網創(chuàng)業(yè)者能由此為自己的應用引入語音能力。而在此之外,訊飛則選擇擅長的領域做一些“示范應用”,在第一代語音云上,示范應用是訊飛語音輸入法和互聯網電視語音搜索。

這是另一片戰(zhàn)場,國外谷歌等互聯網公司也有提供類似服務,但訊飛在技術上有著過硬的功夫。2006年到2011年,訊飛連續(xù)6年獲得英文語音合成國際大賽(Blizzard Challenge)第一名,2008年獲得國際說話人識別評測大賽(NIST)第一,2009年則又拿下高難度混淆方言測試指標冠軍。

到2011年末,一年時間訊飛語音云用戶總數超過1000萬,而之后三個月,用戶總數超過了3000萬,合作伙伴超過3100家,每天服務請求量超過700萬次。這是一個驚人的數字。

2012年3月22日,訊飛在北京國家會議中心舉辦新一代“語音云”發(fā)布暨語音開發(fā)者大會。聯想控股董事局主席柳傳志來了,創(chuàng)新工場董事長兼CEO李開復來了,小米公司、大眾點評、知乎等互聯網公司也來了,現場人數達到2300人之多,場面火爆。所有人的目的都只有兩個字:語音。

新一代語音云增加了自然語言理解、個性化語音識別、口語評測等新能力特性,而其示范應用,則是一款名為“訊飛語點”的工具。

在試用過程中,訊飛語點雖然還有一些小Bug,但總體表現出了很強的辨識度和易用性。比如當你念出“把張三的手機號碼發(fā)短信給李四”,語點就能自己識別出人名、指令,并完成相關操作。除此之外,它還能設置日程提醒、手機導航,還能查詢天氣、股票等信息,甚至可以做算術、講笑話。這一應用將新的語音云平臺能力展露無遺。

毫無疑問,經過10多年發(fā)展之后,訊飛有了兩塊最具價值的資產,那就是語音云和相關技術,再往上,各個實驗室是“正在下金蛋的雞”,而產業(yè)合作還在將這些金蛋換成金錢。

據《商業(yè)價值》了解,考慮到新一代語音云平臺多出了很多新的特性,不僅增加了指令和個性化學習,而且還大幅提升語音識別準確率,訊飛今年年初曾面臨兩個選擇:一個是獨享自己的語音云平臺,基于它推出新的創(chuàng)新產品,二是直接將升級版的語音云平臺向整個行業(yè)開放。

在思索一段時間后,訊飛還是決定選擇后者,因為作為一種基礎能力,開放的語音技術力量將能支撐整個行業(yè)用更快的速度前行。

現在,訊飛的想法是自己做10%。“我們做開放平臺跟訊飛的特點有關。語音應用無處不在,在每個領域都有前景,能力要和應用場景深度結合才有用,這是一條漫長的路。”劉慶峰說,“我們有最好的嘴巴和耳朵,還有基本思維,可是需要大家一起教育它。”

而相關的應用場景,最主流有三類:手機基礎操控類,比如打電話、發(fā)短信、設置日程等;助理類,訂酒店、問路、問天氣等;還有行業(yè)伙伴在各個行業(yè)的產品中增加聽說功能。這已經是一個相當大的布局,訊飛正在向著新一代移動互聯網基礎服務提供商的位置前行。

有人覺得,科大訊飛的幾個發(fā)展點都踩得很正,并且符合語音技術產業(yè)化的成熟節(jié)奏:成立后不久就找到了華為、中興等移動設備商作為客戶,用穩(wěn)定的收入站穩(wěn)了第一步;后來又在合適的時間點與移動運營商合作,同時發(fā)現教育市場這片金礦,成為其中語音最有影響力的技術產品提供商;2008年上市后,開始從企業(yè)級往移動互聯網消費端滲透,做訊飛語音輸入法并獲得一定成功,第一版語音云平臺也擁有了3000多個合作者,未來機會很大。

這確實是科大訊飛比較重要的三個發(fā)展階段,但它遠遠不是全部。

劉慶峰認為,訊飛走的是一條“彎曲的直線”,朝著正確的方向,但中間也有很多不為人知的失敗,“我們不是剛好踩到點,只是很多踩不到點的地方大家都看不到而已”。

對他而言,訊飛目前的成果經過了幾代人的努力,核心技術持續(xù)突破,到如今才真正達到了大規(guī)模實用的門檻。而訊飛一直在朝著既定目標前進,那就是讓語音真正成為所有人身邊能使用的產品。

贊助商鏈接: