當語音圖像人臉識別在一起從云知聲說起

2014-04-16 13:44:12來源：西部e網(wǎng)作者：

實現(xiàn)單個的語音、語義、人臉、圖像識別并不難，難的是用戶有場景需要將所有的識別技術(shù)結(jié)合在一起。如何實現(xiàn)？首先從云知聲說起。

4月12日，云知聲牽頭的“全智能交互聯(lián)盟”成立，除云知聲外，首批進入該聯(lián)盟的成員還包括語義理解技術(shù)公司“哦啦”、圖像識別技術(shù)公司“亮風(fēng)臺”、人臉識別技術(shù)公司“Face++”。

云知聲是國內(nèi)專注語音識別及語言處理技術(shù)對移動互聯(lián)網(wǎng)公司，為易信、樂視超級電視等產(chǎn)品提供智能語音方案。

云知聲CEO黃偉

從語音入侵移動互聯(lián)

創(chuàng)立至今不到兩年，云知聲在語音行業(yè)的發(fā)展速度像坐上輪噴氣飛機，去年10月，云知聲還成功獲得1億元A輪融資。不差錢的云知聲，迅速達到規(guī)�；⑻崆巴瓿缮虡I(yè)化。

為什么云知聲能發(fā)展得這么快？

首先，這與我國移動互聯(lián)網(wǎng)的發(fā)展環(huán)境有關(guān)。隨著移動互聯(lián)網(wǎng)的快速發(fā)展，語音正處在一個爆發(fā)的零界點。對于智能終端而言，語音不僅是剛需，而且還和攝像頭、麥克風(fēng)一樣，是智的能硬件重要入口之一。

云知聲的CEO黃偉，把云知聲的智能語音服務(wù)梳理為三個方向：云、端、芯。云知聲對于行業(yè)趨勢的捕捉是迅速的，同時在技術(shù)上進行升級，達到業(yè)內(nèi)比較領(lǐng)先的水平。

語音的盤子有多大？

語音在人機交互方面，占據(jù)著越來越重要的地位。從一些科幻大片中，我們已經(jīng)可以窺一斑而知全豹。

2013年國內(nèi)語音企業(yè)龍頭老大科大訊飛營收超12億，國外語音公司Nuance營收超23億美元。

據(jù)中國智能語音產(chǎn)業(yè)聯(lián)盟發(fā)布的《2013中國智能語音產(chǎn)業(yè)發(fā)展白皮書》稱，智能語音已進入快速應(yīng)用階段。

通過與各語音廠商的各種調(diào)研結(jié)果來看，帶動相關(guān)產(chǎn)業(yè)產(chǎn)值100億元，預(yù)計到2017年，將帶動相關(guān)產(chǎn)業(yè)規(guī)模增長1000億元，占全球相關(guān)產(chǎn)業(yè)規(guī)模的比重將由去年的5.6%增至17.1%。

中國智能交互的首個聯(lián)盟誕生，要做些什么？

A輪融資后，不差錢的云知聲都做了什么？

2013年10月，創(chuàng)立一年多都云知聲拿到輪1億元A輪融資，不差錢了。不差錢的云知聲，合作伙伴目前已經(jīng)擴展到了3000多家，領(lǐng)域涵蓋了移動應(yīng)用、智能終端、芯片等多個方向。

此外，云知聲單月簽約額超過千萬，提前完成商業(yè)化。并且，在技術(shù)上的大量投入，使其不斷突破，保持領(lǐng)先地位。

在智能交互中，語音、圖像、人臉都是交互方式之一，于是云知聲牽頭，發(fā)起了“全智能交互聯(lián)盟”。

這也許是此次智能交互聯(lián)盟成立的一個契機。

當然，全智能交互聯(lián)盟的成立除了內(nèi)因驅(qū)動，也有外因使然。

不久前，騰訊宣布微信對外上線智能開放平臺，向微信服務(wù)號和第三方應(yīng)用開放語音識別技術(shù)和圖像識別技術(shù)；

此前，百度也面向開發(fā)者開放了包括語音識別、面部識別等技術(shù)的接口。面對BAT的“瘋狂收購”，垂直領(lǐng)域的技術(shù)公司進行技術(shù)聚合、服務(wù)升級不失為一個良策。

云知聲牽頭主導(dǎo)的全智能交互聯(lián)盟正是在這樣的背景下順應(yīng)而生。

云知聲CEO黃偉表示，這樣一個智能交互的聯(lián)盟，可以將語音、圖像、人臉交互方案打包，給硬件廠商和開發(fā)者提供一站式交互技術(shù)超市，而不是單一的被割裂的解決方案。通過全智能交互聯(lián)盟提供的打包交互技術(shù)，有望加速智能交互行業(yè)的發(fā)展。

語音、圖像、人臉交互，一個都不能少

當語音、語義、圖像、人臉識別結(jié)合后，科幻片中的智能交互場景，距離成為現(xiàn)實為時不遠。

《霹靂游俠》里的智能汽車

《人工智能》里的擬真機器人

《Her》里人和智能操作系統(tǒng)OS1戀愛

甚至還有《愛情公寓》里的能和人聊天的智能冰箱，這些場景都有一個共同點就是智能語音交互。

當然，全智能交互還需要克服如下難點：

全部智能交互的準確率都需要接近100%，否則在產(chǎn)品化時就會很容易出現(xiàn)問題；

語音、人臉、圖像識別的應(yīng)用場景如今仍有限，現(xiàn)實生活中人們所接觸到的物理表面遠遠多于這些電子表面，所以如何把更多的“表面”納入可交互范疇非常重要。

好在，隨著智能可穿戴設(shè)備在近兩年的發(fā)展，未來三五年內(nèi)很可能會出現(xiàn)全智能交互的新奇案例。

關(guān)鍵詞：人臉識別云知聲

當語音圖像人臉識別在一起從云知聲說起

相關(guān)閱讀:

贊助商鏈接:

當語音圖像人臉識別在一起 從云知聲說起

相關(guān)閱讀:

贊助商鏈接:

當語音圖像人臉識別在一起從云知聲說起