問(wèn):我們看到訊飛語(yǔ)音識(shí)別的技術(shù)已經(jīng)非常成熟,那么你認(rèn)為“應(yīng)用”的空間在哪里,未來(lái)語(yǔ)音識(shí)別技術(shù)還有什么挑戰(zhàn)?
李開(kāi)復(fù):云端識(shí)別技術(shù),訊飛已經(jīng)解決了。“應(yīng)用”在哪里?這并不是一些專家在實(shí)驗(yàn)室里拍腦袋就能想到的。大家可以來(lái)試,可以在訊飛的云平臺(tái)上試一試,可能成功的會(huì)比較少,但能夠摸索到成功的應(yīng)用的概率也會(huì)增加。
語(yǔ)音技術(shù)方面,主要挑戰(zhàn)還有三方面:
- 一、語(yǔ)音識(shí)別相對(duì)容易,但語(yǔ)義理解相對(duì)困難。讓軟件聽(tīng)懂容易,但理解會(huì)比較難。
- 二、如果能在一定程度上做到語(yǔ)義理解,那么怎么樣讓開(kāi)發(fā)者介入不用太花時(shí)間?
- 三、用戶體驗(yàn)的期望值。語(yǔ)音是人類最自然交流的方式——與多點(diǎn)觸摸不同,一旦人們開(kāi)始使用語(yǔ)音交互,會(huì)有比較大的心理預(yù)期:我愛(ài)怎么說(shuō)就怎么說(shuō),你應(yīng)該能理解,這是一個(gè)比較長(zhǎng)久的挑戰(zhàn)。這中間,應(yīng)該有巧妙方式來(lái)降低這種感受。
問(wèn):語(yǔ)音技術(shù)里面,是不是使用的人越多,語(yǔ)音技術(shù)也會(huì)愈加成熟?
李開(kāi)復(fù):當(dāng)然了,更多人參與,獲得更多自動(dòng)回饋,可以實(shí)現(xiàn)一個(gè)良性的正向循環(huán)方。一個(gè)人能力有限,一億用戶,每人使用 3 秒鐘,就是 3 億秒,這個(gè)數(shù)據(jù)量是龐大的。實(shí)際應(yīng)用中,正確的輸入可以被視作是“一次正確訓(xùn)練和學(xué)習(xí)”,吸收改進(jìn);一個(gè)錯(cuò)誤的結(jié)果,比如訂餐時(shí)識(shí)別錯(cuò)誤取消訂單,可以視作“不正確的學(xué)習(xí)”,同樣吸收改進(jìn)。
但這個(gè)比“聽(tīng)寫”更困難:錯(cuò)了,是語(yǔ)音錯(cuò)了還是語(yǔ)義錯(cuò)了,或者其中一個(gè)正確、一個(gè)錯(cuò)誤;對(duì)了,是語(yǔ)音對(duì)了語(yǔ)義對(duì)了,或者其中一個(gè)正確、一個(gè)錯(cuò)誤。當(dāng)回饋量大于累計(jì)量和使用量,可以讓我們邁出一大步。
問(wèn):什么樣的語(yǔ)音應(yīng)用是用戶期待和接受的?
李開(kāi)復(fù):我認(rèn)為有三個(gè)方向。1,相對(duì)是語(yǔ)音識(shí)別,而非深度語(yǔ)義理解的應(yīng)用,或者說(shuō)“淺語(yǔ)義,深語(yǔ)音”。比如聽(tīng)寫(Demo 中有提到教育領(lǐng)域的聽(tīng)寫測(cè)試、KTV 評(píng)分、發(fā)短信、日程提醒),——輸入法也很重要,這個(gè)比較保險(xiǎn)。
2,娛樂(lè)性應(yīng)用,比如 Siri 這樣的調(diào)侃調(diào)戲類應(yīng)用。這種識(shí)別錯(cuò)了也無(wú)傷大雅,很愛(ài)使用。蘋果很聰明,用調(diào)侃 Siri 錄了很多語(yǔ)音,然后慢慢把真正的應(yīng)用做好。
3,在一些“眼忙手忙”的場(chǎng)景,這個(gè)時(shí)候語(yǔ)音需求就會(huì)很大,比如駕車的時(shí)候,這時(shí)候是不能多點(diǎn)觸控的,這算一個(gè)“剛性需求”的場(chǎng)所。
在這里我建議開(kāi)發(fā)者:想把語(yǔ)音放進(jìn)來(lái)的時(shí)候,不是那么容易,因?yàn)檎Z(yǔ)音的 API 和語(yǔ)音的用戶體驗(yàn),比一般的 API 要難很多,比如百科全書(shū)類、地圖、本地商家,O2O,線上模式拉來(lái)線下消費(fèi),因?yàn)橛姓Z(yǔ)義部分在里面,要花很多時(shí)間去把它調(diào)好,不能用簡(jiǎn)單的 API 隨便聯(lián)接起來(lái)。