隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等數(shù)字服務(wù)逐漸深入城鎮(zhèn)居民生活,智能人機(jī)交互技術(shù)亦嶄露頭角,為人們所熟知和試用。其中作為智能人機(jī)交互技術(shù)(HCI)里的一支先鋒軍--語音識(shí)別(ASR)技術(shù)先在國內(nèi)落地開花,掀起了IT圈乃至各行各業(yè)的智能語音交互風(fēng),特別是隨著中國“智慧城市”概念的推進(jìn),智能駕駛、LBS大數(shù)據(jù)服務(wù)以及車聯(lián)網(wǎng)等技術(shù)解決方案日益成熟,也為智能語音交互提供了生根發(fā)芽的土壤。
在國內(nèi),靈云智能語音經(jīng)過數(shù)十年的試煉,已形成獨(dú)具一格的“ASR+TTS”完美組合方案,并且提供“云+端”定制化服務(wù),為創(chuàng)建具有漢語言習(xí)慣的智能語音交互解決方案提供了可持續(xù)性發(fā)展基礎(chǔ)。
自國際IT巨頭蘋果、谷歌、微軟進(jìn)軍智能語音領(lǐng)域后,在全球都刮起了一陣智能語音熱潮--蘋果的siri,谷歌的無人駕駛汽車,微軟的智能語音助手Cortana,那么環(huán)視國內(nèi),又有哪家技術(shù)廠商足以抗衡呢?
靈云智能語音WGDC2014會(huì)議上嶄露鋒芒
近日在北京國家會(huì)議中心召開的以“融合 開放 智能”為主題的2014地理信息開發(fā)者大會(huì)(WGDC2014)上,我國著名智能駕駛專家、中國工程院院士李德毅在開幕演講中談到,智能駕駛在云計(jì)算、物聯(lián)網(wǎng)和智慧城市等戰(zhàn)略性新興產(chǎn)業(yè)中處于非常重要的示范地位,而位置服務(wù)又是智能駕駛的基礎(chǔ)。他認(rèn)為大數(shù)據(jù)是支持路口導(dǎo)航的重要來源,是連接物理世界和虛擬精細(xì)地圖的橋梁。
而捷通華聲靈云智能人機(jī)交互技術(shù)平臺(tái)架構(gòu)師陳明預(yù)見性地發(fā)言:“目前智能駕駛基于地圖大數(shù)據(jù)提供位置服務(wù),而隨著這套數(shù)據(jù)和架構(gòu)的日益完善,智能語音交互技術(shù)將被提上日程,它(智能語音)的便捷性、人性化、智能化將給予智能駕駛更多的樂趣與體驗(yàn)。”
這也無怪乎現(xiàn)今世界各大品牌汽車制造商每推出一款新車型,必提及智能語音交互技術(shù),這項(xiàng)智能語音交互體驗(yàn)已成為高檔汽車爭(zhēng)鋒的必爭(zhēng)之技,但是因?yàn)閲饧夹g(shù)壁壘的出現(xiàn)以及語言語種的限制,國內(nèi)大多數(shù)汽車制造商并不能完美應(yīng)用國外的智能語音交互技術(shù)。
正是基于這一契機(jī),靈云(hcicloud.com)積極拓展智能語音技術(shù)與駕駛系統(tǒng)的對(duì)接,如今已可完美嫁接于各類主流車載系統(tǒng)和平臺(tái)。
靈云智能語音讓汽車能說會(huì)「道」
靈云智能語音技術(shù)解決方案不僅提供語音識(shí)別(ASR)、語音合成(TTS)、語義理解完整解決方案,而且融合了手寫識(shí)別、機(jī)器翻譯等多種智能人機(jī)交互技術(shù)能力,這在國內(nèi)乃至全球都是不多見的。
靈云語音合成(TTS)技術(shù)目前已拓展可支持中、英、法、俄、德、日、韓等十幾國語種和中國部分地區(qū)方言以及名人模仿等定制化聲音服務(wù),無論是現(xiàn)今正在趨于主流的智能駕駛還是將來更加先進(jìn)的無人駕駛,它從真正意義上實(shí)現(xiàn)了機(jī)器的人性化、智能化、個(gè)性化發(fā)音。
此外,靈云語音識(shí)別(ASR)平臺(tái)級(jí)產(chǎn)品具有功能強(qiáng)大、識(shí)別率高、識(shí)別速度快、SDK開發(fā)簡(jiǎn)單、開發(fā)包資源小等優(yōu)勢(shì),能夠?qū)崟r(shí)、準(zhǔn)確地對(duì)輸入的語音進(jìn)行識(shí)別。捷通華聲根據(jù)不同的用戶需求又將靈云語音識(shí)別系列引擎iSpeak劃分為三種:
1.iSpeak Freetalk(自由說引擎):自由說引擎又稱“聽寫機(jī)”或“語音轉(zhuǎn)寫”,基本上不限定用戶說話的范圍、方式和內(nèi)容。自由說引擎可以對(duì)整段或者是分段傳入的音頻進(jìn)行識(shí)別,返回識(shí)別后的文本。
2.iSpeak KeywordSpot(關(guān)鍵詞檢出引擎):關(guān)鍵詞檢出引擎可以在連續(xù)語音流中檢測(cè)出是否存在某些感興趣的關(guān)鍵詞。在使用時(shí),需要事先給定一個(gè)關(guān)鍵詞列表,系統(tǒng)則給出識(shí)別出的關(guān)鍵詞在語音流中出現(xiàn)的位置。
3.iSpeak SpeechAnalysis(語音質(zhì)檢分析引擎):質(zhì)檢分析引擎在自由說引擎的基礎(chǔ)上,加入了針對(duì)語音質(zhì)檢分析的一些額外的分析處理能力,包括話者分離、情緒檢測(cè)、靜音檢測(cè)和語速檢測(cè)等等。
靈云語音識(shí)別上述三種引擎可以滿足IVR導(dǎo)航系統(tǒng)應(yīng)用的雙向需求:汽車智能體系既可以通過自助化語音服務(wù)進(jìn)行有效的分流、緩解駕駛?cè)藛T壓力,也可以通過識(shí)別結(jié)果挖掘用戶需求、完善地理導(dǎo)航精準(zhǔn)性和智能性,從而使汽車駕駛實(shí)現(xiàn)“人車合一”的高層境界享受。
靈云智能語音:源自清華 服務(wù)全球
捷通華聲作為國內(nèi)最早提供智能語音技術(shù)服務(wù)的專業(yè)化廠商,捷通華聲的靈云多語種語音合成(TTS)技術(shù)早已在金融、電信、交通、能源及CTI等領(lǐng)域大規(guī)模應(yīng)用,在高鐵、民航、醫(yī)院等眾多領(lǐng)域……捷通華聲的靈云語音合成技術(shù)幾乎無處不在,市場(chǎng)占有率超過50%,服務(wù)十三億大眾大十五年之久。有了靈云語音合成技術(shù)的雄厚市場(chǎng)基礎(chǔ),靈云語音識(shí)別在國內(nèi)語音市場(chǎng)異軍突起,“能說會(huì)聽”語音交互技術(shù)雙劍合璧,為車載導(dǎo)航、智能電視、穿戴式設(shè)備等廠商提供了最完整的智能語音解決方案。
十幾年來,捷通華聲始終堅(jiān)持自主研究語音合成、語音識(shí)別等智能人機(jī)交互(HCI)技術(shù),并始終在國內(nèi)智能語音技術(shù)領(lǐng)域保持領(lǐng)先者地位,在為智能駕駛、智慧城市等諸多領(lǐng)域提供多方面的智能技術(shù)服務(wù)支持的同時(shí),也為保證我國智能語音交互技術(shù)始終與世界發(fā)展同步做出了重要貢獻(xiàn)。2011年,捷通華聲開創(chuàng)性的推出了全球第一個(gè)最大、最全的智能人機(jī)交互技術(shù)開放平臺(tái) - 靈云,提供語音合成(TTS)、語音識(shí)別(ASR)、光學(xué)字符識(shí)別(OCR)、手寫識(shí)別(HWR)、語義理解、機(jī)器翻譯等智能人機(jī)交互(HCI)技術(shù)能力服務(wù),并以“云 + 端”的方式向開發(fā)者全面開放。
捷通華聲在發(fā)展智能語音與靈云平臺(tái)的過程中,得到了清華大學(xué)的鼎力支持。2013年,清華大學(xué)產(chǎn)業(yè)基金入資捷通華聲,也因此確立了捷通華聲與清華大學(xué)的戰(zhàn)略合作關(guān)系。在清華大學(xué)的支持下,捷通華聲開始全面實(shí)施“靈云科技 源自清華 服務(wù)全球“的戰(zhàn)略規(guī)劃,靈云智能語音識(shí)別與靈云語音合成技術(shù)產(chǎn)品相輔相成,不僅為智能導(dǎo)航、智能駕駛、信息安全等領(lǐng)域系統(tǒng)應(yīng)用提供更具中國漢語言特色的智能語音交互全面解決方案,也代表智能語音機(jī)交互技術(shù)在我國智能駕駛領(lǐng)域應(yīng)用進(jìn)入全面普及的階段。