omniture

捷通華聲靈云語(yǔ)音質(zhì)檢系統(tǒng)--深度神經(jīng)網(wǎng)絡(luò)的新應(yīng)用

2014-03-21 14:25

前言:深度神經(jīng)網(wǎng)絡(luò)(DNN)是近幾年在工業(yè)界和學(xué)術(shù)界新型的一個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)話題。DNN算法成功的將以往的智能識(shí)別率提高了一個(gè)顯著的檔次,可以極大地提高圖像、語(yǔ)音識(shí)別的準(zhǔn)確度,可以更快地推動(dòng)智能人機(jī)交互(HCI)技術(shù)的進(jìn)步。

  自DNN發(fā)展以來(lái),該技術(shù)已成功應(yīng)用于語(yǔ)音識(shí)別技術(shù)領(lǐng)域,并取得很好的效果,在移動(dòng)互聯(lián)網(wǎng)中已實(shí)現(xiàn)廣泛應(yīng)用。近一年來(lái),伴隨語(yǔ)音質(zhì)檢系統(tǒng)在各在呼叫中心得到越來(lái)越廣的重視,捷通華聲通過(guò)與清華大學(xué)合作,成功將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到靈云語(yǔ)音質(zhì)檢分析系統(tǒng)中,促進(jìn)語(yǔ)音轉(zhuǎn)寫(xiě)識(shí)別率達(dá)到實(shí)用化水平,從而使語(yǔ)音質(zhì)檢質(zhì)量與效率得到大幅提升。

  深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像,聲音和文本。2010年,微軟雷德蒙研究院發(fā)現(xiàn)深層網(wǎng)絡(luò)可顯著提高語(yǔ)音識(shí)別的精度。此后,微軟亞洲研究院在測(cè)試中發(fā)現(xiàn)應(yīng)用DNN的語(yǔ)音識(shí)別模型識(shí)別錯(cuò)誤率比最低錯(cuò)誤率降低了33%之多,即絕對(duì)識(shí)別率提升了6.6%。

  “使結(jié)果發(fā)生翻天覆地變化的是DNN,通過(guò)應(yīng)用DNN,在日常對(duì)話中,最多可使單詞識(shí)別錯(cuò)誤率比之前降低42%。這意味著,以往10個(gè)錯(cuò)誤,有4個(gè)能用這種方法解決。這是自HMM(隱馬爾科夫模型)出現(xiàn)以來(lái),單項(xiàng)技術(shù)使語(yǔ)音識(shí)別精確度獲得的最大提升”,微軟亞洲研究院研究員Frank Seide解釋道。

  

  顯然,比起傳統(tǒng)的混合高斯模型(GMM),DNN在識(shí)別精度上具有相當(dāng)?shù)膬?yōu)勢(shì)。

  在采用了最先進(jìn)的第4代深度神經(jīng)網(wǎng)絡(luò)算法后,捷通華聲靈云語(yǔ)音識(shí)別的通用語(yǔ)音識(shí)別率達(dá)到93%以上,定制模型的識(shí)別率達(dá)到97%以上,各項(xiàng)指標(biāo)已經(jīng)達(dá)到國(guó)內(nèi)最好水準(zhǔn)。然而,在對(duì)其他聲源的識(shí)別能力上DNN是否會(huì)有所突破呢?2013年,捷通華聲與清華大學(xué)合作,開(kāi)始在靈云語(yǔ)音質(zhì)檢系統(tǒng)上應(yīng)用DNN技術(shù)。該系統(tǒng)以識(shí)別“電話通道語(yǔ)音”為核心,將通話錄音中的語(yǔ)音信息提取出來(lái),通過(guò)靈云語(yǔ)音識(shí)別轉(zhuǎn)換成文本保存在系統(tǒng)中,再通過(guò)提取關(guān)鍵詞、靜音檢測(cè)、情緒檢測(cè)、語(yǔ)速檢測(cè)等方式對(duì)語(yǔ)音進(jìn)行篩選分析,從而得出質(zhì)檢結(jié)果。通過(guò)靈云語(yǔ)音質(zhì)檢系統(tǒng),可以幫助客戶將客服錄音數(shù)據(jù)進(jìn)行各種分析,從而針對(duì)性地改善呼叫中心的服務(wù)質(zhì)量。其中除對(duì)企業(yè)自身呼叫中心質(zhì)檢之外,這套系統(tǒng)還可以為企業(yè)分析客戶的反饋意見(jiàn),跟蹤廣大用戶的熱點(diǎn)問(wèn)題,從而對(duì)公司的產(chǎn)品和服務(wù)提出優(yōu)化建議,實(shí)現(xiàn)更加精準(zhǔn)的市場(chǎng)決策。因此,“電話通道語(yǔ)音”識(shí)別的精度越高意味著語(yǔ)音質(zhì)檢的效率越高、客戶體驗(yàn)越好。在應(yīng)用DNN之后,客戶普遍反映靈云語(yǔ)音質(zhì)檢的質(zhì)量和效率已經(jīng)有明顯的提升,證明了DNN在多聲源識(shí)別中的適用能力。

  DNN的火熱雖早已經(jīng)引起語(yǔ)音企業(yè)的重視,而圖像是DNN最早嘗試的應(yīng)用領(lǐng)域--它已經(jīng)使 YouTube的視頻分類提高了70%的準(zhǔn)確率。而恰好圖像識(shí)別又是靈云的另一條主打產(chǎn)品線:靈云智能圖像。在語(yǔ)音識(shí)別和DNN產(chǎn)生化學(xué)反應(yīng)后,我們有理由期待靈云智能圖像識(shí)別&DNN在票證、車牌、人臉等圖像識(shí)別領(lǐng)域的更新的表現(xiàn)。

  捷通華聲在語(yǔ)音識(shí)別、圖像識(shí)別等技術(shù)領(lǐng)域全面應(yīng)用DNN,得到了清華大學(xué)的鼎力支持。2013年,清華大學(xué)產(chǎn)業(yè)基金入資捷通華聲,成為捷通華聲第二大股東,也因此確立了捷通華聲與清華大學(xué)的戰(zhàn)略合作關(guān)系,并得到清華大學(xué)HCI領(lǐng)域中強(qiáng)大科研力量的支持。捷通華聲憑借自身在智能語(yǔ)音、智能圖像、自然語(yǔ)言理解等技術(shù)領(lǐng)域的技術(shù)積累,與清華大學(xué)HCI技術(shù)各領(lǐng)域?qū)嶒?yàn)室、專家教授建立起聯(lián)合研究機(jī)制,為長(zhǎng)期發(fā)展HCI技術(shù)奠定了堅(jiān)實(shí)的基礎(chǔ)。

  捷通華聲此次與清華大學(xué)在DDN領(lǐng)域的成功合作,也標(biāo)示清華大學(xué)在HCI技術(shù)領(lǐng)域的雄厚科研力量通過(guò)與市場(chǎng)需求的緊密結(jié)合,開(kāi)始全面服務(wù)社會(huì)。未來(lái)發(fā)展,捷通華聲將發(fā)揚(yáng)清華大學(xué)在國(guó)家科技進(jìn)步、國(guó)民經(jīng)濟(jì)建設(shè)中的強(qiáng)大推動(dòng)力與影響力,全面推進(jìn)靈云發(fā)展戰(zhàn)略,促進(jìn)提升清華大學(xué)HCI技術(shù)在產(chǎn)業(yè)中的影響力,助力清華大學(xué)構(gòu)建“學(xué)術(shù)超前、科研領(lǐng)先、產(chǎn)業(yè)化推廣最強(qiáng)”的領(lǐng)導(dǎo)地位,從而共同實(shí)現(xiàn)“靈云科技 源自清華 服務(wù)全球”的戰(zhàn)略發(fā)展規(guī)劃,為中國(guó)HCI產(chǎn)業(yè)化發(fā)展做出更大的貢獻(xiàn)。

消息來(lái)源:CTI論壇