omniture

捷通華聲推出新版靈云語音合成(TTS)技術(shù)

2014-05-29 16:22

近日,捷通華聲宣布推出最新版靈云語音合成技術(shù)--jTTS6.1版本,該版本語音播報更加流暢、自然,更加適合于各領域、各行業(yè)實時文本信息、及大眾生活中的社會新聞、閱讀等語音播報,這也是繼靈云語音識別技術(shù)jASR6.1之后,靈云智能語音交互技術(shù)再次實現(xiàn)新的跨越。

  淺談語音合成

  語音合成(Speech Synthesis)就是人工合成人類的聲音,簡單地講:就是讓計算機“開口說話”。語音合成技術(shù)的學名是“文語轉(zhuǎn)換系統(tǒng)”,也常常被稱作TTS(Text To Speech)技術(shù),是指將文本信息轉(zhuǎn)變?yōu)檎Z音數(shù)據(jù),以語音的方式播放出來的技術(shù)。該項技術(shù)的目的就是讓計算機將文字“讀”出來,其追求的目標是計算機“讀”出的聲音清晰、可懂、自然、具有表現(xiàn)力。

  國內(nèi)的漢語語音合成研究雖然起步較晚,但自上世紀八十年代開始,國內(nèi)漢語語音合成研究基本與國際研究同步發(fā)展,為中國語音合成技術(shù)后來的廣泛應用奠定了堅實的基礎。

  創(chuàng)建于2000年的北京捷通華聲語音技術(shù)公司,是國內(nèi)最早從事中文TTS研究與應用的企業(yè),2001年,捷通華聲推出了具有國際領先水平的TTS世紀版,是國內(nèi)第一項基于大容量真實錄音庫和韻律層級分析技術(shù)的語音合成技術(shù),在自然度和流暢度上達到了一個嶄新的水平,標示著中國中文語音合成技術(shù)開始進入商品實用化階段。如今,捷通華聲中文語音合成(TTS)技術(shù)在國內(nèi)已處于絕對領先地位,市場占有率超過50%。十幾年來,捷通華聲始終堅持自主研究語音合成(TTS)、語音識別(ASR)等智能人機交互(HCI)技術(shù),并不斷推出粵語、維吾爾語等方言與少數(shù)民族語音合成技術(shù),為保證我國中文智能語音技術(shù)始終處于世界領先地位做出了主要貢獻,也成為推動語音合成技術(shù)在CTI等領域中廣泛應用的主要力量。

  語音合成:CTI系統(tǒng)中不可或缺的關鍵技術(shù)

  現(xiàn)在在CTI產(chǎn)業(yè)中廣泛應用的智能語音交互技術(shù)包含了語音合成、語音識別和自然語言理解等智能人機交互技術(shù)(HCI),如上所述,語音合成技術(shù)在我國HCI技術(shù)領域中起步最早,并叩開了語音絢爛多彩的應用大門。語音合成技術(shù)解決的主要問題是如何將文本信息轉(zhuǎn)化為聲音信息,并能夠讓機器輸出清晰、流暢的連續(xù)語音。在語音合成技術(shù)應用之前,呼叫中心主要采用錄音回放的方式進行語音服務。錄音存在高成本、靈活性差、信息滯后等問題,急需尋求一種替代方案。在這一背景下,語音合成技術(shù)獲得飛速發(fā)展及大規(guī)模產(chǎn)業(yè)應用,在這一時期,國內(nèi)以捷通華聲為代表的高新技術(shù)企業(yè)迅速切入市場,在金融、電信、能源、交通等行業(yè)的呼叫中心中使語音合成技術(shù)形成商品化的全面應用。

  良好的客服播報聲音是獲得用戶好感的首要因素,當你在撥通客服電話時卻不會感覺到電話那端是機器合成的播報聲音,這就是靈云語音合成的精彩之處。歷經(jīng)十幾年的發(fā)展,捷通華聲的“靈云TTS”已經(jīng)發(fā)展到支持英、法、德、俄等十三種世界語言。在建設銀行中,靈云粵語、英語、韓語等多語種語音合成技術(shù)在流暢地為用戶服務,而國家電網(wǎng)電話端的語音播報則全程通過靈云語音合成來完成。新版靈云語音合成平臺將把朗讀能力進一步強化,在具備近似真人發(fā)聲的基礎上,配合呼叫中心進行多元化發(fā)展,適應呼叫中心多方面的業(yè)務需求。作為呼叫中心最基礎、最重要的技術(shù),語音合成在未來依然能與時俱進,發(fā)揮其中流砥柱的作用。

  智能語音交互:呼叫中心的前景與未來

  語音合成雖然發(fā)展得比較成熟,但語音對話是一個來往通信的過程,單一的技術(shù)無法形成環(huán)路,也滿足不了日益發(fā)展的呼叫中心的需要。于是,語音技術(shù)開始由“說”向“聽”發(fā)展,作為實現(xiàn)人機語音交互的另一種重要支撐--語音識別開始從實驗室走向前臺。在清華大學科研力量的幫助下,捷通華聲的語音識別已取得了突破性的進展,新版靈云語音識別和語音合成組成的“雙能力平臺”將為國內(nèi)呼叫中心提供更全面的智能語音解決方案。

  系統(tǒng)集成商及軟件企業(yè)可以在客服質(zhì)檢、IVR導航等系統(tǒng)中將語音合成、語音識別等技術(shù)自由組合應用,在語音質(zhì)檢中,企業(yè)可以通過靈云語音識別平臺實現(xiàn)客戶和客服的話者分離,同時把語音轉(zhuǎn)寫成文本,再通過自然語言理解對海量語音的內(nèi)容進行全方位的深入分析,利用數(shù)據(jù)分析手段達到完善客服質(zhì)量、分析輿情走向、提升用戶體驗、增強業(yè)務拓展成功性等目的。而在IVR導航中則是用語音合成、語音識別形成一個穿針引線的過程,一方面讓用戶在流暢自然的播報中獲得良好的聽覺體驗,一方面還可以通過自助語音服務快速獲取所需要的內(nèi)容,節(jié)省了企業(yè)大量的成本,提高企業(yè)和用戶雙方的溝通效率。捷通華聲通過多項智能語音技術(shù)為呼叫中心開拓了全新的發(fā)展思路,企業(yè)可以將多項技術(shù)結(jié)合,全面提升呼叫中心智能化水平,為業(yè)務部門決策、流程制定提供更加有效的支撐。

  未來發(fā)展,捷通華聲將聯(lián)合清華大學科研力量,更加專注智能語音等HCI技術(shù)研究與產(chǎn)業(yè)化應用,堅持秉承“合作共贏”的理念,不斷為產(chǎn)業(yè)界提供最先進的智能語音交互技術(shù)。

消息來源:CTI論壇