Skype前幾天推出了實(shí)時(shí)語(yǔ)音翻譯的預(yù)覽版,讓用戶可以跨越語(yǔ)言的障礙暢快交流。今天我們就來(lái)聊聊微軟是如何做到這一點(diǎn)的。
Skype的翻譯系統(tǒng)主要分三步:首先,把你的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換成文字;然后,再把文字翻譯成另一種語(yǔ)言的文字;最后,把文字轉(zhuǎn)換成語(yǔ)音。其中,識(shí)別實(shí)時(shí)語(yǔ)音并轉(zhuǎn)換成文字一直是最棘手的部分。
圖像處理和語(yǔ)音識(shí)別是深度學(xué)習(xí)發(fā)展的兩個(gè)主要方向。近幾年來(lái),由于深度學(xué)習(xí)的進(jìn)步,語(yǔ)音識(shí)別依靠深度神經(jīng)網(wǎng)絡(luò)(deep neural networks)也取得了不少進(jìn)展。神經(jīng)網(wǎng)絡(luò)在八十年代就已出現(xiàn),但真正開(kāi)始煥發(fā)光芒是在2012年,Google讓計(jì)算機(jī)能夠“自我修養(yǎng)”——在一堆視頻里自主學(xué)習(xí)并總結(jié)出貓的概念。
微軟研究員John Platt在接收wired采訪時(shí)曾表示,微軟其實(shí)很早之前就開(kāi)始利用神經(jīng)網(wǎng)絡(luò)改善平板電腦的手寫(xiě)識(shí)別精確度了。而Skype實(shí)時(shí)語(yǔ)音翻譯系統(tǒng)真正的突破在于識(shí)別不同用戶間的不同語(yǔ)言不同口音的說(shuō)話方式。
這一突破發(fā)生在2009年的圣誕節(jié),當(dāng)時(shí)微軟在英國(guó)哥倫比亞贊助了一個(gè)小型研討會(huì),來(lái)自多倫多大學(xué)的演講嘉賓Geoff Hinton介紹了自己研究的一種模仿腦神經(jīng)工作原理的機(jī)器學(xué)習(xí)模型,這一模型依靠多層次的人工神經(jīng)元,讓機(jī)器逐漸理解更加復(fù)雜的概念。微軟聽(tīng)完介紹后,隨即砸下一筆巨款,讓Hinton的模型可以利用最新的圖形處理器單元進(jìn)行測(cè)試。測(cè)試的結(jié)果很棒,語(yǔ)音識(shí)別的精確度提升了25%。
Skype的機(jī)器學(xué)習(xí)原型通過(guò)預(yù)覽階段的大量數(shù)據(jù)進(jìn)行訓(xùn)練,并優(yōu)化語(yǔ)音識(shí)別(SR)和自動(dòng)化機(jī)器翻譯(MT)任務(wù),這些優(yōu)化包括去除語(yǔ)句中的不流利成分(比如“ahs”、“umms”和重復(fù)性的語(yǔ)言)、把文本分段成句子、增加標(biāo)點(diǎn)符號(hào)、文本的大小寫(xiě)等等。
其中,語(yǔ)音識(shí)別和機(jī)器翻譯的訓(xùn)練集數(shù)據(jù)主要有多個(gè)來(lái)源,包括已翻譯的網(wǎng)頁(yè)、帶字幕的視頻、翻譯轉(zhuǎn)錄的一對(duì)一對(duì)話內(nèi)容等。此外,很多志愿者向微軟貢獻(xiàn)出的語(yǔ)音對(duì)話也是一個(gè)非常重要的訓(xùn)練集數(shù)據(jù)來(lái)源。同時(shí),Skype的翻譯系統(tǒng)還會(huì)記錄用戶的對(duì)話內(nèi)容,實(shí)現(xiàn)二次利用,以進(jìn)行數(shù)據(jù)分析,加以學(xué)習(xí)。
在數(shù)據(jù)進(jìn)入系統(tǒng)之后,機(jī)器學(xué)習(xí)軟件會(huì)為對(duì)話中的單詞建立統(tǒng)計(jì)模型,當(dāng)你說(shuō)到某一個(gè)東西時(shí),系統(tǒng)會(huì)在統(tǒng)計(jì)模型里尋找類似的單詞,并響應(yīng)之前做過(guò)的類似的翻譯。實(shí)時(shí)語(yǔ)音翻譯對(duì)用戶對(duì)話的環(huán)境很敏感,稍有噪音干擾可能準(zhǔn)確度就會(huì)降低很多。這一方面,深度神經(jīng)網(wǎng)絡(luò)有效的減少識(shí)別錯(cuò)誤率,改善了系統(tǒng)的健壯性,讓實(shí)時(shí)翻譯能夠有更大的應(yīng)用范圍。
至于不同語(yǔ)言的文本翻譯,Skype利用的則是和Bing翻譯一樣的引擎技術(shù):語(yǔ)法和統(tǒng)計(jì)模型的結(jié)合使用,同時(shí)為特定語(yǔ)言進(jìn)行特殊的訓(xùn)練。普通的文本翻譯往往要求使用規(guī)范正確的書(shū)面語(yǔ)言,而Skype翻譯系統(tǒng)不僅包括Bing翻譯的引擎技術(shù),還額外增加了一層口語(yǔ)化的語(yǔ)言業(yè)務(wù)。
此外,Skype還建立了一套自定義的串連整個(gè)流程的架構(gòu),以協(xié)調(diào)系統(tǒng)里多個(gè)部分間的運(yùn)作。如何簡(jiǎn)單又高效的運(yùn)作整個(gè)系統(tǒng),也是一門不小的學(xué)問(wèn)。
Skype的實(shí)時(shí)語(yǔ)音翻譯系統(tǒng)還面臨著很多挑戰(zhàn),比如語(yǔ)言的變化的速度很快,每個(gè)人說(shuō)話的方式又很獨(dú)特,這些都會(huì)為實(shí)時(shí)翻譯造成不少的麻煩。微軟研究院總監(jiān)Vikram Dendi說(shuō),截止到星期一,總共已經(jīng)有5萬(wàn)個(gè)用戶注冊(cè)了預(yù)覽版Skype翻譯,而一天后,這個(gè)數(shù)字變成了兩倍。對(duì)于這一種可能會(huì)真正改變?nèi)藗兘涣鞣绞降目萍籍a(chǎn)品,越來(lái)越多的人為之感到激動(dòng)。
[本文參考以下來(lái)源:blogs.skype.com, wired.com]
1.《語(yǔ)音同聲翻譯 Skype的實(shí)時(shí)語(yǔ)音翻譯如何做到同傳的精準(zhǔn)?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無(wú)關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。
2.《語(yǔ)音同聲翻譯 Skype的實(shí)時(shí)語(yǔ)音翻譯如何做到同傳的精準(zhǔn)?》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址,http://f99ss.com/keji/481951.html