從XP時代開始,我就想象用語音換文字。此后,手機提前實現(xiàn)了該功能,但電腦端語音輸入沒有進展。

為了能在 PC 上用語音打字,我從 2013 折騰到 2022,經(jīng)歷了各種硬件和軟件,終于找到最適合 PC 端的語音輸入方案。

訊飛 + 小麥克風(fēng)

2013 年,訊飛推出 PC 版輸入法。我以為 PC 語音輸入的時代已經(jīng)來臨,買了個十幾塊的小麥克風(fēng),嘗試語音轉(zhuǎn)文字。

可測試結(jié)果卻讓人大跌眼鏡,語音識別準(zhǔn)確率異常的低。即便我把麥放在嘴邊,依然無法錄清楚,超過 80% 內(nèi)容識別錯誤。

過低的識別率,讓我懷疑是麥克風(fēng)的收音出了問題,要想語音打字就需要換個好點的話筒。但囊中羞澀,只能暫停嘗試。

訊飛 + Blue Yeti

過了幾年,經(jīng)濟寬裕點后,下單網(wǎng)紅錄音話筒 Blue Yeti,幻想著 4 位數(shù)的話筒能帶來完美的收音識別效果。

但事實卻是再度被打擊。

對 Blue Yeti 的收音測試中,再次發(fā)現(xiàn)大量雜音,收貨當(dāng)天就直接退貨。

十幾元的麥克風(fēng)和一千元的話筒收音效果差不多,語音輸入的識別率也都超低。這讓我猜測,語音輸入識別率低與硬件無關(guān),而是 PC 端的語音輸入方案尚未成熟,是軟件方面導(dǎo)致的問題。

就這樣,我再次暫停了 PC 上的語音輸入嘗試。

外置聲卡 + 動圈話筒

之后,用了 5 年的音箱出現(xiàn)問題,我升級了音響,并順勢添置了外置聲卡,視聽體驗大幅提升。玩著玩著,突然想起我的語音輸入夢,決定再嘗試一次。

有了外置聲卡,麥克風(fēng)的選擇多了許多,可以連接卡儂線接口的話筒了。

麥克風(fēng)分為兩類:電容麥、動圈麥。

電容麥?zhǔn)找艉?,但比較嬌貴,怕潮怕摔,不能用桌面話筒架,適合用懸臂掛在空中,每次用完之后需要收起來。動圈麥的靈敏度和還原度都低于電容麥,存放和使用沒什么要求,費用也會低些。

電容麥克風(fēng)太麻煩,就選了簡單的動圈麥 - 舒伯樂 PRO248S。

選好話筒后,又配了麥克風(fēng)支架和卡儂線,連上原本的外置聲卡,搞定語音輸出的硬件配置。

輸入法之爭

音頻硬件搞定后,開始折騰語音輸入法。

雖然訊飛在語音輸入領(lǐng)域的牌子最響,但是訊飛 PC 輸入法并不受重視,長年不更新。所以,我嘗試了其他輸入法的語音功能。測試中,搜狗的語音識別功能并不比訊飛弱,缺點也只有無法設(shè)置語音輸入快捷鍵,整體體驗上佳。于是,語音輸入法切換成了搜狗。

然而,有次備份系統(tǒng)設(shè)置,我發(fā)現(xiàn)搜狗詞庫高達 27 萬條,其中 99% 的內(nèi)容是垃圾詞條,即使偶爾輸入過一次的內(nèi)容也被輸入法記錄。更可怕的是,這次詞庫無法從云端刪除,只要你輸入過一次,搜狗就永遠記住了。

這哪里是輸入法,根本是鍵盤記錄器。

國內(nèi)其他輸入法在這點上也都半斤八兩,為了不被鍵盤記錄器惦記,我只能切換為開源的小狼毫輸入法。

語音輸入則轉(zhuǎn)用開源的Quick Cut,使用阿里云、騰訊云的商用語音接口,識別率比免費的搜狗和訊飛都高。

Quick Cut 的缺點:語音輸入時,要一直按大寫鍵,不適合長語音錄入;觸發(fā)鍵無法更改,大寫鍵與我的常用腳本沖突了。因此,長時間的語音輸入只能借助手機上的飛書妙記來完成轉(zhuǎn)錄。

最終方案:微軟語音輸入

面對 Quick Cut 的長語音輸入難題時,@李樂 推薦了微軟語音輸入-使用語音鍵入來說話,而不是在電腦上鍵入。

微軟自帶的語音輸入,快捷鍵 Win + H。3 塊錢的麥克風(fēng),距離 50 厘米,很低的聲音讀出來了。

測試后,發(fā)現(xiàn)微軟語音輸入確實是好用,甚至好用到有點恐怖。測試中,我臨時有事,走到另外一個房間和家人說話,回來后發(fā)現(xiàn)剛剛的對話也被微軟語音輸入正確識別。

微軟語音輸入非常敏感,距離遠、聲音低也能識別。這樣我不用為語音輸入而特意移動話筒,可以繼續(xù)把話筒放在不遮擋視野的遠角。

「語音鍵入功能在此應(yīng)用上受限制」在 Notepad++ 和微信都出現(xiàn)了,Visual Studio Code 沒出現(xiàn),但實際上這提示對語音輸入并沒造成影響,平??梢院雎赃@個提示。

雖然微軟語音輸入的識別率只有 85%,不如阿里云方案的 95%,可系統(tǒng)自帶的優(yōu)勢太明顯,微軟語音輸入體驗感非常順滑。

啟動快捷鍵Win + H,語音識別立即會啟動。如果中途沒說話,應(yīng)用會自動暫停,并對前面的輸入進行整理,插入合適的標(biāo)點符號。停止超過一分鐘,語音識別才會暫停,等待再次啟動。換言之,微軟語音輸入能一鍵完成長語音錄入。

之前的麥克風(fēng)放著放著就壞了,所以我沒測 @李樂 說的低價麥克風(fēng)的語音輸入效果。不過,微軟輸入的軟件優(yōu)化非常好,按照目前效果推測,用便宜的麥克風(fēng)也能實現(xiàn)完美的收音效果。綜合來說,微軟語音輸入是當(dāng)前最完美也是兼容性最高的語音輸入方案。

總結(jié)與展望

語音輸入的 3 種方案:

  • 文章輸入:微軟語音輸入 + 外置聲卡 + 動圈話筒,兼容性最高,使用方便,但精度一般,用于文章草稿階段。
  • 一句話輸入:Quick Cut + 外置聲卡 + 動圈話筒,一句話識別精度最高,適合聊天時使用。
  • 語音轉(zhuǎn)錄:飛書妙記 + 手機,錄音轉(zhuǎn)文字,長語音的識別率超高。

與 2018 年相比,2022 年的語音輸入方案已經(jīng)完善了許多。硬件已經(jīng)不再是問題了,便宜的話筒也能達到語音輸入標(biāo)準(zhǔn)。語音識別進步明顯,在 AI 技術(shù)的加持下,短句識別率從 90% 上升到 95%,長句識別率則從 50% 上升到 70%,標(biāo)點符號均能正確插入。

目前語音輸入算法在提升最后 10% 的準(zhǔn)確率,期待早日達到「口述與鍵盤輸入完全一致」的一天。

1.《等了十年,PC 端能用的語音輸入方案來了》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《等了十年,PC 端能用的語音輸入方案來了》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/gl/3008222.html