一種新的人工智能工具可以改變你聲音的風(fēng)格和音色,隱藏你的聲音身份。

據(jù)悉,借助一個名為“Koe Recast”的新 AI 工具的網(wǎng)絡(luò)演示,你可以將長達 20 秒的聲音轉(zhuǎn)換成不同的風(fēng)格,包括動漫角色、深沉的男性敘述者、ASMR 耳語等等。這是對目前正在進行個人內(nèi)部測試的潛在商業(yè)產(chǎn)品的一次令人大開眼界的預(yù)覽。

Koe Recast 最近由德克薩斯州的開發(fā)商 Asara Near 推出。Asara Near正在獨立開發(fā)一款桌面應(yīng)用程序,目的是讓人們通過 Zoom 和 Discord 等其他應(yīng)用程序,實時改變自己的聲音。Asara Near 表示:“我的目標是幫助人們以任何讓他們更快樂的方式表達自己。”

Koe 網(wǎng)站上提供了幾個演示,展示了馬克·扎克伯格(Mark Zuckerberg)用女性聲音、低沉的男性旁白聲音和高音調(diào)的動漫聲音談?wù)撛鰪姮F(xiàn)實的剪輯片段,所有這些都由 Recast 提供支持。

這種逼真的人工智能語音轉(zhuǎn)換技術(shù)并不新鮮。谷歌在2018年用類似的技術(shù)引起了轟動,知名人士的音頻深度造假已經(jīng)引起了幾年的爭議。但是,在一家由一個人資助的獨立初創(chuàng)公司中看到這種能力,表明了人工智能語音合成技術(shù)已經(jīng)走了多遠,或許也暗示了通過低成本或開源發(fā)布,語音轉(zhuǎn)換技術(shù)距離廣泛采用和推廣有多近。

但是,關(guān)于 Recast 的語音轉(zhuǎn)換背后是哪種特定類型的人工智能,Asara Near 保留了細節(jié)。但他簡單概括了它的工作原理,“我們能夠在我們創(chuàng)造的嵌入空間中深入并改變聲音的特征。因此,我們的目標是修改音頻中與說話者個人風(fēng)格或音色相對應(yīng)的部分,同時保留與說話內(nèi)容相對應(yīng)的部分,如韻律和單詞。這讓我們能夠?qū)⒛橙说穆曇麸L(fēng)格改變?yōu)槿魏纹渌L(fēng)格,包括他們感知的性別、年齡、種族等。”

目前,Recast 支持10種不同的聲音,更多的正在進行中。Asara Near說:“目前還沒有決定我們是否會提供名人或其他知名人士的現(xiàn)有聲音?!?/p>

然而,提供名人聲音(或模仿在世的非名人聲音)可能會引發(fā)倫理和法律問題。當(dāng)被問及 Recast 可能被濫用的問題時,Asara Near回答說:“就像任何技術(shù)一樣,它可能既有積極的一面,也有消極的一面,但我認為絕大多數(shù)人類都是由優(yōu)秀的人組成的,他們將會從中受益?!?Near還指出,Recast 包含了一項服務(wù)條款政策,禁止非法和仇恨的使用。

關(guān)于發(fā)行時間表,Asara Near 正在追求商業(yè)選擇,但不排除開源發(fā)行,這可能會產(chǎn)生類似于穩(wěn)定擴散的影響,將逼真的音頻深度偽造技術(shù)放到許多人手中而不受嚴格限制。 “我們正在探索一些貨幣化策略,”Asara Near 說。 “如果我心目中的盈利模式行不通,開源這項技術(shù)可能是未來的一種選擇?!?/p>

隨著深度學(xué)習(xí)技術(shù)繼續(xù)剝離20世紀媒體作為對現(xiàn)實的固定和準確記錄的概念(或者有人可能會說是“幻覺”),我們正在展望未來。在不久的將來,一個活生生的人的聲音的數(shù)字表示,就像圖像和視頻一樣,將是一個你不能只看表面價值的東西,除非你對來源有很大的信任。因此,這項技術(shù)的發(fā)展勢必伴隨著各種爭論,但技術(shù)的發(fā)展是不會止步不前,我們只能期待法律和監(jiān)管也能盡快適應(yīng)時代的發(fā)展。


如果朋友們喜歡,敬請關(guān)注“知新了了”!

1.《如何改變自己的聲音、怎么讓聲音變溫柔又干凈》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《如何改變自己的聲音、怎么讓聲音變溫柔又干凈》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/keji/3208653.html