彭派新聞首席記者何麗萍

阿爾法狗(AlphaGo)贏得了人類世界圍棋冠軍,Alphafold(Alphafold)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確性和人類實(shí)驗(yàn)結(jié)果接近,語音合成算法WaveNet幫助“冰凍人”重現(xiàn)更自然的聲音,甚至用AI控制核聚變反應(yīng)。全世界最受關(guān)注的人工智能公司DeepMind創(chuàng)立至今已有10多年,并試圖用人工智能技術(shù)來解決。

他們最新瞄準(zhǔn)的是那些有著數(shù)千年歷史的殘缺銘文。歷史學(xué)家們依靠不同的來源重建過往文明的思想、社會(huì)和歷史,他們的資料大多基于本文,或?qū)懺诰磔S上,或刻在石頭上。銘文就在其中。

“一切都始于與Thea Sommerschield博士討論歷史學(xué)家最具挑戰(zhàn)性的任務(wù)時(shí)的一次談話,我們立刻看到了人工智能和歷史研究之間的合作潛力?!盌eepMind的希臘人工智能研究科學(xué)家Yannis Assael博士和Sommerschield在接受澎湃新聞(www.)記者采訪時(shí)如是談起他們這項(xiàng)最新興趣的起點(diǎn)。Sommerschield系意大利威尼斯大學(xué)人文系瑪麗·居里研究員。

Yannis Assael博士(左)和Thea Sommerschield博士。

北京時(shí)間3月10日凌晨,國際頂級(jí)學(xué)術(shù)期刊《自然》(Nature)在線發(fā)表了Assael和Sommerschield作為共同通訊作者的一項(xiàng)新研究,題為“使用深度神經(jīng)網(wǎng)絡(luò)復(fù)原和歸因古代文本”( Restoring and attributing ancient texts using deep neural networks)。研究團(tuán)隊(duì)訓(xùn)練了一種深度神經(jīng)網(wǎng)絡(luò),名為伊薩卡(Ithaca)。

伊薩卡是以荷馬史詩《奧德賽》中的希臘島嶼伊薩卡命名,是古希臘神話英雄奧德修斯的故鄉(xiāng)?!拔覀冮_發(fā)的伊薩卡是第一個(gè)可以復(fù)原受損銘文的缺失文本、識(shí)別銘文原始位置、確定創(chuàng)建日期的深度神經(jīng)網(wǎng)絡(luò)?!?/p>

評(píng)估顯示,伊薩卡單獨(dú)使用于復(fù)原受損希臘銘文文本時(shí)可達(dá)到62%的準(zhǔn)確率,在歷史學(xué)家使用時(shí)可達(dá)72%的準(zhǔn)確度。而且,伊薩卡還能協(xié)助確定銘文的書寫位置和時(shí)間。在實(shí)驗(yàn)中,它能以71%的準(zhǔn)確度判斷這些銘文的原始位置,鑒定年代與歷史學(xué)家提出的范圍相差少于30年。

研究團(tuán)隊(duì)認(rèn)為,這些發(fā)現(xiàn)或可釋放人工智能與歷史學(xué)家的合作潛力,并改進(jìn)我們對(duì)人類歷史的理解?!拔覀兇_實(shí)看到了文化和人文領(lǐng)域人工智能跨學(xué)科研究的巨大潛力?!盇ssael強(qiáng)調(diào)。

復(fù)原損壞的銘文。這一銘文記錄了一項(xiàng)關(guān)于雅典衛(wèi)城的法令。

深度神經(jīng)網(wǎng)絡(luò)“伊薩卡”

這項(xiàng)研究由DeepMind、威尼斯大學(xué)人文系、牛津大學(xué)古典學(xué)院以及雅典經(jīng)濟(jì)與商業(yè)大學(xué)信息學(xué)系聯(lián)合完成。

Assael在希臘馬其頓大學(xué)獲得應(yīng)用信息學(xué)文憑后,相繼在牛津大學(xué)、帝國理工學(xué)院學(xué)習(xí),最終于2019年在牛津大學(xué)獲得機(jī)器學(xué)習(xí)博士。而實(shí)際上,其從2007年起就開始成為了自由開發(fā)者,彼時(shí)尚在念高中。其間還創(chuàng)立了AccuInstruments、LipNet Artificial Intelligence等公司。直至2017年,其加入DeepMind。Assael還曾登上2021福布斯歐洲地區(qū)“30歲以下30位精英”榜單。

Sommerschieldze則是研究古希臘和古羅馬文字的歷史學(xué)家和銘文學(xué)家。其將機(jī)器學(xué)習(xí)應(yīng)用于研究古地中海的書寫文化,她還研究古代和古典西西里島的社會(huì)和文化歷史。其現(xiàn)為威尼斯大學(xué)的瑪麗·居里研究員,同時(shí)借調(diào)在DeepMind,她也是哈佛大學(xué)希臘研究中心的研究人員。

DeepMind在一份新聞稿中寫道,人類文字的誕生標(biāo)志著歷史的開端,對(duì)我們理解過去的文明和今天生活的世界至關(guān)重要。例如,2500多年前,希臘人開始在石頭、陶器和金屬上書寫,記錄從租約、法律到日歷和預(yù)言的一切,讓人們對(duì)地中海地區(qū)有了詳細(xì)的了解。

然而,Assael等人意識(shí)到一個(gè)問題,這些記錄通常都是不完整的。許多幸存下來的銘文在幾個(gè)世紀(jì)的時(shí)間里遭到了破壞,或者從原來的位置被移走或者販運(yùn)。此外,現(xiàn)代年代測(cè)定技術(shù),如放射性碳年代測(cè)定法,無法在這些材料上使用。而傳統(tǒng)的銘文學(xué)方法涉及到高度復(fù)雜、耗時(shí)和專業(yè)的工作流程,這使得解讀銘文既困難又費(fèi)時(shí)。

Assael對(duì)澎湃新聞?dòng)浾弑硎荆趯⑷斯ぶ悄芮腥氲姐懳膹?fù)原中,他們的工作涉及三項(xiàng)主要的任務(wù),“文本復(fù)原、確定原始的地理位置,以及追溯至銘文書寫的時(shí)間?!?/p>

他們?cè)谡撐闹幸仓赋?,受生物神?jīng)網(wǎng)絡(luò)的啟發(fā),深度神經(jīng)網(wǎng)絡(luò)可以發(fā)現(xiàn)和利用大量數(shù)據(jù)中復(fù)雜的統(tǒng)計(jì)模式。而近年來計(jì)算能力的提高,使這些模型能夠應(yīng)對(duì)包括古代語言研究在內(nèi)的許多領(lǐng)域中日益復(fù)雜的挑戰(zhàn)。

Assael將目標(biāo)旨在完成上述三項(xiàng)任務(wù)的深度神經(jīng)網(wǎng)絡(luò)命名為伊薩卡(Ithaca),該工作始于2019年?!耙了_卡接受了近8萬份由帕卡德人文學(xué)院(PHI,一個(gè)非營利性基金會(huì))提供的希臘銘文數(shù)字?jǐn)?shù)據(jù)集的培訓(xùn),它的架構(gòu)旨在捕捉上下文并有效地處理受損的單詞,同時(shí)它還可以并行地“注意”輸入的不同部分?!彼硎尽?/p>

這些希臘銘文的時(shí)間跨度在公元前7世紀(jì)至公元5世紀(jì),并橫跨古地中海世界。論文中對(duì)這些銘文的選擇做出2點(diǎn)解釋,“首先,希臘銘文記錄的內(nèi)容和語境的多樣性,對(duì)語言處理構(gòu)成了極大的挑戰(zhàn);其次,古希臘數(shù)字化語料庫的可用性,這是訓(xùn)練機(jī)器學(xué)習(xí)模型的重要資源?!?/p>

Assael提到,伊薩卡是一種基于Transformer的人工神經(jīng)網(wǎng)絡(luò),它使用注意力機(jī)制來衡量輸入的不同部分對(duì)模型決策過程的影響。相比于循環(huán)神經(jīng)網(wǎng)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等,Transformer是一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其僅基于注意力機(jī)制,拋棄了傳統(tǒng)的循環(huán)或卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

研究團(tuán)隊(duì)提到,自然語言處理模型通常使用單詞進(jìn)行訓(xùn)練,因?yàn)樗鼈冊(cè)诰渥又谐霈F(xiàn)的順序和它們之間的關(guān)系提供了額外的上下文和含義。例如,“once upon a time”比單獨(dú)看到的每個(gè)字符或單詞有更多的含義。然而在這項(xiàng)研究中的挑戰(zhàn)是,這些銘文都已損壞,而且經(jīng)常丟失文本塊。

“為了確保模型在使用部分字符時(shí)仍能正常工作,我們既使用單詞也使用單個(gè)字符輸入來訓(xùn)練它?!彼麄兲岬?,模型核心的注意力機(jī)制并行地評(píng)估這兩種輸入,允許伊薩卡根據(jù)需要評(píng)估銘文。

此外,為了最大化伊薩卡作為研究工具的價(jià)值,研究團(tuán)隊(duì)還開發(fā)了一些視覺輔助工具,以確保歷史學(xué)家能夠輕松地解釋伊薩卡的結(jié)果。

伊薩卡處理δη?μο το αθηναι?ων’ (the people of Athens)的過程。該短語的前三個(gè)字符被隱藏,最終提出了修復(fù)建議。同時(shí),伊薩卡還預(yù)測(cè)了銘文的地區(qū)和日期。

希臘銘文復(fù)原僅有助于理解全球文明圖景的一部分

Assael對(duì)澎湃新聞?dòng)浾弑硎荆了_卡的目標(biāo)是提高我們對(duì)古代史的理解,并為歷史學(xué)家提供一個(gè)方便的工具來幫助他們的研究。

“出于這個(gè)原因,為了讓歷史學(xué)家能夠解釋伊薩卡,我們創(chuàng)造了大量的可視化圖像來呈現(xiàn)所有的伊薩卡推測(cè)。這些可視化技術(shù)允許專家們使用他們的背景知識(shí)來選擇最合適的輸出,并可能對(duì)未探索的歷史見解有所啟發(fā)?!彼M(jìn)一步提到。

論文中詳細(xì)提到,對(duì)于復(fù)原任務(wù),伊薩卡并不是提供單一的假設(shè),而是提供了一組根據(jù)概率排序的前20個(gè)解碼預(yù)測(cè)。在確定地理任務(wù)方面,伊薩卡在84個(gè)區(qū)域中對(duì)輸入文本進(jìn)行分類,并通過地圖和條形圖可視化地實(shí)現(xiàn)可能區(qū)域預(yù)測(cè)的排名列表。

在年代方面,為增加可解釋性,伊薩卡也不是輸出一個(gè)單一的時(shí)間,而是預(yù)測(cè)時(shí)間的分類分布。更準(zhǔn)確地說,伊薩卡將公元前800年至公元800年之間的所有時(shí)間處理為,取每10年為一個(gè)跨度,也就是說有160個(gè)10年。例如,如果日期范圍在公元前300至公元前250年間,也就是5個(gè)10年,每一個(gè)概率分別為20%;而日期如果在公元前305年,則將以100%的概率指定為出自公元前300至公元前310年。

評(píng)估顯示,在復(fù)原文本方面,伊薩卡始終優(yōu)于其他競(jìng)爭(zhēng)方法,字符錯(cuò)誤率(CER)為26.3%,top 1準(zhǔn)確率為61.8%。對(duì)復(fù)原銘文文本和確定原始的地理位置方面,研究團(tuán)隊(duì)還引用top-k準(zhǔn)確率來衡量,即正確的復(fù)原或地理位置是否在前k項(xiàng)預(yù)測(cè)中。

具體來說,與人類歷史學(xué)家相比,伊薩卡實(shí)現(xiàn)了更低的字符錯(cuò)誤率(CER),人類歷史學(xué)家該項(xiàng)分?jǐn)?shù)為59.6%。另外,與研究團(tuán)隊(duì)此前開發(fā)的專注于文本復(fù)原的皮提亞(Pythia)相比,表現(xiàn)也更為優(yōu)秀。皮提亞名字取自希臘神殿德爾斐中為阿波羅神傳達(dá)神諭的女祭司。在文本復(fù)原方面,皮提亞皮的字符錯(cuò)誤率(CER)為47.0%,雖然高于伊薩卡,但也高于人類歷史學(xué)家。

值得注意的是,當(dāng)人類歷史學(xué)家與伊薩卡合作時(shí),歷史學(xué)家的字符錯(cuò)誤率(CER)大幅降低到18.3%,top 1準(zhǔn)確率則從25.3%大幅提升至71.7%。

在地理定位方面,伊薩卡top 1預(yù)測(cè)準(zhǔn)確率為70.8%,top 3預(yù)測(cè)準(zhǔn)確率為82.1%。對(duì)于年代追溯,伊薩卡與歷史學(xué)家提出的范圍相差少于30年。

“值得注意的是,在我們的評(píng)估過程中,我們看到了多個(gè)伊薩卡與歷史學(xué)家共識(shí)一致的例子?!盇ssael舉例談到,他們看到了伊薩卡如何將雅典的一篇提到尼基亞斯(Nikias)將軍的銘文追溯到公元前413年,“這與歷史學(xué)家提出的范圍完全吻合?!?/p>

他補(bǔ)充到,“在進(jìn)一步研究中,我們將伊薩卡的關(guān)注重點(diǎn)可視化,看看哪些部分的輸入對(duì)這一預(yù)測(cè)貢獻(xiàn)最大。我們看到的是個(gè)人姓名(Νικ?α?,“Nikias”)和希臘指揮官的軍銜(στρατεγο??,“generals”)。尼基亞斯在雅典遠(yuǎn)征西西里島的過程中扮演了關(guān)鍵的角色,而這篇銘文也與這一歷史事件有關(guān)。

論文中也提到了另一案例來展示伊薩卡的潛力。研究團(tuán)隊(duì)注意到,目前歷史學(xué)家對(duì)雅典頒布的一系列重要法令的日期存在分歧,這些法令是在蘇格拉底和伯里克利等著名人物在世的時(shí)期頒布的。長期以來,這些法令被認(rèn)為是在公元前446/445年之前寫的。然而,也有新的證據(jù)表明,更有可能是公元前420年。

他們認(rèn)為,雖然看起來差別不大,但這些法令對(duì)我們理解古代雅典的政治史是至關(guān)重要的。值得關(guān)注的是,伊薩卡對(duì)這些法令的平均預(yù)測(cè)日期是公元前421年,這與最新的推測(cè)日期幾乎一致。

“雅典帝國主義是希臘歷史上最重要的時(shí)刻之一。在任何情形下,伊薩卡對(duì)這組銘文的預(yù)測(cè)都不會(huì)超過公元前433年,平均預(yù)測(cè)日期是公元前421年?!毖芯繄F(tuán)隊(duì)認(rèn)為,歷史學(xué)家現(xiàn)在可以使用伊薩卡的可解釋性工具來進(jìn)一步研究這些預(yù)測(cè),并使雅典的歷史更加清晰。

Assael同時(shí)強(qiáng)調(diào),模型改進(jìn)的空間總是存在的?!疤貏e是隨著新銘文的發(fā)現(xiàn),將會(huì)為這類文本進(jìn)一步增加數(shù)字文本存儲(chǔ)庫?!?/p>

值得一提的是,Assael認(rèn)為,伊薩卡很容易適用于任何古代語言,而盡管古希臘在我們理解地中海世界的過程中發(fā)揮了重要作用,但它仍只是全球文明圖景的一部分。“從拉丁語到瑪雅語,以及任何書寫媒介,從莎草紙到手稿,我們真的很高興看到伊薩卡將用于更多新的方向?!?/p>

此外,研究團(tuán)隊(duì)在論文最后還指出,他們創(chuàng)建了一個(gè)開源和公開可用的接口(https://ithaca.deepmind.com),便于歷史學(xué)家能夠使用伊薩進(jìn)行個(gè)人研究,同時(shí)促進(jìn)進(jìn)一步應(yīng)用的開發(fā)。

“我們確實(shí)看到了文化和人文領(lǐng)域人工智能跨學(xué)科研究的巨大潛力?!盇ssael表示,目前僅僅是伊薩卡這樣的工具的開始,機(jī)器學(xué)習(xí)和人文學(xué)科之間合作的潛力也剛剛展示出來。

責(zé)任編輯:李躍群

校對(duì):欒夢(mèng)

1.《關(guān)于超級(jí)瑪麗84怎么過技巧,你需要知道這些專訪DeepMind團(tuán)隊(duì):“伊薩卡”復(fù)原希臘銘文只是開始》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁腳下方聯(lián)系方式。

2.《關(guān)于超級(jí)瑪麗84怎么過技巧,你需要知道這些專訪DeepMind團(tuán)隊(duì):“伊薩卡”復(fù)原希臘銘文只是開始》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/gl/3339922.html