據(jù)雷鋒網(wǎng)AI科技評論消息,百度硅谷AI研究所最近推出了一篇姜文,文章中提出了一種名為GNR(Globally Normalized Reader)的方法。
據(jù)雷鋒網(wǎng)了解,該方法相比起之前的方法,其優(yōu)勢在于能夠在保持問答抽?。‥xtractive question answering)任務(wù)性能不變的前提下,大大降低計算復(fù)雜度。當(dāng)前許多的流行的模型,比如說雙向注意流(Bi-Directional Attention Flow),都采用了代價昂貴的注意力機制和其它的諸如Match-LSTM來明確得到所有候選答案。相比之下,GNR將問答過程轉(zhuǎn)化成檢索問題,然后通過一個學(xué)習(xí)搜索框架(Learning to search framework)來解決該檢索問題。通過在斯坦福的SQAD數(shù)據(jù)集上進行測試,最終結(jié)果表明,GNR模型比雙向注意流快出了24.7倍,并且取得了模型排名第二的好成績。當(dāng)前所有最新的基于神經(jīng)網(wǎng)絡(luò)的問答系統(tǒng)總是避免不了過擬合問題。為了解決這一問題,研究員們同時還提出了類型交換(Type Swaps)技術(shù),這是在神經(jīng)問答(Neural question answering)研究領(lǐng)域中第一個取得成功的數(shù)據(jù)增強(Data augmentation)技術(shù)。使用通過類型交換技術(shù)產(chǎn)生的增強數(shù)據(jù),能有效地減少GNR模型的泛化誤差,并且在SQuAD數(shù)據(jù)集實現(xiàn)了1%的EM增益。
轉(zhuǎn)問答為檢索
假設(shè)我們想要回答這么一個問題——“尼古拉·特斯拉在哪年死亡的?”。我們也許會瀏覽維基百科然后找到相關(guān)的文章:
尼古拉·特斯拉(塞爾維亞西里爾語:НиколаТесла; 1856年7月10日至1943年1月7日)是一位塞爾維亞美國發(fā)明家,電氣工程師,機械工程師,物理學(xué)家和未來學(xué)家,以為現(xiàn)代交流(AC)電力供應(yīng)系統(tǒng)設(shè)計作出的貢獻而聞名。
問答(QA)和信息抽取系統(tǒng)已經(jīng)被證明了在各種各樣的場景中都具有非常高的應(yīng)用價值,例如藥物和基因的醫(yī)療信息收集[4],大規(guī)模健康影響研究[5]或者教育資料匯編(Educational material development)[6]。最近,基于神經(jīng)網(wǎng)絡(luò)的問答抽取模型在諸如SQuAD[3]、MSMARCO[7]或NewsQA[8]等幾個基準(zhǔn)QA任務(wù)中的表現(xiàn)正在迅速地接近人類的水平。然而,當(dāng)前的問答抽取方法也正面臨著以下幾個瓶頸:
無論正確答案位于何處,模型都需要均等地遍歷計算整個文檔,無法忽略或者專注于某些特定部分。這將限制模型在更長更大文檔中的性能表現(xiàn)。
它們廣泛依賴于代價昂貴的雙向注意力機制[1],或者必須排列所有候選答案[17]。
盡管針對問答任務(wù)的數(shù)據(jù)增強方法已經(jīng)被提出了[18],但是該方法依然無法為現(xiàn)有的系統(tǒng)提供能夠提升性能表現(xiàn)的訓(xùn)練數(shù)據(jù)。
研究員們提出了將問答抽取轉(zhuǎn)化為迭代搜索問題(Iterative search problem)進行處理:挑選出與答案有關(guān)的句子,開始單詞和結(jié)束單詞。在每個步驟中,都將修剪搜索空間,這樣算法才能將計算力放在最重要的地方:更有希望的搜索路徑。
實驗表明,通過波束搜索(Beam search)在全局范圍內(nèi)歸一化決策過程和反向傳播將使得表征變得可行以及提高學(xué)習(xí)效率。文中所提理論通過實驗進行了經(jīng)驗性的論證,該算法在斯坦福的問答數(shù)據(jù)集[3](68.4 EM, 76.21 F1 dev)上取得了單一模型排名第二的成績,并且計算速度比雙重注意力流[1]快出了24.7倍。
文中還提出了一種數(shù)據(jù)增強的方法,通過將命名實體與知識庫進行對齊并將它們與相同類型的新實體進行交換從而生成語義有效的新樣本(Semantically valid examples)。該方法提高了本篇論文中提及的所有模型的性能,并且對于各類NLP任務(wù)具有各不相同的提升效果。
GNR是如何“閱讀”的?
為了更好地描述GNR算法,讓我們先來考慮一個簡單的樣例“是誰首先意識到分析引擎(Analytical Engine)的應(yīng)用超出了純粹的計算?”。為了回答這個問題讓我們先閱讀下邊的一段引文:
Ada Lovelace因為她在Charles Babbage的分析引擎中所做的工作而聞名于世。她是第一個意識到機器不單單只是一個計算工具的人。因此,她經(jīng)常被當(dāng)做是第一個認識到“計算機”潛力的人和第一名計算機程序員。
文中并不是所有內(nèi)容都與問題相關(guān)。為了反映出這一點,我們可以提前檢測答案可能出現(xiàn)在哪里。GNR通過逐步選擇文檔的子部分來表現(xiàn)出這種直覺。下面將采用垂直條塊展示決策的概率,并將條塊懸停在一個節(jié)點上以突出顯示對應(yīng)的文檔部分。
這里的問答抽取問題是從所給的文章中抽取死亡日期“1943年1月7日”。GNR將問答轉(zhuǎn)化為搜索問題。所以首先,算法會找到包含有正確答案的語句。然后,找到句子中與答案有關(guān)的起始單詞。最終,找到答案的結(jié)束單詞。該過程如下所示:
一旦讀者在文檔中選擇了相關(guān)的句子,算法就可以在該文檔的該子部分進一步深入分析。在下面的圖表中,可以看到算法如何將注意力集中在其中一個句子上,然后選擇出了句子中正確的單詞子集:
有許多的方法可以用來參數(shù)化句子、起始單詞和結(jié)束單詞選擇的概率分布。而GNR的一個關(guān)鍵因素是采用全局(而不是局部)歸一化的方式參數(shù)化概率分布。
在全局歸一化模型(Globally normalized model)中,分布對所有的(句子,起始單詞,結(jié)束單詞)元組進行歸一化。而在局部歸一化模型(Locally normalized model)中,每個句子、起始單詞和結(jié)束單詞的選擇都被單獨歸一化然后通過鏈?zhǔn)椒▌t進行相乘。
全局歸一化使得模型更具表現(xiàn)力,并且使得其能夠更容易地從搜索錯誤中恢復(fù)。在這項工作中,展示了通過使用全局歸一化使得模型在EM上取得了1%的提升,并且使得模型的性能更加接近于當(dāng)前的最佳模型。
如果想獲得更多與全局歸一化有關(guān)的細節(jié)內(nèi)容,請參閱[9]中的詳細介紹。
學(xué)習(xí)搜索(Learning to search)
盡管全局歸一化模型擁有很好的表征能力,但是同時也帶來了計算上的挑戰(zhàn)。特別的,評估任何特定(句子,起始單詞,結(jié)束單詞)元組的概率都需要對所有這樣的元組進行代價昂貴的求和計算來獲得歸一化常數(shù),亦即,對一組大小為#句子*#起始單詞*#結(jié)束單詞進行求和。但是對于一篇長文,這樣的計算量是不被允許的。
為了克服這一挑戰(zhàn),本文作者采用了波束搜索。特別地,通過對最終波束候選進行求和來近似所有的元組的和。這個方法,也被稱為學(xué)習(xí)搜索,要求我們在訓(xùn)練的時候通過波束搜索進行反向傳播。
在測試時,排位最高的候選元組也是通過波束搜索獲得的。這意味著該模型只需要對O(波束大小)個候選答案進行評分,而不是按照現(xiàn)有最常見的模型需要對所有可能候選進行評分。該過程縮小了模型訓(xùn)練與評估方式之間的差異,并且是使得GNR取得20多倍計算加速的關(guān)鍵改進。
學(xué)習(xí)搜索成功在哪?
許多關(guān)于學(xué)習(xí)搜索(Learning to search)的方法已經(jīng)被提出,這些方法針對各種各樣的NLP任務(wù)以及條件計算(Conditional computation)。最近,[9]和[10]證明了全局歸一化網(wǎng)絡(luò)和使用波束搜索進行部分語音標(biāo)記(Part of speech tagging)和基于過渡的依賴解析(Transition-based dependency parsing)的訓(xùn)練的有效性,而Wiseman等人在2016年的工作[14]表明這些技術(shù)也可以應(yīng)用于基于序列到序列模型(Sequence-to-sequence models)的幾個應(yīng)用領(lǐng)域,比如機器翻譯。這些工作集中于解析和序列預(yù)測任務(wù),并且具有固定的計算而不考慮搜索路徑,而本文的工作則表明相同的技術(shù)可以直接應(yīng)用于問答,并且可以擴展以允許基于搜索路徑的條件計算。
在[12]的圖像摘要(Image captioning)工作中,學(xué)習(xí)搜索也已經(jīng)被用于具有條件計算的模塊化神經(jīng)網(wǎng)絡(luò)的上下文中。在他們的工作中,強化學(xué)習(xí)被用來學(xué)習(xí)打開和關(guān)閉計算,而我們發(fā)現(xiàn)條件計算可以很容易地進行學(xué)習(xí),如果有最大似然和早期一些方法[9, 10, 13]來指導(dǎo)訓(xùn)練過程。
下一步
本文的作者認為當(dāng)前存在著大量的結(jié)構(gòu)化預(yù)測問題(代碼生成,圖像、視頻和音頻的生成模型),其中由于原始搜索空間過大而使得當(dāng)前的技術(shù)難以處理。但是如果用條件計算作為學(xué)習(xí)搜索問題,則有可能實現(xiàn)。
如何生成準(zhǔn)無限(quasi-infinite)數(shù)據(jù)?
幾乎所有的最新的基于神經(jīng)網(wǎng)絡(luò)方法的問答模型在SQuAD任務(wù)中均面臨著過擬合的問題,并且需要采用非常嚴(yán)格的歸一化才能獲得較好的結(jié)果。在機器學(xué)習(xí)的其它領(lǐng)域,如圖像或語音識別,研究員已經(jīng)能通過數(shù)據(jù)增強的方式來提高模型的泛化能力。但是到目前為止,還沒有人提出一種能提高問答任務(wù)性能的數(shù)據(jù)增強策略。為了解決這個問題,該項工作中提出了類型互換(Type Swaps)策略。這是一種全新的策略,可用于生成大量的合成問答樣本,并且通過實驗證明類型互換策略可以提高GNR的性能。
類型互換通過識別文檔和問題匯總的實體,然后利用WikiData交換相同類型的新實體。由于Wikidata包含有大量的實體,因此我們可以生成的新樣本數(shù)量接近于天文數(shù)字。有關(guān)于更多技術(shù)細節(jié),請參見圖中的示例和論文。
論文中還發(fā)現(xiàn)使用額外的類型敏感的合成樣本(Additional type-sensitive synthetic examples)來增強數(shù)據(jù)集可以提高論文中所研究的所有模型的性能,并且這種提升在GNR模型上尤為顯著,最高可以提高2%的EM。由于這種改進來源并不與我們的架構(gòu)選擇有關(guān),所以這些增益預(yù)計能夠轉(zhuǎn)移到不同的模型[1,14,15],也可能更廣泛地適用于其它包含命名實體以及數(shù)量有限的監(jiān)督數(shù)據(jù)的自然語言任務(wù)中。
類型互換策略提供了一種方法,將問題的性質(zhì)和命名實體的類型結(jié)合到GNR模型的學(xué)習(xí)過程中,從而降低了模型對表面變化(Surface variation)的敏感性。迄今為止,基于神經(jīng)網(wǎng)絡(luò)方法的問答抽取已經(jīng)忽視了這一信息。使用額外的類型敏感合成樣本來增強的數(shù)據(jù)集通過覆蓋更全面的、不同的答案類型來提高性能。增加使用的增強樣本數(shù)量可以提高所研究的所有模型性能。
不過當(dāng)增強數(shù)據(jù)超過了一定的數(shù)量,還會導(dǎo)致性能的下降。這表明盡管在數(shù)據(jù)增強過程中增強策略努力去嘗試模仿原始的訓(xùn)練集,但是在生成的實例中存在訓(xùn)練測試不匹配或者過多重復(fù)的問題。
示例
為了更好地了解模型的行為,這里還提供了各種其它示例問題、文檔和搜索樹:
想獲取更多示例,請移步官方網(wǎng)站瀏覽。
Via Globally Normalized Reader
Reference
Bidirectional Attention Flow for Machine Comprehension [PDF]
Seo, Minjoon and Kembhavi, Aniruddha and Farhadi, Ali and Hajishirzi, Hannaneh, 2016, arXiv preprint arXiv:1611.01603
Machine comprehension using match-lstm and answer pointer [PDF]
Wang, Shuohang and Jiang, Jing, 2016, arXiv preprint arXiv:1608.07905
Squad: 100,000+ questions for machine comprehension of text [PDF]
Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy, 2016, arXiv preprint arXiv:1606.05250
Distant Supervision for Relation Extraction beyond the Sentence Boundary [PDF]
Quirk, Chris and Poon, Hoifung, 2016, arXiv preprint arXiv:1609.04873
Influence of Pokemon Go on physical activity: Study and implications [PDF]
Althoff, Tim and White, Ryen W and Horvitz, Eric, 2016, Journal of Medical Internet Research
Data mining and education [PDF]
Koedinger, Kenneth R and D'Mello, Sidney and McLaughlin, Elizabeth A and Pardos, Zachary A and Ros{\'e}, Carolyn P, 2015, Wiley Interdisciplinary Reviews: Cognitive Science
MS MARCO: A Human Generated MAchine Reading COmprehension Dataset [PDF]
Nguyen, Tri and Rosenberg, Mir and Song, Xia and Gao, Jianfeng and Tiwary, Saurabh and Majumder, Rangan and Deng, Li, 2016, arXiv preprint arXiv:1611.09268
NewsQA: A Machine Comprehension Dataset [PDF]
Trischler, Adam and Wang, Tong and Yuan, Xingdi and Harris, Justin and Sordoni, Alessandro and Bachman, Philip and Suleman, Kaheer, 2016, arXiv preprint arXiv:1611.09830
Globally normalized transition-based neural networks [PDF]
Andor, Daniel and Alberti, Chris and Weiss, David and Severyn, Aliaksei and Presta, Alessandro and Ganchev, Kuzman and Petrov, Slav and Collins, Michael, 2016, arXiv preprint arXiv:1603.06042
A Neural Probabilistic Structured-Prediction Model for Transition-Based Dependency Parsing. [PDF]
Zhou, Hao and Zhang, Yue and Huang, Shujian and Chen, Jiajun, 2015, ACL (1)
Sequence-to-sequence learning as beam-search optimization [PDF]
Wiseman, Sam and Rush, Alexander M, 2016, arXiv preprint arXiv:1606.02960
Learning to compose neural networks for question answering [PDF]
Andreas, Jacob and Rohrbach, Marcus and Darrell, Trevor and Klein, Dan, 2016, arXiv preprint arXiv:1601.01705
Incremental parsing with the perceptron algorithm [PDF]
Collins, Michael and Roark, Brian, 2004, Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics
FastQA: A Simple and Efficient Neural Architecture for Question Answering [PDF]
Weissenborn, Dirk and Wiese, Georg and Seiffe, Laura, 2017, arXiv preprint arXiv:1703.04816
Dynamic Coattention Networks For Question Answering [PDF]
Xiong, Caiming and Zhong, Victor and Socher, Richard, 2016, arXiv preprint arXiv:1611.01604
Gated Self-Matching Networks for Reading Comprehension and Question Answering [PDF]
Wang, Wenhui and Yang, Nan and Wei, Furu and Chang, Baobao and Zhou, Ming, 2017, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics
Learning Recurrent Span Representations for Extractive Question Answering [PDF]
Lee, Kenton and Kwiatkowski, Tom and Parikh, Ankur and Das, Dipanjan, 2016, arXiv preprint arXiv:1611.01436
Neural Question Generation from Text: A Preliminary Study [PDF]
Zhou, Qingyu and Yang, Nan and Wei, Furu and Tan, Chuanqi and Bao, Hangbo and Zhou, Ming, 2017, arXiv preprint arXiv:1704.01792
雷鋒網(wǎng)AI科技評論編譯
1.《【bixiong】百度SVAIL推出高效問答模型GNR,比雙向注意流快24.7倍》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《【bixiong】百度SVAIL推出高效問答模型GNR,比雙向注意流快24.7倍》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/pet/2445173.html