據(jù)AI科技點評,由中國計算機聯(lián)合會(CCF)主辦、福州市人民政府和福州大學承辦、福建師范大學和福建工程學院協(xié)辦的2017中國計算機大會(CNCC 2017)于10.26-10.28在福州海峽國際會展中心舉行。除了14個特邀報告外,還有2個主題論壇、40多個學術論壇、30多個專題活動和3個獲獎會議,同期將有80多家企業(yè)舉辦科技成果展覽。雷鋒。com作為獨家戰(zhàn)略合作媒體,報道了整個會議內(nèi)容。
在“知識地圖預見社交媒體”技術分論壇上,哈爾濱工業(yè)大學的劉婷教授做了題為“從知識地圖到事物地圖”的精彩報告。會后,《AI科技評論》得到了劉婷教授的認可,對這篇報道的精彩內(nèi)容進行了回顧和梳理。
劉婷教授
劉婷教授的報告分為四個部分:
知識地圖與大慈林
提出物質地圖的概念
國內(nèi)外相關工作
哈爾濱工業(yè)大學在物聯(lián)網(wǎng)中的探索
知識圖譜與《大詞林》知識地圖首先通過人工收集數(shù)據(jù)和標注數(shù)據(jù)來構建。隨著需求的多樣化和精細化(比如需要獲取XX病是否可以用XX藥治療,XX人是否是敵人/朋友等信息。),人工構建的知識地圖越來越難以滿足用戶的多樣化需求?;诖?,如何通過機器自動構建大規(guī)模知識地圖成為研究熱點。
知識地圖是基于二元關系的知識庫,用于描述現(xiàn)實世界中的實體(或概念,是實體的抽象,例如“水果”是“蘋果”的概念)及其相互關系。它的基本構成單位是“實體-關系-實體”三元組,實體之間通過關系相互聯(lián)系,形成網(wǎng)絡結構。通過知識地圖,可以支持用戶按主題而不是按字符串進行搜索,從而實現(xiàn)語義層面的信息檢索?;谥R地圖的搜索引擎可以直接將結構化的知識反饋給用戶,用戶無需瀏覽大量網(wǎng)頁就可以找到自己想要的知識。
封閉領域知識地圖和開放領域知識地圖各有利弊
2014年底,哈工大正式發(fā)布《大慈林》。現(xiàn)在,您可以通過在瀏覽器中鍵入www.bigcilin.com來訪問大慈林。達奇森林是一種通用知識地圖,它自動從網(wǎng)絡上抓取實體和實體的概念,形成基于上下關系的通用知識地圖。這意味著如果用戶輸入的詞不包含在大慈林中,大慈林會實時在網(wǎng)上搜索,從而自動挖掘出詞的上位概念詞,并將這些上位概念詞排列成一個層次結構。比如你輸入“林肯”,大慈大悲的林會根據(jù)網(wǎng)絡中出現(xiàn)的“林肯”的語義信息,自動挖掘出“林肯”的很多概念,比如“汽車”、“總統(tǒng)”、“交通”、“領袖”,然后根據(jù)它們的抽象程度,把這些概念描述成層次結構。比如“領導”比“總裁”更抽象,“領導”的級別比圖中“總裁”的級別高。
上圖左側是大慈大悲森林等級目錄的一部分,骨架是同義詞森林(擴展版)。大慈林之所以選擇同義詞森林(擴展版)作為骨架,是因為經(jīng)過反復討論,劉婷教授帶領的團隊認為詞匯應該有兩種類型,一種是“實體”對應真實的事物,比如具體的人名、地名、機構名;另一種是“概念”,是“實體”的抽象意義,如“植物”、“果實”。實體之間存在明顯的橫向關系,而“實體”與“概念”、“概念”與“概念”之間存在明顯的層級關系。所以詞匯要有橫向和縱向關系形成的網(wǎng)絡結構。基于此,劉婷教授帶領的團隊以同義詞森林(擴展版)為大慈森林的層級(垂直)關系的骨架。
簡要介紹了《同義詞林》(擴展版)的問題,它是《大慈林》的骨架。同義語森林的第一個問題是它只有固定的五層結構,但是面對規(guī)模幾千萬甚至上億的多領域、多樣的詞匯,固定的結構顯然不能有效描述;第二個問題是《敘詞表》(擴展版)包含的單詞數(shù)量非常有限,而且大部分都是抽象概念,規(guī)模不到10萬字,顯然不適合實際應用?;诖?,劉婷教授帶領的團隊決心打破同義語森林(擴展版)的上述限制,從而形成現(xiàn)在的大詞森林。首先,大慈林的層數(shù)不是固定的,根據(jù)文字的抽象程度自動分層;其次,大慈大悲森林包含了很多具體的實體(比如人名、地名、機構名)。它的規(guī)模是同義詞林(擴展版)的幾百倍,而且還在擴大。
大慈大悲森林的特點是可以自動構建來自各種信息源的單詞之間的上下關系。這是劉婷教授帶領的團隊中的一位博士生發(fā)表的一篇ACL會議論文(本次會議是自然語言處理領域的頂級會議,被計算機學會評為A級)。本文詳細展示了如何從多個信息源自動獲取實體概念詞的技術框架。
簡單來說,獲取概念詞主要有三個來源:1)從搜索引擎中檢索到的大概率共現(xiàn)詞,2)在線百科全書的類別標簽,3)構詞。對于很多詞來說,后綴就是這個詞的概念詞,比如像微軟公司這樣的公司就是微軟公司的概念詞。之后,通過排序算法對候選概念詞進行評分,然后截取超過一定閾值的候選概念詞,保存在大慈林中。
以上方法只獲取某個詞的概念詞,如圖左圖。但是概念詞之間有明顯的層次關系,如右圖所示,大慈大悲森林的特點是可以自動形成概念詞之間的層次結構?;谏鲜鎏幚矸桨?,從《同義詞匯森林(擴展版)》的10萬字開始,大慈大悲森林已經(jīng)成為一個擁有千萬詞匯層次的知識地圖,其規(guī)模每天都在不斷擴大。
因為DaCi Lin是自動構建的,所以需要對其質量進行評估,以確定DaCi Lin是否包含很多錯誤,最終是否可以使用。劉婷教授帶領的團隊對大慈林進行了抽樣評估。結果表明,對于某個詞,找到其概念詞的準確率為85%,識別詞與詞之間的下位關系的準確率為90%。
與其他知識圖譜相比,大慈大悲森林側重于語言學中詞語上下關系的自動構建,是一種語言的知識圖譜。當然,目前劉婷教授帶領的團隊已經(jīng)開始將橫向關系引入大慈林,相信在不久的將來會看到更全面的大慈林。
提出物質地圖的概念
關于事物的地圖集?,F(xiàn)有的知識庫一般以“概念和概念之間的關系”為中心,缺乏“事物的邏輯”的知識挖掘。劉婷教授的團隊認為,在實際應用中,事物的邏輯(事件之間的演化規(guī)則和模式)是一種有價值的常識知識,挖掘這種知識對于我們理解人類行為和社會發(fā)展變化的規(guī)律非常有意義。舉個經(jīng)典的例子,北京人買房,下一步就是裝修。裝修完成后,他們會買家具。如果在網(wǎng)上發(fā)現(xiàn)有人發(fā)微博說自己買房了,裝修公司可以跟著做廣告。這是預測。事實圖不是以名詞為核心節(jié)點的知識庫,而是以事件和抽象事件為核心的知識庫。比如一個國家領導人訪問另一個國家,就是一個抽象事件。劉婷教授的團隊在三年前提出了物質地圖的概念。
事件圖只定義了兩種事件之間的關系:一種是繼承,一種是因果,兩者都有時間順序。事件圖本質上是事件邏輯的知識庫,描述事件之間的演化規(guī)則和模式,可以應用于生活的很多方面,如事件預測、常識推理、消費意圖挖掘、對話生成等。
原因圖和知識圖的區(qū)別在于,知識圖研究名詞實體及其關系,而原因圖研究謂詞事件及其關系。知識圖譜的主要知識形式是實體屬性和關系,而原因圖譜是邏輯關系和概率傳遞信息。事件之間的演化關系大多是不確定的,而實體之間的關系基本是穩(wěn)定的。
事件圖中事件的定義。事件圖中的事件是廣義的、抽象的事件,比如吃火鍋、去機場、看電影等,但如果非常具體的話,某年某月所做的事情并不是事件圖中存儲的知識。但也不能太抽象,比如去某地做事,都不是歷史地圖里儲存的知識。事件之間有兩種關系,一種是繼承關系,即吃飯、付賬、離開餐廳,這是非常常見的事件之間的繼承關系。有因果關系。我們覺得因果關系很重要。只有建立了因果關系,才能通過控制因變量來影響結果。
事件圖中有三種典型的拓撲結構,第一種是鏈式,繼承關系是典型代表。第二種是樹狀的。這些事件中有一個是心理事件,意在做某件事,其實并沒有真的做。第三種是循環(huán)型,以打架報復住院為例,來來回回。
國內(nèi)外相關工作
兩個最相關的研究方向是統(tǒng)計腳本學習和事件關系識別。統(tǒng)計腳本學習是一個非常接近事實地圖的研究領域。1975年,美國學者Schank提出了劇本的概念。2003年,日本學者提出了自動獲取腳本的方法。2008年,丹·朱拉夫斯基(Dan Jurafsky)利用無監(jiān)督方法構建事件鏈,成為該方向的代表性先驅工作。自2014年以來,與統(tǒng)計腳本相關的研究工作進入恢復和發(fā)展階段。
此外,另一個技術路線是識別事件之間的關系(時間序列和因果關系)。
哈爾濱工業(yè)大學歷史地圖研究
哈爾濱工業(yè)大學主要在兩個領域進行了探索性工作,一方面是旅游領域商務地圖的建設和應用;另一方面是財務地圖的構建和應用。
旅游商務地圖的潛在應用
旅行場更多的是一種演替關系,其構建過程包括數(shù)據(jù)清理、NLP預處理、事件提取和泛化、候選事件對生成、演替關系識別和演替方向識別。
第二個是金融領域的商業(yè)地圖。
可以用來預測股市。
從知識地圖到事物地圖的總結
劉婷教授總結:知識圖譜在各個領域都得到了精耕細作,其價值也逐漸顯現(xiàn)出來,但知識表示形式有待打破,推理能力有待提高。統(tǒng)計腳本學習和事件關系識別的相關研究越來越受到研究者的關注。以“謂語短語”為節(jié)點,以事件演化(演替、因果)為邊緣,事件圖方興未艾。事件地圖將在預測和對話領域發(fā)揮重要作用,有效提高人工智能系統(tǒng)的可解釋性。
最后,劉婷教授對合作者哈爾濱工業(yè)大學社會計算與信息檢索研究中心教授、劉明副教授、老師以及博士生趙森東、、蔣表示感謝。
以上內(nèi)容是劉婷教授在CNCC 2017[知識圖譜遇上社交媒體]論壇上的精彩報告,AI科技評論均由他獨家授權。
————————————————————
1.《劉挺 哈工大劉挺教授演講全文:從知識圖譜到事理圖譜》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《劉挺 哈工大劉挺教授演講全文:從知識圖譜到事理圖譜》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉載時請保留本站內(nèi)容來源地址,http://f99ss.com/keji/1465653.html