演講者:嚴(yán)豐|香港科技大學(xué)
曲新編選
量子位制作| QbitAI,微信官方賬號
本文是嚴(yán)豐教授8月18日在北京創(chuàng)新工作分享記錄的匯編。分享的主題是“如何打造非凡的機器”。
嚴(yán)豐目前是香港科技大學(xué)電子與計算機工程系的教授。他的主要研究領(lǐng)域包括語音理解、機器翻譯、多語言處理和音樂信息檢索。
嚴(yán)豐教授于1988年獲得伍斯特理工學(xué)院電氣工程學(xué)士學(xué)位,并于1993年和1997年分別獲得哥倫比亞大學(xué)計算機科學(xué)碩士和博士學(xué)位。
2015年因在人機交互領(lǐng)域的突出貢獻(xiàn)被授予IEEE院士榮譽。他曾擔(dān)任過IEEE音頻、語音和語言處理事務(wù),IEEE信號處理信函和ACM語音和語言處理事務(wù)。除了《計算語言學(xué)協(xié)會學(xué)報》等國際期刊的副總編輯之外,他還是ACL SIGDAT的主席和董事會成員。
△嚴(yán)豐教授
各位下午好。非常感謝李開復(fù)博士的邀請。今天我分享的題目是:如何構(gòu)建共情機器,如何讓機器人更共情。
為什么會提到這個話題?因為現(xiàn)在我們會看到很多人工智能的商機,但是除了商機,我們還需要看到未來,比如五年、十年甚至二十年后人工智能會如何發(fā)展。
所以現(xiàn)在有幾個大問題需要我們反思:
人工智能不僅僅是簡單的工程事物。人工智能不同于其他機器。其中重要的一點是“人”,在“人工智能”中被稱為“人”。
一項技術(shù)要為人類服務(wù),是否需要同理心,即需要情商,而不僅僅是智商。
這臺機器有正確的數(shù)值。兩年前微軟推出了一款聊天機器人,剛上線不久就下線了,就因為說了一些不合適的話。這只是一個聊天機器人,所以如果你在做客服,這個系統(tǒng)需要非常清楚什么該說,什么不該說。
機器是為人服務(wù)的,人是多種多樣的,有不同的性格,不同的情感。這臺機器能幫助我們發(fā)現(xiàn)自己的心理問題嗎?
后面還會提到另外兩個問題:人工智能能有幽默感和審美嗎?
首先,我想讓大家覺得,情感很重要,不僅僅是樂趣。利用信號處理的方法,改變聲音的情感色彩,這樣聽到的聲音的意義就會不同。
先說“共情”,英語里叫“共情”:理解、覺察、敏感、體驗另一個人的感受、想法、經(jīng)歷的動作,意思是我能感受到旁邊人的想法和感受。
那么共情溝通就是共情溝通,共情溝通是人際溝通的重要組成部分。通常情況下,你可能感覺不到太多,但是當(dāng)你和電腦交流的時候,沒有“共情”,就會導(dǎo)致交流障礙。
我們說的自然語言理解是AI中的一個大領(lǐng)域,我們現(xiàn)在提出的“自然語言共情”就是在自然語言理解中加入情感和意圖的識別及其答案。
這跟創(chuàng)業(yè)有什么關(guān)系?與我們目前能看到的人工智能市場有什么關(guān)系?
先說虛擬代理:虛擬助手,它的市場。
現(xiàn)在可以看到有很多場景需要虛擬助手,比如機器人客服。從現(xiàn)在到未來十五年,我們可以看到家庭機器人和服務(wù)機器人的市場中心將轉(zhuǎn)移到中國和亞洲,而不是歐美。因此,如果機器人來幫助和服務(wù)人類,他們需要一個軟件來理解人們的需求。現(xiàn)在的客服可以換成機器,但是這個機器需要了解人需要什么。比如無人駕駛,車本身變成了人的助手,人需要告訴它我們的需求;另一個是智能家居,目前的發(fā)展方向是人機交互。
為什么機器需要情商?因為機器有三大優(yōu)點:
機器有了情商之后,可以比人更好的工作,更準(zhǔn)確的識別人的情緒,因為現(xiàn)在的數(shù)據(jù)集可以讓機器學(xué)習(xí),在某個領(lǐng)域比人更強大。
該機能快速自動適應(yīng)用戶當(dāng)前的心情,并能準(zhǔn)確了解當(dāng)前人類的心情。
增加了用戶的粘附性。增加用戶的附著力不僅要求精度,現(xiàn)在精度可以很高。然而,語音識別之后,我們需要機器來理解我們的意圖和我們在說什么。
如何讓人機交互更有同理心?事實上,在做研究時,我發(fā)現(xiàn)有幾個要點:
大多數(shù)人不會頻繁使用Siri這樣的非物理移動助手,因為沒有特定的圖像,人們會覺得和它沒有實質(zhì)性的聯(lián)系,所以一個系統(tǒng)需要特定的圖像。在交談中,我們希望對方有具體的形象,能講得有趣,能聽懂我的表情,我的語氣,能聽懂我的意圖,這些都需要機器實時響應(yīng)。
目前的研究可以實時進行,也是目前的一個方向:同理心理解。
還有一點是,很多研究發(fā)現(xiàn),人類喜歡有人類形象的機器人。因此,我們實驗室設(shè)計了一個具象機器人——ZARA。Zara和siri在原理和功能上類似,不同的是我們是一個面向任務(wù)的對話系統(tǒng)。
對話系統(tǒng)有兩種:聊天機器人和面向任務(wù)的對話系統(tǒng)。聊天機器人,如蕭冰,旨在能夠循環(huán)對話。面向任務(wù)的對話意味著你需要完成一項任務(wù),比如為你做投資,為你訂票,或者為你預(yù)定餐廳。
面向任務(wù)的對話包括前端處理、語音識別、對話服務(wù),最后是語音合成,這是一種傳統(tǒng)做法。現(xiàn)在提出的是在中間加一個共情模塊,會識別人的情緒、性格甚至心理問題。
下面說說如何用語音和語言做情感識別。
第一部分是如何在音頻和語音中直接捕捉情感信息。
首先我想說一下音樂的分析。音樂之所以產(chǎn)生,是因為音樂本身表達(dá)的是情感。下圖橫軸是化合價,表示人的幸福;縱軸喚醒表示興奮程度。音樂和人類情感是同一個計劃。所以我們在做音樂分析的時候,想看看能否用機器學(xué)習(xí)直接區(qū)分音樂風(fēng)格。
我們幾年前的方法是直接提取特征,提取1000-2000個特征,每一段音樂都用特征來表示。特性的優(yōu)勢是:可視化。
舉個例子,如果我們能看到三個歌手,把他們所有的歌都放在一個二維空間,我們就能直觀地看到紅歌手和藍(lán)歌手的音樂風(fēng)格是相似的。右邊也是尋找寶萊塢音樂人之間相互影響的方法。這對于音樂推薦來說是一件非常重要的事情。
那么問題之一就是特征提取非常慢。要想識別人的情緒,需要實時性,但特征提取無法實現(xiàn)實時性。然后是深度學(xué)習(xí)。
深度學(xué)習(xí)的優(yōu)點是機器自動抽取。然后我們把音樂做成樣本,不做任何處理就放進去,看它能不能提取出自己的特征。
后來發(fā)現(xiàn)這個方法是可行的。最重要的是,機器速度非???,比以前快了6倍,可以實現(xiàn)實時。因此,在音頻情感識別中使用DNN方法可以實現(xiàn)實時性。
看它的效果,這是2016年,效果和傳統(tǒng)SVM差不多,SVM需要提取1000-2000個特征。下圖是對音樂風(fēng)格的識別。
下圖是音樂情感識別。我們用專家鑒定的幾千首音樂訓(xùn)練CNN,發(fā)現(xiàn)它的速度和效果都很好。也就是說,音樂風(fēng)格和情感可以直接識別,不需要標(biāo)注。
另一個是人說話時的情緒,那么這是如何被認(rèn)可的呢?
我們剛才說的利用CNN識別音樂的算法,直接應(yīng)用到人的情感識別上。然后發(fā)現(xiàn)CNN比原來的特征提取效果更好,速度更快,效果更好。主要是識別人的主要情緒,開心、難過、憤怒、平靜,其次是十幾種第二情緒,包括幽默、看不起人等等。
這些都比較難,但是用CNN的好處就是數(shù)據(jù)多了,以后會越來越準(zhǔn)。在這一點上,機器是可以超越人的,因為人做了,每個人的同理心就會不一樣,標(biāo)準(zhǔn)也會不一樣。
在識別十幾秒情緒的過程中,會發(fā)現(xiàn)比原來的SVM要好,但是有些情緒容易識別,有些不容易識別,整體平均60%,所以這方面還有很多工作要做:需要更多的大數(shù)據(jù);算法需要優(yōu)化。
然后是CNN的結(jié)構(gòu)。CNN的第一層是做信號處理的,上一層之后會越來越抽象。
CNN的每一級都和我們耳朵的聽覺系統(tǒng)有關(guān)。
我們看得更深的是沒有信號處理的音頻需要看到的東西。還有一個問題:用英語訓(xùn)練的情感識別系統(tǒng)是否也能識別中國人的情感。那么我們需要知道的是整個CNN在各個層面都在應(yīng)對什么。
這是一種等級,情感,人格。從低頻到高頻,發(fā)現(xiàn)在第一層開始提取能量、音高、頻率等信息。
以后會有不同的激活,可以區(qū)分哪里有聲音,哪個更有激情。
我們使用一種叫做t-SNE的方法,它在每一層投射點,并用不同的顏色代表不同的語言。
我們可以看到,每一種語言在第一層經(jīng)過信號處理后,仍然是混雜在一起的。CNN上的越高,每種語言分離的越多,最后基本完全分離。在今天的深度學(xué)習(xí)中,最低是語言依賴,越高越有語言信息,這和我們的特點很像。
這是我們的數(shù)據(jù)庫。
這個結(jié)果想告訴大家:在情感識別中,如果第一層用多種語言訓(xùn)練,這種方式是好的,級別越高,語言就會分離。
然后我們做了一個實驗。機器人是這樣識別人的性格的。
人與人交往時,會有意無意地迎合別人的性格,這是交往中的合作形式。CNN也可以用于機器的字符識別,可以直接從面部表情和語音識別出來。比如識別是否外向,是否容易相處等等。
也可以使用多種語言組合在一起的訓(xùn)練方法。
以人為本,就是在中國生活的時候,可以通過語言來識別自己的性格。出國后,經(jīng)過一段時間的適應(yīng),因為在國內(nèi)有基礎(chǔ),所以可以通過語言快速識別自己的性格。
隨著情感識別的基本能力,越來越不受語言的限制。
我們剛剛討論了音頻和語音中的情感識別。后面再說自然語言和文本相關(guān)的情感識別。
文本中的情感,比如大眾點評,從他的評價描述來判斷他為這家店打了多少星,這就叫文本中的情感識別。
用戶與機器人交流時,機器人應(yīng)該如何應(yīng)對錯字?
自然語言理解中一個更大的主題:整合情感和情緒的需要。
這是從推特上看人的情緒,我們基本上用CNN和Word嵌入。
Word嵌入的好處是數(shù)據(jù)可以直接使用,數(shù)據(jù)不夠的時候非常有用。
這是我們做的一個題目:如何從新聞報道中提取標(biāo)題。
新聞標(biāo)題是總結(jié)中比較簡單的工作,但是后來發(fā)現(xiàn)報紙的標(biāo)題和網(wǎng)上的標(biāo)題不一樣。機器制作的標(biāo)題是真實的內(nèi)容總結(jié),但是現(xiàn)在需要很多點擊率高的標(biāo)題,這個標(biāo)題很有感情。
怎樣才能讓機器自動生成點擊率高的標(biāo)題?在
這是我們第一次發(fā)現(xiàn)自然語言處理領(lǐng)域需要情感識別來產(chǎn)生更容易接受的標(biāo)題。
我們應(yīng)該從財經(jīng)新聞中看到市場趨勢。之前有歐洲專家做過研究。如果按照財經(jīng)新聞來研究,12天后就可以預(yù)測趨勢。其實這是大數(shù)據(jù),我們挖掘的是情感。
人和機器人是如何相處的?發(fā)現(xiàn)有20%-25%的人說了不該說的話,就是罵人的話,那么機器人應(yīng)該如何應(yīng)對?這個也可以通過CNN了解到。我們可以用一個步驟:用詞是否具有攻擊性、性感或種族主義等。,或者用兩步:首先我們知道單詞是否應(yīng)該說,然后我們知道單詞屬于哪一類。
我們可以給Chatbot添加一個值,這個值有兩個任務(wù):如何讓Chatbot記住之前的對話內(nèi)容;如何回答。訓(xùn)練的時候要給它加上情感。
這是性格分析。當(dāng)我們與人機交流時,如果機器知道我們的性格,它就能以我們喜歡的方式與我們交談。那我們是怎么去字符識別的呢?人格識別也是CNN做的。
可以用同一個系統(tǒng)識別嗎?說不同語言的人,從直覺上看似乎性格不同,但是經(jīng)過實驗,我們提出了一種方法:雙語單詞嵌入,無論哪種語言都可以識別出相同的意思,那么我們就可以發(fā)現(xiàn),有一個系統(tǒng)可以通過不同的語言來分析性格。
那么這就是心理關(guān)聯(lián),可以區(qū)分人的心理問題。從郵件、Facebook等一些文本中,通過聊天的過程,識別出這樣的問題。結(jié)果是:我們需要理解語言的意義和這個音頻的狀態(tài)。這兩點比理解說了什么更重要。
這就是《生活大爆炸》?!渡畲蟊ā防镉幸粋€叫謝爾頓的人,我們實驗室的一個學(xué)生做了一個聊天機器人,叫Sheldonbot。有時它被稱為謝爾頓波特,因為他聽不出笑聲。他的研究課題是:如何讓機器有幽默感。要有幽默感有兩步:第一步是我會在笑的點笑,這叫能不能識別幽默感;第二步,營造幽默感。
他是怎么做到的?也分兩步:第一步是識別,讓機器理解笑點,訓(xùn)練數(shù)據(jù)源是美劇的喜劇,因為美劇里所有的喜劇一出現(xiàn)笑點就會笑,那么這句話在笑之前的對話中就有幽默感了;
第二步,幽默生成,就是讓機器拋出笑聲。和我們剛才說的Chatbot差不多,不同的是它的目的是讓人發(fā)笑。除了使用sequence2sequence學(xué)習(xí)模型,還加入了強化學(xué)習(xí),即在訓(xùn)練的過程中,在人笑的地方強化學(xué)習(xí)。在這個領(lǐng)域,這只是工作的開始。
綜上所述,在機器人對話中加入一個共情分析是很有必要的,無論是客服還是聊天機器人。還有一點就是我們在做情緒分析的時候也可以加入面部表情識別,其他的研究也會加入肢體語言,這是一種情緒的表達(dá)。
另一個是我們的方法。兩年前,我們小組用DNN進行機器學(xué)習(xí)。首先是因為它的速度快;第二,因為更容易統(tǒng)一使用DNN,情緒,表情等??梢员磉_(dá)情感,并一起學(xué)習(xí)形成一個可以識別所有情感表達(dá)的系統(tǒng)。在這方面,DNN是一個很好的平臺。
今天我的分享到此結(jié)束。謝謝你。
-結(jié)束-
此外,量子位NLP技術(shù)交流小組正在為從事相關(guān)NLP領(lǐng)域的工程師和研究人員招聘。
1.《empathetic 香港科技大學(xué)教授馮雁:How to Build Empathetic Machines》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《empathetic 香港科技大學(xué)教授馮雁:How to Build Empathetic Machines》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/guoji/1757538.html