皮尤研究中心2018年美國人接觸的新聞來源調(diào)查分析[1]
據(jù)統(tǒng)計,2016年美國總統(tǒng)大選期間,報道選舉事件的前20名虛假新聞在Facebook上獲得871.1萬股贊和評論,超過前20名真實新聞獲得的736.7萬股贊和評論,嚴(yán)重誤導(dǎo)了選舉輿論。同年,“后真實”一詞也被牛津詞典選為年度詞匯,反映了“雄辯勝于事實”的網(wǎng)絡(luò)環(huán)境[3]。2011年,日本地震引發(fā)的核泄漏污染了海鹽,中國網(wǎng)絡(luò)媒體出現(xiàn)了大量“中國鹽資源也被污染”等虛假信息,導(dǎo)致人們瘋狂搶鹽,引發(fā)社會恐慌。
可見,互聯(lián)網(wǎng)上虛假信息的大規(guī)模傳播給社會和個人的發(fā)展帶來了嚴(yán)重的危害。因此,在當(dāng)今互聯(lián)網(wǎng)時代,識別和檢測互聯(lián)網(wǎng)上的虛假信息尤為重要。
網(wǎng)上的虛假信息有哪些類型?
根據(jù)網(wǎng)絡(luò)虛假信息的內(nèi)容,可以分為兩類:基于觀點的虛假信息和基于事實的虛假信息。
基于觀點的虛假信息沒有絕對的事實標(biāo)準(zhǔn),一般指發(fā)表虛假的個人觀點,如評論網(wǎng)站上的虛假評論。
基于事實的虛假信息有絕對的事實標(biāo)準(zhǔn),一般是為了迷惑公眾而偽造事實,如假新聞、Wiki騙局等。
這兩種類型是我們需要關(guān)注和測試的對象。以一個當(dāng)時廣為流傳的維基百科騙局為例。2008年7月,一名17歲的學(xué)生惡作劇地在維基百科的條目“coati(南美浣熊)”中添加了一個假名,稱“coatis也被稱為‘巴西土豚’”。之后這種虛假信息在維基百科上保留了六年,被數(shù)百家網(wǎng)站、報紙甚至一些大學(xué)出版的書籍傳播。
維基詞條“coati”的騙局
網(wǎng)絡(luò)上的虛假信息有哪些特點?
目前,國外已經(jīng)做了一些開創(chuàng)性的工作來定量分析互聯(lián)網(wǎng)上虛假信息的統(tǒng)計特征。研究發(fā)現(xiàn),基于視點的虛假信息在文本、情感和時間三個方面具有明顯的特征:
(1)文字特征?;谟^點的虛假信息往往具有很強的文本相似性,并伴隨著明顯的語言特征。如果用第一人稱來表達(dá)個人經(jīng)歷,就要用感情強烈的詞和修飾副詞,比如“非?!薄胺浅!?。
(2)情感特征。虛假評論的情感存在強烈的“兩極分化”現(xiàn)象,“滿分評論”和“最低分評論”占據(jù)主導(dǎo)地位[4]。
(3)時間特性。虛假評論一般比真實評論更“突然”,虛假信息提供者發(fā)起連續(xù)評論的時間間隔更短[5]。
基于事實的虛假信息在語言、評論和溝通方式上具有突出的特點:
(1)語言特點?;谑聦嵉奶摷傩畔?,為了增強關(guān)注度和吸引流量,往往在標(biāo)題中提供大量信息,并表現(xiàn)出強烈的無關(guān)性特征,即所謂的“標(biāo)題方”。
“標(biāo)題黨”新聞
(2)評論的特點。虛假信息因其新穎性會在評論中引起更多的“驚訝”、“厭惡”等情緒[6]。
在虛假信息的評論中,“驚訝”和“厭惡”的情緒激增(紅色是虛假信息)[6]
(3)溝通特點。虛假信息呈現(xiàn)出一種“病毒式”傳播模式,往往比真實信息更遠(yuǎn)、更快、更深、更廣[7]。
虛假信息比真實信息傳播得更遠(yuǎn)、更快、更深、更廣[7]
為什么網(wǎng)上的虛假信息可以欺騙大眾?
有研究定量分析了為什么網(wǎng)絡(luò)上的虛假信息可以欺騙公眾,主要從虛假信息本身、網(wǎng)民個人和網(wǎng)民群體三個角度進(jìn)行分析。
好奇的心態(tài)。如前所述,互聯(lián)網(wǎng)上的虛假信息本身在語言上具有鮮明的特點。為了吸引注意力,他們往往會提供更多新穎的觀點,展示更多獨特的信息[8],而公眾則會因為“好奇”心態(tài)而更傾向于傳播這類信息。
虛假信息(紅色)與真實信息(綠色)在信息唯一性(IU)和差異性(KL)上的比較[8]
歧視性差。由于知識水平參差不齊,許多互聯(lián)網(wǎng)用戶往往沒有足夠的能力來區(qū)分信息的真實性。斯坦福大學(xué)的庫馬爾團(tuán)隊曾經(jīng)做過一個實驗。他們雇傭了亞馬遜機械土耳其人的注釋者來區(qū)分320對真假文章,每對都展示給五個不同的注釋者。實驗表明,人們成功識別虛假文章的概率只有66%(略高于50%的隨機猜測)。再者,他們對容易識別和難以識別的虛假信息進(jìn)行統(tǒng)計比較,發(fā)現(xiàn)虛假信息的長度越長,鏈接和標(biāo)簽越多,越容易被識別為真實信息[9]??梢韵胂螅绻摷傩畔⒃陂L度、鏈接、標(biāo)記等方面刻意模仿真實信息。,那就更難分辨了!
回音室效應(yīng)。互聯(lián)網(wǎng)形成了大大小小的網(wǎng)民網(wǎng)絡(luò)社區(qū),回音室效應(yīng)會進(jìn)一步誘導(dǎo)公眾被虛假信息所欺騙。回音室效應(yīng)是指,在一個相對封閉的環(huán)境中,類似觀點的聲音以夸張或其他扭曲的形式反復(fù)出現(xiàn),使得這個相對封閉的環(huán)境中的大多數(shù)人認(rèn)為這些扭曲的故事都是事實。如今在線社交媒體的個性化推薦算法不斷完善,不斷向用戶推薦內(nèi)容和興趣相近的人,進(jìn)一步放大了互聯(lián)網(wǎng)社區(qū)的回音室效應(yīng)。在回音室效應(yīng)下,網(wǎng)民傾向于堅守與自己喜好和觀點一致的社交圈,切斷來自其他社交圈的信息輸入。
下圖反映了推特上關(guān)于#牛肉班(印度禁止吃牛肉)[9]的轉(zhuǎn)發(fā)網(wǎng)絡(luò),紅藍(lán)點代表觀點相反的網(wǎng)友??梢钥闯?,與組內(nèi)頻繁的互動相比,兩組之間的信息交流很少。
推特上轉(zhuǎn)發(fā)網(wǎng)絡(luò)關(guān)于#牛肉班的話題[9]
如何自動檢測虛假信息?
基于以上分析,我們可以發(fā)現(xiàn),稍加包裝,虛假信息就很容易“蒙混過關(guān)”,在互聯(lián)網(wǎng)上大規(guī)模傳播。面對復(fù)雜的互聯(lián)網(wǎng)信息,人工專家檢測費時費力,與呈指數(shù)級增長的信息相比,這是一項不可能完成的任務(wù)。
好消息是,互聯(lián)網(wǎng)技術(shù)與計算機和人工智能技術(shù)齊頭并進(jìn)。先進(jìn)的人工智能技術(shù)為我們提供了自動檢測虛假信息的可能性。目前,國外許多研究者正在探索如何自動檢測虛假信息,并取得了一定的進(jìn)展。
對特色工程的思考。一些研究者采用了特征提取的思想。根據(jù)總結(jié)出的虛假信息特征,如前面提到的語言特征和交流特征,他們使用支持向量機、隨機森林等機器學(xué)習(xí)方法將信息分類為真或假[10,11,12],如下圖所示。這種基于特征提取的方法可以充分利用專家總結(jié)的經(jīng)驗和知識,但美中不足的是需要手動提取特征,無法從大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)中自動挖掘特征。但網(wǎng)絡(luò)虛假信息類似于垃圾郵件或廣告,其技術(shù)、手段和形式都在不斷更新。很難與時俱進(jìn),及時應(yīng)對新的虛假信息形式。
基于特征提取的傳統(tǒng)方法
對深度學(xué)習(xí)的思考。近年來,深度學(xué)習(xí)引發(fā)了全球人工智能發(fā)展的浪潮。深度學(xué)習(xí)的核心思想之一是采用分布式表示方案從大規(guī)模文本中自動學(xué)習(xí)和提取語義特征。分布式表示學(xué)習(xí)是指通過大規(guī)模數(shù)據(jù)集自動學(xué)習(xí)信息的低維特征向量表示。這些向量反映了我們所關(guān)心的對象(如單詞、句子、文檔、用戶、文章等)的位置信息。)在低維向量空中,它們之間的相對距離和位置反映了語義相關(guān)性。
下圖是從大規(guī)模文本語料庫中自動學(xué)習(xí)的一些單詞的二維向量表示[13]。可見深度學(xué)習(xí)技術(shù)可以自動學(xué)習(xí)單詞的語義相似度,即國名會聚在一起,而城市名會聚在一起。同時,該技術(shù)還可以找到“中國”—“北京”、“日本”—“東京”的語義關(guān)系,即可以自動挖掘出“國家首都”的隱含語義關(guān)系。
分布式表示學(xué)習(xí)[13]
分布式表示學(xué)習(xí)可以很好地解決社交計算中對象間的語義計算問題,將文本、用戶和對象映射到統(tǒng)一的低維向量語義空。這樣,專家就不再需要總結(jié)自己的特征,而是從海量的互聯(lián)網(wǎng)數(shù)據(jù)中自動挖掘特征,進(jìn)而預(yù)測信息的真假[14,15,16]。
基于分布式表示的學(xué)習(xí)方法[13]
下面是利用深度學(xué)習(xí)技術(shù)自動從原文和評論文本中學(xué)習(xí)特征,自動檢測社交媒體平臺早期謠言的典型案例[17]。如上所述,社交媒體平臺中的評論文本包含豐富的反饋信息,以識別原始發(fā)布信息的真實性。如果能夠充分挖掘評論文本信息,可以大大提高信息檢測的及時性和準(zhǔn)確性,實現(xiàn)謠言的早期自動檢測。
使用“可信檢測點”早期檢測謠言的示例[18]
如上圖所示,我們畫出了一個謠言轉(zhuǎn)貼序列和一條隨時間變化的預(yù)測概率曲線。因為轉(zhuǎn)帖中對原始信息有很多質(zhì)疑和反駁,不需要看全部評論就可以做出可信的預(yù)測?;谶@一觀察,我們引入了“可信檢測點”的概念,并提出了一個謠言早期檢測模型。通過深度神經(jīng)網(wǎng)絡(luò),不斷整合序列前評論的表達(dá)方式,自動學(xué)習(xí)如何確定每個轉(zhuǎn)發(fā)序列的“可信檢測點”,從而保證該時間點預(yù)測結(jié)果的可靠性,使得事后不會出現(xiàn)結(jié)果反轉(zhuǎn)。基于深度學(xué)習(xí)方法,在新浪微博真實數(shù)據(jù)集上的實驗結(jié)果表明,與傳統(tǒng)模型相比,該謠言早期檢測模型的預(yù)測時間縮短了85%,檢測準(zhǔn)確率更高。
總結(jié)與展望
在“后真實時代”,互聯(lián)網(wǎng)上虛假信息的定量分析和自動檢測是一個亟待解決的問題?;谏疃葘W(xué)習(xí)的自動檢測方法將是未來的主流趨勢,但該方法仍然存在準(zhǔn)確率低、可解釋性和魯棒性差的問題。這是一個高度跨學(xué)科的方向,需要計算機科學(xué)、語言學(xué)、社會學(xué)、心理學(xué)、法學(xué)甚至腦科學(xué)等各個角度的綜合研究,才能實現(xiàn)對互聯(lián)網(wǎng)上虛假信息的“圍剿”。
從技術(shù)角度來說,現(xiàn)有的知識庫,如wiki數(shù)據(jù)、知網(wǎng)等,包含了豐富的群體智慧和人類知識。如果能將這些結(jié)構(gòu)化知識與深度學(xué)習(xí)技術(shù)相結(jié)合,引入虛假信息檢測模型,有望顯著提高信息檢測的準(zhǔn)確率。如何提取復(fù)雜的網(wǎng)絡(luò)信息并將其與知識庫中的信息進(jìn)行匹配將是挑戰(zhàn)和難點之一,也是一個值得今后進(jìn)一步探索的問題。
此外,目前對網(wǎng)絡(luò)虛假信息的定量研究大多基于英文數(shù)據(jù),而中文相關(guān)研究較少,這與中文網(wǎng)絡(luò)世界獲取相關(guān)數(shù)據(jù)困難以及缺乏標(biāo)注數(shù)據(jù)有關(guān)。因此,如何在中文互聯(lián)網(wǎng)上建立一個相對大規(guī)模的虛假信息語料庫,如何在少量中文語料庫的基礎(chǔ)上建立一個有效的虛假信息自動挖掘和檢測能力是值得研究的。
本文結(jié)合以往的研究工作,對互聯(lián)網(wǎng)上虛假信息的影響、特點、成因、檢測等進(jìn)行了簡要的總結(jié)和梳理,不涉及太多技術(shù)細(xì)節(jié),旨在起到科普介紹的作用,希望能有利于大家對這個方向的初步認(rèn)識和探索。限于作者水平,難免會有錯誤,歡迎批評指正。
參考數(shù)據(jù)
[1] Elisa Shearer,Katerina Eva Matsa。2018年跨社交媒體平臺的新聞使用。皮尤研究中心,2018
[2]克雷格·西爾弗曼。這一分析顯示了臉譜網(wǎng)上的虛假選舉新聞如何勝過真實新聞。Buzzfeed新聞。2016.
[3]“2016年度詞匯是……”牛津詞典。2016.
[4]庫馬爾、斯里揚和尼爾·沙阿。"網(wǎng)絡(luò)和社交媒體上的虛假信息:一項調(diào)查." alt="coati 清華劉知遠(yuǎn)+陳慧敏:流言止于“智”者——網(wǎng)絡(luò)虛假信息的特征與檢測">