皮尤研究中心2018年美國人接觸的新聞來源調(diào)查分析[1]
據(jù)統(tǒng)計(jì),2016年美國總統(tǒng)大選期間,報(bào)道選舉事件的前20名虛假新聞在Facebook上獲得871.1萬股贊和評論,超過前20名真實(shí)新聞獲得的736.7萬股贊和評論,嚴(yán)重誤導(dǎo)了選舉輿論。同年,“后真實(shí)”一詞也被牛津詞典選為年度詞匯,反映了“雄辯勝于事實(shí)”的網(wǎng)絡(luò)環(huán)境[3]。2011年,日本地震引發(fā)的核泄漏污染了海鹽,中國網(wǎng)絡(luò)媒體出現(xiàn)了大量“中國鹽資源也被污染”等虛假信息,導(dǎo)致人們瘋狂搶鹽,引發(fā)社會恐慌。
可見,互聯(lián)網(wǎng)上虛假信息的大規(guī)模傳播給社會和個(gè)人的發(fā)展帶來了嚴(yán)重的危害。因此,在當(dāng)今互聯(lián)網(wǎng)時(shí)代,識別和檢測互聯(lián)網(wǎng)上的虛假信息尤為重要。
網(wǎng)上的虛假信息有哪些類型?
根據(jù)網(wǎng)絡(luò)虛假信息的內(nèi)容,可以分為兩類:基于觀點(diǎn)的虛假信息和基于事實(shí)的虛假信息。
基于觀點(diǎn)的虛假信息沒有絕對的事實(shí)標(biāo)準(zhǔn),一般指發(fā)表虛假的個(gè)人觀點(diǎn),如評論網(wǎng)站上的虛假評論。
基于事實(shí)的虛假信息有絕對的事實(shí)標(biāo)準(zhǔn),一般是為了迷惑公眾而偽造事實(shí),如假新聞、Wiki騙局等。
這兩種類型是我們需要關(guān)注和測試的對象。以一個(gè)當(dāng)時(shí)廣為流傳的維基百科騙局為例。2008年7月,一名17歲的學(xué)生惡作劇地在維基百科的條目“coati(南美浣熊)”中添加了一個(gè)假名,稱“coatis也被稱為‘巴西土豚’”。之后這種虛假信息在維基百科上保留了六年,被數(shù)百家網(wǎng)站、報(bào)紙甚至一些大學(xué)出版的書籍傳播。
維基詞條“coati”的騙局
網(wǎng)絡(luò)上的虛假信息有哪些特點(diǎn)?
目前,國外已經(jīng)做了一些開創(chuàng)性的工作來定量分析互聯(lián)網(wǎng)上虛假信息的統(tǒng)計(jì)特征。研究發(fā)現(xiàn),基于視點(diǎn)的虛假信息在文本、情感和時(shí)間三個(gè)方面具有明顯的特征:
(1)文字特征?;谟^點(diǎn)的虛假信息往往具有很強(qiáng)的文本相似性,并伴隨著明顯的語言特征。如果用第一人稱來表達(dá)個(gè)人經(jīng)歷,就要用感情強(qiáng)烈的詞和修飾副詞,比如“非常”“非?!?。
(2)情感特征。虛假評論的情感存在強(qiáng)烈的“兩極分化”現(xiàn)象,“滿分評論”和“最低分評論”占據(jù)主導(dǎo)地位[4]。
(3)時(shí)間特性。虛假評論一般比真實(shí)評論更“突然”,虛假信息提供者發(fā)起連續(xù)評論的時(shí)間間隔更短[5]。
基于事實(shí)的虛假信息在語言、評論和溝通方式上具有突出的特點(diǎn):
(1)語言特點(diǎn)。基于事實(shí)的虛假信息,為了增強(qiáng)關(guān)注度和吸引流量,往往在標(biāo)題中提供大量信息,并表現(xiàn)出強(qiáng)烈的無關(guān)性特征,即所謂的“標(biāo)題方”。
“標(biāo)題黨”新聞
(2)評論的特點(diǎn)。虛假信息因其新穎性會在評論中引起更多的“驚訝”、“厭惡”等情緒[6]。
在虛假信息的評論中,“驚訝”和“厭惡”的情緒激增(紅色是虛假信息)[6]
(3)溝通特點(diǎn)。虛假信息呈現(xiàn)出一種“病毒式”傳播模式,往往比真實(shí)信息更遠(yuǎn)、更快、更深、更廣[7]。
虛假信息比真實(shí)信息傳播得更遠(yuǎn)、更快、更深、更廣[7]
為什么網(wǎng)上的虛假信息可以欺騙大眾?
有研究定量分析了為什么網(wǎng)絡(luò)上的虛假信息可以欺騙公眾,主要從虛假信息本身、網(wǎng)民個(gè)人和網(wǎng)民群體三個(gè)角度進(jìn)行分析。
好奇的心態(tài)。如前所述,互聯(lián)網(wǎng)上的虛假信息本身在語言上具有鮮明的特點(diǎn)。為了吸引注意力,他們往往會提供更多新穎的觀點(diǎn),展示更多獨(dú)特的信息[8],而公眾則會因?yàn)椤昂闷妗毙膽B(tài)而更傾向于傳播這類信息。
虛假信息(紅色)與真實(shí)信息(綠色)在信息唯一性(IU)和差異性(KL)上的比較[8]
歧視性差。由于知識水平參差不齊,許多互聯(lián)網(wǎng)用戶往往沒有足夠的能力來區(qū)分信息的真實(shí)性。斯坦福大學(xué)的庫馬爾團(tuán)隊(duì)曾經(jīng)做過一個(gè)實(shí)驗(yàn)。他們雇傭了亞馬遜機(jī)械土耳其人的注釋者來區(qū)分320對真假文章,每對都展示給五個(gè)不同的注釋者。實(shí)驗(yàn)表明,人們成功識別虛假文章的概率只有66%(略高于50%的隨機(jī)猜測)。再者,他們對容易識別和難以識別的虛假信息進(jìn)行統(tǒng)計(jì)比較,發(fā)現(xiàn)虛假信息的長度越長,鏈接和標(biāo)簽越多,越容易被識別為真實(shí)信息[9]??梢韵胂螅绻摷傩畔⒃陂L度、鏈接、標(biāo)記等方面刻意模仿真實(shí)信息。,那就更難分辨了!
回音室效應(yīng)?;ヂ?lián)網(wǎng)形成了大大小小的網(wǎng)民網(wǎng)絡(luò)社區(qū),回音室效應(yīng)會進(jìn)一步誘導(dǎo)公眾被虛假信息所欺騙?;匾羰倚?yīng)是指,在一個(gè)相對封閉的環(huán)境中,類似觀點(diǎn)的聲音以夸張或其他扭曲的形式反復(fù)出現(xiàn),使得這個(gè)相對封閉的環(huán)境中的大多數(shù)人認(rèn)為這些扭曲的故事都是事實(shí)。如今在線社交媒體的個(gè)性化推薦算法不斷完善,不斷向用戶推薦內(nèi)容和興趣相近的人,進(jìn)一步放大了互聯(lián)網(wǎng)社區(qū)的回音室效應(yīng)。在回音室效應(yīng)下,網(wǎng)民傾向于堅(jiān)守與自己喜好和觀點(diǎn)一致的社交圈,切斷來自其他社交圈的信息輸入。
下圖反映了推特上關(guān)于#牛肉班(印度禁止吃牛肉)[9]的轉(zhuǎn)發(fā)網(wǎng)絡(luò),紅藍(lán)點(diǎn)代表觀點(diǎn)相反的網(wǎng)友。可以看出,與組內(nèi)頻繁的互動相比,兩組之間的信息交流很少。
推特上轉(zhuǎn)發(fā)網(wǎng)絡(luò)關(guān)于#牛肉班的話題[9]
如何自動檢測虛假信息?
基于以上分析,我們可以發(fā)現(xiàn),稍加包裝,虛假信息就很容易“蒙混過關(guān)”,在互聯(lián)網(wǎng)上大規(guī)模傳播。面對復(fù)雜的互聯(lián)網(wǎng)信息,人工專家檢測費(fèi)時(shí)費(fèi)力,與呈指數(shù)級增長的信息相比,這是一項(xiàng)不可能完成的任務(wù)。
好消息是,互聯(lián)網(wǎng)技術(shù)與計(jì)算機(jī)和人工智能技術(shù)齊頭并進(jìn)。先進(jìn)的人工智能技術(shù)為我們提供了自動檢測虛假信息的可能性。目前,國外許多研究者正在探索如何自動檢測虛假信息,并取得了一定的進(jìn)展。
對特色工程的思考。一些研究者采用了特征提取的思想。根據(jù)總結(jié)出的虛假信息特征,如前面提到的語言特征和交流特征,他們使用支持向量機(jī)、隨機(jī)森林等機(jī)器學(xué)習(xí)方法將信息分類為真或假[10,11,12],如下圖所示。這種基于特征提取的方法可以充分利用專家總結(jié)的經(jīng)驗(yàn)和知識,但美中不足的是需要手動提取特征,無法從大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)中自動挖掘特征。但網(wǎng)絡(luò)虛假信息類似于垃圾郵件或廣告,其技術(shù)、手段和形式都在不斷更新。很難與時(shí)俱進(jìn),及時(shí)應(yīng)對新的虛假信息形式。
基于特征提取的傳統(tǒng)方法
對深度學(xué)習(xí)的思考。近年來,深度學(xué)習(xí)引發(fā)了全球人工智能發(fā)展的浪潮。深度學(xué)習(xí)的核心思想之一是采用分布式表示方案從大規(guī)模文本中自動學(xué)習(xí)和提取語義特征。分布式表示學(xué)習(xí)是指通過大規(guī)模數(shù)據(jù)集自動學(xué)習(xí)信息的低維特征向量表示。這些向量反映了我們所關(guān)心的對象(如單詞、句子、文檔、用戶、文章等)的位置信息。)在低維向量空中,它們之間的相對距離和位置反映了語義相關(guān)性。
下圖是從大規(guī)模文本語料庫中自動學(xué)習(xí)的一些單詞的二維向量表示[13]??梢娚疃葘W(xué)習(xí)技術(shù)可以自動學(xué)習(xí)單詞的語義相似度,即國名會聚在一起,而城市名會聚在一起。同時(shí),該技術(shù)還可以找到“中國”—“北京”、“日本”—“東京”的語義關(guān)系,即可以自動挖掘出“國家首都”的隱含語義關(guān)系。
分布式表示學(xué)習(xí)[13]
分布式表示學(xué)習(xí)可以很好地解決社交計(jì)算中對象間的語義計(jì)算問題,將文本、用戶和對象映射到統(tǒng)一的低維向量語義空。這樣,專家就不再需要總結(jié)自己的特征,而是從海量的互聯(lián)網(wǎng)數(shù)據(jù)中自動挖掘特征,進(jìn)而預(yù)測信息的真假[14,15,16]。
基于分布式表示的學(xué)習(xí)方法[13]
下面是利用深度學(xué)習(xí)技術(shù)自動從原文和評論文本中學(xué)習(xí)特征,自動檢測社交媒體平臺早期謠言的典型案例[17]。如上所述,社交媒體平臺中的評論文本包含豐富的反饋信息,以識別原始發(fā)布信息的真實(shí)性。如果能夠充分挖掘評論文本信息,可以大大提高信息檢測的及時(shí)性和準(zhǔn)確性,實(shí)現(xiàn)謠言的早期自動檢測。
使用“可信檢測點(diǎn)”早期檢測謠言的示例[18]
如上圖所示,我們畫出了一個(gè)謠言轉(zhuǎn)貼序列和一條隨時(shí)間變化的預(yù)測概率曲線。因?yàn)檗D(zhuǎn)帖中對原始信息有很多質(zhì)疑和反駁,不需要看全部評論就可以做出可信的預(yù)測?;谶@一觀察,我們引入了“可信檢測點(diǎn)”的概念,并提出了一個(gè)謠言早期檢測模型。通過深度神經(jīng)網(wǎng)絡(luò),不斷整合序列前評論的表達(dá)方式,自動學(xué)習(xí)如何確定每個(gè)轉(zhuǎn)發(fā)序列的“可信檢測點(diǎn)”,從而保證該時(shí)間點(diǎn)預(yù)測結(jié)果的可靠性,使得事后不會出現(xiàn)結(jié)果反轉(zhuǎn)。基于深度學(xué)習(xí)方法,在新浪微博真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)模型相比,該謠言早期檢測模型的預(yù)測時(shí)間縮短了85%,檢測準(zhǔn)確率更高。
總結(jié)與展望
在“后真實(shí)時(shí)代”,互聯(lián)網(wǎng)上虛假信息的定量分析和自動檢測是一個(gè)亟待解決的問題?;谏疃葘W(xué)習(xí)的自動檢測方法將是未來的主流趨勢,但該方法仍然存在準(zhǔn)確率低、可解釋性和魯棒性差的問題。這是一個(gè)高度跨學(xué)科的方向,需要計(jì)算機(jī)科學(xué)、語言學(xué)、社會學(xué)、心理學(xué)、法學(xué)甚至腦科學(xué)等各個(gè)角度的綜合研究,才能實(shí)現(xiàn)對互聯(lián)網(wǎng)上虛假信息的“圍剿”。
從技術(shù)角度來說,現(xiàn)有的知識庫,如wiki數(shù)據(jù)、知網(wǎng)等,包含了豐富的群體智慧和人類知識。如果能將這些結(jié)構(gòu)化知識與深度學(xué)習(xí)技術(shù)相結(jié)合,引入虛假信息檢測模型,有望顯著提高信息檢測的準(zhǔn)確率。如何提取復(fù)雜的網(wǎng)絡(luò)信息并將其與知識庫中的信息進(jìn)行匹配將是挑戰(zhàn)和難點(diǎn)之一,也是一個(gè)值得今后進(jìn)一步探索的問題。
此外,目前對網(wǎng)絡(luò)虛假信息的定量研究大多基于英文數(shù)據(jù),而中文相關(guān)研究較少,這與中文網(wǎng)絡(luò)世界獲取相關(guān)數(shù)據(jù)困難以及缺乏標(biāo)注數(shù)據(jù)有關(guān)。因此,如何在中文互聯(lián)網(wǎng)上建立一個(gè)相對大規(guī)模的虛假信息語料庫,如何在少量中文語料庫的基礎(chǔ)上建立一個(gè)有效的虛假信息自動挖掘和檢測能力是值得研究的。
本文結(jié)合以往的研究工作,對互聯(lián)網(wǎng)上虛假信息的影響、特點(diǎn)、成因、檢測等進(jìn)行了簡要的總結(jié)和梳理,不涉及太多技術(shù)細(xì)節(jié),旨在起到科普介紹的作用,希望能有利于大家對這個(gè)方向的初步認(rèn)識和探索。限于作者水平,難免會有錯(cuò)誤,歡迎批評指正。
參考數(shù)據(jù)
[1] Elisa Shearer,Katerina Eva Matsa。2018年跨社交媒體平臺的新聞使用。皮尤研究中心,2018
[2]克雷格·西爾弗曼。這一分析顯示了臉譜網(wǎng)上的虛假選舉新聞如何勝過真實(shí)新聞。Buzzfeed新聞。2016.
[3]“2016年度詞匯是……”牛津詞典。2016.
[4]庫馬爾、斯里揚(yáng)和尼爾·沙阿。"網(wǎng)絡(luò)和社交媒體上的虛假信息:一項(xiàng)調(diào)查." alt="coati 清華劉知遠(yuǎn)+陳慧敏:流言止于“智”者——網(wǎng)絡(luò)虛假信息的特征與檢測">