皮尤研究中心2018年美國(guó)人接觸的新聞來(lái)源調(diào)查分析[1]
據(jù)統(tǒng)計(jì),2016年美國(guó)總統(tǒng)大選期間,報(bào)道選舉事件的前20名虛假新聞在Facebook上獲得871.1萬(wàn)股贊和評(píng)論,超過(guò)前20名真實(shí)新聞獲得的736.7萬(wàn)股贊和評(píng)論,嚴(yán)重誤導(dǎo)了選舉輿論。同年,“后真實(shí)”一詞也被牛津詞典選為年度詞匯,反映了“雄辯勝于事實(shí)”的網(wǎng)絡(luò)環(huán)境[3]。2011年,日本地震引發(fā)的核泄漏污染了海鹽,中國(guó)網(wǎng)絡(luò)媒體出現(xiàn)了大量“中國(guó)鹽資源也被污染”等虛假信息,導(dǎo)致人們瘋狂搶鹽,引發(fā)社會(huì)恐慌。
可見(jiàn),互聯(lián)網(wǎng)上虛假信息的大規(guī)模傳播給社會(huì)和個(gè)人的發(fā)展帶來(lái)了嚴(yán)重的危害。因此,在當(dāng)今互聯(lián)網(wǎng)時(shí)代,識(shí)別和檢測(cè)互聯(lián)網(wǎng)上的虛假信息尤為重要。
網(wǎng)上的虛假信息有哪些類型?
根據(jù)網(wǎng)絡(luò)虛假信息的內(nèi)容,可以分為兩類:基于觀點(diǎn)的虛假信息和基于事實(shí)的虛假信息。
基于觀點(diǎn)的虛假信息沒(méi)有絕對(duì)的事實(shí)標(biāo)準(zhǔn),一般指發(fā)表虛假的個(gè)人觀點(diǎn),如評(píng)論網(wǎng)站上的虛假評(píng)論。
基于事實(shí)的虛假信息有絕對(duì)的事實(shí)標(biāo)準(zhǔn),一般是為了迷惑公眾而偽造事實(shí),如假新聞、Wiki騙局等。
這兩種類型是我們需要關(guān)注和測(cè)試的對(duì)象。以一個(gè)當(dāng)時(shí)廣為流傳的維基百科騙局為例。2008年7月,一名17歲的學(xué)生惡作劇地在維基百科的條目“coati(南美浣熊)”中添加了一個(gè)假名,稱“coatis也被稱為‘巴西土豚’”。之后這種虛假信息在維基百科上保留了六年,被數(shù)百家網(wǎng)站、報(bào)紙甚至一些大學(xué)出版的書(shū)籍傳播。
維基詞條“coati”的騙局
網(wǎng)絡(luò)上的虛假信息有哪些特點(diǎn)?
目前,國(guó)外已經(jīng)做了一些開(kāi)創(chuàng)性的工作來(lái)定量分析互聯(lián)網(wǎng)上虛假信息的統(tǒng)計(jì)特征。研究發(fā)現(xiàn),基于視點(diǎn)的虛假信息在文本、情感和時(shí)間三個(gè)方面具有明顯的特征:
(1)文字特征?;谟^點(diǎn)的虛假信息往往具有很強(qiáng)的文本相似性,并伴隨著明顯的語(yǔ)言特征。如果用第一人稱來(lái)表達(dá)個(gè)人經(jīng)歷,就要用感情強(qiáng)烈的詞和修飾副詞,比如“非?!薄胺浅!?。
(2)情感特征。虛假評(píng)論的情感存在強(qiáng)烈的“兩極分化”現(xiàn)象,“滿分評(píng)論”和“最低分評(píng)論”占據(jù)主導(dǎo)地位[4]。
(3)時(shí)間特性。虛假評(píng)論一般比真實(shí)評(píng)論更“突然”,虛假信息提供者發(fā)起連續(xù)評(píng)論的時(shí)間間隔更短[5]。
基于事實(shí)的虛假信息在語(yǔ)言、評(píng)論和溝通方式上具有突出的特點(diǎn):
(1)語(yǔ)言特點(diǎn)。基于事實(shí)的虛假信息,為了增強(qiáng)關(guān)注度和吸引流量,往往在標(biāo)題中提供大量信息,并表現(xiàn)出強(qiáng)烈的無(wú)關(guān)性特征,即所謂的“標(biāo)題方”。
“標(biāo)題黨”新聞
(2)評(píng)論的特點(diǎn)。虛假信息因其新穎性會(huì)在評(píng)論中引起更多的“驚訝”、“厭惡”等情緒[6]。
在虛假信息的評(píng)論中,“驚訝”和“厭惡”的情緒激增(紅色是虛假信息)[6]
(3)溝通特點(diǎn)。虛假信息呈現(xiàn)出一種“病毒式”傳播模式,往往比真實(shí)信息更遠(yuǎn)、更快、更深、更廣[7]。
虛假信息比真實(shí)信息傳播得更遠(yuǎn)、更快、更深、更廣[7]
為什么網(wǎng)上的虛假信息可以欺騙大眾?
有研究定量分析了為什么網(wǎng)絡(luò)上的虛假信息可以欺騙公眾,主要從虛假信息本身、網(wǎng)民個(gè)人和網(wǎng)民群體三個(gè)角度進(jìn)行分析。
好奇的心態(tài)。如前所述,互聯(lián)網(wǎng)上的虛假信息本身在語(yǔ)言上具有鮮明的特點(diǎn)。為了吸引注意力,他們往往會(huì)提供更多新穎的觀點(diǎn),展示更多獨(dú)特的信息[8],而公眾則會(huì)因?yàn)椤昂闷妗毙膽B(tài)而更傾向于傳播這類信息。
虛假信息(紅色)與真實(shí)信息(綠色)在信息唯一性(IU)和差異性(KL)上的比較[8]
歧視性差。由于知識(shí)水平參差不齊,許多互聯(lián)網(wǎng)用戶往往沒(méi)有足夠的能力來(lái)區(qū)分信息的真實(shí)性。斯坦福大學(xué)的庫(kù)馬爾團(tuán)隊(duì)曾經(jīng)做過(guò)一個(gè)實(shí)驗(yàn)。他們雇傭了亞馬遜機(jī)械土耳其人的注釋者來(lái)區(qū)分320對(duì)真假文章,每對(duì)都展示給五個(gè)不同的注釋者。實(shí)驗(yàn)表明,人們成功識(shí)別虛假文章的概率只有66%(略高于50%的隨機(jī)猜測(cè))。再者,他們對(duì)容易識(shí)別和難以識(shí)別的虛假信息進(jìn)行統(tǒng)計(jì)比較,發(fā)現(xiàn)虛假信息的長(zhǎng)度越長(zhǎng),鏈接和標(biāo)簽越多,越容易被識(shí)別為真實(shí)信息[9]??梢韵胂螅绻摷傩畔⒃陂L(zhǎng)度、鏈接、標(biāo)記等方面刻意模仿真實(shí)信息。,那就更難分辨了!
回音室效應(yīng)。互聯(lián)網(wǎng)形成了大大小小的網(wǎng)民網(wǎng)絡(luò)社區(qū),回音室效應(yīng)會(huì)進(jìn)一步誘導(dǎo)公眾被虛假信息所欺騙?;匾羰倚?yīng)是指,在一個(gè)相對(duì)封閉的環(huán)境中,類似觀點(diǎn)的聲音以夸張或其他扭曲的形式反復(fù)出現(xiàn),使得這個(gè)相對(duì)封閉的環(huán)境中的大多數(shù)人認(rèn)為這些扭曲的故事都是事實(shí)。如今在線社交媒體的個(gè)性化推薦算法不斷完善,不斷向用戶推薦內(nèi)容和興趣相近的人,進(jìn)一步放大了互聯(lián)網(wǎng)社區(qū)的回音室效應(yīng)。在回音室效應(yīng)下,網(wǎng)民傾向于堅(jiān)守與自己喜好和觀點(diǎn)一致的社交圈,切斷來(lái)自其他社交圈的信息輸入。
下圖反映了推特上關(guān)于#牛肉班(印度禁止吃牛肉)[9]的轉(zhuǎn)發(fā)網(wǎng)絡(luò),紅藍(lán)點(diǎn)代表觀點(diǎn)相反的網(wǎng)友??梢钥闯觯c組內(nèi)頻繁的互動(dòng)相比,兩組之間的信息交流很少。
推特上轉(zhuǎn)發(fā)網(wǎng)絡(luò)關(guān)于#牛肉班的話題[9]
如何自動(dòng)檢測(cè)虛假信息?
基于以上分析,我們可以發(fā)現(xiàn),稍加包裝,虛假信息就很容易“蒙混過(guò)關(guān)”,在互聯(lián)網(wǎng)上大規(guī)模傳播。面對(duì)復(fù)雜的互聯(lián)網(wǎng)信息,人工專家檢測(cè)費(fèi)時(shí)費(fèi)力,與呈指數(shù)級(jí)增長(zhǎng)的信息相比,這是一項(xiàng)不可能完成的任務(wù)。
好消息是,互聯(lián)網(wǎng)技術(shù)與計(jì)算機(jī)和人工智能技術(shù)齊頭并進(jìn)。先進(jìn)的人工智能技術(shù)為我們提供了自動(dòng)檢測(cè)虛假信息的可能性。目前,國(guó)外許多研究者正在探索如何自動(dòng)檢測(cè)虛假信息,并取得了一定的進(jìn)展。
對(duì)特色工程的思考。一些研究者采用了特征提取的思想。根據(jù)總結(jié)出的虛假信息特征,如前面提到的語(yǔ)言特征和交流特征,他們使用支持向量機(jī)、隨機(jī)森林等機(jī)器學(xué)習(xí)方法將信息分類為真或假[10,11,12],如下圖所示。這種基于特征提取的方法可以充分利用專家總結(jié)的經(jīng)驗(yàn)和知識(shí),但美中不足的是需要手動(dòng)提取特征,無(wú)法從大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)中自動(dòng)挖掘特征。但網(wǎng)絡(luò)虛假信息類似于垃圾郵件或廣告,其技術(shù)、手段和形式都在不斷更新。很難與時(shí)俱進(jìn),及時(shí)應(yīng)對(duì)新的虛假信息形式。
基于特征提取的傳統(tǒng)方法
對(duì)深度學(xué)習(xí)的思考。近年來(lái),深度學(xué)習(xí)引發(fā)了全球人工智能發(fā)展的浪潮。深度學(xué)習(xí)的核心思想之一是采用分布式表示方案從大規(guī)模文本中自動(dòng)學(xué)習(xí)和提取語(yǔ)義特征。分布式表示學(xué)習(xí)是指通過(guò)大規(guī)模數(shù)據(jù)集自動(dòng)學(xué)習(xí)信息的低維特征向量表示。這些向量反映了我們所關(guān)心的對(duì)象(如單詞、句子、文檔、用戶、文章等)的位置信息。)在低維向量空中,它們之間的相對(duì)距離和位置反映了語(yǔ)義相關(guān)性。
下圖是從大規(guī)模文本語(yǔ)料庫(kù)中自動(dòng)學(xué)習(xí)的一些單詞的二維向量表示[13]。可見(jiàn)深度學(xué)習(xí)技術(shù)可以自動(dòng)學(xué)習(xí)單詞的語(yǔ)義相似度,即國(guó)名會(huì)聚在一起,而城市名會(huì)聚在一起。同時(shí),該技術(shù)還可以找到“中國(guó)”—“北京”、“日本”—“東京”的語(yǔ)義關(guān)系,即可以自動(dòng)挖掘出“國(guó)家首都”的隱含語(yǔ)義關(guān)系。
分布式表示學(xué)習(xí)[13]
分布式表示學(xué)習(xí)可以很好地解決社交計(jì)算中對(duì)象間的語(yǔ)義計(jì)算問(wèn)題,將文本、用戶和對(duì)象映射到統(tǒng)一的低維向量語(yǔ)義空。這樣,專家就不再需要總結(jié)自己的特征,而是從海量的互聯(lián)網(wǎng)數(shù)據(jù)中自動(dòng)挖掘特征,進(jìn)而預(yù)測(cè)信息的真假[14,15,16]。
基于分布式表示的學(xué)習(xí)方法[13]
下面是利用深度學(xué)習(xí)技術(shù)自動(dòng)從原文和評(píng)論文本中學(xué)習(xí)特征,自動(dòng)檢測(cè)社交媒體平臺(tái)早期謠言的典型案例[17]。如上所述,社交媒體平臺(tái)中的評(píng)論文本包含豐富的反饋信息,以識(shí)別原始發(fā)布信息的真實(shí)性。如果能夠充分挖掘評(píng)論文本信息,可以大大提高信息檢測(cè)的及時(shí)性和準(zhǔn)確性,實(shí)現(xiàn)謠言的早期自動(dòng)檢測(cè)。
使用“可信檢測(cè)點(diǎn)”早期檢測(cè)謠言的示例[18]
如上圖所示,我們畫(huà)出了一個(gè)謠言轉(zhuǎn)貼序列和一條隨時(shí)間變化的預(yù)測(cè)概率曲線。因?yàn)檗D(zhuǎn)帖中對(duì)原始信息有很多質(zhì)疑和反駁,不需要看全部評(píng)論就可以做出可信的預(yù)測(cè)?;谶@一觀察,我們引入了“可信檢測(cè)點(diǎn)”的概念,并提出了一個(gè)謠言早期檢測(cè)模型。通過(guò)深度神經(jīng)網(wǎng)絡(luò),不斷整合序列前評(píng)論的表達(dá)方式,自動(dòng)學(xué)習(xí)如何確定每個(gè)轉(zhuǎn)發(fā)序列的“可信檢測(cè)點(diǎn)”,從而保證該時(shí)間點(diǎn)預(yù)測(cè)結(jié)果的可靠性,使得事后不會(huì)出現(xiàn)結(jié)果反轉(zhuǎn)。基于深度學(xué)習(xí)方法,在新浪微博真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)模型相比,該謠言早期檢測(cè)模型的預(yù)測(cè)時(shí)間縮短了85%,檢測(cè)準(zhǔn)確率更高。
總結(jié)與展望
在“后真實(shí)時(shí)代”,互聯(lián)網(wǎng)上虛假信息的定量分析和自動(dòng)檢測(cè)是一個(gè)亟待解決的問(wèn)題?;谏疃葘W(xué)習(xí)的自動(dòng)檢測(cè)方法將是未來(lái)的主流趨勢(shì),但該方法仍然存在準(zhǔn)確率低、可解釋性和魯棒性差的問(wèn)題。這是一個(gè)高度跨學(xué)科的方向,需要計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、社會(huì)學(xué)、心理學(xué)、法學(xué)甚至腦科學(xué)等各個(gè)角度的綜合研究,才能實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上虛假信息的“圍剿”。
從技術(shù)角度來(lái)說(shuō),現(xiàn)有的知識(shí)庫(kù),如wiki數(shù)據(jù)、知網(wǎng)等,包含了豐富的群體智慧和人類知識(shí)。如果能將這些結(jié)構(gòu)化知識(shí)與深度學(xué)習(xí)技術(shù)相結(jié)合,引入虛假信息檢測(cè)模型,有望顯著提高信息檢測(cè)的準(zhǔn)確率。如何提取復(fù)雜的網(wǎng)絡(luò)信息并將其與知識(shí)庫(kù)中的信息進(jìn)行匹配將是挑戰(zhàn)和難點(diǎn)之一,也是一個(gè)值得今后進(jìn)一步探索的問(wèn)題。
此外,目前對(duì)網(wǎng)絡(luò)虛假信息的定量研究大多基于英文數(shù)據(jù),而中文相關(guān)研究較少,這與中文網(wǎng)絡(luò)世界獲取相關(guān)數(shù)據(jù)困難以及缺乏標(biāo)注數(shù)據(jù)有關(guān)。因此,如何在中文互聯(lián)網(wǎng)上建立一個(gè)相對(duì)大規(guī)模的虛假信息語(yǔ)料庫(kù),如何在少量中文語(yǔ)料庫(kù)的基礎(chǔ)上建立一個(gè)有效的虛假信息自動(dòng)挖掘和檢測(cè)能力是值得研究的。
本文結(jié)合以往的研究工作,對(duì)互聯(lián)網(wǎng)上虛假信息的影響、特點(diǎn)、成因、檢測(cè)等進(jìn)行了簡(jiǎn)要的總結(jié)和梳理,不涉及太多技術(shù)細(xì)節(jié),旨在起到科普介紹的作用,希望能有利于大家對(duì)這個(gè)方向的初步認(rèn)識(shí)和探索。限于作者水平,難免會(huì)有錯(cuò)誤,歡迎批評(píng)指正。
參考數(shù)據(jù)
[1] Elisa Shearer,Katerina Eva Matsa。2018年跨社交媒體平臺(tái)的新聞使用。皮尤研究中心,2018
[2]克雷格·西爾弗曼。這一分析顯示了臉譜網(wǎng)上的虛假選舉新聞如何勝過(guò)真實(shí)新聞。Buzzfeed新聞。2016.
[3]“2016年度詞匯是……”牛津詞典。2016.
[4]庫(kù)馬爾、斯里揚(yáng)和尼爾·沙阿。"網(wǎng)絡(luò)和社交媒體上的虛假信息:一項(xiàng)調(diào)查." alt="coati 清華劉知遠(yuǎn)+陳慧敏:流言止于“智”者——網(wǎng)絡(luò)虛假信息的特征與檢測(cè)">