人們常說,有人的地方就有江湖。而我們要說,有江湖的地方就有欺詐。反欺詐由來已久,從最原始的人工檢測(cè),到后來的黑白名單、規(guī)則引擎、有監(jiān)督學(xué)習(xí)算法,再到現(xiàn)如今的無監(jiān)督學(xué)習(xí),演化至今,欺詐與反欺詐手法可謂變化多端,此消彼長。常言道,道高一尺,魔高一丈。這句話用在欺詐與反欺詐行業(yè)再合適不過了。在巨額利益的誘惑下,欺詐者不斷擴(kuò)充隊(duì)伍,升級(jí)技術(shù),變化攻擊方式,給個(gè)人和企業(yè)帶來了巨大威脅。
在與欺詐分子斗爭(zhēng)的諸多年間,反欺詐不斷形成了自己的方法論。具體都有哪些方法?都適應(yīng)哪些場(chǎng)景?哪種方法更有效?且聽黃姐姐娓娓道來。
方法一、黑白名單
黑白名單是最原始的反欺詐手段,顧名思義,黑名單就是壞人,白名單則指好人。舉個(gè)?:人行征信記錄著每個(gè)信用卡持卡人的還款記錄,如果你有信用卡逾期且拒絕還款,甚至直接從人間蒸發(fā),那么恭喜你,你可能就上了人行的黑名單。一段時(shí)間后,你重新在江湖上復(fù)出,想著:申請(qǐng)個(gè)新信用卡吧!銀行在接到你的申請(qǐng)表后,在黑名單上一查,發(fā)現(xiàn)了你,于是乎,駁回!這就是黑名單的使用方式。黑名單的應(yīng)用非常廣,且一份黑名單通常能賣到很高的價(jià)格,例如:你經(jīng)常在淘寶上購買退貨險(xiǎn),又屢屢退貨,那么,你就有可能上了騙保的黑名單,想再次購買退貨險(xiǎn)就很難了。
方法二、規(guī)則引擎
黑名單的優(yōu)缺點(diǎn)十分明顯,優(yōu)點(diǎn)就是簡(jiǎn)單方便,各行各業(yè)各產(chǎn)品的反欺詐都可以用黑名單,缺點(diǎn)就是無法發(fā)現(xiàn)新騙子。黑名單的升級(jí)版本是規(guī)則引擎,還是拿退貨險(xiǎn)舉例。之前,保險(xiǎn)公司拿著一個(gè)清單來比對(duì)哪些人可以購買退貨險(xiǎn),經(jīng)過一段時(shí)間的積累,保險(xiǎn)公司發(fā)現(xiàn),退貨比例超過80%的用戶極可能再次退貨,疑似騙保;或者連續(xù)退貨超過5次的用戶的騙保嫌疑也非常大。于是乎,保險(xiǎn)公司設(shè)定了一個(gè)閾值,規(guī)則如下:
1. 連續(xù)退貨5次的用戶,拒絕其購買退貨險(xiǎn);
2. 退貨比例超過80%,拒絕其再次購買退貨險(xiǎn)。
很明顯,只要符合這兩種規(guī)則的任何一個(gè),就會(huì)被保險(xiǎn)公司拒之門外。這相比于黑名單,可以檢測(cè)到新的欺詐者,算是進(jìn)了一大步。但是,規(guī)則引擎卻無法檢測(cè)到新的欺詐模式。假設(shè),通過不斷的測(cè)試規(guī)則,我發(fā)現(xiàn)了這個(gè)閾值。于是乎,我準(zhǔn)確控制自己的退貨率在79%以下, 便可以繼續(xù)自己的騙保生涯,躺著賺錢了。一段時(shí)間后,保險(xiǎn)公司再次發(fā)現(xiàn)了我的伎倆,于是把閾值下調(diào)到50%。
規(guī)則引擎通??膳浜虾诿麊我黄鹗褂?,通過規(guī)則引擎抓到的壞人被列到黑名單中。
規(guī)則引擎的規(guī)則是如何生成的?答案是:經(jīng)驗(yàn)!這聽起來有點(diǎn)不靠譜,萬一經(jīng)驗(yàn)錯(cuò)了怎么辦?事實(shí)上,的確會(huì)發(fā)生這樣的情況。例如,通過我們之前的經(jīng)驗(yàn)判斷,認(rèn)為退貨比例超過80%的就是壞用戶。那么,假設(shè)我是一個(gè)網(wǎng)購新人,第一次買衣服,發(fā)現(xiàn)號(hào)碼小了,于是退貨。那么,我購買的第一單就退貨哦,退貨比例100%,能說我就是騙保的嗎?下次就不讓我買退貨險(xiǎn)了?這顯然不符合邏輯!
正因?yàn)榻?jīng)驗(yàn)的不確定性,規(guī)則通常需要投入大量的精力維護(hù),不斷更新、修改、刪除、添加等等,否則就會(huì)造成大量的FP和FN。
方法三、有監(jiān)督學(xué)習(xí)
有監(jiān)督學(xué)習(xí)是應(yīng)用最為廣泛的反欺詐方法。有監(jiān)督學(xué)習(xí)通常需要大量的有標(biāo)簽數(shù)據(jù)來訓(xùn)練模型,以此來預(yù)測(cè)還未被標(biāo)注的數(shù)據(jù)。拿垃圾郵件舉例,假設(shè)你把5000封已經(jīng)由人工確認(rèn)過的垃圾郵件輸入到了模型,告訴模型:hey,這些是垃圾郵件,幫我分析下!于是模型開始工作,通過對(duì)標(biāo)題的識(shí)別,對(duì)郵件內(nèi)容句子的分割,關(guān)鍵詞的識(shí)別等各種分析方法,找到了某種你沒辦法說得清楚的內(nèi)在關(guān)系。為了方便說明,我嘗試把這種關(guān)系抽象出來:
標(biāo)題里有“福利”二字的,有90%的可能性是垃圾郵件;
內(nèi)容里有“匯款賬號(hào):xxxxxx”的,有10%的可能性是垃圾郵件;
一次性發(fā)送超過200封的,有60%的可能性是垃圾郵件;
回復(fù)率低于10%的賬戶,有70%的可能性是垃圾郵件;
這里,百分之多少稱為權(quán)重。
訓(xùn)練好后,你給模型一封新郵件,模型通過檢測(cè)以上各個(gè)子項(xiàng),并對(duì)每一個(gè)子項(xiàng)乘以權(quán)重后相加,就得出一個(gè)分?jǐn)?shù),例如,這封有80%的可能性是垃圾郵件。
以上就是一個(gè)有監(jiān)督學(xué)習(xí)的抽象過程,其中一個(gè)重要的步驟就是通過不斷的迭代計(jì)算每一個(gè)子項(xiàng)應(yīng)該被賦予的權(quán)重值。權(quán)重值計(jì)算好后,就可以說這個(gè)模型訓(xùn)練好了。
有監(jiān)督學(xué)習(xí)的好處也十分明顯,它可以幫我們分析隱層關(guān)系。我們可以不必知道到底有監(jiān)督是如何做分析的,每一個(gè)子項(xiàng)被賦予了多少權(quán)重,我們只需要知道符合某種規(guī)則的就是壞人。此外,有監(jiān)督還有助于處理多維數(shù)據(jù)。由于規(guī)則是人憑經(jīng)驗(yàn)產(chǎn)生了,而如果老板丟給你一組數(shù)據(jù),每一條數(shù)據(jù)都有多達(dá)500個(gè)字段,讓你憑肉眼看出其中的關(guān)系,你恐怕要抓狂了。此時(shí),有監(jiān)督就可以解決你的問題了。
但有監(jiān)督也有一個(gè)明顯的弊端,每一個(gè)模型都需要大量的訓(xùn)練數(shù)據(jù),訓(xùn)練一個(gè)模型也需要較長的時(shí)間?,F(xiàn)在的騙子是何其聰明啊,到處打游擊戰(zhàn)。在你發(fā)現(xiàn)有入侵者后,你立馬開始訓(xùn)練模型,然而,再你還沒有訓(xùn)練好,騙子們可能就已經(jīng)離開,開始找下一個(gè)目標(biāo)了。如此,有監(jiān)督便無法應(yīng)對(duì)復(fù)雜多變,詭計(jì)多端的欺詐者了。
方法四、無監(jiān)督學(xué)習(xí)
近年來,無監(jiān)督為反欺詐打開了新大門,主要方式有聚類和圖形分析。無監(jiān)督無需任何訓(xùn)練數(shù)據(jù)和標(biāo)簽,通過發(fā)現(xiàn)用戶的共性行為,以及用戶和用戶的關(guān)系來檢測(cè)欺詐。下圖描述了聚類的方式:
有這樣一群用戶注冊(cè)事件,我們通過聚類發(fā)現(xiàn)其幾個(gè)小群符合某些共性:例如:注冊(cè)時(shí)間集中,都使用了某操作系統(tǒng),某一個(gè)瀏覽器版本等。這個(gè)用戶任何一個(gè)單獨(dú)拿出來分析,看上去都是再好不過的用戶了,而如果其符合某種超乎尋常的一致性就十分可疑了。例如,你發(fā)現(xiàn)一群人在凌晨2點(diǎn)-3點(diǎn),采用chrome瀏覽器注冊(cè)了某產(chǎn)品,其ip的前20位相同,GPS定位小于1公里,且注冊(cè)后都去修改了昵稱和性別。如果一個(gè)人這么做,你覺得正常啊,某個(gè)夜貓子隨便逛網(wǎng)站而已。而如果一群人這么做,你心里恐怕就要犯嘀咕了吧!
下圖描述了圖形分析的方式:
為了解釋分析邏輯,還是拿垃圾郵件舉例。一個(gè)正常的郵箱,往來信件比例不會(huì)相差特別離譜,中國有句古話“來而不往非禮也”!你收到人家的一封郵件,回復(fù)一下“well received”是起碼的禮儀。而我相信你基本上不會(huì)回復(fù)任何一個(gè)垃圾郵件或廣告郵件,而是直接刪除吧!通過回復(fù)率來判斷垃圾郵件也是一個(gè)常用的方式。
圖中,左下角是一個(gè)低端的攻擊者,只是單純地發(fā)送大量垃圾郵件,而郵件的回復(fù)率幾乎為0,對(duì)于這種郵箱,我們很容易判斷其為垃圾郵箱。右下角的群體就聰明多了,他們通過互相間的往來郵件來增加回復(fù)率,告訴反欺詐者:看,我有收到郵件哦!人家有回復(fù)我哦!你可不能抓我!這些郵箱通?;ゼ雍糜?,互通郵件,以此來偽裝成正常用戶。
通過無監(jiān)督學(xué)習(xí),我們可以發(fā)現(xiàn)這種類型的偽裝者,將其一網(wǎng)打盡。
無監(jiān)督算法應(yīng)用于反欺詐檢測(cè),通常還有一個(gè)優(yōu)勢(shì),那就是提前預(yù)警?,F(xiàn)在聰明的騙子都知道要潛伏一段時(shí)間再發(fā)起攻擊,以免太容易被發(fā)現(xiàn)。而由于其在潛伏期的行為依然符合某種規(guī)律,具有某些一致性,所以同樣還是會(huì)無監(jiān)督算法捕捉到。在攻擊發(fā)生前就指認(rèn)騙子,這一點(diǎn),其他三種方法恐怕是望塵莫及!這也是無監(jiān)督之所以在反欺詐檢測(cè)大放光彩的重要原因之一。
可見,反欺詐手法無分優(yōu)劣,選擇適合自己的就是最好的!
如果你的欺詐問題非常多,不妨將所有方法綜合起來用,建立一個(gè)全棧式檢測(cè)平臺(tái)。
1.《反欺詐之四大殺器》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁腳下方聯(lián)系方式。
2.《反欺詐之四大殺器》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/junshi/23444.html