關(guān)于IP的一些冷知識(shí):

IP地址(本文中特指IPv4地址),是用于標(biāo)識(shí)網(wǎng)絡(luò)和主機(jī)的一種邏輯標(biāo)識(shí)。依托于強(qiáng)大的TCP/IP協(xié)議,使得我們可以憑借一個(gè)IP地址,就訪問(wèn)互聯(lián)網(wǎng)上的所有資源。

IP地址本質(zhì)上,只是一個(gè)32位的無(wú)符號(hào)整型(unsigned int),范圍從0 ~ 2^32 ,總計(jì)約43億個(gè)IP地址。為了便于使用,一般使用字符串形式的IP地址,也就是我們平常用到的192.168.0.1這種形式。實(shí)際上,就是把整數(shù),每8個(gè)二進(jìn)制位轉(zhuǎn)換成對(duì)應(yīng)的十進(jìn)制整數(shù),以點(diǎn)分隔的形式使用。

比如,192.168.0.1和3232235521是等價(jià)的。

當(dāng)今全球,互聯(lián)網(wǎng)系統(tǒng)共分為四大區(qū)域,每一個(gè)區(qū)域都由一件互聯(lián)網(wǎng)的本體,通過(guò)光纜覆蓋信號(hào)。這四大區(qū)域分別被命名為:格蘭芬多,斯萊特林,赫奇帕奇以及拉文克勞......

這是《愛(ài)情公寓3》中的一個(gè)讓人捧腹的橋段。雖然是惡搞,但是有一件事兒說(shuō)對(duì)了,互聯(lián)網(wǎng)確實(shí)是分區(qū)域的。

全球共有五個(gè)區(qū)域互聯(lián)網(wǎng)注冊(cè)機(jī)構(gòu)(RIR),分別是:

美洲互聯(lián)網(wǎng)號(hào)碼注冊(cè)管理機(jī)構(gòu)(American Registry for Internet Numbers,ARIN);

歐洲IP網(wǎng)絡(luò)資源協(xié)調(diào)中心(RIPE Network Coordination Centre,RIPE NCC);

亞太網(wǎng)絡(luò)信息中心(Asia-Pacific Network Information Centre,APNIC);

拉丁美洲及加勒比地區(qū)互聯(lián)網(wǎng)地址注冊(cè)管理機(jī)構(gòu)(Latin American and Caribbean Internet Address Registry,LACNIC);

非洲網(wǎng)絡(luò)信息中心(African Network Information Centre,AfriNIC)。

IP地址的劃分,有RIR機(jī)構(gòu)來(lái)進(jìn)行統(tǒng)籌管理。負(fù)責(zé)亞洲地區(qū)IP地址分配的,就是APNIC,總部位于澳大利亞墨爾本。

各大RIR機(jī)構(gòu)都提供了關(guān)于IP地址劃分的登記信息,即whois記錄??梢栽诟鞔驲IR機(jī)構(gòu)提供的whois查詢頁(yè)面上查看,或者使用whois命令查詢:

whois信息中,會(huì)顯示IP地址所屬的網(wǎng)段,以及申請(qǐng)使用和維護(hù)這個(gè)網(wǎng)段的運(yùn)營(yíng)商。比如,上面的信息中顯示,153.35.93.31隸屬于江蘇省聯(lián)通。

某些黑客題材的電影中往往會(huì)出現(xiàn)使用whois直接查詢得到了一個(gè)IP的位置,非常精確地定位到了一幢建筑物里。

這張截圖來(lái)自于2015年上映的《BlackHat》,滿滿的槽點(diǎn),都是導(dǎo)演YY出來(lái)的。

(導(dǎo)演:怪我咯?)

正餐之前,給大家稍加科普一下,下面我們就要進(jìn)入主菜了。讓我們逐一來(lái)解惑文章開(kāi)篇提到的三個(gè)問(wèn)題。

這個(gè)IP在哪兒?

前面提到IP的whois信息,其中包含了申請(qǐng)使用該IP的運(yùn)營(yíng)商信息,并且在網(wǎng)段描述信息中,會(huì)包含國(guó)籍和省份信息。

但是這樣遠(yuǎn)遠(yuǎn)不夠,風(fēng)控場(chǎng)景中,我們需要更加精確的結(jié)果,需要知道這個(gè)IP具體在哪個(gè)城市、哪個(gè)鄉(xiāng)鎮(zhèn),甚至希望能夠精確到某一條街道或者小區(qū)。

曾有人問(wèn):我們的IP地址庫(kù)是否能夠提供這樣的結(jié)果?可以確定用戶在某個(gè)網(wǎng)吧、寫字樓甚至某個(gè)小區(qū)?

那上面這樣的IP數(shù)據(jù)庫(kù)是如何產(chǎn)生的呢?

俗稱“人海戰(zhàn)術(shù)”。您可別不相信,直到今天,依然有眾多的網(wǎng)友在為這個(gè)IP庫(kù)提供數(shù)據(jù)更新,上報(bào)IP地址的確切位置。但我們無(wú)從考證這個(gè)位置信息是否真實(shí)準(zhǔn)確,如果不能報(bào)保證數(shù)據(jù)的準(zhǔn)確性,在風(fēng)控決策中同盾是不會(huì)去使用的。

一種IP地址定位手段,是通過(guò)海量Traceroute信息來(lái)分析。

理論上,如果我能夠得到所有IP相互之間Traceroute的信息,就可以繪制出整個(gè)互聯(lián)網(wǎng)的鏈路圖。

(上圖來(lái)自于IPIP.NET提供的BestTrace工具)

每一次traceroute,都會(huì)返回詳細(xì)的網(wǎng)絡(luò)鏈路信息。積累了足夠多的鏈路信息之后,就可以直觀地看出,很多鏈路都經(jīng)過(guò)了同一個(gè)IP,那么這個(gè)IP就是骨干節(jié)點(diǎn)或者區(qū)域的骨干節(jié)點(diǎn)。先確定出哪些節(jié)點(diǎn)是CN2骨干節(jié)點(diǎn),進(jìn)一步確定省級(jí)骨干節(jié)點(diǎn),再逐一識(shí)別市縣區(qū)級(jí)的骨干節(jié)點(diǎn),最后得到全國(guó)范圍內(nèi)的網(wǎng)絡(luò)分布。

以下是CAIDA的一份報(bào)告,使用了類似的原理,但統(tǒng)計(jì)的最小單位是AS(自治域)

圈的邊緣,就是探測(cè)節(jié)點(diǎn),中間的紅色部分,就是全球互聯(lián)網(wǎng)的骨干節(jié)點(diǎn)。原理雖然簡(jiǎn)單,但實(shí)現(xiàn)起來(lái)卻沒(méi)那么容易。

首先,你得有足夠數(shù)量的節(jié)點(diǎn)來(lái)探測(cè)、收集traceroute鏈路數(shù)據(jù)。其次,要有可靠的技術(shù)手段來(lái)及時(shí)分析探測(cè)到的結(jié)果,匯總形成IP地址數(shù)據(jù)庫(kù)。據(jù)了解,DigitalElemet也用了類似的方式進(jìn)行探測(cè),在全球范圍內(nèi)一共部署了超過(guò)8萬(wàn)個(gè)探測(cè)節(jié)點(diǎn)。

根據(jù)這種網(wǎng)絡(luò)鏈路探測(cè)的出的定位結(jié)果,業(yè)內(nèi)又稱之為“網(wǎng)絡(luò)位置”。就是從互聯(lián)網(wǎng)的結(jié)構(gòu)上來(lái)說(shuō),我們最終確定了一個(gè)IP,被分配到了某個(gè)地方的運(yùn)營(yíng)商手里。

但是我們又遇到了很多其他的情況,給大家舉幾個(gè)簡(jiǎn)單的例子。

117.61.31.0 江蘇省 南京市 電信

通過(guò)分析這個(gè)IP關(guān)聯(lián)的所有定位數(shù)據(jù),得到了如下的分布:

這種情況,我們稱為“流量回源”。當(dāng)用戶在使用南京電信的手機(jī)卡上網(wǎng)時(shí),無(wú)論用戶身處哪里,他的流量都會(huì)回到南京電信,再轉(zhuǎn)發(fā)出去,所以從IP上看,都會(huì)顯示為一個(gè)南京的IP。

上面的定位信息分布,可以在RTB Asia的IP地址實(shí)驗(yàn)室中https://ip.rtbasia.com/

153.35.93.32 江蘇省 南京市 聯(lián)通

各種渠道的信息表明,這個(gè)IP確實(shí)分配到了南京聯(lián)通,結(jié)果定位點(diǎn)全部落在了北京市的范圍內(nèi)。如果我們根據(jù)IP的定位結(jié)果來(lái)判斷用戶當(dāng)前的位置,得到的結(jié)果肯定就錯(cuò)了。

難道前面提供的信息錯(cuò)了?其實(shí)是由于國(guó)內(nèi)運(yùn)營(yíng)商對(duì)IP地址的劃分和使用不透明,甚至特殊形式的租賃,導(dǎo)致北京的用戶,分配到了一個(gè)南京的IP。

IP地址跨城市覆蓋,覆蓋范圍非常大,用戶位置和網(wǎng)絡(luò)位置不在同一個(gè)城市甚至不在同一個(gè)省,都會(huì)影響到結(jié)果,無(wú)法準(zhǔn)確給出判斷。

另一方面,隨著移動(dòng)設(shè)備的普及,在用戶允許的情況下,可以通過(guò)移動(dòng)設(shè)備采集到設(shè)備上的GPS信息。前面大家看到的兩張定位分布圖,就是分析一個(gè)IP在歷史上關(guān)聯(lián)過(guò)的所有GPS定位繪制出來(lái)的。每一個(gè)紅點(diǎn),都表示曾經(jīng)有一個(gè)用戶這里出現(xiàn)過(guò)。再通過(guò)聚類和GPS反向解析,就可以預(yù)測(cè)一個(gè)IP下的用戶,可能出現(xiàn)的地理位置。這個(gè)結(jié)果,我們又稱之為“行為位置”。

這種分析方法看起來(lái)效果非常不錯(cuò),但是卻面臨兩個(gè)很重要的問(wèn)題。

其一是,今年來(lái)設(shè)備作弊的方式層出不窮,如果沒(méi)有有效的手段來(lái)保證數(shù)據(jù)的準(zhǔn)確性和可靠性,最終得出的結(jié)果也會(huì)有偏差。

比如下面這里例子,定位點(diǎn)非常規(guī)整地分布在一個(gè)矩形區(qū)域內(nèi),而且覆蓋到了海面上,做了深入的分析之后才發(fā)現(xiàn)這個(gè)IP下面有大量的作弊行為:

另一方面,依靠定位點(diǎn)分布來(lái)分析IP的定位,需要長(zhǎng)時(shí)間積累GPS數(shù)據(jù)。人口密集的地方,這個(gè)數(shù)據(jù)積累可以只要一天,二線城市需要一周,三線城市就需要至少一個(gè)月了。此前還遇到一個(gè)位于塔克拉瑪干沙漠中的基站IP,至今還沒(méi)有過(guò)與之關(guān)聯(lián)的GPS信息。如果某一天,IP地址被重新分配了,劃分到另外一個(gè)城市去使用,就需要等上一周甚至一個(gè)月的時(shí)間,才能重新校正結(jié)果。而網(wǎng)絡(luò)鏈路的分析可以很快感知到。

實(shí)際的使用中,我們會(huì)把這兩種方式結(jié)合到一起。并不是說(shuō),兩個(gè)定位結(jié)果中,有一個(gè)錯(cuò)了。兩個(gè)都是正確答案,只是某些情況下,有一個(gè)答案并不適合風(fēng)控場(chǎng)景。

互聯(lián)網(wǎng),就像物流系統(tǒng)一樣。我們分析IP的位置,和分析一個(gè)快遞小哥負(fù)責(zé)派送的區(qū)域原理是一樣。沒(méi)有哪個(gè)快遞小哥只給一戶人家送貨,IP也一樣,我們最終只能確定這個(gè)IP后面的用戶,可能出現(xiàn)的地理位置區(qū)域。隨著技術(shù)的提升,數(shù)據(jù)的積累,我們能夠不斷縮小這個(gè)范圍,達(dá)到最貼近真實(shí)的結(jié)果。

國(guó)內(nèi)的一個(gè)數(shù)據(jù)庫(kù),能夠給出部分IP地址的精確定位,可以定位到某個(gè)學(xué)校、酒店甚至網(wǎng)吧。

雖然這份依靠人海戰(zhàn)術(shù)堆積起來(lái)的IP地址庫(kù)在準(zhǔn)確性和時(shí)效性上無(wú)法滿足業(yè)務(wù)需求,但它也反映出了我們對(duì)IP地址研究的期望。我們除了想要知道這個(gè)IP的精確位置,我們也希望能夠知道IP屬主或者類別的信息。

這個(gè)IP是什么?

數(shù)據(jù)分析從來(lái)都不是盲目的。在開(kāi)始之前,我們需要事先確定把IP地址劃分為哪些類型。

網(wǎng)吧、酒店、學(xué)校、商場(chǎng)、企業(yè),這種分類實(shí)際上是IP屬主的類別劃分。在不能準(zhǔn)確判斷IP屬主的情況下,這樣分類顯然是不合適的。

從風(fēng)控的角度看,我們對(duì)IP進(jìn)行分類,實(shí)際上是為了能夠優(yōu)化風(fēng)控規(guī)則。同一類的IP,風(fēng)險(xiǎn)往往會(huì)相同,就可以使用相同的風(fēng)控策略。

比如,基站IP下用戶數(shù)量非常大,這類IP上不能使用過(guò)于嚴(yán)苛的頻次限制策略。

機(jī)房IP,比如阿里云、騰訊云、運(yùn)營(yíng)商數(shù)據(jù)中心等等。一般情況下,機(jī)房IP都會(huì)對(duì)應(yīng)到某一臺(tái)服務(wù)器上去。如果你發(fā)現(xiàn)某個(gè)用戶是通過(guò)機(jī)房IP訪問(wèn)的,那么代理/爬蟲(chóng)訪問(wèn)的可能性很大。

此外,小運(yùn)營(yíng)商會(huì)通過(guò)租賃的方式,使用三大運(yùn)營(yíng)商的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。他們所使用的線路,就會(huì)從機(jī)房IP列表中進(jìn)行分配(機(jī)房IP是保證上下行帶寬的,其他類型的IP,一般下行帶寬高于上行帶寬。專用出口使用機(jī)房的線路,可以保證足夠的帶寬。)

專用出口的IP,往往出現(xiàn)在機(jī)房IP的列表中,在不能準(zhǔn)確排除專用出口IP的情況下,決不能輕易把機(jī)房IP拉黑。

比如下面的這個(gè),根據(jù)網(wǎng)絡(luò)位置判斷,是廣州市電信機(jī)房的IP。但是這個(gè)IP上的用戶數(shù)量非常大,而且用戶全部分布在廣西境內(nèi)。萬(wàn)一把這個(gè)IP拉黑了,投訴電話會(huì)被打爆的。

但機(jī)房恰恰是垃圾注冊(cè)、刷單行為、代理行為、作弊行為和爬蟲(chóng)最密集的地方。如果能夠準(zhǔn)確地把專用出口這個(gè)類型識(shí)別出來(lái),那么剩下的,就是具有較高風(fēng)險(xiǎn)的機(jī)房IP了。為此,我們根據(jù)IP地址上的用戶行為特征、設(shè)備類型分布等信息來(lái)判斷識(shí)別專用出口IP。

能否通過(guò)更多的用戶特征來(lái)區(qū)分其他類型的IP呢?比如,判斷一個(gè)IP是企業(yè)還是家用的寬帶。

網(wǎng)吧、酒店、學(xué)校、商場(chǎng)、企業(yè)等等,這些類別,其實(shí)都是IP行為位置分析過(guò)程中的副產(chǎn)品。如果一個(gè)IP能夠精確地定位到某一幢建筑物上,我們只需要判斷這個(gè)建筑物是什么,就能得出結(jié)論。

一般的,企業(yè)的網(wǎng)絡(luò)會(huì)使用專線,IP在很長(zhǎng)的時(shí)間里都不會(huì)發(fā)生變化。隨著定位數(shù)據(jù)的積累,行為位置就會(huì)呈現(xiàn)出密集性。

比如下面的這個(gè)IP:

定位點(diǎn)在途牛大廈附近聚集,可以確定這是途牛使用的一個(gè)固定IP。與之對(duì)應(yīng)的,我們可以判斷,通過(guò)這個(gè)IP上網(wǎng)的人,應(yīng)該是途牛的員工。

對(duì)于一般的家用寬帶,雖然IP會(huì)頻繁變化,但是在特定的一段時(shí)間里,IP會(huì)固定的出現(xiàn)在某個(gè)區(qū)域。

舉個(gè)例子:

這個(gè)IP的定位點(diǎn)并沒(méi)有像前面的例子那樣在某一幢建筑物周圍聚集,而是隨機(jī)地分布在南昌市東湖區(qū)靠北的一片區(qū)域里。這是一個(gè)比較典型的家用寬帶IP。

但I(xiàn)P只是業(yè)務(wù)系統(tǒng)的承載,IP定位的分布,會(huì)因?yàn)閷?shí)際的業(yè)務(wù)而呈現(xiàn)出的聚集形式有非常大的差異。單純通過(guò)定位信息的聚類分析,并不能滿足所有IP地址的分類需求。

比如,中國(guó)郵政儲(chǔ)蓄在某市的營(yíng)業(yè)網(wǎng)點(diǎn),使用專用線路,IP地址固定。每一個(gè)定位點(diǎn)的聚簇,都對(duì)應(yīng)一個(gè)營(yíng)業(yè)網(wǎng)點(diǎn)。

這個(gè)IP下的用戶,除了營(yíng)業(yè)網(wǎng)點(diǎn)的工作人員之外,還會(huì)有大量到營(yíng)業(yè)廳辦理業(yè)務(wù)的用戶。

如果擁有足夠的定位數(shù)據(jù)作為支撐,理論上是可以準(zhǔn)確判斷這些IP的屬主的。

但是這種分析方法要求定位信息有比較高的準(zhǔn)確性、時(shí)效性和數(shù)量級(jí),可不是每家公司都有能力去嘗試。

而且,中國(guó)范圍內(nèi)共有2.5億活躍IP,一個(gè)月的時(shí)間里,平均每個(gè)IP會(huì)關(guān)聯(lián)上萬(wàn)定位信息,然后做聚類分析。

這個(gè)數(shù)量級(jí),光想想就覺(jué)得可怕......應(yīng)該有更簡(jiǎn)單的辦法才對(duì)。

為了講解地更通俗易懂,這里援引《死亡筆記》中的一個(gè)片段。

根據(jù)作案時(shí)間的分布,推斷出了作案者是一個(gè)學(xué)生(作者:都是因?yàn)槔蠋煵贾玫募彝プ鳂I(yè)太少了!)

我們分析IP的方法,和L的分析如出一轍。

如果一個(gè)IP是對(duì)應(yīng)某家公司,這個(gè)IP下的用戶行為,就會(huì)呈現(xiàn)出非常明顯的工作日和工作時(shí)間的密集性,大家都是朝九晚五的上班族,都懂得哈~~

那么反過(guò)來(lái),晚上6點(diǎn)以后,以及雙休、節(jié)假日比較活躍的IP,就應(yīng)該是普通的家用寬帶。

此外,不同類型的IP,對(duì)應(yīng)的用戶數(shù)量會(huì)有所差異。

最簡(jiǎn)單的,一般基站的覆蓋范圍是3~5公里(可能存在多個(gè)基站公用同一個(gè)IP的情況),那么同一時(shí)間內(nèi),每個(gè)基站IP下面的用戶數(shù)量可能會(huì)超過(guò)1~10萬(wàn)。而家庭寬帶的IP,一般一個(gè)IP對(duì)應(yīng)一戶人家,人數(shù)在10人以內(nèi),某些小規(guī)模的營(yíng)業(yè)場(chǎng)所,也會(huì)使用寬帶的方式來(lái)提供網(wǎng)絡(luò)連接,人數(shù)也會(huì)在100人以內(nèi)。

根據(jù)這些特征,就可以把不同類別的IP逐步區(qū)分出來(lái)。最終,形成了今天我們同盾IP地址分類的全部:

教育網(wǎng)、基站、機(jī)房,目前都有比較完整的IP地址列表,通過(guò)簡(jiǎn)單的匹配就可以得出結(jié)論。

再根據(jù)用戶的在不同時(shí)間段內(nèi)的活躍情況,以及每個(gè)IP下的用戶數(shù)量,我們能夠準(zhǔn)確判斷出是家用寬帶,還是企業(yè)的固定線路。

雖然到目前位置,我們的模型還不能準(zhǔn)確區(qū)分一個(gè)IP到底是酒吧、網(wǎng)吧、酒店或者醫(yī)院。但從風(fēng)控的角度而言,我們目前的分類,已經(jīng)滿足絕大部分業(yè)務(wù)需求。

IP畫像,是圍繞反欺詐展開(kāi)的,我們希望能夠準(zhǔn)確的評(píng)估一個(gè)IP地址的風(fēng)險(xiǎn)性,進(jìn)而在風(fēng)控策略中進(jìn)行調(diào)控。

在IP畫像設(shè)計(jì)初期,我們?cè)O(shè)計(jì)了一個(gè)風(fēng)險(xiǎn)評(píng)分,用于總體評(píng)價(jià)這個(gè)IP地址風(fēng)險(xiǎn)。風(fēng)險(xiǎn)分?jǐn)?shù)中,IP是否有代理行為、是否命中已知的威脅情報(bào)、是否發(fā)生過(guò)風(fēng)險(xiǎn)行為,都作為評(píng)估的依據(jù)。但是這樣的一個(gè)籠統(tǒng)的評(píng)分,在實(shí)際使用中卻有諸多不便。

比如,我們?cè)?jīng)發(fā)現(xiàn)過(guò)一個(gè)IP地址,由于頻繁的發(fā)生盜卡行為,最終我們給出的風(fēng)險(xiǎn)評(píng)分達(dá)到了94分(0~100,分?jǐn)?shù)越高風(fēng)險(xiǎn)越高),然而這個(gè)IP下其他行為都是正常的,大量的正常用戶通過(guò)這個(gè)IP進(jìn)行登錄、交易、支付等活動(dòng)。

于是,我們萌生了一個(gè)想法,能否準(zhǔn)確地定性一個(gè)IP到底做過(guò)什么樣的壞事兒?

什么是壞事兒?

反欺詐中,涉及到的業(yè)務(wù)風(fēng)險(xiǎn)其實(shí)非常非常多。不同的行業(yè)、不同的平臺(tái)都會(huì)有各自獨(dú)有的一些風(fēng)險(xiǎn)。

就拿“黃?!眮?lái)說(shuō),隨著互聯(lián)網(wǎng)的發(fā)展,黃牛也從最早的票販子,演變出了很多很多的花樣。

案例1:在各大航空公司的網(wǎng)上訂票渠道中,存在很多“占座黃?!?,他們通過(guò)特定的渠道,訂購(gòu)了一定數(shù)量的廉價(jià)機(jī)票,然后加價(jià)轉(zhuǎn)售,甚至?xí)叱鲞@張機(jī)票原有的價(jià)格。如果不能及時(shí)出手,黃牛就會(huì)選擇退票,導(dǎo)致飛機(jī)上出現(xiàn)很多空座位,各大航空公司對(duì)此也很頭疼。轉(zhuǎn)手的過(guò)程很簡(jiǎn)單,只需要修改乘機(jī)人即可,這個(gè)行為可以通過(guò)線上的數(shù)據(jù)分析發(fā)現(xiàn)出來(lái)。

案例2:一些票務(wù)網(wǎng)站(專指演唱會(huì)、賽事門票),黃牛會(huì)注冊(cè)大量賬號(hào),搶購(gòu)演唱會(huì)門票,拿到門票后,加價(jià)出手。由于黃牛拿到了實(shí)體票,轉(zhuǎn)手過(guò)程是在線下進(jìn)行的,通過(guò)線上行為就無(wú)法進(jìn)行監(jiān)控。但是,在搶票過(guò)程中,黃牛為了增加自己搶到票的幾率,會(huì)使用很多個(gè)賬號(hào)重復(fù)下單,大量訂單中的收獲地址都是同一個(gè)或者具有極高的相似度。

案例3:美團(tuán)、貓眼、格瓦拉等購(gòu)買電影票的平臺(tái)中,也存在很大數(shù)量的黃牛。尤其是一些熱門大片兒的首映票,價(jià)格可以炒到很高。電影票的黃牛,往往以代購(gòu)的形式操作,他們擁有很高折扣的會(huì)員卡,可以低價(jià)購(gòu)買到電影票,然后適當(dāng)加價(jià)轉(zhuǎn)手。黃牛完成支付后,拿到取票二維碼,然后把二維碼發(fā)送給買家。這個(gè)過(guò)程,也是很難通過(guò)線上的行為來(lái)進(jìn)行檢測(cè)的。

如果我們需要分析一個(gè)IP到底做了什么壞事,就必須要先給出明確的定義,到底什么樣的行為算是壞事。然后把這些行為分解為非常詳細(xì)的特征指標(biāo),進(jìn)行建模。

這個(gè)過(guò)程是漫長(zhǎng)的,就像上面舉的例子,同樣是“黃牛”,由于不同的平臺(tái),不通過(guò)的行業(yè)類型,中間存在著非常巨大的差異。每一種行為都要做這樣的深入分析和研究,其實(shí)我們一開(kāi)始是拒絕的......

在后來(lái)的一段時(shí)間里,我們團(tuán)隊(duì)接到了越來(lái)越多的提問(wèn),客戶希望知道,這個(gè)IP到底干了什么?到底有沒(méi)有風(fēng)險(xiǎn)?我們只能硬著頭皮,去提取這個(gè)IP在過(guò)去半年里的行為數(shù)據(jù),然后逐一分析。說(shuō)到底,單憑一個(gè)IP地址的類型和地理位置,遠(yuǎn)遠(yuǎn)無(wú)法滿足風(fēng)控的需求。最終,我們決定要做這么件事兒。于是好幾個(gè)月就這么過(guò)去了。

首先,我們梳理了一份反欺詐的詞表,用來(lái)給出各種欺詐行為的明確定義。

風(fēng)險(xiǎn)行為

英文名稱

定義

垃圾注冊(cè)

Fraud Signup

使用虛假號(hào)碼、通信小號(hào)、小號(hào)郵箱等容易獲取且無(wú)法準(zhǔn)確判定屬主身份的信息進(jìn)行注冊(cè)。大部分垃圾注冊(cè)是通過(guò)自動(dòng)化工具進(jìn)行的,垃圾注冊(cè)產(chǎn)生的賬號(hào),會(huì)在后續(xù)的刷單、黃牛、薅羊毛、發(fā)布垃圾信息等活動(dòng)中被使用。

褥羊毛

Econnoisseur

指那些堅(jiān)持以最低的價(jià)格購(gòu)買到最高品質(zhì)的簡(jiǎn)明消費(fèi)者??雌饋?lái)是個(gè)褒義詞,但是這類用戶,為了能夠多次享受新用戶的優(yōu)惠,會(huì)使用虛假號(hào)碼、作弊工具的等手段來(lái)注冊(cè)大量的垃圾賬號(hào),實(shí)際上并不能給平臺(tái)帶來(lái)任何的活躍用戶

刷單

Brushing

通常所說(shuō)的刷單,其實(shí)包括了兩種:平臺(tái)或商戶,雇傭虛假的顧客進(jìn)行購(gòu)物,產(chǎn)生大量的虛假交易,進(jìn)而提升平臺(tái)或商鋪的排名。另一種,大量用戶在平臺(tái)或商鋪進(jìn)行促銷活動(dòng)的時(shí)候涌入,以低價(jià)購(gòu)買大量的商品,然后倒賣。

黃牛

Scalper

黃牛是指在合法銷售途徑以外 壟斷、銷售限量參與權(quán)或商品,并以此牟利的中介人。這樣的定義直接涵蓋了前面提到的多種黃牛行為

撞庫(kù)

Collisionattack

攻擊者通過(guò)收集互聯(lián)網(wǎng)上泄露的用戶數(shù)據(jù),整理出每個(gè)賬戶的密碼列表,針對(duì)性地使用這些帳密信息嘗試登陸不同的網(wǎng)站。撞庫(kù)過(guò)程中,登陸請(qǐng)求數(shù)量巨大,而且超過(guò)90%的登陸請(qǐng)求會(huì)失敗。賬號(hào)和密碼呈現(xiàn)出一對(duì)多的關(guān)系,但是密碼一般在10個(gè)以內(nèi)。

暴力破解

Brute Force

對(duì)特定的賬戶或者多個(gè)賬戶進(jìn)行密碼嘗試。暴力破解過(guò)程中,登陸請(qǐng)求數(shù)量很大,大部分也是登陸失敗。但和撞庫(kù)攻擊相區(qū)別,暴力破解中,出現(xiàn)的賬號(hào)數(shù)量較少,每個(gè)賬號(hào)對(duì)應(yīng)的密碼數(shù)量都會(huì)非常大(從幾百到幾萬(wàn)都有可能)

短信轟炸

SMS Bombing

通過(guò)多次請(qǐng)求某一個(gè)或多個(gè)不同的短信驗(yàn)證碼接口,向指定的手機(jī)號(hào)發(fā)送驗(yàn)證碼短信,導(dǎo)致對(duì)方手機(jī)在一定時(shí)間內(nèi)無(wú)法正常使用。短信轟炸在數(shù)量上會(huì)呈現(xiàn)出巨大的差異,集中在某一個(gè)時(shí)段爆發(fā)。請(qǐng)求總量可能達(dá)到上百萬(wàn)次。

垃圾信息

Spamming

發(fā)送不受歡迎(針對(duì)用戶和平臺(tái))的內(nèi)容。發(fā)送的過(guò)程一般是批量的,通過(guò)腳本或機(jī)器人來(lái)實(shí)現(xiàn)。發(fā)布垃圾信息,需要有大量的賬號(hào)作為前提,這些賬號(hào)往往通過(guò)垃圾注冊(cè)或者撞庫(kù)來(lái)獲取。

......

......

......

上面的列表中,是同盾反欺詐詞典中一小部分,列舉了一些對(duì)互聯(lián)網(wǎng)公司來(lái)說(shuō)最為常見(jiàn)的風(fēng)險(xiǎn)行為。

那么,接下來(lái)的問(wèn)題就是要逐一對(duì)這些風(fēng)險(xiǎn)行為進(jìn)行取樣,分析其中的行為特征。

特征提取

篇幅有限,這里就簡(jiǎn)單介紹一下我們對(duì)黃牛(票務(wù)行業(yè))做行為分析和建模的過(guò)程。

上圖中,是我們抽取到的一份較為典型的黃牛搶票記錄。

從這些記錄里,能獲取到怎樣的信息呢?

1、這批賬號(hào)都在同一天注冊(cè),并且注冊(cè)時(shí)間較為集中,注冊(cè)時(shí)間間隔大約為30秒;

2、每個(gè)賬戶只下一個(gè)訂單,但是多個(gè)訂單產(chǎn)生的時(shí)間非常接近,時(shí)間間隔僅為毫秒級(jí);

3、多個(gè)訂單中的收貨人姓名很相似,直觀判斷,不太可能是真實(shí)的姓名;

4、多個(gè)訂單中的收貨地址有明顯的異常,在末尾添加了無(wú)用的字符串;

5、收獲地址末尾的字符串為11位的數(shù)字,比較像手機(jī)號(hào),多個(gè)訂單中的這個(gè)字符串相同;

6、賬號(hào)注冊(cè)和風(fēng)險(xiǎn)發(fā)生,中間存在較長(zhǎng)的時(shí)間,可以定義為休眠賬號(hào)或養(yǎng)號(hào)行為。

如果對(duì)這個(gè)地址做檢查,我們會(huì)發(fā)現(xiàn):廣東省佛山市均安鎮(zhèn)均欖路天連大道是真實(shí)存在的。

但是這附近并沒(méi)有什么小區(qū),反而更像是一個(gè)村子。也就是說(shuō),收貨地址中,“天連大道”之后的部分都是隨機(jī)添加的,可能并沒(méi)有任何意義。

這樣的做法,是為了避免平臺(tái)對(duì)收獲地址做校驗(yàn),如果大量訂單都寄送到同一個(gè)收獲地址,那么這些訂單都存在刷單的嫌疑。

上面的地圖中,你可能也注意到了,其實(shí)并沒(méi)有“天連大道”和“天連路”,其實(shí)是同一條街。但是由于名稱不同,在地址核驗(yàn)過(guò)程中,就有可能被認(rèn)為是兩個(gè)不同的地址。類似的,比如“南京市白下區(qū)李府街”和“南京市秦淮區(qū)李府街”,也是同一條街道,2014年白下區(qū)被撤銷,整體并入秦淮區(qū)。從行政區(qū)劃上看,白下區(qū)已經(jīng)不存在了,但是物流和快遞大哥都知道,整個(gè)南京市就那么一條李府街,貨物也可以成功地遞交到收貨人手中。

為此,我們也建立了一套用于對(duì)收貨地址做真實(shí)性核驗(yàn)的系統(tǒng),用于判斷多個(gè)地址,是否指向了同一個(gè)地點(diǎn)。

除了前面列舉的三個(gè)特征之外,還有一個(gè)比較隱蔽的特征,就是注冊(cè)這些賬號(hào)的手機(jī)號(hào),其實(shí)都是”虛假號(hào)碼“(參見(jiàn):互聯(lián)網(wǎng)黑產(chǎn)剖析——虛假號(hào)碼)。換句話說(shuō),提交這些訂單的用戶,其實(shí)都是通過(guò)垃圾注冊(cè)產(chǎn)生的垃圾賬戶(虛假賬戶)。除此之外,通過(guò)設(shè)備指紋技術(shù),我們也識(shí)別出,這些訂單其實(shí)都來(lái)自于同一臺(tái)PC。從IP維度上,雖然每個(gè)訂單的來(lái)源IP都不相同,但是每個(gè)IP都最終被確認(rèn)為代理或者機(jī)房。

以上種種,就成為我們判斷黃牛行為的特征,歸納如下:

1、黃牛會(huì)事先通過(guò)垃圾注冊(cè)準(zhǔn)備一批可用的賬號(hào),注冊(cè)過(guò)程中往往會(huì)使用虛假號(hào)碼;

2、賬號(hào)注冊(cè)過(guò)程中會(huì)出時(shí)間、IP、設(shè)備上的集中性,即同一個(gè)設(shè)備,同一個(gè)IP上注冊(cè)了大量賬號(hào);3、多個(gè)訂單中的收貨人、收貨地址不真實(shí)或相似度極高;

4、多個(gè)訂單可能從同一個(gè)設(shè)備上產(chǎn)生;

5、提交訂單的IP地址,大部分是機(jī)房IP或者代理IP;

6、垃圾賬號(hào)注冊(cè)完成之后可能不會(huì)立即進(jìn)行搶票,而是經(jīng)過(guò)了較長(zhǎng)的沉睡期或進(jìn)行特定的養(yǎng)號(hào)活動(dòng)......

進(jìn)一步細(xì)化之后,得到具體的指標(biāo)參數(shù),就可以進(jìn)入訓(xùn)練模型的階段了。

攻擊鏈路

攻擊鏈路(aka Kill-Chain),是安全領(lǐng)域中一個(gè)討論比較多的話題。任何一次風(fēng)險(xiǎn),都不會(huì)平白無(wú)故地發(fā)生,而是會(huì)有一個(gè)過(guò)程。對(duì)一次風(fēng)險(xiǎn)的定義,可以從最終的結(jié)果進(jìn)行定義,但是更多的往往是對(duì)這個(gè)風(fēng)險(xiǎn)過(guò)程的定義。

以偷竊為例,一定會(huì)有這么幾個(gè)步驟:

尋找目標(biāo) -- 蹲點(diǎn) -- 標(biāo)記 -- 作案準(zhǔn)備 -- 撬門/扒窗 -- 進(jìn)入房間 -- 尋找保險(xiǎn)箱 -- 撬開(kāi)保險(xiǎn)箱 -- 拿走錢/珠寶 -- 清理現(xiàn)場(chǎng) -- 離開(kāi)現(xiàn)場(chǎng) -- 銷贓 -- 尋找下一個(gè)目標(biāo)

上面的這些,就是Kill-Chain中的節(jié)點(diǎn)(Node),也可以叫做風(fēng)險(xiǎn)過(guò)程(Process)。在整個(gè)攻擊鏈路中,只有起點(diǎn)和終點(diǎn)是確定的,剩下的部分,可能會(huì)沒(méi)有,也可能因?yàn)楦鞣N突發(fā)情況而產(chǎn)生分支鏈路忽然中斷,或者重復(fù)某些環(huán)節(jié)。多個(gè)攻擊鏈路,會(huì)在特定的一個(gè)節(jié)點(diǎn)上匯聚,這個(gè)節(jié)點(diǎn),就成為了風(fēng)險(xiǎn)防控的關(guān)鍵節(jié)點(diǎn)。在這個(gè)節(jié)點(diǎn)上進(jìn)行防護(hù),效果就會(huì)比較好。

欺詐風(fēng)險(xiǎn),也是一樣的。前面分析黃牛的特征中,我們提到了黃牛會(huì)使用一批垃圾賬號(hào)進(jìn)行下單。分析一個(gè)賬號(hào)的欺詐行為,需要縱觀這個(gè)賬號(hào)的整個(gè)生命周期,或者在既定的時(shí)間片內(nèi),關(guān)聯(lián)上下文,看用戶的行為在每一個(gè)環(huán)節(jié)中是否符合特定風(fēng)險(xiǎn)的特征。

那么,針對(duì)黃牛風(fēng)險(xiǎn),攻擊鏈路就可以表示如下:

在攻擊鏈路中,越是靠前的節(jié)點(diǎn),發(fā)現(xiàn)和識(shí)別越為困難,因?yàn)楦鞣N特征其實(shí)并不明顯,只能判斷本次事件有嫌疑,而不能確定具體的風(fēng)險(xiǎn)。但是在這些環(huán)節(jié)上進(jìn)行防護(hù),起到的效果是最為顯著的,成本也相對(duì)要低很多。

越是靠后的節(jié)點(diǎn),發(fā)現(xiàn)和識(shí)別變得簡(jiǎn)單,很多特征都比較明顯,但是防護(hù)就變得困難。并且,由于攻擊鏈路本身會(huì)產(chǎn)生很多分支,可能在其他環(huán)節(jié)上已經(jīng)產(chǎn)生了,即便是同一批次注冊(cè)的垃圾賬號(hào),可能會(huì)在不同的場(chǎng)景中被使用。

此外,某些節(jié)點(diǎn)上會(huì)產(chǎn)生大量的分支鏈路,比如垃圾注冊(cè)。通過(guò)注冊(cè)工具/腳本,批量產(chǎn)生的垃圾賬號(hào),可能在后續(xù)的多種業(yè)務(wù)場(chǎng)景中出現(xiàn),不同的業(yè)務(wù)場(chǎng)景中,又有著不同的風(fēng)險(xiǎn)。

平臺(tái)的業(yè)務(wù)越豐富,這個(gè)分支就會(huì)變得越發(fā)明顯。如果一個(gè)平臺(tái)同時(shí)提供了電商、電影票、團(tuán)購(gòu)、點(diǎn)評(píng)等多種線上業(yè)務(wù),那么這個(gè)攻擊鏈路就會(huì)變得非常復(fù)雜。

這也是為什么我們要建立IP地址畫像、手機(jī)號(hào)畫像和設(shè)備畫像的原因。通過(guò)已知的各種風(fēng)險(xiǎn)行為,建立模型,通過(guò)跨平臺(tái)、跨行業(yè)來(lái)進(jìn)行聯(lián)防聯(lián)控,只要這個(gè)手機(jī)號(hào)、IP或者設(shè)備在歷史上發(fā)生過(guò)一次風(fēng)險(xiǎn)行為,就會(huì)被識(shí)別出來(lái),并且打上標(biāo)記。

在整個(gè)攻擊鏈路最開(kāi)始的地方進(jìn)行防護(hù),并且在賬號(hào)的整個(gè)生命周期中,進(jìn)行持續(xù)監(jiān)控,使得最終能夠造成風(fēng)險(xiǎn)的賬戶數(shù)量降至最低。

在對(duì)抗中進(jìn)步

這場(chǎng)欺詐和反欺詐的對(duì)抗,已經(jīng)持續(xù)了多年,并且還將繼續(xù)下去。

我們?cè)诓粩嗵嵘龣z測(cè)能力、改進(jìn)檢測(cè)方式的同時(shí),欺詐分子也在不斷地產(chǎn)生新的作弊手段。并且,互聯(lián)網(wǎng)在不斷地尋求創(chuàng)新,同樣是促銷活動(dòng),在不同的平臺(tái)上,會(huì)有截然不同的呈現(xiàn)方式,業(yè)務(wù)流程也不盡相同。這對(duì)我們分析風(fēng)險(xiǎn)行為,提取特征帶來(lái)了極大的困難。

一旦新的業(yè)務(wù)模式產(chǎn)生,欺詐分子也會(huì)相應(yīng)地尋找可供利用的業(yè)務(wù)邏輯缺陷,甚至產(chǎn)生一些新的風(fēng)險(xiǎn)類型。這需要我們不斷地觀察、學(xué)習(xí)和改進(jìn)。為此,我們引入了無(wú)監(jiān)督模型來(lái)輔助完成大量的指標(biāo)提取工作。即使欺詐分子使用了新的技術(shù)、新的手段,特定風(fēng)險(xiǎn)的攻擊鏈路是不會(huì)改變的,無(wú)監(jiān)督模型可以從中提取出新的異常指標(biāo),再對(duì)模型進(jìn)行優(yōu)化和迭代。

我們識(shí)別出的每一次風(fēng)險(xiǎn)行為,都會(huì)作為標(biāo)簽,標(biāo)記在手機(jī)號(hào)、IP和設(shè)備上。即使欺詐分子不斷地更換這些信息,也總會(huì)被發(fā)現(xiàn)出來(lái)。這是同盾跨行業(yè)、跨平臺(tái)聯(lián)防聯(lián)控的巨大優(yōu)勢(shì),也是我們對(duì)抗欺詐行為的有力武器。

這些標(biāo)簽,目前在IP畫像中已經(jīng)可以使用,隨著我們研究的進(jìn)一步深入,越來(lái)越多的模型被開(kāi)發(fā)出來(lái),可以準(zhǔn)確識(shí)別的風(fēng)險(xiǎn)行為也越來(lái)越多,力求讓欺詐分子無(wú)所遁形。

溫馨提示:優(yōu)質(zhì)內(nèi)容貴在與大家共享,部分文章來(lái)源于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)告知,我們會(huì)在第一時(shí)間處理。商務(wù)合作請(qǐng)加QQ:1786435697。

1.《IP地址是什么?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無(wú)關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。

2.《IP地址是什么?》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址,http://f99ss.com/jiaoyu/8496.html