一、背景介紹
近年來,無論是外部法規(guī)遵從性要求還是內(nèi)部安全要求,確保數(shù)據(jù)完整性、一致性和可用性都成為組織內(nèi)的頭等大事。
組織內(nèi)數(shù)據(jù)可以分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩種類型,結(jié)構(gòu)化數(shù)據(jù)安全技術(shù)相對(duì)成熟,包括數(shù)據(jù)庫(kù)審計(jì)、防火墻、脫敏、加密、備份等,可以在數(shù)據(jù)生命周期內(nèi)支持對(duì)數(shù)據(jù)的安全管理要求,但對(duì)于非結(jié)構(gòu)化數(shù)據(jù),目前正處于火熱階段,已經(jīng)是數(shù)據(jù)安全產(chǎn)品的新發(fā)力點(diǎn),主要技術(shù)有數(shù)據(jù)泄露保護(hù)(DLP)、主機(jī)DLP(DLP)目前廣泛使用,實(shí)施成本最低,客戶容易接受的是網(wǎng)絡(luò)監(jiān)控方式。
本文介紹了如何通過旁路鏡像檢測(cè)網(wǎng)絡(luò)流量中的相關(guān)文件,保護(hù)重要文件內(nèi)容。早期只考慮核心原理和技術(shù)的最終實(shí)現(xiàn),所以在代碼方面還沒有優(yōu)化完美,另外,還需要對(duì)pcap文件進(jìn)行解釋,只認(rèn)識(shí)doc文本環(huán)境,對(duì)復(fù)雜的環(huán)境進(jìn)行補(bǔ)充。(威廉莎士比亞,《Northern Exposure》(美國(guó)電視劇),《科學(xué)》)綜上所述,本文正在了解DLP核心技術(shù)實(shí)現(xiàn)原理和相關(guān)技術(shù)實(shí)現(xiàn),因此代碼水平可能存在一些缺陷。請(qǐng)諒解。
主機(jī)版DLP可以通過開源openDLP實(shí)現(xiàn),本文檔不包含此內(nèi)容。
二、實(shí)現(xiàn)原理
通過流量鏡像,文件是否包含敏感內(nèi)容、是否泄露,實(shí)施方法流程如下:1.收集網(wǎng)絡(luò)流量2。網(wǎng)絡(luò)流量?jī)?nèi)容分析根據(jù)文件頭確定文件類型。4.導(dǎo)出TCP數(shù)據(jù),根據(jù)判斷的文件類型重命名文件,或通過關(guān)鍵字轉(zhuǎn)換為十六進(jìn)制代碼,以便在線匹配。如果匹配成功,可以重新制作文件保存證明。5.如果是照片,可以通過OCR識(shí)別來判斷;如果是非文字識(shí)別,可以通過機(jī)器學(xué)習(xí)來學(xué)習(xí),然后識(shí)別照片。
測(cè)試方法是從網(wǎng)站下載word文檔,將其另存為pcap文件,識(shí)別pcap文件的文檔類型,并創(chuàng)建不同的存檔證。
三、具體實(shí)現(xiàn)
在介紹文件頭基本介紹代碼之前,必須先了解文件頭。為了監(jiān)視文件,網(wǎng)絡(luò)流量必須根據(jù)文件頭判斷,并根據(jù)文件頭記錄payload內(nèi)容。下圖是典型的題頭內(nèi)容(例如,如果對(duì)自己的搜索不滿意)。
通用標(biāo)頭
Wireshark捕獲包下圖是下載文件時(shí)wireshark捕獲包的情況。您可以先檢查啟動(dòng)HTTP的GET請(qǐng)求,然后通過TCP片段下載文件。
Wireshark請(qǐng)求進(jìn)程
如果將文件頭內(nèi)容與wireshark捕獲包內(nèi)容相匹配,則可以看到捕獲包數(shù)據(jù)包含doc文件頭(d0 cf 11 E0),如下圖所示。
Doc文件頭
下載Doc文件并按如下方式打開:
Doc文件常規(guī)導(dǎo)航
以16種方式查看下載的原始文件會(huì)產(chǎn)生以下效果:
Doc文件十六進(jìn)制瀏覽
看到的與wireshark捕獲包數(shù)據(jù)包含doc標(biāo)頭(d0 cf 11 E0)一致。
包含TCP匹配從文件頭開始,直到TCP流結(jié)束,所有中間內(nèi)容都將合并為doc文件內(nèi)容。
因此,我對(duì)文件和包數(shù)據(jù)之間的關(guān)系有了初步的了解,以下內(nèi)容將與代碼實(shí)現(xiàn)一起詳細(xì)說明。
代碼實(shí)現(xiàn)的第一個(gè)代碼分為三個(gè)函數(shù):文件頭匹配、文件內(nèi)容讀取、文件數(shù)據(jù)拼接。
文件頭匹配函數(shù)主要通過文件流、頭內(nèi)容、偏移和數(shù)據(jù)長(zhǎng)度執(zhí)行匹配計(jì)算,并將其寫入offset文件偏移。特定函數(shù)代碼的實(shí)現(xiàn)方式如下:
匹配文件頭
讀取文件內(nèi)容函數(shù)主要讀取文件流內(nèi)容,并將數(shù)據(jù)內(nèi)容存儲(chǔ)在file_content中。
讀取文件內(nèi)容
文件數(shù)據(jù)修補(bǔ)函數(shù),主要是對(duì)多個(gè)TCP傳輸?shù)臄?shù)據(jù)文件進(jìn)行修補(bǔ)摘要,以便于輸出到word(從包含TCP匹配的標(biāo)頭開始,到TCP流結(jié)束為止,將中間所有內(nèi)容組合在一起,是doc文件內(nèi)容)。)。
縫合文件數(shù)據(jù)
主函數(shù)。首先,逐步讀取pcap數(shù)據(jù)包內(nèi)容到TCP鏈接。下圖:
主要函數(shù)-tcp鏈接
第二,匹配文件以確定是否包含擁有文件標(biāo)題,如果包含,則記錄起始位置,如下圖所示。
文件匹配函數(shù)
如果匹配,則讀取pcap中的每個(gè)TCP流內(nèi)容并將其存儲(chǔ)在dlpT結(jié)構(gòu)中,如下圖3360所示。
讀取數(shù)據(jù)內(nèi)容
讀取完成后,聚合并修補(bǔ)每個(gè)TCP流內(nèi)容,如下圖所示。
數(shù)據(jù)流連接
以上內(nèi)容僅用于第一個(gè)TCP流,即包含數(shù)據(jù)頭文件的TCP流。對(duì)于中間TCP流,可以將5元組和ACK組合在一起,以確定是否是同一個(gè)請(qǐng)求。如果是同一個(gè)請(qǐng)求,請(qǐng)閱讀下圖所示的內(nèi)容。
讀取TCP中間流內(nèi)容
最后,修補(bǔ)TCP中間流數(shù)據(jù)內(nèi)容,如下圖所示。
中間流數(shù)據(jù)內(nèi)容拼接
這次pcap有12位數(shù)的TCP選項(xiàng)字段,請(qǐng)注意,測(cè)試是我寫的。此字段的長(zhǎng)度是可變的,可以通過計(jì)算得到。Option字段長(zhǎng)度=數(shù)據(jù)包長(zhǎng)度-以太網(wǎng)頭14字節(jié)-IP頭20字節(jié)-tcp頭20字節(jié)-tcppaylod字節(jié)。
最后我們將如下圖所示,把內(nèi)容物拼接起來,輸出到文件中。
寫入文件
文件效果如下:
創(chuàng)建文件
生成文件打開效果
生成文件與源文件十六進(jìn)制比較
中實(shí)現(xiàn)了文件提取和保存,如何進(jìn)行敏感認(rèn)識(shí),原理已經(jīng)很簡(jiǎn)單了,所以我還沒有實(shí)現(xiàn)。具體的實(shí)施原則可以分為兩種。1.閱讀word內(nèi)容后,與設(shè)定的關(guān)鍵字進(jìn)行匹配識(shí)別,如果匹配成功,可以確認(rèn)包含敏感字段,嚴(yán)格禁止通過NLP自然語言處理的某些事后響應(yīng)。2.實(shí)時(shí)匹配,將漢字轉(zhuǎn)換為十六進(jìn)制數(shù),與pcap文件匹配,成功時(shí)發(fā)出警告,例如匹配“處理結(jié)果”,UNICOD代碼如下:
處理結(jié)果與unicode
以十六進(jìn)制打開doc文件時(shí),處理結(jié)果如下:
處理結(jié)果-十六進(jìn)制
Doc文件十六進(jìn)制數(shù)與TCP流中的數(shù)據(jù)相同。轉(zhuǎn)換后,只要通過十六進(jìn)制數(shù)匹配網(wǎng)絡(luò)流數(shù)據(jù),就可以實(shí)時(shí)匹配敏感數(shù)據(jù)。
這是基于c語言的數(shù)據(jù)泄露保護(hù)(DLP)的核心實(shí)現(xiàn)。希望對(duì)你有幫助。
1.《關(guān)于dlp數(shù)據(jù)防泄漏我想說基于C語言的DLP(數(shù)據(jù)泄露防護(hù))核心實(shí)現(xiàn)》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。
2.《關(guān)于dlp數(shù)據(jù)防泄漏我想說基于C語言的DLP(數(shù)據(jù)泄露防護(hù))核心實(shí)現(xiàn)》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/keji/1953048.html