數(shù)據(jù)歸一化的目的是將不同表示的數(shù)據(jù)歸約為同一尺度,常見的尺度范圍是[-1,1],[0,1]。對(duì)于神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM),有必要在數(shù)據(jù)預(yù)處理中使用歸一化。當(dāng)然,對(duì)于一些模型來說,規(guī)范化不是必須的,比如決策樹。
數(shù)據(jù)規(guī)范化方法:
1.線性標(biāo)準(zhǔn)化:
f(x) = (x - min) / (max - min)
其中min和max表示x所屬區(qū)間的最小值和最大值。
特征:數(shù)據(jù)統(tǒng)一分類在1 ~ 0 ~ 1之間;
要求:目標(biāo)值的上下限是清楚知道的。比如上圖,我們假設(shè)目標(biāo)值的最小值為0,最大值為1。
這種歸一化方法是最常見的一種,可以用于大多數(shù)問題。例如,在圖像識(shí)別中,圖像的灰度值從0到255四舍五入到0到1。
二、Sigmodnormalization(Sigmodnormalization):
f(x) = 1 / (1 + exp(-ax+b))
假設(shè)a=0.1,b=5,圖像為
當(dāng)我們需要重點(diǎn)分析數(shù)據(jù)分布的中間地帶,但對(duì)兩端的數(shù)據(jù)不太敏感時(shí),可以使用這種歸一化方法。具體A和B根據(jù)問題調(diào)整,其中A影響上圖藍(lán)色曲線的陡度,B影響曲線的平移。
假設(shè)我們需要預(yù)測(cè)人的幸福感,影響因素有年齡、學(xué)歷、收入等等。數(shù)據(jù)樣本大多分布在年收入5w-40w,但也有0.5w的極低收入和1000w的極高收入,我們也發(fā)現(xiàn)在7w-15w范圍內(nèi),人們的幸福感對(duì)收入水平非常敏感。當(dāng)然,在一些簡(jiǎn)單的處理中,可以設(shè)置一個(gè)區(qū)間范圍,比如[1w,100w],然后小于1w的視為1w,大于100w的視為100w。不過這個(gè)處理比較簡(jiǎn)單粗暴。為了不消除極端數(shù)據(jù)的影響,充分考慮中間敏感區(qū)間,可以使用Sigmod歸一化方法,有效擴(kuò)大中間數(shù)據(jù)的差異。
與這個(gè)想法相似的是反正切函數(shù)的歸一化:
f(x) = atan(ax-b) / PI
其中PI為pi 3.14159...
特點(diǎn):數(shù)據(jù)按“平均敏感度”分類在1-0之間;
要求:目標(biāo)值的上下界不需要明確知道,對(duì)兩端的數(shù)據(jù)值不敏感,對(duì)中間部分的數(shù)據(jù)值敏感。
三、Z分歸一化:
f(x) = (x - q) / s
其中q為原始數(shù)據(jù)的均值x,s為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。歸一化數(shù)據(jù)符合正態(tài)分布,均值為0,標(biāo)準(zhǔn)差為1。
Z-score表示原始數(shù)據(jù)偏離均值的距離,距離測(cè)量的標(biāo)準(zhǔn)是標(biāo)準(zhǔn)方差。這種歸一化方法要求原始數(shù)據(jù)的分布可以近似為高斯分布,否則歸一化效果不好。Z分的數(shù)據(jù)分布如下圖所示:
對(duì)于大量數(shù)據(jù),68.26%將歸一化為[-1,1],95.44%歸一化為[-2,2],99%歸一化為[-3,3]。
特點(diǎn):根據(jù)數(shù)據(jù)值的分布,歸一化分布概率。
要求:原始數(shù)據(jù)至少近似呈現(xiàn)正態(tài)分布。
1.《歸一 走向人工智能 —— 數(shù)據(jù)預(yù)處理之歸一化》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。
2.《歸一 走向人工智能 —— 數(shù)據(jù)預(yù)處理之歸一化》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/yule/1606841.html