圖:unsplash

原文來源:arxiv

作者:Krishna

「雷克世界」編譯:嗯~阿童木呀

眾所周知,一直以來嵌入都是非常受歡迎的,原因是什么呢?接下來,就讓我們從相關(guān)背景中窺探一二。所有機(jī)器學(xué)習(xí)模型都要求輸入數(shù)據(jù)是數(shù)字。不幸的是,實(shí)際中的數(shù)據(jù)都是數(shù)值和分類值的混合(考慮結(jié)構(gòu)化數(shù)據(jù))。

分類數(shù)據(jù)的示例如下所示:

原始數(shù)據(jù)

其中,我們有兩個分類變量(此處忽略用戶Id),最喜歡的顏色(FC)和T恤大?。═S)。我們可以使用以下方法來表示我們的輸入數(shù)據(jù):

標(biāo)簽編碼(Label Encoding)

將FC表示為整數(shù)值是不正確的。為什么呢?如果我把red相加兩次(1 + 1),它的相加結(jié)果會是blue(2)嗎?不,這是沒有意義的,這樣做,只會將有關(guān)這個變量的完整信息稀釋掉。

將TS表示為數(shù)值也是不正確的。為什么呢?如果我將small和medium相加(1 + 2),它的相加結(jié)果會是large(3)嗎?不,再次這樣做將會導(dǎo)致丟失關(guān)于這個變量的信息。

標(biāo)簽編碼

獨(dú)熱編碼(One Hot Encoding)

使用獨(dú)熱編碼可能算是一個更好的注意。它是一種將分類數(shù)據(jù)表示為稀疏向量的簡單方法。 例如下面的這個示例:

獨(dú)熱編碼

用獨(dú)熱編碼來表示FC是一個好主意。我們將Red表示為{1,0,0},Blue表示為{0,1,0},Green表示為{0,0,1}。這意味著每個等級(Red、Green和Blue)彼此之間距離相等。

但是用同樣的方式來表示TS并不是一個好主意,我們都知道,small<medium<large。如果這樣做的話,訂購信息將會丟失。這個變量中的所有等級都被處理為彼此之間距離相等。另外,如果我們有1000個等級而不是3個,將會發(fā)生什么呢?這將使我們的矩陣大而稀疏。

嵌入(Embedding)

可以說,我們想用將具有三個等級的輸入變量表示為二維數(shù)據(jù)。使用嵌入層,底層自微分引擎(the underlaying automatic differentiation engines,例如Tensorflow或PyTorch)將具有三個等級的輸入數(shù)據(jù)減少為二維數(shù)據(jù)。

輸入數(shù)據(jù)

用標(biāo)簽編碼表示輸入數(shù)據(jù)

嵌入式數(shù)據(jù)

輸入數(shù)據(jù)需要用索引表示。這一點(diǎn)可以通過標(biāo)簽編碼輕松實(shí)現(xiàn)。這是你的嵌入層的輸入。

最初,權(quán)重是隨機(jī)初始化的,它們使用隨機(jī)梯度下降得到優(yōu)化,從而在二維空間中獲得良好的數(shù)據(jù)表示。可以說,當(dāng)我們有100個等級時,并且想要在50個維度中獲得這個數(shù)據(jù)的表示時,這是一個非常有用的主意。

羅斯曼挑戰(zhàn)賽

這個策略已經(jīng)被很多Kaggle參賽者使用,用以使得他們的分類數(shù)據(jù)集能夠獲得好的表示。(提出此想法的隊(duì)伍在本次比賽中排名第三)。

你可以觀察到,在對輸入數(shù)據(jù)進(jìn)行一次獨(dú)熱編碼之后,他們將其嵌入到來自不同分類變量的較低維度中。

這些嵌入的輸出被連接并饋送到兩層神經(jīng)網(wǎng)絡(luò)中。

變量狀態(tài)的嵌入表示

周變量的嵌入表示

從上面我們可以看到,在二維環(huán)境下,周變量的嵌入表示。

令人驚訝的是,嵌入是如何設(shè)法找出周末的銷售與工作日的銷售之間的不同的。

狀態(tài)變量的嵌入表示幾乎等同于世界地圖上的實(shí)際表示。

這里有一個簡單的例子,在keras中使用嵌入層,點(diǎn)擊鏈接,查看詳情:https://github.com/krishnakalyan3/FastAI_Practice/blob/master/notebooks/RecSys.ipynb。

1.《「嵌入」(Embedding)如何更好地理解?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《「嵌入」(Embedding)如何更好地理解?》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/guoji/14314.html