郝:大觀數(shù)據(jù)高級工程師,獲美國大學生數(shù)學建模競賽二等獎,目前參與大觀數(shù)據(jù)推薦系統(tǒng)的研發(fā),負責6、wifi萬能鑰匙、視頻觀看等項目。
眾所周知,YouTube是世界上最大的視頻網(wǎng)站,每天面對不同興趣的用戶。它需要從視頻池中撈出當前用戶感興趣、想看的視頻,以留住老用戶,吸引新用戶,這個功能由視頻推薦系統(tǒng)提供。
隨著不同算法技術的興起,推薦系統(tǒng)的核心算法也在發(fā)生變化。本文以YouTube推薦系統(tǒng)的四篇論文《針對YouTube的視頻建議與發(fā)現(xiàn)》、《YouTube視頻推薦系統(tǒng)》為研究對象,從《針對次線性排序的標簽劃分》和《針對YouTube推薦的深度神經(jīng)網(wǎng)絡》入手,介紹YouTube對視頻推薦系統(tǒng)的升級——2008年采用基于用戶-視頻圖的隨機遍歷算法,10年升級為基于項目的協(xié)同過濾算法,13年將推薦問題轉化為多分類問題,從中找出概率最高的輸出節(jié)點此舉也為16年內(nèi)將推薦核心算法升級為深度學習算法奠定了基礎。
論文簡介
這四篇論文中,第一篇《針對YouTube的視頻建議與發(fā)現(xiàn)》和第三篇《針對亞線性排序的標簽劃分》重點介紹了推薦系統(tǒng)中使用的一些算法,但沒有詳細介紹推薦系統(tǒng)。
YouTube視頻推薦系統(tǒng)和用于YouTube推薦的深度神經(jīng)網(wǎng)絡詳細介紹了YouTube推薦系統(tǒng),該系統(tǒng)由兩部分組成。第一部分是候選集的生成。即根據(jù)內(nèi)容數(shù)據(jù)和用戶行為日志,找出要推薦給用戶的候選視頻。第二部分是對這些候選視頻進行排序,把最好的或者前k個最好的視頻給用戶。
下圖是YouTube推薦系統(tǒng)的一般流程:
表示在隨機遍歷中選擇節(jié)點u的概率。這樣就很容易理解,吸附要選一個點,要做多次計算。
線性吸附
這也很簡單,就是
理解為線性組合的比例。
基于ItemCF的推薦系統(tǒng)
YouTube視頻推薦系統(tǒng)由戴維森J、利巴德B、劉J等人在2010年第四屆ACM RecSys上發(fā)布。當時YouTube推薦系統(tǒng)的核心算法是基于Item的協(xié)同過濾算法。換句話說,對于一個用戶在當前場景和歷史興趣中最喜歡的視頻,找出他們相關的視頻,過濾掉已經(jīng)看過的視頻,剩下的就是用戶很可能喜歡看的視頻。這里的視頻相關性是用常見點擊次數(shù)來描述的。整個推薦過程分為兩個步驟:
計算視頻之間的相關性
實踐中候選視頻很少,類似于沒有多樣性的種子集。所有候選集都通過第三步遞歸擴展。
遞歸擴展候選集
其中,,是最基本的候選集,在此基礎上生成,再結合作為種子集生成候選集,以此類推,生成最終的多元化候選集。
小費
這是一種增加候選集多樣性的方法。
種類
對于排序,有三個因素會影響排序
視頻質量相關性:可以證明用戶喜歡視頻的因素
視頻觀看時間
視頻評分
視頻評論
視頻采集和轉發(fā)行為
上傳時間
種子視頻的屬性
多樣性:推薦不同的主題
限制單個種子視頻的候選視頻
限制同一上傳者的視頻數(shù)量
主題聚類
文本分析
提示:
在目前的推薦系統(tǒng)中,協(xié)同過濾是應用最廣泛的,其優(yōu)勢是明顯的,即具有高度的個性化,但不可否認的是其冷啟動問題和稀疏性問題?;趦?nèi)容過濾的推薦方法可以解決這兩個問題,兩者的融合可以使推薦系統(tǒng)更加健壯和高效。
次線性有序標簽劃分
杰森·韋斯頓等人在2013年第30屆國際機器學習大會上發(fā)表了題為“亞線性排序的標簽劃分”的論文。本文將推薦問題轉化為多分類問題,解決了如何從神經(jīng)網(wǎng)絡的最后一個輸出層找到概率最高的輸出節(jié)點。
提示:
該算法有廣泛的應用,如多文本排序。
算法描述
該算法的基本思想如下:
對于給定的樣本x,根據(jù)訓練樣本的劃分,將其劃分為最可能集合p=g
取標簽集q,分配給每個標簽。標簽被分成的子集在哪里
根據(jù)最終結果對l中的每個標簽進行評分、計算和排序。
投入產(chǎn)出分工
輸入樣本的劃分有兩種方式,一種是加權層次劃分器,其思想與加權K-means算法相同,而權重是通過根據(jù)標簽的預測精度給訓練樣本xi到中心的距離cj賦予一個權重來獲得的,另一種是加權嵌入劃分器,它通過對訓練樣本進行變換,使具有相同標簽的訓練樣本盡可能分成一個集合。實驗結果表明,利用優(yōu)化函數(shù)的分布。
對于測試輸出的標簽劃分,本文也提到了兩種方法。一種是設計一個優(yōu)化函數(shù),計算每個標簽劃分為一個分區(qū)后的損失,然后優(yōu)化所有標簽分區(qū)的整體損失。另一種是簡單計算每個分區(qū)中標簽出現(xiàn)的頻率,選出最頻繁的。實驗表明,使用優(yōu)化函數(shù)的分區(qū)方案是另一個的兩倍。
基于深度學習的推薦系統(tǒng)
論文《深層神經(jīng)網(wǎng)絡用于YouTube推薦》由Covington P,Adams J,Sargin E等人在2016年第十屆ACM RecSys上發(fā)表。此時YouTube推薦系統(tǒng)的核心算法是深度學習法。該方法將推薦問題轉化為分類問題。比如用戶看了一些視頻后,用戶最有可能看哪個視頻?這是一個推薦問題,但是現(xiàn)在變成了在看了一些視頻之后,用戶需要預測下一個要看的視頻是視頻池中的哪個類別。但是,這個類別的數(shù)量非常大。對于用戶C和用戶行為C,語料庫V中的視頻I分為
用戶c包含用戶的位置、性別等信息,用戶行為c包含觀看視頻、搜索視頻等信息,u代表用戶和用戶行為信息在高維度上的映射,代表每個候選視頻在高維度上的映射。
生成推薦候選集
如下圖所示,推薦候選集是通過將推薦問題作為多類分類問題來處理而生成的。步驟如下:
用戶的歷史信息和其他特征。)被連接成向量,該向量被輸入到由修改的線性單元組成的非線性多層感知器,以獲得用戶的興趣特征。
在訓練階段,將所有用戶的興趣特征輸入Softmax進行多分類訓練,得到模型;
在預測階段,計算用戶興趣特征與所有視頻特征之間的相似度,通過對排名網(wǎng)絡的最近鄰搜索得到得分較高的k個視頻。
種類
排序的目的是再次過濾候選集中的候選視頻,選出最適合用戶最有可能喜歡看的視頻。本文中用于排序的神經(jīng)網(wǎng)絡的結構類似于生成推薦候選集的結構。唯一不需要的就是在最后一層用logistic回歸對每個視頻打分。由于候選集中的視頻數(shù)量遠遠小于原始視頻池中的視頻數(shù)量,因此在這個過濾過程中會添加更多的視頻特征和用戶特征,從而更準確地推薦用戶。推薦結果根據(jù)每個視頻的評分進行排序,最后根據(jù)評分向用戶推薦視頻。
提示:
對于深度學習,它具有優(yōu)秀的特征提取能力,可以學習多層次的特征,并提取視頻信息和用戶信息中隱藏的特征。類似YouTube的基于深度學習的推薦,首先通過深度候選生成模型,利用視頻和用戶的主要信息,從數(shù)百萬個視頻中找到數(shù)百個相關視頻,然后通過深度排序模型,利用用戶的視頻和其他信息,從數(shù)百個視頻中找到幾十個最有可能受到用戶歡迎的視頻。這樣大大增強了推薦系統(tǒng)中描述用戶偏好的能力,描述的范圍更廣。
認為
從以上四篇論文可以看出,YouTube一直在嘗試將最流行的技術應用到推薦系統(tǒng)中,并不斷對系統(tǒng)進行升級和演進,使其能夠在不同的環(huán)境中更好的選擇最合適的解決方案。簡而言之,多個模型有多個路徑。
引用
針對YouTube的視頻建議和發(fā)現(xiàn):在視圖圖中隨機漫步
YouTube視頻推薦系統(tǒng)
評估相似性度量:orkut社交網(wǎng)絡中的一項大規(guī)模研究
用于次線性排序的標簽劃分
深層神經(jīng)網(wǎng)絡為youtube推薦
1.《相關推薦 技術干貨 | 細說YouTube推薦系統(tǒng)的變遷》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《相關推薦 技術干貨 | 細說YouTube推薦系統(tǒng)的變遷》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉載時請保留本站內(nèi)容來源地址,http://f99ss.com/guonei/1663794.html