from : sense time編譯:T。r
人臉圖像操作是計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)中非常重要的研究方向。自動(dòng)表情生成和面部風(fēng)格移動(dòng)方向也不可或缺,成為化妝應(yīng)用中重要的AI技術(shù)。面部操作主要分為語義和幾何兩個(gè)方向,但目前的方法大多局限于預(yù)定義屬性的操作方法,限制了用戶按照自己的意愿變形面部屬性的自由。
為了克服目前系統(tǒng)自由操作的缺陷,商湯、香港中文和香港大學(xué)的研究人員提出了支持用戶自由交互、多樣性工作的新方法maskGAM。利用面部的語義面膜作為面部操作和面部信息的有效中介,在Mask空間進(jìn)行的工作不是直接在像素空間操作圖像,而是提高結(jié)果的多樣性,為用戶服務(wù)。
MaskGAN
MaskGAN有兩個(gè)主要組件:學(xué)習(xí)從語義掩碼到輸出圖像的映射的高密度映射網(wǎng)絡(luò)(DMN)和負(fù)責(zé)為用戶建模源圖像掩碼的編輯行為模擬培訓(xùn)部分(Editing Behavior Simulated Team)。
密集映射網(wǎng)絡(luò)DMN由生成器骨干網(wǎng)絡(luò)和空間注意的樣式編碼器組成。空間注意編碼器使用圖像及其語義掩碼作為輸入,將生成的空間注意的功能編碼為圖像,從而生成骨干網(wǎng)絡(luò)。然后,圖像生成網(wǎng)絡(luò)根據(jù)空間注意的特點(diǎn)和語義掩碼編碼的特點(diǎn)生成相應(yīng)的人臉圖像。這個(gè)稠密的貼圖網(wǎng)絡(luò)可以幫助用戶學(xué)習(xí)如何編輯遮罩和大象圖像之間的精細(xì)樣式映射。
DMN添加了空間注意編碼器,用于將Pix2PixHD用作主干網(wǎng)絡(luò),以及整合大象圖像和掩碼之間的信息。然后生成器將這部分信息融合在一起,生成真實(shí)的圖像。
空間注意的特性編碼器及其空間特性轉(zhuǎn)換層SFT
在編碼器中,研究人員使用空間特征傳輸層學(xué)習(xí)仿射變換參數(shù),通過提供參數(shù),按通道和空間調(diào)整特征圖,獲得包含空間注記樣式的仿射參數(shù)信息。然后,研究人員將使用自適應(yīng)實(shí)例規(guī)范化獲得的空間注意信息轉(zhuǎn)移到主干網(wǎng)絡(luò)上。
最終生成器部分的解碼器通過輸入掩碼、遮罩和圖像構(gòu)成的空間信息編碼生成最終圖像。空間主義可以通過大象遮罩中的信息有效地將大象圖像中的樣式傳遞給源貼圖遮罩和輸出之間的映射關(guān)系。
培訓(xùn)中使用的遮罩來自大象圖像,而實(shí)際骨干網(wǎng)絡(luò)中的遮罩是源圖像(或用戶編輯的源貼圖遮罩)。
編輯行為模擬培訓(xùn)部分用于對(duì)用戶的編輯行為建模,生成的模型對(duì)各種編輯更加堅(jiān)固。這主要包括以前獲得的密集映射網(wǎng)絡(luò)DMN、預(yù)先訓(xùn)練的MaskVAE和Alpha通道的融合子網(wǎng)。
其中MaskVAE由編碼器-解碼器組成,主要負(fù)責(zé)幾何結(jié)構(gòu)的先驗(yàn)流動(dòng)建模。alpha融合子網(wǎng)絡(luò)主要用于融合圖像,以保持操作過程中的連續(xù)性。通過這些子模塊進(jìn)行的聯(lián)合培訓(xùn)為各種用戶編輯、輸入時(shí)生成模型提供了更好的健壯性。
MaskVAE與自己的編碼器非常相似,主要用于處理結(jié)構(gòu)的先驗(yàn)信息。損失函數(shù)包括重建語義掩碼的逐像素?fù)p失,以及控制隱藏空間中語義標(biāo)簽平滑的KL分支項(xiàng)。MaskVAE可以在隱藏空間中使用線性插值結(jié)果平滑地轉(zhuǎn)換語義標(biāo)簽,如下圖所示。
ail&_iz=31825&index=5" width="640" height="333"/>整個(gè)變分自編碼器通過下面的結(jié)構(gòu)來進(jìn)行訓(xùn)練,并最小化重建誤差。
訓(xùn)練好的MaskVAE在整個(gè)方法流程中的主要目的是為輸入掩膜分別生成內(nèi)插和外插新掩膜,為后續(xù)的融合提供條件。
AlphaBlender的主要作用是保證圖像操作的連續(xù)性,它可以維持融合結(jié)果與目標(biāo)結(jié)果檢測(cè)連續(xù)性。研究人員通過深度學(xué)習(xí)AlphaBlender來學(xué)習(xí)出融合參數(shù)合成最終圖像。融合模型在訓(xùn)練過程中與與兩個(gè)DMN進(jìn)行聯(lián)合優(yōu)化。這一部分的模型被定義為融合生成器GB。
訓(xùn)練過程
模型的訓(xùn)練過程一共分為兩個(gè)階段,分別是對(duì)于稠密映射網(wǎng)絡(luò)的預(yù)訓(xùn)練和針對(duì)用戶編輯行為模擬的增強(qiáng)訓(xùn)練以提高生成器魯棒性。
第一階段的訓(xùn)練。首先需要利用基準(zhǔn)圖像It 和對(duì)應(yīng)的掩膜Mt 訓(xùn)練稠密映射網(wǎng)絡(luò),使得模型學(xué)會(huì)從掩膜到圖像的映射過程。隨后利用預(yù)訓(xùn)練的映射模型DMN、MaskVAE,以及聯(lián)合訓(xùn)練和AlphaBlender來實(shí)現(xiàn)。
第二階段的訓(xùn)練。一張輸入的掩膜通過MaskVAE (在隱空間中)經(jīng)過內(nèi)插和外插得到了兩張不同的掩膜,而后與對(duì)應(yīng)的GT圖像與掩膜分別送入到兩個(gè)稠密映射網(wǎng)絡(luò)中生成出外插圖像和內(nèi)插圖像;將兩幅圖像再輸入到Blender模型中學(xué)習(xí)出融合參數(shù)的權(quán)重圖,將圖像進(jìn)行最后的融合生成結(jié)果。在第二階段的訓(xùn)練中,MaskVAE 的參數(shù)固定,而兩個(gè)DMN 生成器和Blender 權(quán)重網(wǎng)絡(luò)進(jìn)行聯(lián)合優(yōu)化。
最終整個(gè)模型將通過多目標(biāo)學(xué)習(xí)來進(jìn)行聯(lián)合優(yōu)化,其目標(biāo)函數(shù)包含了生成器的對(duì)抗損失、特征匹配損失和感知損失等,聯(lián)合優(yōu)化損失函數(shù)如下圖所示。
CelebAMask-HQ
為了為人臉語義分割和屬性操作打下更好的研究基礎(chǔ),研究人員在CelebA-HQ的基礎(chǔ)上構(gòu)建了包含30000張高分辨率512x512的人臉圖片,包含了面部19類詳細(xì)的信息標(biāo)注。針對(duì)被部分遮擋的面部區(qū)域,標(biāo)注員還進(jìn)行了推斷補(bǔ)全了語義標(biāo)簽。與先前的Helen 數(shù)據(jù)集相比,圖像的數(shù)量擴(kuò)大十多倍,同時(shí)標(biāo)簽的數(shù)量了也增加了近兩倍。
最后研究人員從語義、幾何、分布以及人類感知等方面對(duì)比了MaskGAN 和先前的算法,顯示了在人臉屬性遷移和風(fēng)格復(fù)制任務(wù)上的性能差異。下面這張圖顯示了MaskGAN對(duì)于人臉特定屬性(如笑容)的遷移能力,在視覺感知和幾何層面都很強(qiáng)。
MaskGAN對(duì)于風(fēng)格復(fù)制也可以很好勝任,相比于先前的方法它可以對(duì)于性別和妝容有更強(qiáng)的遷移能力。
此外還可以通過修改圖像的語義掩膜來為圖中的人物添加配飾、眼鏡,改變發(fā)型、臉型和各種面部屬性。
消融性分析顯示,對(duì)于稠密映射網(wǎng)絡(luò),空間注意力風(fēng)格編碼器可以通過先驗(yàn)信息保持模型不受用于對(duì)mask修改的過度影響,同時(shí)也提高了從目標(biāo)圖像風(fēng)格遷移的準(zhǔn)確性。
而對(duì)于編輯行為模擬訓(xùn)練來說,有效地改善了模型對(duì)于人臉屬性保持的魯棒性,使得人類感知得分得到了大幅提升。下表中帶十字的結(jié)果為增加了編輯行為模擬訓(xùn)練的增強(qiáng)結(jié)果。
上手玩
在作者的demo演示中可以看到,隨意修改語義mask就可以改變生成圖像的臉型、發(fā)型、面部各個(gè)部分的屬性,還能添加耳環(huán)、改變眼睛,生成結(jié)果十分自然。
作者表示不久將放出人臉屬性操作的源碼,稍作等待就將在github上發(fā)布:
如果想要玩起來,一位開發(fā)者利用CelebAMask-HQ數(shù)據(jù)集訓(xùn)練了SPADE模型可以在下面這里找到, 也能實(shí)現(xiàn)類似的功能:
如果想要了解更多詳細(xì)的信息,可以從論文發(fā)掘更多詳細(xì)的信息:
ref:
CelebAHQ:
Other: dataset:
-The End-
將門是一家以專注于發(fā)掘、加速及投資技術(shù)驅(qū)動(dòng)型創(chuàng)業(yè)公司的新型創(chuàng)投機(jī)構(gòu),旗下涵蓋將門創(chuàng)新服務(wù)、將門技術(shù)社群以及將門創(chuàng)投基金。將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
將門創(chuàng)新服務(wù)專注于使創(chuàng)新的技術(shù)落地于真正的應(yīng)用場(chǎng)景,激活和實(shí)現(xiàn)全新的商業(yè)價(jià)值,服務(wù)于行業(yè)領(lǐng)先企業(yè)和技術(shù)創(chuàng)新型創(chuàng)業(yè)公司。
將門技術(shù)社群專注于幫助技術(shù)創(chuàng)新型的創(chuàng)業(yè)公司提供來自產(chǎn)、學(xué)、研、創(chuàng)領(lǐng)域的核心技術(shù)專家的技術(shù)分享和學(xué)習(xí)內(nèi)容,使創(chuàng)新成為持續(xù)的核心競爭力。
將門創(chuàng)投基金專注于投資通過技術(shù)創(chuàng)新激活商業(yè)場(chǎng)景,實(shí)現(xiàn)商業(yè)價(jià)值的初創(chuàng)企業(yè),關(guān)注技術(shù)領(lǐng)域包括機(jī)器智能、物聯(lián)網(wǎng)、自然人機(jī)交互、企業(yè)計(jì)算。在三年的時(shí)間里,將門創(chuàng)投基金已經(jīng)投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數(shù)科技、迪英加科技等數(shù)十家具有高成長潛力的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”: bp@
點(diǎn)擊右上角,把文章朋友圈
將門創(chuàng)投
讓創(chuàng)新獲得認(rèn)可!
微信:thejiangmen
bp@
1.《【ganlulu】想換什么就換什么!馬斯克根面部修復(fù)新方法》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁腳下方聯(lián)系方式。
2.《【ganlulu】想換什么就換什么!馬斯克根面部修復(fù)新方法》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/yule/2704306.html