郭一璞 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
看圖,永遠(yuǎn)比看字省事。
比如說,相比看文字版小說,看小說改編的漫畫更簡(jiǎn)單輕松。
那么,如何把一段故事自動(dòng)變成漫畫呢?
AI已經(jīng)可以做到了。給它一段故事,它就可以用圖片把故事講出來,稍加修改,就變成了一套連環(huán)畫。
像這樣的一段故事:
很久以前, 有個(gè)小男孩在森林里迷路了, 他走了好久, 都走餓了, 他很想吃媽媽做的餅, 可這時(shí)候小男孩回不去呀, 于是他就在地上畫了一個(gè)大大的餅, 還在餅上點(diǎn) 上芝麻。
小男孩看著看著, 好像自己已經(jīng)吃上了大餅, 于是他覺得自己不是很餓了, 重新站起來沿著一條小路走.。
很快, 小男孩的爸媽就找到了他, 他們一起回到家, 吃上了真正香噴噴的餅。
AI可以把它變成這樣的漫畫:
而且,這種漫畫形式還可以在電影工業(yè)中充當(dāng)故事板,輔助電影人們進(jìn)行藝術(shù)創(chuàng)作。
找到能講故事的圖
那么這個(gè)過程是怎樣實(shí)現(xiàn)的呢?
首先要說明一點(diǎn),這些圖片并不是AI憑空畫的,而是采取了一種更簡(jiǎn)單省事的方法:
從現(xiàn)成的圖庫里找出一些構(gòu)圖相似的,拿來改一改。
這里的圖庫,叫做GraphMovie數(shù)據(jù)集,數(shù)據(jù)來源是一些影評(píng)網(wǎng)站。
但是數(shù)據(jù)集里的圖很多,怎么才能用AI自動(dòng)的找出最符合你故事的圖片呢?
這里用到了一個(gè)模型,叫做情景感知密集匹配模型(Contextual-Aware Dense Matching model,CADM)。
它長(zhǎng)這樣:
根據(jù)故事的內(nèi)容,CADM找到了這樣的一些圖像:
另外,還有一個(gè)模型叫做No Context,它是此前“看字找圖”這個(gè)領(lǐng)域中表現(xiàn)最好的AI。
No Context也找了一些圖像出來:
不過,圖還是有點(diǎn)少,人家好歹也是個(gè)完整的故事,你總不能拿這么幾張圖就講完,這樣故事沒有細(xì)節(jié),讀者的體驗(yàn)也不好。
現(xiàn)在,請(qǐng)出第三個(gè)模型:貪婪解碼算法,它負(fù)責(zé)根據(jù)故事里的細(xì)節(jié),再找找能用上的圖。
讓它出馬來補(bǔ)一補(bǔ)之后,故事立馬就完整了:
把圖片的畫風(fēng)統(tǒng)一
不過,就這樣的效果,你會(huì)看得糊里糊涂,好像并不能傳達(dá)出前面文本里的故事。
問題出在哪兒呢?
第一個(gè)問題是,圖片里有許多背景、環(huán)境等相關(guān)元素,跟故事主線毫無關(guān)系,看到它還會(huì)影響你對(duì)故事的理解。
需要把這些冗余元素刪掉,這里用到了何愷明的成名作Mask R-CNN,進(jìn)行區(qū)域分割,刪掉圖片中和故事不相關(guān)的部分。
現(xiàn)在,這些圖片長(zhǎng)這樣:
第二個(gè)問題,這些圖片的畫風(fēng)實(shí)在是差異太大了,把這樣的漫畫拿出去,會(huì)被讀者打的。
所以,需要把圖片的樣式統(tǒng)一起來,這里用到了一個(gè)工具CartoonGAN,從字面意思就可以理解,這是一個(gè)讓圖片變成卡通風(fēng)格的GAN(生成對(duì)抗網(wǎng)絡(luò))。
在卡通GAN處理之后,這組圖片變成了這樣:
似乎好了一些,但是還有一個(gè)大bug:這些人長(zhǎng)得不一樣呀!你說他們是同一個(gè)故事的主角,打死我也不信。
于是,第三個(gè)問題來了,怎么才能讓這些人都長(zhǎng)成一個(gè)樣?
這里,研究者們直接找了一個(gè)軟件,叫做Autodesk Maya,是一個(gè)在電影里處理3D圖像的軟件,靠它制作出3D的場(chǎng)景、人物和道具,用半手動(dòng)的方式把9張圖片里的人全變成一個(gè)樣。
不過論文作者表示,未來這個(gè)制作3D圖像的過程有望全自動(dòng)生成。
這一頓操作,是真的猛如虎,9張八竿子打不著邊的圖,現(xiàn)在畫風(fēng)一致、故事流暢,甚至還補(bǔ)充了背景和美化。
在電影工業(yè)中有大用途
其實(shí),這樣生成的“漫畫”并不是最終結(jié)果。
它其實(shí)是用來拍電影的。
拍電影的準(zhǔn)備過程中,需要一個(gè)Demo叫做“故事板(storyboard)”。
借助故事板,電影人在創(chuàng)作的過程中就可以先改Demo,定下來之后再完成成品,把撕逼的過程放在前面,防止做完之后甲方爸爸再提修改意見,導(dǎo)致工作量急劇提升。
因此,像這篇論文里這樣,自動(dòng)生成故事板,就可以節(jié)約電影人的許多時(shí)間,提高創(chuàng)作者們的生產(chǎn)效率。
人大博士出品
這篇論文的作者團(tuán)隊(duì)非常龐大,一共9位作者,分別來自中國人民大學(xué)、微軟和北京電影學(xué)院。
一作陳師哲目前在人大讀到了博士五年級(jí),也是曾在微軟小冰團(tuán)隊(duì)實(shí)習(xí),還曾經(jīng)赴CMU和阿德萊德大學(xué)訪學(xué)。
她也是一位學(xué)術(shù)達(dá)人,僅僅今年一年,包括這篇論文在內(nèi)就已經(jīng)發(fā)了三篇頂會(huì)一作。
另外,微軟小冰團(tuán)隊(duì)首席科學(xué)家宋睿華也參與到了這項(xiàng)研究中。
宋睿華博士畢業(yè)于清華大學(xué),長(zhǎng)期研究短文本對(duì)話與生成、信息檢索與提取等領(lǐng)域,曾擔(dān)任SIGIR、SIGKDD、CIKM、WWW、WSDM等會(huì)議的程序主席或高級(jí)程序主席。
傳送門
Neural Storyboard Artist: Visualizing Stories with Coherent Image Sequences
作者:Shizhe Chen, Bei Liu, Jianlong Fu, Ruihua Song, Qin Jin, Pingping Lin, Xiaoyu Qi, Chunting Wang, Jin Zhou
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)
1.《現(xiàn)在的漫畫靠什么制作,3d建模用什么軟件》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁腳下方聯(lián)系方式。
2.《現(xiàn)在的漫畫靠什么制作,3d建模用什么軟件》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/yule/3203995.html