AI修復(fù)的視頻讓我們體驗(yàn)了100年前的老北京。(George Bernard Show,Northern Exposure(美國電視劇),)小販賣掉后,穿過馬車,復(fù)原的視頻可以清晰地展現(xiàn)繁華的市政生活,問候的場(chǎng)面也可以清晰地看到。(威廉莎士比亞,《哈姆雷特》,《離別名言》)。
你能想象,這些生動(dòng)展現(xiàn)百年前國民生活的彩色影像,是使用人工智能技術(shù)修復(fù)的嗎?近日,這段使用人工智能修復(fù)老北京影像的視頻在 B 站和微博上火了,引起了極大的關(guān)注。僅在 B 站上,阿婆主“大谷的游戲創(chuàng)作小屋”上傳的這個(gè)舊影像修復(fù)視頻已經(jīng)獲得 61.9 萬的播放量、4.9 萬點(diǎn)贊。
網(wǎng)友們紛紛感嘆“厲害”,視頻“清晰連貫”,“讓我們看到了 100 年前的 vlog”。
視頻中,阿婆主使用人工智能技術(shù),對(duì)民國初年的一段影像進(jìn)行了上色、修復(fù)幀率和擴(kuò)大分辨率的改動(dòng),從而徹底改變了這段 100 年前老舊影片,讓我們能夠更為細(xì)致地觀看 100 年前人們的生活。
與舊影像對(duì)比之后,我們能夠?qū)π迯?fù)效果有更為直觀的感受。
視頻修復(fù)前后在色彩、清晰度方面都有了很大的提升,修復(fù)前灰蒙蒙,修復(fù)后色彩鮮艷。
那么從技術(shù)層面上看,究竟是如何做到這么驚艷的效果的呢?阿婆主表示,他也是參考了海外 YouTube 博主 Denis Shiryae 的影像修復(fù)教程。
影像修復(fù)三大步驟
今年年初,Denis 修復(fù) 1896 年經(jīng)典電影的視頻也在海外火了一把。
電影界最著名的短片之一是 1896 年的一部無聲電影《L’Arrivée d’un train en gare de La Ciotat》,畫面很簡單,只有 50 秒,描述的是一列火車駛?cè)胲囌镜膱?chǎng)景。Denis 正式對(duì)這個(gè)經(jīng)典的短片進(jìn)行了 AI 修復(fù),效果非常不錯(cuò)。下圖可以看出修復(fù)前后畫面的強(qiáng)烈對(duì)比:
從 Denis 的網(wǎng)頁介紹,我們可以看到整個(gè)修復(fù)過程主要針對(duì)三個(gè)核心點(diǎn):4K 分辨率以及 60FPS 的幀數(shù),除此之外還增加了背景顏色和聲音的效果。
DAIN 插幀技術(shù)
在增加 FPS 方面,Denis 表示他主要應(yīng)用了由上海交大 Bao Wenbo 等人提出的 DAIN 插幀技術(shù)(參見論文《Depth-Aware Video Frame Interpolation》)。
這項(xiàng)研究提出通過探索插幀中的 depth cue,來顯式地檢測(cè)遮擋。
研究者開發(fā)了一個(gè)深度感知的光流投影層來合成中間流(中間流傾向于對(duì)距離較近的對(duì)象進(jìn)行采樣),并學(xué)習(xí)層級(jí)特征作為語境信息。然后,該模型基于光流和局部插值 kernel 將輸入幀、深度圖和語境特征進(jìn)行變形處理,最后合成輸出幀。
DAIN 模型的架構(gòu)如下圖所示:
DAIN 架構(gòu)圖。給出兩個(gè)輸入幀,DAIN 首先估計(jì)其光流和深度圖,并使用深度感知光流投影層來生成中間流;然后采用自適應(yīng)變形層(adaptive warping layer),基于光流和空間變化的插值 kernel 對(duì)輸入幀、深度圖和語境特征進(jìn)行變形處理;最后,使用幀合成網(wǎng)絡(luò)生成輸出幀。
4K 分辨率
自從 1998 年第一臺(tái)高清電視投入市場(chǎng)以來,“高清”一直是技術(shù)追逐的方向之一。簡單羅列幾個(gè)數(shù)字,老式標(biāo)清電視的分辨率僅為 720x480,也就是說一次可顯示的內(nèi)容為 345,600 像素。高清電視的分辨率為 1920x1080,總像素為 2,073,600,是標(biāo)清的 6 倍,而 4K 的 3840×2160 分辨率則需要 8294,400 像素。
簡單而言,視頻修復(fù)過程至少需要額外填充 600 萬像素來適應(yīng) 4K 高清分辨率,而這種 “插值” 過程正是 AI 技術(shù)的用武之地,所補(bǔ)充顯示的內(nèi)容皆是 基于相鄰周邊像素 所呈現(xiàn)的內(nèi)容 ?!安逯怠边^程本質(zhì)上是一種猜謎游戲,如果讓卷積神經(jīng)網(wǎng)絡(luò)這類 AI 技術(shù)去發(fā)號(hào)施令的話會(huì)有更優(yōu)質(zhì)的反饋效果。
在此展示中,Denis 通過 Gigapixel AI 軟件將分辨率提升至 4K,該產(chǎn)品由 Topaz Labs 開發(fā),目前已進(jìn)入到成熟的商業(yè)階段。研發(fā)之初是為了幫助攝影師在不丟失任何細(xì)節(jié)的情況下將照片質(zhì)量提升 6 倍,將該技術(shù)產(chǎn)品化的過程中發(fā)現(xiàn)將其應(yīng)用至視頻是完全可行的。不過值得一提是,渲染幾秒鐘的視頻可能需要幾個(gè)小時(shí)的處理時(shí)間,感興趣的朋友可以一試。
DeOldify 著色模型
而在著色上,相信社區(qū)的大部分讀者都知道一個(gè)基于 GAN 的圖像著色模型 DeOldify。通過下面的對(duì)比圖,我們可以看到該模型的效果。
DeOldify 基于生成對(duì)抗網(wǎng)絡(luò),由深度學(xué)習(xí)研究員 Jason Antic 開發(fā)并維護(hù)。自從 2018 年項(xiàng)目開啟以來,DeOldify 已經(jīng)進(jìn)行了多次迭代。
數(shù)字修復(fù)中的 AI 技術(shù)應(yīng)用要比想像的多
上述圖像分辨率補(bǔ)充、FPS 提升、色彩填充是數(shù)字修復(fù)大方向下的三個(gè)子環(huán)節(jié),而整個(gè)影像修復(fù)技術(shù)處處可見人工智能的身影。
以圖像修復(fù)為例,一般步驟為:輸入圖像,檢測(cè)畫面信息及獲得畫面所有像素并識(shí)別受損區(qū)域,計(jì)算受損區(qū)域的像素點(diǎn)優(yōu)先項(xiàng),確定優(yōu)先項(xiàng)最高的為待修復(fù)像素塊,計(jì)算源區(qū)域中的匹配塊與待修復(fù)區(qū)域的誤差,確定誤差值最小的為最佳匹配,進(jìn)行填充和修復(fù),檢測(cè)損傷區(qū)域是否全部修復(fù),若已修復(fù)則輸出圖像。
來自機(jī)器之心 pro
而對(duì)視頻修復(fù)而言, 它是基于圖像修復(fù)演變而來的 ,也同樣是逐幀修復(fù),所以其流程與圖像修復(fù)類似。
至于圖像分辨率提升環(huán)節(jié),Denis 通過 Gigapixel AI 軟件進(jìn)行處理。而實(shí)際情況中圖像分辨率提升以及圖像超分辨率的解決涉及到許多技術(shù)細(xì)節(jié),如圖像配準(zhǔn)、圖像分割、圖像壓縮、圖像特征提取、圖像質(zhì)量評(píng)估等等。而這些子方向的研究在各大 AI 學(xué)術(shù)頂會(huì)上頻頻可見。類似地,通過機(jī)器學(xué)習(xí)方法從訓(xùn)練樣本集中提取視頻中的高頻信息模型,從而對(duì)填充所需信息進(jìn)行合理預(yù)測(cè),達(dá)到提升視頻圖像分辨率的目的,這樣相似的思路層出不窮。
從應(yīng)用方面來看,高清設(shè)備的普及使得對(duì)早期的游戲及電影進(jìn)行重制成為一大需求,圖像修復(fù),圖像超分辨率等眾多修復(fù)技術(shù)的發(fā)展也為該市場(chǎng)提供了一個(gè)可持續(xù)的解決思路。
最后,在了解完修復(fù)舊影像背后的技術(shù)后,感興趣的讀者也可以嘗試下。說不定,你也能在 B 站、抖音上火一把。
1.《ai民國風(fēng)視頻是哪個(gè)軟件做的看這里!不用穿越,也能體驗(yàn)百年前的老北京,這個(gè)AI修復(fù)視頻火爆全網(wǎng)》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請(qǐng)聯(lián)系頁腳下方聯(lián)系方式。
2.《ai民國風(fēng)視頻是哪個(gè)軟件做的看這里!不用穿越,也能體驗(yàn)百年前的老北京,這個(gè)AI修復(fù)視頻火爆全網(wǎng)》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來源地址,http://f99ss.com/lishi/2110434.html