AI修復(fù)的視頻讓我們體驗了100年前的老北京。(威廉莎士比亞,Northern Exposure(美國電視劇),)小販賣掉后,穿過馬車,復(fù)原的視頻可以清晰地展現(xiàn)繁華的市政生活,問候的場面也可以清晰地看到。(威廉莎士比亞,《哈姆雷特》,《離別名言》)。
你能想象,這些生動展現(xiàn)百年前國民生活的彩色影像,是使用人工智能技術(shù)修復(fù)的嗎?近日,這段使用人工智能修復(fù)老北京影像的視頻在 B 站和微博上火了,引起了極大的關(guān)注。僅在 B 站上,阿婆主“大谷的游戲創(chuàng)作小屋”上傳的這個舊影像修復(fù)視頻已經(jīng)獲得 61.9 萬的播放量、4.9 萬點贊。
網(wǎng)友們紛紛感嘆“厲害”,視頻“清晰連貫”,“讓我們看到了 100 年前的 vlog”。
視頻中,阿婆主使用人工智能技術(shù),對民國初年的一段影像進行了上色、修復(fù)幀率和擴大分辨率的改動,從而徹底改變了這段 100 年前老舊影片,讓我們能夠更為細致地觀看 100 年前人們的生活。
與舊影像對比之后,我們能夠?qū)π迯?fù)效果有更為直觀的感受。
視頻修復(fù)前后在色彩、清晰度方面都有了很大的提升,修復(fù)前灰蒙蒙,修復(fù)后色彩鮮艷。
那么從技術(shù)層面上看,究竟是如何做到這么驚艷的效果的呢?阿婆主表示,他也是參考了海外 YouTube 博主 Denis Shiryae 的影像修復(fù)教程。
影像修復(fù)三大步驟
今年年初,Denis 修復(fù) 1896 年經(jīng)典電影的視頻也在海外火了一把。
電影界最著名的短片之一是 1896 年的一部無聲電影《L’Arrivée d’un train en gare de La Ciotat》,畫面很簡單,只有 50 秒,描述的是一列火車駛?cè)胲囌镜膱鼍啊enis 正式對這個經(jīng)典的短片進行了 AI 修復(fù),效果非常不錯。下圖可以看出修復(fù)前后畫面的強烈對比:
從 Denis 的網(wǎng)頁介紹,我們可以看到整個修復(fù)過程主要針對三個核心點:4K 分辨率以及 60FPS 的幀數(shù),除此之外還增加了背景顏色和聲音的效果。
DAIN 插幀技術(shù)
在增加 FPS 方面,Denis 表示他主要應(yīng)用了由上海交大 Bao Wenbo 等人提出的 DAIN 插幀技術(shù)(參見論文《Depth-Aware Video Frame Interpolation》)。
這項研究提出通過探索插幀中的 depth cue,來顯式地檢測遮擋。
研究者開發(fā)了一個深度感知的光流投影層來合成中間流(中間流傾向于對距離較近的對象進行采樣),并學(xué)習(xí)層級特征作為語境信息。然后,該模型基于光流和局部插值 kernel 將輸入幀、深度圖和語境特征進行變形處理,最后合成輸出幀。
DAIN 模型的架構(gòu)如下圖所示:
DAIN 架構(gòu)圖。給出兩個輸入幀,DAIN 首先估計其光流和深度圖,并使用深度感知光流投影層來生成中間流;然后采用自適應(yīng)變形層(adaptive warping layer),基于光流和空間變化的插值 kernel 對輸入幀、深度圖和語境特征進行變形處理;最后,使用幀合成網(wǎng)絡(luò)生成輸出幀。
4K 分辨率
自從 1998 年第一臺高清電視投入市場以來,“高清”一直是技術(shù)追逐的方向之一。簡單羅列幾個數(shù)字,老式標清電視的分辨率僅為 720x480,也就是說一次可顯示的內(nèi)容為 345,600 像素。高清電視的分辨率為 1920x1080,總像素為 2,073,600,是標清的 6 倍,而 4K 的 3840×2160 分辨率則需要 8294,400 像素。
簡單而言,視頻修復(fù)過程至少需要額外填充 600 萬像素來適應(yīng) 4K 高清分辨率,而這種 “插值” 過程正是 AI 技術(shù)的用武之地,所補充顯示的內(nèi)容皆是 基于相鄰周邊像素 所呈現(xiàn)的內(nèi)容 ?!安逯怠边^程本質(zhì)上是一種猜謎游戲,如果讓卷積神經(jīng)網(wǎng)絡(luò)這類 AI 技術(shù)去發(fā)號施令的話會有更優(yōu)質(zhì)的反饋效果。
在此展示中,Denis 通過 Gigapixel AI 軟件將分辨率提升至 4K,該產(chǎn)品由 Topaz Labs 開發(fā),目前已進入到成熟的商業(yè)階段。研發(fā)之初是為了幫助攝影師在不丟失任何細節(jié)的情況下將照片質(zhì)量提升 6 倍,將該技術(shù)產(chǎn)品化的過程中發(fā)現(xiàn)將其應(yīng)用至視頻是完全可行的。不過值得一提是,渲染幾秒鐘的視頻可能需要幾個小時的處理時間,感興趣的朋友可以一試。
DeOldify 著色模型
而在著色上,相信社區(qū)的大部分讀者都知道一個基于 GAN 的圖像著色模型 DeOldify。通過下面的對比圖,我們可以看到該模型的效果。
DeOldify 基于生成對抗網(wǎng)絡(luò),由深度學(xué)習(xí)研究員 Jason Antic 開發(fā)并維護。自從 2018 年項目開啟以來,DeOldify 已經(jīng)進行了多次迭代。
數(shù)字修復(fù)中的 AI 技術(shù)應(yīng)用要比想像的多
上述圖像分辨率補充、FPS 提升、色彩填充是數(shù)字修復(fù)大方向下的三個子環(huán)節(jié),而整個影像修復(fù)技術(shù)處處可見人工智能的身影。
以圖像修復(fù)為例,一般步驟為:輸入圖像,檢測畫面信息及獲得畫面所有像素并識別受損區(qū)域,計算受損區(qū)域的像素點優(yōu)先項,確定優(yōu)先項最高的為待修復(fù)像素塊,計算源區(qū)域中的匹配塊與待修復(fù)區(qū)域的誤差,確定誤差值最小的為最佳匹配,進行填充和修復(fù),檢測損傷區(qū)域是否全部修復(fù),若已修復(fù)則輸出圖像。
來自機器之心 pro
而對視頻修復(fù)而言, 它是基于圖像修復(fù)演變而來的 ,也同樣是逐幀修復(fù),所以其流程與圖像修復(fù)類似。
至于圖像分辨率提升環(huán)節(jié),Denis 通過 Gigapixel AI 軟件進行處理。而實際情況中圖像分辨率提升以及圖像超分辨率的解決涉及到許多技術(shù)細節(jié),如圖像配準、圖像分割、圖像壓縮、圖像特征提取、圖像質(zhì)量評估等等。而這些子方向的研究在各大 AI 學(xué)術(shù)頂會上頻頻可見。類似地,通過機器學(xué)習(xí)方法從訓(xùn)練樣本集中提取視頻中的高頻信息模型,從而對填充所需信息進行合理預(yù)測,達到提升視頻圖像分辨率的目的,這樣相似的思路層出不窮。
從應(yīng)用方面來看,高清設(shè)備的普及使得對早期的游戲及電影進行重制成為一大需求,圖像修復(fù),圖像超分辨率等眾多修復(fù)技術(shù)的發(fā)展也為該市場提供了一個可持續(xù)的解決思路。
最后,在了解完修復(fù)舊影像背后的技術(shù)后,感興趣的讀者也可以嘗試下。說不定,你也能在 B 站、抖音上火一把。
1.《不用穿越,也能體驗百年前的老北京,這個AI修復(fù)視頻火爆全網(wǎng)》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《不用穿越,也能體驗百年前的老北京,這個AI修復(fù)視頻火爆全網(wǎng)》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/lishi/2114528.html