作者:熊偉、黃飛、高陽、騰訊PCG應(yīng)用研究院。
本文介紹了QQ R & amp介紹了D中心自主開發(fā)的PPT重構(gòu)技術(shù)。目前騰訊文檔正在進(jìn)行訪問工作。目前,office、wps和Tencent文檔等主要辦公產(chǎn)品使用AI技術(shù)對圖像進(jìn)行排版,恢復(fù)為doc格式的文檔。一般適用于文字多、格式簡單的圖像。內(nèi)容豐富、圖片茂盛的內(nèi)容圖像轉(zhuǎn)換為doc文檔時(shí),由于圖像比例、文檔排版插入、豐富的背景還原度差異等原因,很多PPT格式的圖片無法很好地恢復(fù)到電子文檔中。
現(xiàn)在越來越多的資源信息被存儲為圖像,但很多用戶在獲得圖像后需要編輯圖片或?qū)⑵浯鎯殡娮游臋n。最常用的方法是直接執(zhí)行OCR提取,但這種方法不能滿足用戶對合成的需求。目前,office、wps、騰訊文檔等主要辦公產(chǎn)品使用部分技術(shù)將照片排版恢復(fù)到doc格式的文檔中。一般來說,對文本多、形式簡單的形象更好。但是,如果內(nèi)容豐富,當(dāng)圖片豐富的PPT內(nèi)容圖像轉(zhuǎn)換為doc文檔時(shí),由于圖像比例、文檔排版插入限制、文檔適應(yīng)背景單一、豐富背景還原度差異等原因,可能會導(dǎo)致很多PPT。
QQ R & ampd組此前發(fā)布了深度基于學(xué)習(xí)的文件重組、表格重組的技術(shù)文章等。產(chǎn)品也已經(jīng)添加了騰訊文檔、PCQQ、手機(jī)QQ在線、最近PPT重建功能。小程序在構(gòu)建過程中添加了更多的子功能,包括OCR、文檔自動選擇框、去除摩爾骨、修復(fù)照片失真等。感謝您通過QQ小程序體驗(yàn)。
下面主要介紹PPT的重構(gòu)技術(shù),產(chǎn)品流程如圖1所示,如圖2所示。
圖1圖片與PPT產(chǎn)品流程
圖2圖片切換為PPT(左:原始右:PPT)
一、圖片轉(zhuǎn) ppt 框架
項(xiàng)目的技術(shù)過程主要分為三個(gè)模塊。
預(yù)處理:包括文檔檢測和修改、照片成型、文檔失真修復(fù)、文檔旋轉(zhuǎn)、語義分割等主要深度學(xué)習(xí)、模型放置GPU。
合成分析:每個(gè)實(shí)體的恢復(fù)和合成處理,以及邏輯進(jìn)程分布在CPU上。
后處理:生成導(dǎo)出的PPT文件
圖3項(xiàng)目技術(shù)模塊
我將逐一介紹主要模塊使用的技術(shù)細(xì)節(jié)。
二、AI 模塊
2.1 自動框選
用戶拍照一般不是整齊的圖片,所以提取前要做很多預(yù)處理工作。最重要的模塊之一是首先選擇我們真正需要轉(zhuǎn)換的PPT/文檔內(nèi)容。
圖4自動交叉選擇效果
內(nèi)容的交叉選擇選擇了現(xiàn)有的很多技術(shù),如圖像處理的邊緣提取,但效果不好,需要特別多的后期處理,隨著AI的發(fā)展,可以使用HED網(wǎng)絡(luò)等深度學(xué)習(xí)方法提取邊緣。(威廉莎士比亞,Northern Exposure(美國電視劇),內(nèi)容名言)早期同事也在hed的基礎(chǔ)上進(jìn)行了模型訓(xùn)練,取得了良好的測試效果。使用的結(jié)構(gòu)件圖如下圖所示。
其中,Decoder1季度的簡單圖片如下:
ps://p3.toutiaoimg.com/large/pgc-image/ad8985af51b64b8faa0a7d7452b1761d?from=article.detail&_iz=31825&index=6" width="452" height="739"/>經(jīng)過 HED 處理后在工程的后處理還是需要很多規(guī)則判斷,特別在候選框選取時(shí)添加過多規(guī)則,如下圖。所以我們需要進(jìn)一步對模型進(jìn)行優(yōu)化減免后處理的繁雜工作以及優(yōu)化框選準(zhǔn)確性。
圖5 框選后處理
通過 case 分析,我們預(yù)測的選框通常會多出背景區(qū)域,如果通過語義分析知道大致的文檔內(nèi)容區(qū)域,再通過邊緣線條檢測準(zhǔn)確的邊框信息,融合信息是否能得到更精確的選框。
所以在原有基礎(chǔ)上增加了一個(gè)分割分支,多任務(wù)學(xué)習(xí),在 decoder 模塊分出兩個(gè)分支,一個(gè)分支學(xué)習(xí)圖像的邊緣信息,一個(gè)分支學(xué)習(xí)圖像的語義信息,如下圖所示。
圖6 多任務(wù)邊緣檢測網(wǎng)絡(luò)
圖7 網(wǎng)絡(luò)示意圖
兩個(gè)分支的 encoder 部分卷積層權(quán)重共享。
在邊緣檢測分支,我們還是分為多個(gè) block 計(jì)算 loss,并通過 se 模塊融合分支。對于邊緣檢測,我們更多想得到全局信息,所以引入了 SEblock,如下圖,在 featrueMap 上做了一次 attention。
圖8 SEBlock
在語義分割分支,我們采用通過的 Unet 結(jié)構(gòu)。最終加權(quán)兩個(gè)分支的 loss 進(jìn)行訓(xùn)練。
在訓(xùn)練過程中,我們的數(shù)據(jù)來源于仿真和真實(shí)數(shù)據(jù)的標(biāo)注,另一部分來源于半監(jiān)督方式通過檢測分支的結(jié)果獲取到文檔內(nèi)容從而得到分割 mask。在 infer 過程中,檢測分支獲取得到所有可能組成的四邊形,和分割分支的結(jié)果計(jì)算 Miou,選擇 miou 最大的檢測框作為最終框選對象。
圖9 檢測結(jié)合分割獲取最佳選框
通過對比可以發(fā)現(xiàn),語義分割分支可以得到更精準(zhǔn)的檢測框。
圖10 優(yōu)化前后對比圖
通過驗(yàn)證集驗(yàn)證,hed 驗(yàn)證集 miou=88.38,多任務(wù)網(wǎng)絡(luò) miou=90.63,多任務(wù)訓(xùn)練的方式 miou 可以提升 2 個(gè)點(diǎn)。
2.2 圖像矯正
檢測到 PPT 文檔內(nèi)容后,我們還需要對圖像質(zhì)量進(jìn)行提升后再進(jìn)行后續(xù)處理,希望轉(zhuǎn)換后的文件還原度更高。針對圖片矯正我們主要做了,去摩爾紋,文檔旋轉(zhuǎn)矯正和扭曲恢復(fù)。
2.2.1 去摩爾紋
對于屏幕拍攝圖片,摩爾紋很影響我們后續(xù)處理的圖像質(zhì)量,所以檢測到圖片后我們首先通過小的分類模型判斷是否需要對摩爾紋進(jìn)行處理,如果屬于屏幕拍攝場景會調(diào)用去摩爾紋模塊。
去除摩爾紋的網(wǎng)絡(luò)框架和效果圖如下:
圖11 去摩爾紋網(wǎng)絡(luò)
圖12 去摩爾紋效果(左:帶摩爾紋圖片 中:原圖 右:去摩爾紋效果)
2.2.2 扭曲恢復(fù)
檢測出四邊形后,通過投影變換可以對圖片進(jìn)行一步矯正,但是對于扭曲圖像,僅僅通過圖像處理是不夠的,我們通過扭曲恢復(fù)模型,對圖片扭曲恢復(fù)。這一步驟對于紙質(zhì)的 PPT 拍攝以及文檔拍攝圖片比較重要。
扭曲恢復(fù)的網(wǎng)絡(luò)框架和效果圖:
圖13 扭曲恢復(fù)效果
扭曲網(wǎng)絡(luò)借鑒了 Document Image Unwarping via A Stacked U-Net 論文思路,近期也做了比較大的優(yōu)化,主要通過將曲線擬合算法結(jié)合到網(wǎng)絡(luò)結(jié)構(gòu)解決了扭曲恢復(fù)后的文字在空間上存在細(xì)微抖動的問題,后續(xù)我們也會公開這塊的技術(shù)細(xì)節(jié)。
2.2.3 文本旋轉(zhuǎn)
OCR 也是我們重建的一個(gè)重要模塊,除了能夠提取圖片中的文字信息,還有一個(gè)作用是可以通過文本檢測框獲取到圖片中文本的旋轉(zhuǎn)角度。但是目前 OCR 對于角度的預(yù)測在-45---45 角度之間比較準(zhǔn)確,對于 90 度,180 度的旋轉(zhuǎn)圖片,預(yù)判角度不太準(zhǔn)確。
我們采用的方案是首先通過小的分類模型預(yù)測圖片的象限方向,分類類別為[0,90,180,270]。先把圖片旋轉(zhuǎn)到-45~45 之間。再通過 OCR 預(yù)測角度將圖片旋轉(zhuǎn)到 0 度。效果如下圖:
圖14 綜合分類模型和OCR 模型旋轉(zhuǎn)圖片
左圖為原圖,中圖為判斷需要旋轉(zhuǎn) 180 度,右圖為通過 OCR 預(yù)測角度旋轉(zhuǎn)后圖片。
2.3 實(shí)體提取
通過以上步驟,我們可以獲取到比較干凈工整的 PPT 內(nèi)容圖片,這一步我們要通過語義分割,檢測到圖片的實(shí)體部分,方面后續(xù)生成 PPT。本模塊在圖片轉(zhuǎn) word 和圖片轉(zhuǎn) excel 中都需要的模塊。
對于 PPT 圖片,我們主要分割的類別為文本,圖片,表格,背景。下圖為標(biāo)注的語義分割類別示意圖。
圖15 語義分割示意圖
對于主流框架和基礎(chǔ)網(wǎng)絡(luò),我們使用 PPT 的分割數(shù)據(jù)做了一些實(shí)驗(yàn)對比
圖15 語義分割主流框架實(shí)驗(yàn)對比
從基礎(chǔ)網(wǎng)絡(luò)上看,shufflenet 速度更快,resnet 效果更好。網(wǎng)絡(luò)結(jié)構(gòu)上從性能上分析 bisenet 性價(jià)比更好。
我們在項(xiàng)目中使用的是 Bisenet 框架,在學(xué)習(xí)特征時(shí)并行兩條支路,一條學(xué)習(xí)空間細(xì)節(jié)信息,一條支路學(xué)習(xí)高層語義信息,然后將學(xué)到的信息融合,能夠更好學(xué)習(xí)到全局信息和局部信息特征信息。
圖16 BiseNet網(wǎng)絡(luò)
2.4 實(shí)體恢復(fù)
在上一步我們已經(jīng)知道圖片中哪塊區(qū)域是文本,圖片,表格,但是直接插入到 PPT 中會存在很多問題,比如圖片中還嵌有文本的處理,文本框直接插入的背景問題等。我們重要介紹文字和背景的恢復(fù)。
2.4.1 文本恢復(fù)
通過實(shí)體分割文本段以及 OCR 提取后,可以獲取到文本框信息。如圖 17,左圖為原圖,右圖紅框?yàn)槲覀儷@取到的文本區(qū)域,但是無法直接獲取到字體顏色。
圖17 OCR框選文本框
得到文本框后,字體顏色恢復(fù)步驟為:
- 截取文本框區(qū)域,如圖 18(a)
- 對文本框區(qū)域自適應(yīng)二值化得到前景背景,如圖 18(b)
- 前景顏色區(qū)域計(jì)算均值得到前景和背景顏色值,如圖 18(b)上前景像素區(qū)域?qū)?yīng)的 a 點(diǎn)像素值 rgb 計(jì)算均值,設(shè)置為字體顏色。
- 圖 18(a)的文本塊區(qū)域,背景顏色為 RGB([73.,192.,179]);前景顏色 RGB ( [207, 255,255])
- 圖 18(c)的文本塊區(qū)域,背景顏色為 RGB([229,250,245]);前景顏色 RGB ( [78,156,149])
圖18 獲取文本框前景
得到了字體大小和顏色恢復(fù),結(jié)合之前的背景重建,我們可以得到最終的還原效果,字體幾乎完全還原,如圖 19 所示:
圖19 字體還原效果
2.4.2 背景恢復(fù)
通過語義分割模型后,我們可以獲取到前景所有實(shí)體,和剩下的背景區(qū)域。通過實(shí)體抽取直接在畫布上進(jìn)行插入,效果如圖 20。
圖20 未對背景做處理插入效果
直接插入效果可以看出,在文本區(qū)域塊和周圍其他背景顏色差別太多,過度顯得特別突兀,而且如果插入文本框顏色和文字顏色一致會導(dǎo)致文本看不清。所以我們需要通過 inpainting 算法,對背景進(jìn)行重建。重建背景,圖片,文字,表格,包括圖片上的文字后就可以生成 PPT 了。
2.5 生成 PPT
通過以上步驟我們得到了各個(gè)實(shí)體模塊,并且對每個(gè)模塊進(jìn)行了恢復(fù)重建。通過語義分割模塊,可以獲取到各實(shí)體(表格,圖片,文本,背景)的相對坐標(biāo)位置。通過重建模塊,可以獲?。?/p>
- 表格:表格的樣式,行列數(shù),單元格內(nèi)文字內(nèi)容
- 圖片:圖片抹除文字區(qū)域后,通過 impainting 重建圖片內(nèi)容
- 文本:文本區(qū)域的字體顏色,字體大小
- 背景:抹除前景區(qū)域后,通過 inpainting 重建背景內(nèi)容
最后可以按照 office open xml 的格式在畫布上依次插入背景,表格,圖片,文字實(shí)體,得到最終的可編輯.ppt 格式。騰訊文檔通過 http 請求獲取到.ppt 格式文件后再轉(zhuǎn)化為騰訊文檔在線電子文檔形式展示。
1.《【一組圖片怎么轉(zhuǎn)成ppt】QQ的新功能:照片一鍵式PPT、比OCR更強(qiáng)大的文檔重組技術(shù)》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《【一組圖片怎么轉(zhuǎn)成ppt】QQ的新功能:照片一鍵式PPT、比OCR更強(qiáng)大的文檔重組技術(shù)》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請保留本站內(nèi)容來源地址,http://f99ss.com/keji/2517605.html