h和f分別是核和圖像,分別表示目標(biāo)模板和帶有待搜索目標(biāo)的圖像。如果這個(gè)公式對(duì)你來(lái)說(shuō)有點(diǎn)難懂,你能記住離散圖像之間卷積運(yùn)算的定義空:
哦~從公式來(lái)看,它們只是分別橫翻H和豎翻H的關(guān)系!其實(shí)在很多機(jī)器學(xué)習(xí)庫(kù)的實(shí)現(xiàn)中,所謂的“卷積”都是通過(guò)互相關(guān)運(yùn)算實(shí)現(xiàn)的——反正卷積核中的所有參數(shù)都是物理意義未知的優(yōu)化值,所要做的就是“在卷積核的適當(dāng)位置學(xué)習(xí)適當(dāng)?shù)闹怠?。卷積運(yùn)算學(xué)習(xí)的核等價(jià)于互相關(guān)運(yùn)算學(xué)習(xí)的核的180度翻轉(zhuǎn)。糾結(jié)兩者的區(qū)別沒(méi)有多大意義。
另一方面,互相關(guān)允許我們度量H和f之間的相似度,換句話(huà)說(shuō),互相關(guān)得到的響應(yīng)圖中每個(gè)像素的響應(yīng)級(jí)別代表了每個(gè)位置的相似度級(jí)別。假設(shè)目標(biāo)存在于圖像F的新幀中,那么H和F對(duì)齊最多的地方應(yīng)該是目標(biāo)的中心!
但是接下來(lái),這種思維方式會(huì)有一些困難:目標(biāo)的形狀、大小甚至環(huán)境都在不斷變化。在考慮這些變量的同時(shí),如何學(xué)習(xí)不變目標(biāo)的特性,從而準(zhǔn)確定位?或者說(shuō),核心H如何通過(guò)與F的互相關(guān)運(yùn)算得到最有效的響應(yīng)?這是單目標(biāo)跟蹤的主要思想。在一個(gè)更數(shù)學(xué)的定義中,它是:
被定義為響應(yīng)圖的基本事實(shí)。因?yàn)槲覀兲幚淼氖沁B續(xù)的圖像序列,所以也有下標(biāo)I,通過(guò)用上面公式中的h對(duì)整個(gè)圖像序列進(jìn)行優(yōu)化,可以讓目標(biāo)跟蹤算法學(xué)習(xí)到一個(gè)最優(yōu)的相關(guān)濾波器。為了提高優(yōu)化速度,我們還可以將H和F投影到傅里葉頻域??沼騼?nèi)互相關(guān)運(yùn)算變成頻域逐項(xiàng)乘法,優(yōu)化目標(biāo)變成:
它相當(dāng)于:
那么對(duì)于整個(gè)序列,我們可以求解最優(yōu):
然而,這并不一定對(duì)每一幀圖像都是最佳的。為了隨著序列的進(jìn)展自適應(yīng)地更新,我們可以遞歸地定義:
通過(guò)調(diào)整和更新學(xué)習(xí)速率參數(shù)η,可以使算法具有很高的魯棒性,并快速適應(yīng)目標(biāo)外觀的變化。上述過(guò)程是首次將相關(guān)濾波用于單目標(biāo)跟蹤的基本思想——莫斯[1](最小輸出平方差和,CVPR 10,亨利克斯等)。
發(fā)展——日益完善的CF模式
轉(zhuǎn)眼間,MOSSE提出已經(jīng)九年多了。單目標(biāo)視覺(jué)跟蹤發(fā)展到什么狀態(tài)?請(qǐng)看下圖:
近年來(lái)目標(biāo)跟蹤方法的發(fā)展(圖片來(lái)源:蠻木/benchmark_results,大圖可點(diǎn)擊閱讀原文查看)
在這棵大樹(shù)上,MOSSE成為了CF(相關(guān)濾波)目標(biāo)跟蹤算法的鼻祖。繼MOSSE之后,基于相關(guān)濾波思想的各種目標(biāo)跟蹤方法蓬勃發(fā)展,其目標(biāo)跟蹤算法的基本框架如下圖所示。
基于相關(guān)濾波的目標(biāo)跟蹤基本框架(圖片來(lái)自網(wǎng)絡(luò))
雖然總體框架是一樣的,但是當(dāng)時(shí)的MOSSE似乎已經(jīng)落后于層出不窮的卷積神經(jīng)網(wǎng)絡(luò)——你能想象MOSSE甚至沒(méi)有使用手動(dòng)特征,而是直接使用像素灰度值進(jìn)行運(yùn)算嗎?目前相關(guān)濾波跟蹤算法一般需要使用CN(Color Names)、hog(礦石密集畢業(yè)生直方圖)等人工特征和CNN提取的特征來(lái)學(xué)習(xí)濾波。
然后,讓我們簡(jiǎn)單回顧一下一些源自MOSSE的與濾波器跟蹤相關(guān)的經(jīng)典著作:
特殊不銹鋼
KCF[2](kernel ized Correlation Filter,TPAMI 15,F(xiàn). Henriques等)利用循環(huán)移位得到的循環(huán)矩陣來(lái)收集正負(fù)樣本,并利用循環(huán)矩陣可以在傅里葉空之間對(duì)角化的性質(zhì),將矩陣運(yùn)算轉(zhuǎn)化為元素的點(diǎn)乘,從而降低了計(jì)算復(fù)雜度,使算法滿(mǎn)足實(shí)時(shí)性要求。同時(shí),KCF使用多通道HOG特征代替單通道灰度特征,在多通道非線(xiàn)性特征空之間擴(kuò)展特征,從而達(dá)到更高的魯棒性。KCF的優(yōu)化模式是帶正則項(xiàng)的嶺回歸:
圓形矩陣(圖像來(lái)源:[2])
成本核算
DSST [3](判別尺度空間追蹤,BMVC 14,M. Danelljan等)更注重物體的尺度估計(jì),將目標(biāo)的中心平移和目標(biāo)的尺度變化視為兩個(gè)獨(dú)立的問(wèn)題。除了訓(xùn)練具有HOG特征的平移相關(guān)濾波器外,MOSSE還用于訓(xùn)練另一個(gè)尺度相關(guān)濾波器來(lái)預(yù)測(cè)目標(biāo)的尺度變化。DSST大大提高了跟蹤精度和成功率,但速度比KCF慢。
SRDCF &。DeepSRDCF
SRDCF [4](空間正則化判別相關(guān)濾波器,ICCV 15,M. Danelljan等)在KCF優(yōu)化目標(biāo)的基礎(chǔ)上增加了空域正則化,增強(qiáng)了模型的判別能力,優(yōu)化目標(biāo)為:
為了和KCF比較,記數(shù)法和原來(lái)的SRDCF不一樣。在公式中,意義不同于W,它是應(yīng)用于W的空之間的正則化權(quán)重..即某些位置(主要是邊界)的濾波系數(shù)會(huì)受到懲罰。
普通DCF(左)和SRDCF(右)對(duì)比(圖片來(lái)源:[4])
在用深度CNN特征代替CN/HOG特征后,Danelljan做了大量的實(shí)驗(yàn),發(fā)現(xiàn)使用CNN淺層特征明顯優(yōu)于HOG的那些手工特征。于是,我改變了自己的ICCV15 SRDCF模型,發(fā)表了一篇ICCV15 Workshop……也就是DeepSRDCF[5]。
CNN不同類(lèi)型的特征和不同層次的效果對(duì)比(來(lái)源:[5])
C-COT
C-cot [6](連續(xù)卷積算子跟蹤器,ECCV16,M. Danelljan等)采用隱式插值方法將模型的學(xué)習(xí)投影到空之間的連續(xù)域,并在空之間的連續(xù)域上提出了卷積算子。C-COT高效集成了多分辨率的深度特征,大大提高了模型在各種數(shù)據(jù)集上的性能。
融合后連續(xù)空之間的C-COT特征圖、卷積核、各層置信度圖和輸出置信度圖(圖像來(lái)源:[6])
經(jīng)濟(jì)合作組織
ECO[7](有效卷積算子,CVPR17,M. Danelljan等多大?)是對(duì)C-COT的進(jìn)一步改進(jìn)。首先,ECO減少了C-COT的參數(shù),簡(jiǎn)化了特征提取,提高了效率,防止了過(guò)擬合。其次,利用高斯混合模型生成不同的樣本組合,簡(jiǎn)化了訓(xùn)練集,增加了多樣性;此外,提出了一種有效的模型更新策略,不僅提高了速度,而且提高了魯棒性。
C-COT學(xué)習(xí)后卷積核和ECO學(xué)習(xí)后卷積核(圖片來(lái)源:[7])
現(xiàn)狀——雙網(wǎng)欣欣向榮
在目標(biāo)跟蹤領(lǐng)域,有一篇文章叫做《用于目標(biāo)跟蹤的全對(duì)流暹羅網(wǎng)絡(luò)》[8],即暹羅FC(或暹羅fc)-全卷積孿生網(wǎng)絡(luò)(L. Bertinetto等人)。雖然SiamFC在目標(biāo)跟蹤領(lǐng)域并不是第一個(gè)使用雙網(wǎng)絡(luò)的(據(jù)我所知,第一個(gè)使用雙網(wǎng)絡(luò)解決目標(biāo)跟蹤問(wèn)題的是SINT[9](Siam Instance Search for Tracking,16,R. Tao等人),但可以說(shuō)它開(kāi)創(chuàng)了端到端的深度學(xué)習(xí)相關(guān)濾波方法,拉開(kāi)了深度學(xué)習(xí)方法逐漸超越相關(guān)濾波方法的序幕。
說(shuō)了這么多,這到底是什么“全量雙網(wǎng)”?請(qǐng)看下圖:
暹羅足球俱樂(lè)部(圖片來(lái)源:[8])
在SiamRPN之后,作者提出了一個(gè)改進(jìn)的版本——Dasiamrpn[11](18,Z. Zhu等),增強(qiáng)了訓(xùn)練數(shù)據(jù),提高了模型對(duì)同類(lèi)物體干擾的判別能力(一般的模型往往側(cè)重于前景和背景的判別,對(duì)相似物體的判別較差)。此外,DaSiamRPN增加了增量學(xué)習(xí)的離散或感知模塊,在運(yùn)行時(shí)對(duì)模型的參數(shù)進(jìn)行采樣和更新。從而模型可以更好地遷移到當(dāng)前視頻領(lǐng)域。
在VOT的實(shí)驗(yàn)中,DaSiamRPN的表現(xiàn)優(yōu)于ECO,并且還能以160FPS以上的速度運(yùn)行。深度學(xué)習(xí)單目標(biāo)跟蹤法可以說(shuō)是“蒸蒸日上”。
困難——卷積有很多困難
2018年,DaSiamRPN在ECCV出版。這時(shí)候CNN的各種模式的深度已經(jīng)很常見(jiàn)了,深度有幾十到幾百層——不過(guò)DaSiamRPN還是用的AlexNet,只有五層沒(méi)有填充。有沒(méi)有可能?chē)L試用深度殘網(wǎng)代替網(wǎng)絡(luò)主干來(lái)進(jìn)一步提高跟蹤性能(然后一篇論文)?
我真的盡力了...
不知道讀者有沒(méi)有關(guān)注過(guò)SiamFC和SiamRPN中每個(gè)要素圖的大?。吭赟iamFC中,原始大小為127x127的z的特征圖在經(jīng)過(guò)5層AlexNet后已經(jīng)小到6x6,因?yàn)闆](méi)有填充,而且已經(jīng)被匯集了幾次。以此速度,添加一個(gè)匯集層和一個(gè)3×3卷積層,特征圖將變?yōu)?×1。顯然,為了讓網(wǎng)絡(luò)更深,填充是必然的。
有了填充,網(wǎng)絡(luò)確實(shí)可以變得很深(比如我直接上了YOLOv3的DarkNet-53,甚至還加了一個(gè)特征金字塔),但是新的風(fēng)暴又出現(xiàn)了——CNN的平移不變性變得極差,目標(biāo)定位經(jīng)常出現(xiàn)明顯偏差,模型辨別目標(biāo)的能力不如原來(lái)的SiamRPN。對(duì)實(shí)現(xiàn)這一目標(biāo)充滿(mǎn)信心的作者準(zhǔn)備退學(xué)...
幸運(yùn)的是,此時(shí)筆者無(wú)意中看到了CVPR19論文分享會(huì)的一個(gè)在線(xiàn)直播(這個(gè)直播可以在AI研究會(huì)CVPR交流群查看:https://AI . yanxishe . com/page/meeting/44),發(fā)現(xiàn)之前的學(xué)術(shù)帶頭人也在研究如何在目標(biāo)跟蹤中使用更深層次的CNN。接下來(lái)的兩部作品以不同的方式論述了深度剩余網(wǎng)絡(luò)在目標(biāo)跟蹤中的困難。
程序
CIR (SiamDW)根據(jù)SiamDW[12]的作者,深度卷積神經(jīng)網(wǎng)絡(luò)的感受野太大,降低了特征的區(qū)分度和定位的準(zhǔn)確性。此外,多層填充使得雙網(wǎng)絡(luò)的學(xué)習(xí)有所偏移。作者系統(tǒng)地研究和分析了網(wǎng)絡(luò)主干的各種特性(填充、步幅、感受野大小等)。),并得出以下結(jié)論:1) Twin網(wǎng)絡(luò)跟蹤器往往步幅較?。?)感受野的大小要看目標(biāo)模板圖像Z的大小,一般60%到80%最好;3)步幅、感受野大小和輸出反應(yīng)圖大小相互依賴(lài),應(yīng)該一起考慮;4)全卷積的孿生網(wǎng)絡(luò)應(yīng)盡可能消除X和Z之間的知覺(jué)不一致性。
鑒于上述結(jié)論,作者提出用CIR(裁剪-內(nèi)裁剪)模塊來(lái)代替ResNet中的基本模塊?;痉椒ㄊ窃谔砑酉聢D中的每個(gè)塊后進(jìn)行裁剪操作,以移除受填充影響的邊緣部分。以CIResNet-22為骨干的改進(jìn)后的SiamFC和SiamRPN,性能有了很大的提升,但是這種方式似乎還是不能讓網(wǎng)絡(luò)變深?
各種CIR區(qū)塊(圖像來(lái)源:[12])
SiamRPN++SiamRPN++[13]是對(duì)SiamRPN作者的改進(jìn)。主要改進(jìn)如下:1)使用了ResNet-50主干的微調(diào)版,大大優(yōu)化了特征提??;2)利用RPN對(duì)ResNet-50在3、4、5階段的特征進(jìn)行幀回歸和目標(biāo)定位,并利用加權(quán)融合的方法將三者的結(jié)果結(jié)合起來(lái);3)使用深度方向的互相關(guān)操作來(lái)減少參數(shù)的數(shù)量并加速RPN的操作。4)最重要的是,提出了一種空間感知采樣策略,突破了CNN對(duì)目標(biāo)跟蹤的嚴(yán)格平移不變性限制。
據(jù)筆者分析,只有沒(méi)有填充的網(wǎng)絡(luò)才具有嚴(yán)格的平移不變性,而加深CNN也無(wú)法避免填充的出現(xiàn)。然而,通過(guò)向訓(xùn)練樣本添加服從均勻分布的隨機(jī)翻譯,可以在一定程度上打破這一嚴(yán)格的翻譯不變性限制。從模型的預(yù)測(cè)結(jié)果來(lái)看,如果訓(xùn)練數(shù)據(jù)在一定范圍內(nèi)服從均勻分布,那么跟蹤器預(yù)測(cè)的結(jié)果在理想情況下應(yīng)該更接近均勻分布。作者通過(guò)定量實(shí)驗(yàn)發(fā)現(xiàn),加入像素范圍為32的隨機(jī)平移后,最終目標(biāo)位置熱圖更接近均勻分布,表明預(yù)測(cè)結(jié)果更接近實(shí)際測(cè)試目標(biāo)的分布。
SiamRPN++(來(lái)源:[13])
添加了上述改進(jìn)的SiamRPN++,在OTB2015、VOT2018、UAV123、LaSOT、TrackingNet成為第一,基于深度學(xué)習(xí)的方法最終在跟蹤精度上領(lǐng)先。
PS:從過(guò)去幾年的VOT論文數(shù)量來(lái)看,深度學(xué)習(xí)法確實(shí)領(lǐng)先了一步...
PPS:在上述方法之外,基于深度學(xué)習(xí)的目標(biāo)跟蹤還有很多值得一提的文章,如MDNet[14]、TCNN[15]、SANet[16]、CREST[17]、VITAL[18]等。,不能一一介紹。
PPPS:以上相關(guān)濾波方法大多包含相當(dāng)復(fù)雜的數(shù)學(xué)推導(dǎo),但本文不涉及太多,因?yàn)楸救四芰τ邢?,篇幅不宜過(guò)長(zhǎng)。對(duì)其推導(dǎo)感興趣的同學(xué)請(qǐng)參考原文。
多目標(biāo)跟蹤
問(wèn)題定義
與單目標(biāo)跟蹤相比,多目標(biāo)跟蹤的研究進(jìn)展要慢得多,可用的數(shù)據(jù)集不夠豐富,可供參考的開(kāi)源代碼也很少。由于多目標(biāo)跟蹤相對(duì)更難實(shí)現(xiàn),是一個(gè)更具工程性的問(wèn)題,該問(wèn)題中深度學(xué)習(xí)的潛力還沒(méi)有得到很好的挖掘。
一般來(lái)說(shuō),“視覺(jué)目標(biāo)跟蹤”或“VOT”是指單目標(biāo)跟蹤。雖然看起來(lái)SOT(單目標(biāo)跟蹤)和MOT(多目標(biāo)跟蹤)只是目標(biāo)數(shù)量上的差異,但它們的一般方法其實(shí)是有很大區(qū)別的。從研究對(duì)象來(lái)看,單目標(biāo)跟蹤算法一般不受限制,而多目標(biāo)跟蹤一般只針對(duì)特定類(lèi)別的對(duì)象。在時(shí)間上,單目標(biāo)跟蹤更側(cè)重于短時(shí)圖像序列,而多目標(biāo)跟蹤一般處理長(zhǎng)視頻,涉及各種目標(biāo)的出現(xiàn)、遮擋和離開(kāi)。從實(shí)現(xiàn)的角度來(lái)看,單目標(biāo)跟蹤更注重如何重新定位目標(biāo),而常見(jiàn)的多目標(biāo)跟蹤方法往往更注重如何根據(jù)檢測(cè)到的目標(biāo)進(jìn)行匹配。
根據(jù)初始化方式,常見(jiàn)的多目標(biāo)跟蹤算法一般可以分為基于檢測(cè)的跟蹤和無(wú)檢測(cè)跟蹤。DBT要求目標(biāo)檢測(cè)器先檢測(cè)每幀圖像中的目標(biāo),而DFT要求知道每個(gè)目標(biāo)的第一個(gè)出現(xiàn)位置,然后分別跟蹤每個(gè)目標(biāo)(這可以看作是同一視頻中的多個(gè)單目標(biāo)跟蹤)。顯然,前者的設(shè)定更接近實(shí)際應(yīng)用場(chǎng)景,也是學(xué)術(shù)研究的主流。
根據(jù)初始化方法分類(lèi)。Up:基于檢測(cè)的跟蹤;底部:無(wú)檢測(cè)跟蹤(來(lái)源:[29])
根據(jù)處理方式,多目標(biāo)跟蹤算法可分為在線(xiàn)跟蹤和離線(xiàn)跟蹤。在線(xiàn)跟蹤需要處理每一幀時(shí),只能利用當(dāng)前幀和前一幀中的信息來(lái)確定當(dāng)前幀的跟蹤結(jié)果,不能根據(jù)當(dāng)前幀的信息修改前一幀的跟蹤結(jié)果。離線(xiàn)跟蹤允許通過(guò)使用后續(xù)幀的信息來(lái)獲得全局最優(yōu)解。顯然,離線(xiàn)跟蹤的設(shè)置并不適合實(shí)際應(yīng)用場(chǎng)景,但是“批量”形式的離線(xiàn)跟蹤(一次獲取幾個(gè)幀,并在這些幀中尋找全局最優(yōu))也是可行的,但只會(huì)導(dǎo)致一點(diǎn)點(diǎn)延遲。
按處理方式分類(lèi)。Up:在線(xiàn)跟蹤;以下:離線(xiàn)跟蹤(圖片來(lái)源:[29])
典型方法
以下是多目標(biāo)跟蹤領(lǐng)域的一些基本但典型的工作。
SORT & amp深度排序
sort[19](Simple Online and Real Time Tracking,ICIP 16,a .比雷等)是主流的逐檢測(cè)跟蹤(Tracking-by-Detection)框架(Detection-code-matching-update)的雛形,后續(xù)很多作品都有類(lèi)似的框架。SORT有四個(gè)基本組成部分:目標(biāo)檢測(cè)器、狀態(tài)預(yù)測(cè)、數(shù)據(jù)關(guān)聯(lián)和軌跡管理——這些也是遵循按檢測(cè)跟蹤框架的許多多目標(biāo)跟蹤算法的基本組成部分。
SORT使用VGG16主干的fast R-CNN作為目標(biāo)檢測(cè)器。至于目標(biāo)的狀態(tài),SORT只是簡(jiǎn)單的利用中心坐標(biāo)、面積、長(zhǎng)寬比以及它們的變化率來(lái)對(duì)目標(biāo)進(jìn)行建模(下面的公式),并不使用任何外觀信息。SORT利用卡爾曼濾波器主動(dòng)預(yù)測(cè)目標(biāo)后面的狀態(tài),并將預(yù)測(cè)結(jié)果與實(shí)際檢測(cè)到的目標(biāo)幀進(jìn)行匹配。將跟蹤和檢測(cè)的關(guān)系視為二分圖,二分圖每條邊的權(quán)重由其兩個(gè)頂點(diǎn)(分別為一個(gè)跟蹤和一個(gè)檢測(cè))的IOU來(lái)定義。SORT使用匈牙利算法在這個(gè)二分圖中尋找最佳匹配,并設(shè)置最小IOU閾值進(jìn)行匹配,以減少錯(cuò)誤匹配的次數(shù)。
在軌道管理上,SORT將匹配失敗的軌道預(yù)留幀,打開(kāi)一個(gè)新的軌道進(jìn)行匹配失敗的檢測(cè),并設(shè)置其初始狀態(tài)。
Deepsort [20](帶有深度關(guān)聯(lián)度量的簡(jiǎn)單在線(xiàn)和實(shí)時(shí)跟蹤,ICIP 17,N. Wojke等)是sort的作者基于SORT的改進(jìn)版本,其最大貢獻(xiàn)在于使用深度CNN提取目標(biāo)的特征作為匹配標(biāo)準(zhǔn)。DeepSORT使用馬氏距離作為運(yùn)動(dòng)特征的相似性標(biāo)準(zhǔn),余弦距離作為外觀特征編碼的相似性標(biāo)準(zhǔn),通過(guò)加權(quán)平均得到兩者的整體相似性。此外,DeepSORT定義了一種級(jí)聯(lián)匹配方法,使得近年來(lái)活動(dòng)度高的曲目得到優(yōu)先匹配。
雖然DeepSORT已經(jīng)是2017年的算法了,但是使用公共檢測(cè)的MOT16列表第一名好像還是DeepSORT的副本版本…
欠條追蹤器& amp欠條跟蹤器
Iou tracker [21]) (avss17,e. bochinski等)的基本思想是,如果幀率足夠高,檢測(cè)效果足夠好,則前后幀中各目標(biāo)幀之間的IoU(Intersection Over Union)可以作為關(guān)聯(lián)的有力依據(jù)。在這種設(shè)置下,IOU Tracker不考慮外觀信息,不預(yù)測(cè)運(yùn)動(dòng)軌跡,不使用復(fù)雜的匹配算法,直接使用貪婪策略匹配兩幀的所有幀。具體來(lái)說(shuō),在處理每一幀時(shí),對(duì)于每個(gè)被跟蹤的目標(biāo),取檢測(cè)到的幀與其先前位置之間具有最大IOU的項(xiàng)目。如果IOU大于閾值,則認(rèn)為兩者匹配,否則匹配失敗。如果一個(gè)小軌跡匹配失敗,則認(rèn)為目標(biāo)離開(kāi)(是的,甚至沒(méi)有考慮到探測(cè)器不小心探測(cè)失敗的可能性),根據(jù)其“存活”時(shí)間和置信度決定是否加入“完成軌跡”。如果有一個(gè)檢測(cè)框與軌跡不匹配,它將被視為一個(gè)新目標(biāo),并為其創(chuàng)建一個(gè)新的軌跡。
IOU跟蹤器(圖像來(lái)源:[21])
但是!不可能把所有希望都寄托在目標(biāo)探測(cè)器上。因此,作者在一年后引入了v-iou tracker[22](avss 18,e. bochinski等人)。一方面,當(dāng)一個(gè)跟蹤器不能匹配相應(yīng)的檢測(cè)幀時(shí),不再簡(jiǎn)單地認(rèn)為目標(biāo)已經(jīng)離開(kāi)了視野,而是此時(shí)啟動(dòng)單個(gè)目標(biāo)跟蹤器,試圖繼續(xù)跟蹤目標(biāo),直到ttl(生存時(shí)間)時(shí)間之后。另一方面,當(dāng)一個(gè)新的跟蹤器被創(chuàng)建時(shí),一個(gè)單一的目標(biāo)跟蹤器開(kāi)始試圖在先前的ttl幀中找到目標(biāo)。如果新的軌跡和已完成的軌跡可以通過(guò)IOU匹配,那么它們將被合并和處理。(見(jiàn)下圖紅色箭頭,注意其方向)
V-IOU跟蹤器(圖像來(lái)源:[22])
加上單目標(biāo)跟蹤模塊,設(shè)計(jì)簡(jiǎn)單的V-IOU Tracker也能在MOT Challenge排行榜上取得不錯(cuò)的成績(jī)。
RNN交通部
作為通過(guò)深度學(xué)習(xí)解決MOT問(wèn)題的嘗試,安東·米蘭等人提出了利用RNN-MOT-RNN [23]進(jìn)行目標(biāo)狀態(tài)預(yù)測(cè)和數(shù)據(jù)關(guān)聯(lián)的方法(MOT利用RNN,AAAI 2017,a .米蘭等)。這也是第一篇嘗試端到端完成在線(xiàn)多目標(biāo)跟蹤的文章。
目標(biāo)狀態(tài)預(yù)測(cè)是一個(gè)連續(xù)的空問(wèn)題,而數(shù)據(jù)關(guān)聯(lián)是一個(gè)離散的空問(wèn)題。如何把這兩個(gè)問(wèn)題放到神經(jīng)網(wǎng)絡(luò)中,真的是讓人頭疼。特別是數(shù)據(jù)關(guān)聯(lián)有很多限制,比如需要滿(mǎn)足一對(duì)多輸出結(jié)果的需要。作者認(rèn)為,LSTM的非線(xiàn)性變化及其強(qiáng)大的記憶能力使學(xué)習(xí)滿(mǎn)足了這些限制。
不幸的是,雖然基于RNN的方法比大多數(shù)類(lèi)似的方法快得多,但它的跟蹤效果與先進(jìn)的方法相比相形見(jiàn)絀。MOT-RNN可以進(jìn)一步改進(jìn)的地方有很多,比如對(duì)重要目標(biāo)的外觀進(jìn)行建模,以及如何在可優(yōu)化的部分添加檢測(cè)器。
左:RNN;用于目標(biāo)狀態(tài)預(yù)測(cè);右:LSTM數(shù)據(jù)協(xié)會(huì)(匹配)(圖片來(lái)源:[23])
在后續(xù)的工作中,陸續(xù)出現(xiàn)了一些嘗試?yán)蒙窠?jīng)網(wǎng)絡(luò)(不包括CNN進(jìn)行目標(biāo)檢測(cè))解決多目標(biāo)跟蹤問(wèn)題的方法,如JDT(我簡(jiǎn)稱(chēng)盲起步)[24]、DMAN[25]、DeepMOT[26]、TBA[27]、TAMA[28]等。雖然性能與基于傳統(tǒng)算法的方法有很大差距,但其方法的創(chuàng)新值得鼓勵(lì)和學(xué)習(xí)。
八卦:其實(shí)多目標(biāo)跟蹤還有一個(gè)更復(fù)雜的問(wèn)題——MTMCT(多目標(biāo)多攝像頭跟蹤)[30]。今年4月,作者仍在參加杜克姆凱特CVPR挑戰(zhàn)賽。遺憾的是,由于一些不可控因素,本次比賽的測(cè)試集無(wú)法發(fā)布,只能暫停比賽。不僅如此,發(fā)布的DukeMTMC訓(xùn)練集也下線(xiàn)了,甚至[30]的作者Ergys Ristani的DeepCC代碼也在Github上被刪除了。剛剛從單目標(biāo)跟蹤研究失敗的陰影中走出來(lái),甚至已經(jīng)開(kāi)始走DukeMTMC訓(xùn)練模式的作者有了收拾東西退學(xué)(捂臉)的想法...即使將Dukemtmc拆分為8個(gè)單相機(jī)多目標(biāo)跟蹤的數(shù)據(jù)集,也是一個(gè)相當(dāng)高質(zhì)量的大規(guī)模數(shù)據(jù)集。如果像這樣的數(shù)據(jù)集更多,數(shù)據(jù)量加成的多目標(biāo)跟蹤研究會(huì)是一個(gè)怎樣的場(chǎng)景?
相關(guān)資源
文學(xué)
VOT文獻(xiàn)整理與模型效果排行 https://github.com/foolwood/benchmark_resultsMOT文獻(xiàn)整理 https://github.com/SpyderXu/multi-object-tracking-paper-list項(xiàng)目商湯的VOT開(kāi)源項(xiàng)目——PySOT https://github.com/STVIR/pysot數(shù)據(jù)集與排行單目標(biāo)LaSOT https://cis.temple.edu/lasot/TrackingNet https://tracking-net.org/OTB Dataset http://cvlab.hanyang.ac.kr/tracker_benchmark/datasets.htmlUAV123 https://ivul.kaust.edu.sa/Pages/Dataset-UAV123.aspxVOT Challenge http://votchallenge.net多目標(biāo)PathTrack http://people.ee.ethz.ch/~daid/pathtrack/ViDrone http://aiskyeye.com/views/indexDukeMTMC(已關(guān)閉) http://vision.cs.duke.edu/DukeMTMC/UA-DETRAC http://detrac-db.rit.albany.edu/MOT Challenge https://motchallenge.net專(zhuān)欄深度學(xué)習(xí)和目標(biāo)跟蹤 https://zhuanlan.zhihu.com/DCF-tracking帶你入門(mén)多目標(biāo)跟蹤 https://zhuanlan.zhihu.com/c_1102212337087401984參考
[1]博爾姆,D. S .,貝弗里奇,J. R .,德雷珀,B. A .,& amp呂永明(2010年6月)。使用自適應(yīng)相關(guān)濾波器的視覺(jué)目標(biāo)跟蹤。在2010年IEEE計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議上(第2544-2550頁(yè))。IEEE。
[2]亨利克斯,杰福,卡塞羅,羅,馬丁斯,p .,& amp巴蒂斯塔,J. (2014年)。使用內(nèi)核化相關(guān)濾波器的高速跟蹤。模式分析和機(jī)器智能,37(3),583-596。
[3] Danelljan,Martin,等,“魯棒視覺(jué)跟蹤的精確尺度估計(jì)”英國(guó)機(jī)器視覺(jué)會(huì)議,諾丁漢,2014年9月1-5日。BMVA出版社,2014。
[4]丹埃爾揚(yáng),m .,哈格,g .,沙赫巴茲汗,f .,和;費(fèi)爾斯堡,M. (2015年)。用于視覺(jué)跟蹤的學(xué)習(xí)空間正則化相關(guān)濾波器。在IEEE計(jì)算機(jī)視覺(jué)國(guó)際會(huì)議記錄中(第4310-4318頁(yè))。
基于相關(guān)濾波的視覺(jué)跟蹤的卷積特征IEEE國(guó)際計(jì)算機(jī)視覺(jué)研討會(huì)會(huì)議錄。2015.
[6] Danelljan,Martin,等,“超越相關(guān)濾波器:學(xué)習(xí)用于視覺(jué)跟蹤的連續(xù)卷積算子?!睔W洲計(jì)算機(jī)視覺(jué)會(huì)議。斯普林格,湛,2016。
[7]丹埃爾揚(yáng),馬丁,等,“生態(tài):跟蹤的有效卷積算子。”IEEE計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議錄。2017.
[8]貝爾蒂內(nèi)托,l .,瓦爾馬德雷,j .,亨利克斯,J. F .,韋達(dá)迪,a .,& amp托,惠普(2016年10月)。用于目標(biāo)跟蹤的全卷積連體網(wǎng)絡(luò)。在歐洲計(jì)算機(jī)視覺(jué)會(huì)議上(第850-865頁(yè))。斯普林格,湛。
[9]陶,冉,埃夫斯特拉奧斯·加維斯,阿諾德·斯穆?tīng)柕盟埂?暹羅實(shí)例搜索跟蹤."IEEE計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議錄。2016.
[10]李,博,等.“高性能視覺(jué)跟蹤與暹羅地區(qū)建議網(wǎng)絡(luò)”IEEE計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議錄。2018.
[11]朱,鄭,等.用于視覺(jué)目標(biāo)跟蹤的干擾感知暹羅網(wǎng)絡(luò)歐洲計(jì)算機(jī)視覺(jué)會(huì)議記錄(ECCV)。2018.
[12]張、志鵬、?!坝糜趯?shí)時(shí)視覺(jué)跟蹤的更深更廣的暹羅網(wǎng)絡(luò)?!盜EEE計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議錄。2019.
[13]李,b,吳,w,王,q,張,f,邢,j,& amp顏,J. (2018)。SiamRPN++:具有非常深的網(wǎng)絡(luò)的暹羅視覺(jué)跟蹤的演變。arXiv預(yù)印本arXiv:1812.11703。
[14] Nam,Hyeonseob,和Bohyung Han。"學(xué)習(xí)用于視覺(jué)跟蹤的多域卷積神經(jīng)網(wǎng)絡(luò)."IEEE計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議錄。2016.
[15] Nam,Hyeonseob,Mooyeol Baek,和Bohyung Han。"在樹(shù)形結(jié)構(gòu)中建模和傳播中樞神經(jīng)系統(tǒng)用于視覺(jué)跟蹤."arXiv預(yù)印本arXiv:1608.07242 (2016)。
[16]范、恒、凌海濱。" Sanet:用于視覺(jué)跟蹤的結(jié)構(gòu)感知網(wǎng)絡(luò)."計(jì)算機(jī)視覺(jué)和模式識(shí)別研討會(huì)會(huì)議錄。2017.
[17]宋,,等.“CREST:用于視覺(jué)跟蹤的卷積殘差學(xué)習(xí)”IEEE國(guó)際計(jì)算機(jī)視覺(jué)會(huì)議論文集。2017.
[18]宋,,等.“VITAL:通過(guò)對(duì)抗式學(xué)習(xí)的視覺(jué)跟蹤”IEEE計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議錄。2018.
[19]比雷,亞歷克斯,等?!昂?jiǎn)單的在線(xiàn)和實(shí)時(shí)跟蹤?!?016年IEEE國(guó)際圖像處理會(huì)議(ICIP)。IEEE,2016。
[20]沃里克、尼古拉、亞歷克斯·比雷和迪特里?!け1R斯。"簡(jiǎn)單的在線(xiàn)實(shí)時(shí)跟蹤和深度關(guān)聯(lián)度量."2017年IEEE國(guó)際圖像處理會(huì)議(ICIP)。IEEE,2017。
[21]博欽斯基、埃里克、沃爾克·艾塞林和托馬斯·西科拉。"不使用圖像信息的高速檢測(cè)跟蹤."2017年第14屆IEEE高級(jí)視頻和信號(hào)監(jiān)控國(guó)際會(huì)議(AVSS)。IEEE,2017。
[22]博欽斯基、埃里克、托拜厄斯·森斯特和托馬斯·西科拉。"通過(guò)視覺(jué)信息擴(kuò)展基于IOU的多目標(biāo)跟蹤."2018年第15屆IEEE高級(jí)視頻和信號(hào)監(jiān)控國(guó)際會(huì)議(AVSS)。IEEE,2018。
[23]米蘭,安東,等,“使用遞歸神經(jīng)網(wǎng)絡(luò)的在線(xiàn)多目標(biāo)跟蹤”第三十一屆AAAI人工智能會(huì)議。2017.
[24]基里茨、希爾克、沃爾夫?qū)ず技{和邁克爾·阿倫斯?!奥?lián)合檢測(cè)和在線(xiàn)多目標(biāo)跟蹤。”計(jì)算機(jī)視覺(jué)和模式識(shí)別研討會(huì)會(huì)議錄。2018.
[25]朱,季,等.“基于雙重匹配注意網(wǎng)絡(luò)的在線(xiàn)多目標(biāo)跟蹤”歐洲計(jì)算機(jī)視覺(jué)會(huì)議記錄(ECCV)。2018.
[26]徐,,等.“深度模型:訓(xùn)練多目標(biāo)跟蹤器的可微框架”arXiv預(yù)印本arXiv:1906.06618 (2019)。
[27]何,甄,等.動(dòng)畫(huà)跟蹤:多目標(biāo)注意力跟蹤器的無(wú)監(jiān)督學(xué)習(xí)IEEE計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議錄。2019.
[28]尹永哲等,“使用深度時(shí)間外觀匹配關(guān)聯(lián)的在線(xiàn)多行人跟蹤”arXiv預(yù)印本arXiv:1907.00831 (2019)。
[29]羅,,等.“多目標(biāo)跟蹤:文獻(xiàn)綜述”arXiv預(yù)印本arXiv:1409.7618 (2014)。
[30] Ristani,Ergys,等,“多目標(biāo),多攝像機(jī)跟蹤的性能測(cè)量和數(shù)據(jù)集?!睔W洲計(jì)算機(jī)視覺(jué)會(huì)議。斯普林格,湛,2016。
1.《目標(biāo)跟蹤 一文帶你了解視覺(jué)目標(biāo)跟蹤》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無(wú)關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。
2.《目標(biāo)跟蹤 一文帶你了解視覺(jué)目標(biāo)跟蹤》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址,http://f99ss.com/shehui/1421076.html