浪潮信息：新型自監(jiān)督學(xué)習(xí)框架論文入選CVPR 2022

浪潮信息

2022-07-05 08:55 5810

北京2022年7月4日 /美通社/ -- 在近日舉辦的IEEE國(guó)際計(jì)算機(jī)與模式識(shí)別會(huì)議CVPR 2022期間，浪潮信息AI團(tuán)隊(duì)提交的論文《CoDo: Contrastive Learning with Downstream Background Invariance for Detection （CoDo：在自監(jiān)督學(xué)習(xí)中引入下游數(shù)據(jù)的背景不變性）》成功入選。論文提出了一種新的自監(jiān)督學(xué)習(xí)框架，在自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練過(guò)程兼顧下游數(shù)據(jù)的背景不變性，以提升自監(jiān)督學(xué)習(xí)在下游目標(biāo)檢測(cè)任務(wù)的性能，并通過(guò)初步實(shí)驗(yàn)證明了方法的有效性。CVPR是計(jì)算機(jī)視覺(jué)領(lǐng)域三大世界頂級(jí)會(huì)議之一，今年線(xiàn)下注冊(cè)參會(huì)人數(shù)達(dá)到了5641人。在論文方面，CVPR 2022共收到了8161篇投稿，最終接收了2064篇論文，接收率約為25.3%，論文研究方向涵蓋目標(biāo)檢測(cè)、圖像分割、醫(yī)學(xué)影像、模型壓縮、圖像處理、文本檢測(cè)等。

自監(jiān)督學(xué)習(xí)可以對(duì)海量數(shù)據(jù)進(jìn)行自主學(xué)習(xí)，無(wú)需像監(jiān)督學(xué)習(xí)那樣進(jìn)行復(fù)雜的數(shù)據(jù)標(biāo)注，有望改變自動(dòng)駕駛等數(shù)據(jù)生成量巨大、標(biāo)注成本高昂行業(yè)的工作模式，因此被認(rèn)為是計(jì)算機(jī)視覺(jué)領(lǐng)域中有望帶來(lái)突破的重點(diǎn)方向。目前，雖然基于對(duì)比學(xué)習(xí)的自監(jiān)督學(xué)習(xí)方法在圖像分類(lèi)任務(wù)上取得了與監(jiān)督型學(xué)習(xí)相近甚至更優(yōu)的性能，但是將其應(yīng)用于下游任務(wù)如目標(biāo)檢測(cè)時(shí)，常常會(huì)出現(xiàn)明顯的性能差距。

浪潮信息AI團(tuán)隊(duì)提出的自監(jiān)督學(xué)習(xí)框架CoDo，在預(yù)訓(xùn)練中引入上下游任務(wù)數(shù)據(jù)集充當(dāng)背景，預(yù)訓(xùn)練圖像的推薦框粘貼到背景圖像上，邊框經(jīng)過(guò)比例變換及擾動(dòng)后，作為增強(qiáng)樣本參與對(duì)比學(xué)習(xí)。由于背景為上下游數(shù)據(jù)集，模型實(shí)際上獲得了前景目標(biāo)的背景不變性能力。這意味著無(wú)論背景如何變化，模型都能夠準(zhǔn)確定位前景目標(biāo)，這對(duì)于目標(biāo)檢測(cè)類(lèi)人工智能任務(wù)尤為重要。

CoDo模型架構(gòu)圖

論文采用CPJ數(shù)據(jù)增強(qiáng)方法、目標(biāo)檢測(cè)結(jié)構(gòu)對(duì)齊及層次對(duì)比學(xué)習(xí)構(gòu)建，并通過(guò)初步實(shí)驗(yàn)證明了方法的有效性。在實(shí)驗(yàn)中，研究團(tuán)隊(duì)使用浪潮AI服務(wù)器NF5488A5作為模型訓(xùn)練平臺(tái)，使用COCO數(shù)據(jù)集以R50-FPN作為backbone的Mask R-CNN的目標(biāo)檢測(cè)與語(yǔ)義分割性能進(jìn)行分析。結(jié)果顯示，在1×schedule設(shè)置下，CoDo的檢測(cè)性能相比于基線(xiàn)模型MoCo-v2提升了0.8 AP，在2×schedule設(shè)置下，CoDo的檢測(cè)性能相比于基線(xiàn)模型MoCo-v2提升了0.9AP，而多視角版本的CoDom最終取得了43.1 AP的優(yōu)異性能。

Mask R-CNN（R50-FPN）在COCO數(shù)據(jù)集的的下游任務(wù)性能

此外，研究團(tuán)隊(duì)評(píng)估了CoDo中Query Network和Key Network的背景數(shù)據(jù)集的選擇策略。實(shí)驗(yàn)發(fā)現(xiàn)，相比于兩路引入不同數(shù)據(jù)集，引入相同數(shù)據(jù)集性能更優(yōu)，同時(shí)引入數(shù)據(jù)集的多樣性也對(duì)下游任務(wù)的性能有貢獻(xiàn)。

該論文已被CVPR 2022 L3D-IVU Workshop接收，本屆L3D-IVU Workshop的主題為利用有限標(biāo)簽數(shù)據(jù)實(shí)現(xiàn)圖像及視頻的學(xué)習(xí)理解。如想進(jìn)一步了解這篇論文，請(qǐng)點(diǎn)擊鏈接http://arxiv.org/abs/2205.04617下載全文。

消息來(lái)源：浪潮信息