omniture

自動(dòng)駕駛感知能力比試,浪潮信息算法團(tuán)隊(duì)再創(chuàng)nuScences成績(jī)新高

2023-04-24 16:39 3625

北京2023年4月24日 /美通社/ -- 近日,在全球權(quán)威的自動(dòng)駕駛nuScenes競(jìng)賽最新評(píng)測(cè)中,浪潮信息算法團(tuán)隊(duì)所提交的"IEI-BEVFusion++"算法模型在關(guān)鍵性指標(biāo)nuScenes Detection Score(NDS)得到77.6%的高分,創(chuàng)造了3D目標(biāo)檢測(cè)全賽道迄今最高成績(jī)。繼去年以"DABNet4D"登頂純視覺(jué)3D目標(biāo)檢測(cè)榜單后,該算法團(tuán)隊(duì)在面向融合感知自動(dòng)駕駛領(lǐng)域再一次實(shí)現(xiàn)突破。


nuScenes數(shù)據(jù)集是目前自動(dòng)駕駛領(lǐng)域中最流行的公開(kāi)數(shù)據(jù)集之一,數(shù)據(jù)采集自波士頓和新加坡的實(shí)際自動(dòng)駕駛場(chǎng)景,是第一個(gè)集成攝像頭、激光雷達(dá)和毫米波雷達(dá)等多種傳感器,實(shí)現(xiàn)360度全傳感器覆蓋的數(shù)據(jù)集。nuScenes數(shù)據(jù)集提供了二維、三維物體標(biāo)注、點(diǎn)云分割、高精地圖等豐富的標(biāo)注信息,包含1000個(gè)場(chǎng)景,擁有140萬(wàn)幀圖像、39萬(wàn)幀激光雷達(dá)點(diǎn)云數(shù)據(jù)、23個(gè)物體類(lèi)別、140萬(wàn)個(gè)三維標(biāo)注框,其數(shù)據(jù)標(biāo)注量比KITTI數(shù)據(jù)集高出7倍以上。

猶如人類(lèi)的眼睛為大腦提供了70%以上的信息,在自動(dòng)駕駛領(lǐng)域,作為感知系統(tǒng)的主流模式架構(gòu),Lidar與Camera融合的3D多模態(tài)架構(gòu)則為實(shí)現(xiàn)高魯棒、高精度的3D目標(biāo)檢測(cè)提供了至關(guān)重要的信息輸入,為業(yè)內(nèi)提供更具通識(shí)性的解決方案。此次創(chuàng)nuScenes榜單成績(jī)新高的"IEI-BEVFusion++"算法模型正是應(yīng)用了3D多模態(tài)融合架構(gòu)的思路,將Lidar與Camera形成有效的交互融合。

  • Lidar與Camera的多模態(tài)交互融合,面臨巨大挑戰(zhàn)

3D目標(biāo)檢測(cè)作為自動(dòng)駕駛至關(guān)重要的核心任務(wù),面向強(qiáng)大的環(huán)境感知,自動(dòng)駕駛車(chē)輛通過(guò)廣泛車(chē)載傳感器的信息輸入,實(shí)現(xiàn)精準(zhǔn)的目標(biāo)檢測(cè)。以Lidar為例,它可以有效精準(zhǔn)地捕捉空間信息,點(diǎn)云數(shù)據(jù)所具備的天然3D優(yōu)勢(shì),最大程度地提升了檢測(cè)目標(biāo)的測(cè)距精度、速度及方向;而Camera的優(yōu)勢(shì)則在于,它具備豐富的紋理信息,強(qiáng)大的語(yǔ)義及圖像上下文理解能力使得它可以有效地識(shí)別行人、交通指示牌等具象化的路面信息。因此,Lidar與Camera融合的3D多模態(tài)架構(gòu)將深度信息與紋理信息形成有效的交互融合,為更精準(zhǔn)的3D目標(biāo)檢測(cè)提供了一種全新思路。

然而,將兩種截然不同的模態(tài)幾何和語(yǔ)義特征在一個(gè)表示空間內(nèi)相結(jié)合,這是一個(gè)巨大的挑戰(zhàn)。 一方面,預(yù)估檢測(cè)目標(biāo)的深度信息是提升3D目標(biāo)檢測(cè)精度的關(guān)鍵,現(xiàn)有模態(tài)的融合通常關(guān)注于點(diǎn)云雷達(dá)及Camera虛擬點(diǎn)間的交互,但由于點(diǎn)云雷達(dá)遠(yuǎn)比Camera數(shù)據(jù)稀疏得多,傳統(tǒng)的融合方式無(wú)法解決固有模態(tài)間的深度信息差距。另一方面,在跨模態(tài)的融合交互中,點(diǎn)云雷達(dá)涉及體素的精細(xì)劃分及大量的3D卷積計(jì)算,圖像則由于多攝像頭、高分辨率,復(fù)雜的特征提取網(wǎng)絡(luò),兩者計(jì)算復(fù)雜且耗時(shí)長(zhǎng)。因此,不同形態(tài)的數(shù)據(jù)整合也為多模態(tài)融合模型的訓(xùn)練速度和檢測(cè)精度帶來(lái)了新一層算力壓力。

  • NDS 77.6%, 多模態(tài)融合模型"IEI-BEVFusion++"刷新全賽道記錄


IEI-BEVFusion++多模態(tài)融合模型,通過(guò)更有效的多模態(tài)訓(xùn)練架構(gòu)、更精細(xì)的特征提取網(wǎng)絡(luò)、更強(qiáng)大的數(shù)據(jù)預(yù)處理能力,實(shí)現(xiàn)Lidar與Camera的高效特征提取與融合優(yōu)化。激光雷達(dá)點(diǎn)云特征為Camera數(shù)據(jù)提供檢測(cè)目標(biāo)的精確3D信息,Camera發(fā)揮其紋理輪廓及語(yǔ)義理解優(yōu)勢(shì),進(jìn)一步精細(xì)化點(diǎn)云區(qū)域特征,形成Liar與Camera的數(shù)據(jù)最大化互補(bǔ),大幅優(yōu)化了模型的檢測(cè)精度。

基于Lidar與Camera的多模態(tài)融合模型架構(gòu),實(shí)現(xiàn)了三大核心技術(shù)突破:

IEI-BEVFusion++ 多模態(tài)融合模型架構(gòu)圖
IEI-BEVFusion++ 多模態(tài)融合模型架構(gòu)圖

a)  首先,基于更有效的多模態(tài)訓(xùn)練架構(gòu),使得mAP(全類(lèi)平均正確率,mean Average Precision)平均提升2%+

Transformer的多模態(tài)數(shù)據(jù)融合架構(gòu),通過(guò)引入基于Camera數(shù)據(jù)的BEV檢測(cè)頭,輔助融合模型訓(xùn)練,在不增加過(guò)多計(jì)算量的同時(shí),進(jìn)一步增強(qiáng)語(yǔ)義信息特征,使得mAP(全類(lèi)平均正確率,mean Average Precision)平均提升2%+。

b)  其次,精細(xì)的特征提取網(wǎng)絡(luò),大幅提升目標(biāo)的3D檢測(cè)能力

一方面,采用多尺度Lidar的特征融合技術(shù),進(jìn)一步增強(qiáng)其特征提取的感受野,提升其對(duì)于檢測(cè)目標(biāo),尤其是大目標(biāo)的表征能力;另一方面,Lidar信息可直接輔助優(yōu)化Camera的深度預(yù)測(cè),采取級(jí)聯(lián)深度輔助策略,大幅提升圖像的3D檢測(cè)能力。

c)  同時(shí),強(qiáng)大的數(shù)據(jù)預(yù)處理能力,實(shí)現(xiàn)模型精度與訓(xùn)練速度雙突破

創(chuàng)新設(shè)計(jì)Lidar與Camera同步貼圖,替代了業(yè)內(nèi)傳統(tǒng)的cbgs(類(lèi)平衡分組和采樣)技術(shù)。一方面增強(qiáng)了樣本的均衡性與多樣性,另一方面保證了不同模態(tài)間的數(shù)據(jù)協(xié)調(diào)、同步,在提升目標(biāo)定位檢測(cè)精度的同時(shí),保障目標(biāo)速度、方位、縮放等相關(guān)指標(biāo)的提升,訓(xùn)練速度更是較業(yè)內(nèi)基準(zhǔn)提升了4.5倍。

基于BEV融合算法的創(chuàng)新,"IEI-BEVFusion++"算法模型成功登頂3D目標(biāo)檢測(cè)任務(wù)(nuScenes detection task)全賽道榜單,將關(guān)鍵性指標(biāo)NDS提升至77.6%。未來(lái),浪潮信息算法團(tuán)隊(duì)將踐行多角度切入,發(fā)揮算法、算力融合的全棧解決方案能力,推動(dòng)自動(dòng)駕駛領(lǐng)域的技術(shù)創(chuàng)新發(fā)展。

備注:文內(nèi)所涉術(shù)語(yǔ)解釋如下

1)  BEV:Bird's Eye View,是指將特征信息轉(zhuǎn)化至鳥(niǎo)瞰視角

2)  多模態(tài)融合:也稱(chēng)多源信息融合或多傳感器融合,是指綜合兩個(gè)或多個(gè)模態(tài)的信息進(jìn)行預(yù)測(cè)的過(guò)程

3)  魯棒(Robust): 是指系統(tǒng)在一定的參數(shù)攝動(dòng)下,維持其它某些性能的特性

消息來(lái)源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection