浪潮信息獲CVPR2024自動(dòng)駕駛挑戰(zhàn)賽"Occupancy& Flow"冠軍

浪潮信息

2024-06-25 18:24 4808

北京2024年6月25日 /美通社/ -- 近日，在全球權(quán)威的CVPR 2024自動(dòng)駕駛國際挑戰(zhàn)賽(Autonomous Grand Challenge)中，浪潮信息AI團(tuán)隊(duì)所提交的"F-OCC"算法模型以48.9%的出色成績斬獲占據(jù)柵格和運(yùn)動(dòng)估計(jì)(Occupancy & Flow)賽道第一名。繼22、23年在純視覺和多模態(tài)等自動(dòng)駕駛感知方向，多次登頂nuSences 3D目標(biāo)檢測榜單后，該AI團(tuán)隊(duì)面向Occupancy技術(shù)再一次實(shí)現(xiàn)突破，實(shí)現(xiàn)了對(duì)高度動(dòng)態(tài)及不規(guī)則的駕駛場景更精準(zhǔn)的3D感知及運(yùn)動(dòng)預(yù)測。

圖1-浪潮信息AI團(tuán)隊(duì)斬獲占據(jù)柵格和運(yùn)動(dòng)估計(jì)賽道第一名

CVPR 2024自動(dòng)駕駛國際挑戰(zhàn)賽是國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(IEEE/CVF Conference on Computer Vision and Pattern Recognition)的一個(gè)重要組成部分，專注于自動(dòng)駕駛領(lǐng)域的技術(shù)創(chuàng)新和應(yīng)用研究。2024年CVPR自動(dòng)駕駛國際挑戰(zhàn)賽，包含感知、預(yù)測、規(guī)劃三大方向七個(gè)賽道，旨在深入探索自動(dòng)駕駛領(lǐng)域的前沿課題。

三維感知和預(yù)測是自動(dòng)駕駛領(lǐng)域的新興任務(wù)，要求對(duì)車輛行駛場景進(jìn)行細(xì)粒度建模，對(duì)于提升自動(dòng)駕駛的環(huán)境感知能力有著重要意義。此次浪潮信息AI團(tuán)隊(duì)所登頂?shù)恼紦?jù)柵格和運(yùn)動(dòng)估計(jì)(Occupancy & Flow)賽道，是CVPR 2024自動(dòng)駕駛國際挑戰(zhàn)賽最受關(guān)注的賽道，聚焦感知任務(wù)，吸引了全球17個(gè)國家和地區(qū)，90余支頂尖AI團(tuán)隊(duì)參與挑戰(zhàn)。比賽提供了基于 nuScenes 數(shù)據(jù)集的大規(guī)模占用柵格數(shù)據(jù)與評(píng)測標(biāo)準(zhǔn)，要求參賽隊(duì)伍利用相機(jī)圖像信息對(duì)柵格化三維空間的占據(jù)情況(Occupancy)和運(yùn)動(dòng)(Flow)進(jìn)行預(yù)測，以此來評(píng)估感知系統(tǒng)對(duì)高度動(dòng)態(tài)及不規(guī)則駕駛場景的表示能力。

占據(jù)柵格 Occupancy：挑戰(zhàn)更精細(xì)的環(huán)境感知與預(yù)測

道路布局的復(fù)雜性、交通工具的多樣性以及行人流量的密集性，是當(dāng)前城市道路交通的現(xiàn)狀，也是自動(dòng)駕駛領(lǐng)域面臨的現(xiàn)實(shí)挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn)，有效的障礙物識(shí)別和避障策略，以及對(duì)三維環(huán)境的感知和理解就變得至關(guān)重要。傳統(tǒng)的三維物體檢測方法通常使用邊界框來表示物體的位置和大小，但對(duì)于幾何形狀復(fù)雜的物體，這種方法往往無法準(zhǔn)確描述其形狀特征，同時(shí)也會(huì)忽略對(duì)背景元素的感知。因此，基于三維邊界框的傳統(tǒng)感知方法已經(jīng)無法滿足復(fù)雜道路環(huán)境下的精準(zhǔn)感知和預(yù)測需求。

圖2 - 針對(duì)挖車中的力臂，3D目標(biāo)檢測算法只能給出挖車整體的輪廓框（左），但占據(jù)柵格網(wǎng)絡(luò)卻可以更精準(zhǔn)地描述挖車具體的幾何形狀這類細(xì)節(jié)信息（右）

Occupancy Networks（占據(jù)柵格網(wǎng)絡(luò)）作為一種全新的自動(dòng)駕駛感知算法，通過獲取立體的柵格占據(jù)信息，使系統(tǒng)能夠在三維空間中確定物體的位置和形狀，進(jìn)而有效識(shí)別和處理那些未被明確標(biāo)注或形狀復(fù)雜的障礙物，如異形車、路上的石頭、散落的紙箱等。這種占據(jù)柵格網(wǎng)絡(luò)使得自動(dòng)駕駛系統(tǒng)能夠更準(zhǔn)確地理解周圍的環(huán)境，不僅能識(shí)別物體，還能區(qū)分靜態(tài)和動(dòng)態(tài)物體。并以較高的分辨率和精度表示三維環(huán)境，對(duì)提升自動(dòng)駕駛系統(tǒng)在復(fù)雜場景下的安全性、精度和可靠性至關(guān)重要。

全面提升！48.9%的絕佳性能表現(xiàn)，創(chuàng)本賽道最高成績

在占據(jù)柵格和運(yùn)動(dòng)估計(jì)(Occupancy & Flow)賽道中，該AI團(tuán)隊(duì)所提交的"F-OCC"算法模型，憑借先進(jìn)的模型結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)處理能力和算子優(yōu)化能力，實(shí)現(xiàn)了該賽道最強(qiáng)模型性能，在RayIoU（基于投射光線的方式評(píng)估柵格的占用情況）及mAVE（平均速度誤差）兩個(gè)評(píng)測指標(biāo)中均獲得最高成績。

■ 更簡潔高效的模型架構(gòu)，實(shí)現(xiàn)運(yùn)算效率與檢測性能雙突破

首先，模型整體選擇基于前向投影的感知架構(gòu)，并采用高效且性能良好的FlashInternImage模型。同時(shí)，通過對(duì)整體流程進(jìn)行超參調(diào)優(yōu)、算子加速等優(yōu)化，在占據(jù)柵格(Occupancy)和運(yùn)動(dòng)估計(jì)(Flow)均獲得最高分的同時(shí)，提升了模型的運(yùn)算效率，加快了模型迭代與推理速度。在實(shí)際應(yīng)用場景中，這種改進(jìn)使得模型能夠更快速、高效地處理大規(guī)模3D體素?cái)?shù)據(jù)，使得自動(dòng)駕駛車輛能更好地理解環(huán)境，進(jìn)而提升決策的準(zhǔn)確度和實(shí)時(shí)性。

圖3 - F-OCC算法模型架構(gòu)圖

■ 更強(qiáng)大完善的數(shù)據(jù)處理，全面提升模型檢測能力

在數(shù)據(jù)處理方面，比賽提供的體素(Voxel)標(biāo)簽包含了大量在圖像中無法觀測到的點(diǎn)，例如被物體遮擋的體素和物體內(nèi)部不可見的體素，這些標(biāo)簽在訓(xùn)練過程中會(huì)對(duì)基于圖像數(shù)據(jù)的預(yù)測網(wǎng)絡(luò)訓(xùn)練產(chǎn)生干擾。在訓(xùn)練數(shù)據(jù)中，該AI團(tuán)隊(duì)通過模擬LiDAR光束的方法，生成可視化掩碼，提升了模型的預(yù)測精度；另一方面，通過引入感知范圍邊緣的體素點(diǎn)參與訓(xùn)練，有效解決出現(xiàn)在感知邊緣區(qū)域的誤檢問題，將模型的整體檢測性能提升11%。

■ 更精細(xì)的3D體素編碼，模型占據(jù)預(yù)測能力提升超5%

在3D體素特征編碼模塊中，該算法團(tuán)隊(duì)將具有較大感知范圍和編碼能力的可形變卷積操作應(yīng)用于3D體素?cái)?shù)據(jù)，以提升3D特征的表示能力。通過使用CUDA對(duì)可形變3D卷積(DCN3D)進(jìn)行實(shí)現(xiàn)與優(yōu)化，大幅提升了模型的運(yùn)算速度，并有效降低了顯存消耗。通過DCN3D替代傳統(tǒng)3D卷積，模型整體占據(jù)預(yù)測能力提升超5%。

基于OCC 3D空間感知算法的創(chuàng)新， "F-OCC"算法模型成功登頂占據(jù)柵格和運(yùn)動(dòng)估計(jì)任務(wù)(Occupancy & Flow)榜單，以48.9%的出色成績創(chuàng)造了本賽道的最高成績，為探索更高級(jí)別的自動(dòng)駕駛技術(shù)提供了有力的支撐與經(jīng)驗(yàn)。未來，浪潮信息AI團(tuán)隊(duì)將踐行多角度切入，發(fā)揮算法、算力融合的AI全棧優(yōu)化能力，推動(dòng)自動(dòng)駕駛領(lǐng)域的技術(shù)創(chuàng)新發(fā)展。

* 備注：文內(nèi)所涉術(shù)語解釋如下

Occupancy：在自動(dòng)駕駛領(lǐng)域，通常稱為“占據(jù)柵格”或“占用柵格”，其是一種3D語義占用感知方法，通過生成車輛周圍環(huán)境的三維占用網(wǎng)格，為自動(dòng)駕駛車輛提供障礙物檢測、路徑規(guī)劃和車輛控制等關(guān)鍵功能；

RayIoU：是指通過光線投射的方式評(píng)估占據(jù)網(wǎng)格的占用情況(Ray-based Intersection over Union)，RayIoU可以用來衡量預(yù)測的占據(jù)網(wǎng)格與實(shí)際占據(jù)網(wǎng)格之間的重疊程度。RayIoU越高意味著預(yù)測準(zhǔn)確度越高，模型性能越好；