上海2017年10月9日電 /美通社/ -- 近日,ACM Multimedia 大規(guī)模視頻分類挑戰(zhàn)賽(LSVC 2017)結(jié)果揭曉,來自中國(guó)的團(tuán)隊(duì) -- 由七牛云人工智能實(shí)驗(yàn)室 AtLab 與中科院上海高等研究院視覺數(shù)據(jù)智能分析實(shí)驗(yàn)室組成的聯(lián)合戰(zhàn)隊(duì)榮獲亞軍。
ImageNet 競(jìng)賽落幕,視頻分析成為新熱點(diǎn)
素有國(guó)際“計(jì)算機(jī)視覺奧林匹克”之稱的 ImageNet 挑戰(zhàn)賽今年已是最后一期,這標(biāo)志著靜態(tài)圖片的分類、物體檢測(cè)等任務(wù)日趨成熟。但是在視頻內(nèi)容分析領(lǐng)域仍存在巨大挑戰(zhàn),也是當(dāng)前學(xué)術(shù)界的研究熱點(diǎn)。ACM Multimedia 作為多媒體領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,旗下大規(guī)模視頻分類挑戰(zhàn)賽 (LSVC) 意在考察大規(guī)模未分割視頻的算法識(shí)別能力。
LSVC 使用的數(shù)據(jù)集是在復(fù)旦-哥倫比亞視頻數(shù)據(jù)集 (FCVID) 基礎(chǔ)上擴(kuò)充而來,它包含來自 YouTube 和 Flicker 的超過 8000 小時(shí)的視頻,標(biāo)注為 500 種分類。包括社交事件、動(dòng)作、物體、場(chǎng)景等多種類型。最終測(cè)試集為 78,000 多個(gè)視頻。
萬億級(jí)數(shù)據(jù)處理系統(tǒng)支撐+算法優(yōu)化
針對(duì)本次挑戰(zhàn)賽任務(wù)的復(fù)雜情況,團(tuán)隊(duì)為海量視頻數(shù)據(jù)設(shè)計(jì)的流式數(shù)據(jù)處理系統(tǒng) (Elastic Streaming Sequential Data Processing System) 及七牛云存儲(chǔ)系統(tǒng)提供了重要支撐。ESSP 系統(tǒng)基于微服務(wù)搭建,充分考慮了視頻分析處理中空間和時(shí)序特征的存取需求,系統(tǒng)支持任務(wù)自動(dòng)調(diào)度,多節(jié)點(diǎn)機(jī)器學(xué)習(xí)組件自動(dòng)并行;主節(jié)點(diǎn)和工作節(jié)點(diǎn)均采用 Kubernetes 進(jìn)行容器管理,可以靈活地進(jìn)行服務(wù)部署、維護(hù)及擴(kuò)展。
算法層面,團(tuán)隊(duì)采用了多種模態(tài)信息對(duì)視頻內(nèi)容進(jìn)行描述,包括視頻幀特征、光流特征、音頻特征等,并采用了包含 Squeeze-and-Excitation 結(jié)構(gòu)的 NetVLAD、DBoF 等網(wǎng)絡(luò)對(duì)多種特征進(jìn)行聚合。團(tuán)隊(duì)還研究了一種緊湊高效的視頻幀特征表示方法,利用該方法可以減小模型規(guī)模、并極大地提升模型訓(xùn)練速度。團(tuán)隊(duì)最終取得了87.05%的準(zhǔn)確率,以0.36%之差位居亞軍,比第三名參賽隊(duì)高出近2個(gè)百分點(diǎn)。
傳說中的聯(lián)合戰(zhàn)隊(duì)
AtLab 和中科院上海高等研究院視覺數(shù)據(jù)智能分析實(shí)驗(yàn)室組建的聯(lián)合戰(zhàn)隊(duì)在視頻、檢測(cè)等學(xué)術(shù)領(lǐng)域建立了長(zhǎng)期研究合作關(guān)系,優(yōu)勢(shì)互補(bǔ),此次首戰(zhàn)視頻競(jìng)賽即取得不錯(cuò)的成果。
中科院上海高等研究院視覺數(shù)據(jù)智能分析實(shí)驗(yàn)室著力于視覺大數(shù)據(jù)智能分析技術(shù)的研究和應(yīng)用,如海量視頻分析、字符檢測(cè)識(shí)別、場(chǎng)景理解等基礎(chǔ)計(jì)算機(jī)視覺問題,為視覺智能應(yīng)用提供技術(shù)支撐。
AtLab 成立僅一年的時(shí)間,但團(tuán)隊(duì)核心成員都在人工智能領(lǐng)域積累了多年經(jīng)驗(yàn),AtLab 發(fā)起人彭垚在富媒體海量數(shù)據(jù)分析與機(jī)器學(xué)習(xí)領(lǐng)域有超過 10 年的產(chǎn)品研發(fā)經(jīng)驗(yàn),曾擔(dān)任 IBM 系統(tǒng)與科技實(shí)驗(yàn)室研發(fā)架構(gòu)和管理工作多年,已在美國(guó)、法國(guó)發(fā)表數(shù)篇專業(yè)領(lǐng)域發(fā)明專利。
此次獲獎(jiǎng),是對(duì) AtLab 學(xué)術(shù)應(yīng)用能力的檢驗(yàn)。彭垚表示:七牛云從存儲(chǔ)起家,經(jīng)歷多年的積累,存儲(chǔ)的圖片總量超過 2000 億張,視頻長(zhǎng)度超過 10 億小時(shí)。對(duì)擁有這些數(shù)據(jù)的客戶來說,他們的圖像視頻內(nèi)涵到底是什么非常重要:首先他們需要去審核這些內(nèi)容是否健康、合法。更重要的是,他們希望通過這些用戶上傳的數(shù)據(jù)內(nèi)容做一些深度的分析,這對(duì)用戶畫像的構(gòu)建,增加平臺(tái)對(duì)用戶的粘性有非常大的價(jià)值。
七牛的理念就是縮短想法到產(chǎn)品的距離,所以七牛成立人工智能實(shí)驗(yàn)室 AtLab,在底層構(gòu)建了彈性深度學(xué)習(xí)平臺(tái) AVA 來滿足巨大的計(jì)算需求。在應(yīng)用層提供多個(gè)計(jì)算機(jī)視覺 API ,幫助企業(yè)把人工智能與具體的業(yè)務(wù)結(jié)合,讓計(jì)算機(jī)視覺在廣電、傳媒、安防、金融等行業(yè)落地。在不久的將來,七牛會(huì)把平臺(tái)能力開放出去,提供一套完整的數(shù)據(jù)集和模型生產(chǎn)工具鏈。