上海2022年6月24日 /美通社/ -- 近期,有著25+年經驗的數據服務商澳鵬Appen,在不斷助力其自動駕駛客戶構建數據資產時發(fā)現:如今,企業(yè)的數據科學和開發(fā)所需機器學習 (ML) 模型的能力已經成熟。然而,他們中的許多人開始意識到真正的挑戰(zhàn)在于整個 AI 生命周期中的數據。
過去幾年,盡管自動駕駛的技術迭代速度不斷加快,但商業(yè)化一直是橫亙在所有自動駕駛從業(yè)者面前的一座大山。而在商業(yè)化落地的階段中,自動駕駛面臨的挑戰(zhàn)往往不是自動駕駛技術本身,而是客戶要求自動駕駛公司能夠快速適配各種車型的同時,還要快速適配多種應用場景。由此,自動駕駛公司則需要更多數據燃料來不斷地進行產品迭代。相應地,行業(yè)對于數據標注與處理的需求量也在水漲船高。
另一方面,隨著大算力智駕平臺在未來幾年的規(guī)?;涞匾约拜o助駕駛普及的加快,配套的車載傳感器市場也進入了一個高增長周期。尤其是4D毫米波雷達以及激光雷達的搭載也正處于最關鍵的導入期,這帶來了一個全新的市場:多傳感器感知的數據融合。此外,艙內人機交互的體驗升級,也同樣需要數據迭代支持。這也再次表明,無論是在自動駕駛還是輔助駕駛領域,數據標注的需求量都將迎來增長的高峰期。
數據生產瓶頸
眾所周知,自動駕駛想要真正落地,就需要大量高質量的、安全無偏差的數據。與此同時,下游企業(yè)對數據也在不斷地提出更高的要求。獲取低成本、高質量的數據依然是當前行業(yè)發(fā)展的一大痛點。普遍而言,企業(yè)并沒有過多的資源投入數據標注工作。因此,全球絕大多數企業(yè)都在某種程度上采用了專業(yè)數據供應商的服務——這也意味著數據采集、分析處理和管理是AI面臨的首要挑戰(zhàn)。
另一方面,在與諸多客戶對接的過程中,數據標注公司也逐漸發(fā)現,自動駕駛公司對于數據服務強有力的訴求便是隨著算法的調整,標注公司可以實現靈活配合。例如,隨著算法的更迭與進步,下游客戶對于數據標注的準確度會由原來的90%提升至95%,甚至99.99%。
此外,自動駕駛在不同細分場景的快速開拓意味著下游客戶的研發(fā)勢必會出現波峰與波谷,這也就需要數據標注公司提供持續(xù)穩(wěn)定的產能來應對客戶的彈性需求。而對于多數數據服務商而言,這勢必帶來了更高難度的挑戰(zhàn)。
針對上述痛點,業(yè)內有著超過25年歷史的人工智能訓練數據服務的"尖子生"——澳鵬Appen給出了自己的答案:由于深度學習算法是算力與大數據的產物,因此深度學習算法模型的工業(yè)化優(yōu)化,也就需要AI數據供應鏈的工業(yè)化。
"工業(yè)化即以自動化、標準化和規(guī)?;蓴U展方式為標志。此前,AI標注數據的供應基本以作坊式為主,難以保證AI標注數據的高質量供給,接下來AI標注數據的供給將迎來工業(yè)化爆發(fā)。"澳鵬數據科技(上海)有限公司產品及研發(fā)總監(jiān)錢程表示。
錢程介紹,在數據的整個生產環(huán)節(jié)中,數據獲取、數據準備和模型評估最為費力并涉及海量數據。如果處理不當,可能會導致項目質量問題和項目啟動延遲。AI從業(yè)者將80%以上的時間都花在數據管理上,因此他們需要最佳的工具和服務來完成這一過程中極其關鍵的部分。澳鵬專注研究這三個階段,并與專業(yè)從事模型訓練和部署的供應商建立戰(zhàn)略合作伙伴關系。
澳鵬數據科技(上海)有限公司銷售副總裁馬冀表示:"毫米波和4D代表了未來的標注方向,對服務商的標注能力以及研發(fā)能力都有很高的要求。澳鵬會陪伴客戶共同探索和發(fā)展高精尖標注訴求。目前我們已經有毫米波、4D點云標注等項目正在和客戶積極研討中,期待在今年第三季度會有不錯的進展。"
最大難題有解
此外,在自動駕駛領域,僅僅根據已知的場景、障礙和潛在事故原因來部署聯(lián)網自動駕駛車輛還遠遠不夠。誰能夠實現準確預測,并對不尋常的情況做出反應,將是接下來自動駕駛技術落地的爭奪焦點。
如今業(yè)界推動的"數據驅動閉環(huán)迭代",都在強化對于不確定性事件的預測和規(guī)避、學習能力。當下的一個行業(yè)共識是:在數據方面,自動駕駛面臨的最大痛點便是corner case的積累。然而,由于不同公司數據采集車的傳感器安裝位置、采集標準各有不同,下游公司通常只能親自下場采集各種極限工況,"一步一個腳印地"完成更多的數據積累。
針對上述問題,澳鵬提出了"合成數據"解決方案,可以模擬不同的場景并安全高效地完成數據采集,實現對于極限工況的有效補充。其具體優(yōu)勢為:改進模型的可靠性、比"真實"數據獲取更快、可用于邊緣案例的補充,并可有效保護用戶隱私安全。
此前,澳鵬Appen曾收購人工智能數據平臺Mindtech的少數股權,雙方將開展深度合作,提升為客戶提供合成數據的能力。
"我們對與澳鵬的戰(zhàn)略合作感到興奮,"Mindtech 首席執(zhí)行官史蒂夫哈里斯分享道。"這將使更多客戶能夠使用高質量、精確注釋的合成數據快速訓練他們的人工智能系統(tǒng),同時補充 Appen 現有的真實世界數據收集、管理和注釋產品。通過合作,我們將加速人工智能系統(tǒng)的開發(fā),更好地了解人類如何與彼此以及周圍的世界互動。"
迎接數據服務的2.0時代
總結這家"尖子生"的成績,作為澳大利亞證交所上市的科技公司,澳鵬Appen已擁有25+年行業(yè)積累與廣泛的全球客戶基礎。
在服務方面,公司擁有一支過硬的數據科學家團隊,可以在服務企業(yè)之前了解場景,設計如何采集數據/標注數據能真正幫助到企業(yè)成功訓練模型, 以結果導向。
此外,澳鵬還擁有百萬級的眾包資源,能夠提供全球數據采集和標注服務。其在自動駕駛領域月收入額可達上千萬以上,在中國市場覆蓋30+個自動駕駛客戶。
在澳鵬看來,數據服務賦能行業(yè)的關鍵就在于整合資源,并與客戶深度綁定。例如提供技術接口,讓客戶參與到標注過程中,可實時反饋(API集成),或對自有平臺的功能進行改造和匹配;幫助客戶將重心放在模型開發(fā)上,降低數據成本,提升算法效率。
最重要的是,公司擁有完整的數據流轉系統(tǒng),可以不斷迭代優(yōu)化數據與服務工具,并以低成本、高靈活的服務配合客戶需求??梢哉f,在自動駕駛領域,澳鵬高精度高性能的自動駕駛工具套裝也是其為客戶構筑海量數據資產的利器,這是澳鵬的核心優(yōu)勢之一,也是公司迎接"數據服務2.0時代"的不二法門。
何謂"數據服務2.0時代"?過去,數據標注多數只服務于自動駕駛POC項目,屬于"一錘子買賣"。而在2.0時代,軟件定義汽車帶來了對功能迭代升級頻率的高要求,背后則是每家車企積累的數據資產的價值競爭,并直接影響汽車智能化的功能優(yōu)化和體驗升級能力。
據高工智能汽車研究院監(jiān)測數據顯示,2021年中國市場(不含進出口)乘用車前裝標配搭載OTA功能上險量為748.41萬輛,同比增長65.99%,前裝搭載率已經提升至36.7%。而軟件召回也已經成為目前汽車召回的主要因素之一。
相應的,從整體行業(yè)來看,數據標注正從簡單、重復的拉框標注向精細化方向發(fā)展,也就是說數據標注行業(yè)正從簡單的勞動力密集型向專業(yè)型數據服務過渡。
以澳鵬自主研發(fā)的人工智能輔助數據標注平臺MatrixGo為例,可支持像素級語義分割、2D圖像復合標注、3D點云拉框及語義分割等功能;
采標一體的任務能夠實現采集-質檢-標注-質檢-客戶驗收的雙向協(xié)同流程,讓整個數據生產線上的各個環(huán)節(jié)實現無縫銜接;內置的多輪質檢模塊可以按需配置,滿足不同復雜度項目的需求;2D圖像復合標注是全結構化的模型訓練利器,支持點、線、框、多邊型融合標注(常見工具是單模式的,點、線or折線,多邊形)與連續(xù)幀;
另外,此工具還支持像素級語義分割,可將圖片中目標對象實例標記出來,并保證像素級的質量。其中豐富的可配置選項可靈活進行ID處理,實戰(zhàn)中可以做到10分鐘/張圖。
錢程介紹,澳鵬利用ML輔助標注等技術手段提高數據質量,通過預識別系統(tǒng),讓算法先進行預識別,再根據結果進行人為調整,最終在成本控制和質量上實現顯著提升。
總體上,其標注工具可實現99.9%的準確率,并達到5分鐘一張、1秒一幀極速質檢,在交互、超大數據加載、實時切幀進行渲染等方面都達到了行業(yè)第一。
澳鵬Appen認為,進入數據服務2.0時代,有能力深度綁定汽車全生命周期、并提供完整且高質量的數據供應服務,在行業(yè)轉型的當下至關重要。