生成式AI大會(huì)沸騰北京！從Sora到具身智能，25位大佬密集輸干貨

2024-04-23 15:33

智東西（公眾號(hào)：zhidxcom）
作者 | 智東西編輯部

今日，在春風(fēng)拂面花千樹的北京，我們?yōu)樯墒紸I舉辦了一場(chǎng)隆重且專業(yè)的春日派對(duì)。

智東西4月18日?qǐng)?bào)道，以“重構(gòu)世界奔赴未來”為主題的2024中國(guó)生成式AI大會(huì)今日正式開幕，今明兩日，有54位產(chǎn)學(xué)研投重量級(jí)嘉賓代表將同臺(tái)探討生成式AI的發(fā)展現(xiàn)狀與未來趨勢(shì)。

大會(huì)首日，由歐洲人文和自然科學(xué)院外籍院士、清華大學(xué)人工智能研究院常務(wù)副院長(zhǎng)孫茂松領(lǐng)銜，25位嘉賓圍繞大語言模型、視頻生成、具身智能、音樂生成、世界模型、垂類行業(yè)大模型、AI全棧軟件、加速大模型端側(cè)部署等前沿議題，分享最新的研發(fā)與實(shí)踐經(jīng)驗(yàn)。

在1230平方米宴會(huì)廳的會(huì)場(chǎng)，線下參會(huì)觀眾人潮洶涌，開幕式更是全程爆滿，連下午分會(huì)場(chǎng)實(shí)行收費(fèi)制的具身智能技術(shù)研討會(huì)也是座無虛席。展區(qū)同樣人頭攢動(dòng)，交流氣氛熱烈濃厚。

值得一提的是，會(huì)上，AI+終端創(chuàng)企李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化的自研WAKE-AI多模態(tài)大模型，具備文本生成、語言理解、圖像識(shí)別及視頻生成等多模態(tài)交互能力。

作為智一科技傾力打造的產(chǎn)業(yè)峰會(huì)IP，2024中國(guó)生成式AI大會(huì)由智東西和智猩猩聯(lián)合主辦，安排覆蓋生成式AI全產(chǎn)業(yè)鏈的豐富議題，并將于明日上午公布中國(guó)生成式AI企業(yè)TOP50。

“過去一年，生成式AI狂飆突進(jìn)，整個(gè)產(chǎn)業(yè)鏈成為全球創(chuàng)新、投資和應(yīng)用最活躍的領(lǐng)域之一。”智一科技聯(lián)合創(chuàng)始人、CEO龔倫常代表主辦方為大會(huì)致辭，“我們正站在歷史的轉(zhuǎn)折處，見證和參與由生成式AI引領(lǐng)的新一輪科技變革。”

▲智一科技聯(lián)合創(chuàng)始人、CEO龔倫常

龔倫常還預(yù)告了今年多個(gè)重要會(huì)議——在上海，2024中國(guó)生成式AI大會(huì)·上海站將于11月舉行，中國(guó)智能汽車算力峰會(huì)將于6月舉行；在深圳，第六屆全球AI芯片峰會(huì)和第六屆全球自動(dòng)駕駛峰會(huì)分別將于9月和12月舉行。歡迎大家參會(huì)。

一、高端對(duì)話：洞察中國(guó)創(chuàng)新機(jī)會(huì)，熱聊開源與閉源路徑選擇

高端對(duì)話環(huán)節(jié)以“解構(gòu)生成式AI浪潮，洞察中國(guó)創(chuàng)新與機(jī)會(huì)”為主題，由智一科技聯(lián)合創(chuàng)始人、智車芯產(chǎn)媒矩陣總編輯張國(guó)仁主持，啟明創(chuàng)投合伙人周志峰、生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝就生成式AI投資策略、大模型商業(yè)化路徑等話題分享觀點(diǎn)。

張國(guó)仁談道，這兩年我們確實(shí)發(fā)現(xiàn)生成式AI正從一個(gè)科技圈的熱門話題甚至出圈的話題，變得越來越務(wù)實(shí)，開始變成實(shí)打?qū)嵉男沦|(zhì)生產(chǎn)力，助力產(chǎn)業(yè)創(chuàng)新和各行各業(yè)的發(fā)展。

啟明創(chuàng)投周總談到洞察趨勢(shì)的方法，三種假設(shè)給自己判斷的參考都非常有價(jià)值；生數(shù)科技作為國(guó)內(nèi)前沿大模型技術(shù)和應(yīng)用探索的新銳玩家，對(duì)技術(shù)和趨勢(shì)的洞察也值得產(chǎn)業(yè)研究。

▲智一科技聯(lián)合創(chuàng)始人、智車芯產(chǎn)媒矩陣總編輯張國(guó)仁

“啟明創(chuàng)投是中國(guó)投資大模型最多的創(chuàng)業(yè)投資機(jī)構(gòu)之一。”啟明創(chuàng)投合伙人周志峰談道，啟明創(chuàng)投在過去2年持續(xù)布局大模型基于三個(gè)假設(shè)：第一，生成式AI尚處發(fā)展初期，基礎(chǔ)技術(shù)創(chuàng)新為主流；第二，多數(shù)模型公司最終將演變?yōu)槟Ｐ蛻?yīng)用一體化企業(yè)，對(duì)外輸出的是應(yīng)用，他們更容易把握技術(shù)邊界，推動(dòng)產(chǎn)品創(chuàng)新；第三，本階段絕大部分資金流向大模型公司，提供了更多的迭代機(jī)會(huì)。

周志峰認(rèn)為生成式AI應(yīng)用企業(yè)，其0到1階段的成長(zhǎng)較其他領(lǐng)域更長(zhǎng)，需要同時(shí)克服TPF（Technology-Product Fit）和PMF（Product-Market Fit）兩大挑戰(zhàn)，而其他領(lǐng)域通常只需面對(duì)PMF一座大山。創(chuàng)業(yè)者和投資人都需要更大的耐心和定力。

▲啟明創(chuàng)投合伙人周志峰

生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝分享說，生數(shù)科技之所以選擇原生多模態(tài)大模型技術(shù)路線，是因?yàn)閳D像、3D、視頻等同為視覺模態(tài)，在模型訓(xùn)練中是相互促進(jìn)的關(guān)系。同時(shí)在商業(yè)化方面，通用大模型能夠應(yīng)用于更多場(chǎng)景，面對(duì)場(chǎng)景需求變化能夠迅速作出反應(yīng)。

談及開源與閉源的路線選擇，他認(rèn)為各有合適的商業(yè)路徑，開源的最大價(jià)值在于生態(tài)建設(shè)，但從模型能力提升來看，閉源還是會(huì)走在開源前面。

▲生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝

二、縱覽多模態(tài)生成新范式，從視頻、音樂、人物到具身智能

在今日的大會(huì)上，國(guó)內(nèi)視頻生成模型先鋒創(chuàng)企愛詩(shī)科技分享了積極追趕Sora的務(wù)實(shí)思考，具身智能代表玩家銀河通用機(jī)器人理性探討當(dāng)前的局限性與進(jìn)步方向，剛剛發(fā)布天工3.0大模型的昆侖萬維帶來了對(duì)前沿SOTA模型的思辨，阿里通義實(shí)驗(yàn)室對(duì)人物視頻生成新范式進(jìn)行解讀。

愛詩(shī)科技創(chuàng)始人兼CEO王長(zhǎng)虎在大會(huì)開幕式演講中說，Sora是“一場(chǎng)可以推動(dòng)行業(yè)發(fā)展的賣家秀”，驗(yàn)證了Diffusion Transformer在視頻生成中的Scaling Law，我們很快將見證視頻創(chuàng)意工作者的工作流、內(nèi)容生產(chǎn)和消費(fèi)鏈條被徹底改變。

在他看來，追趕Sora的窗口期在一年前，而不是現(xiàn)在。中國(guó)在短視頻領(lǐng)域領(lǐng)先全球，同時(shí)短視頻也是最貼近用戶的內(nèi)容形態(tài)。過去一年，視頻大模型經(jīng)歷著從量變到質(zhì)變。愛詩(shī)科技于今年1月正式推出PixVerse，目前已實(shí)現(xiàn)超1000萬次視頻生成，被全球創(chuàng)作者廣泛應(yīng)用于AI內(nèi)容創(chuàng)作中。

▲愛詩(shī)科技創(chuàng)始人兼CEO王長(zhǎng)虎

成立于2023年5月的銀河通用機(jī)器人，是國(guó)內(nèi)具身智能代表初創(chuàng)公司之一。北京大學(xué)助理教授、銀河通用機(jī)器人創(chuàng)始人&CTO、智源具身智能中心主任王鶴談道，目前面向通用機(jī)器人的具身多模態(tài)大模型的局限在于數(shù)據(jù)來源有限、很難高頻輸出動(dòng)作。他提到應(yīng)對(duì)這兩大挑戰(zhàn)的方向，一是通過仿真世界提供訓(xùn)練數(shù)據(jù)，二是采用三維模態(tài)模型提升泛化性和速度。

對(duì)此，銀河通用機(jī)器人構(gòu)建了三層級(jí)大模型系統(tǒng)，包括硬件、仿真合成數(shù)據(jù)訓(xùn)練的泛化技能、大模型等?；谠撓到y(tǒng)，機(jī)器人可實(shí)現(xiàn)跨場(chǎng)景、跨物體材質(zhì)、跨形態(tài)、跨物體擺放、依據(jù)人類語音指令進(jìn)行的開放語義泛化抓取，成功率達(dá)95%。

▲北京大學(xué)助理教授、銀河通用機(jī)器人創(chuàng)始人&CTO、智源具身智能中心主任王鶴

昆侖萬維董事長(zhǎng)兼CEO方漢強(qiáng)調(diào)了“技術(shù)領(lǐng)先”在AI領(lǐng)域的重要性，不同于互聯(lián)網(wǎng)時(shí)代產(chǎn)品的商業(yè)模式導(dǎo)向，大模型時(shí)代應(yīng)該是技術(shù)導(dǎo)向。

方漢談道，OpenAI在AI創(chuàng)企中的地位，本質(zhì)上是其文本大模型的SOTA（當(dāng)前技術(shù)指標(biāo)第一）能力帶來的。對(duì)于當(dāng)前的AI創(chuàng)業(yè)者，在圖像、視頻、音樂等任何賽道，只要能取得SOTA，就能通過技術(shù)優(yōu)勢(shì)獲得大量用戶，后續(xù)再通過產(chǎn)品創(chuàng)新、商業(yè)模式創(chuàng)新把用戶固化在平臺(tái)上，形成自己的護(hù)城河。

▲昆侖萬維董事長(zhǎng)兼CEO方漢

阿里通義實(shí)驗(yàn)室XR團(tuán)隊(duì)負(fù)責(zé)人薄列峰通過4個(gè)框架來解讀人物視頻生成新范式。基于這些框架的應(yīng)用，正逐步落地通義千問APP。

人物動(dòng)作視頻生成框架Animate Anyone可基于單張圖和動(dòng)作序列，輸出穩(wěn)定、可控的人物動(dòng)作視頻；人物換裝視頻生成框架Outfit Anyone是基于服飾圖和人物形象；人物視頻角色替換框架Motionshop采用Video2Motion，基于視頻人物動(dòng)作驅(qū)動(dòng)3D數(shù)字人；人物唱演視頻生成框架Emote Portrait Alive能夠基于單張圖和音頻，輸出準(zhǔn)確、生動(dòng)的人物唱演視頻。

▲阿里通義實(shí)驗(yàn)室XR團(tuán)隊(duì)負(fù)責(zé)人薄列峰

三、大模型進(jìn)入2.0時(shí)代！四趨勢(shì)、四要素、落地三階段

開源大模型領(lǐng)導(dǎo)者M(jìn)eta為何執(zhí)著于世界模型？大模型落地應(yīng)用當(dāng)務(wù)之急需要解決哪些挑戰(zhàn)？

前Meta?席?程負(fù)責(zé)?胡魯輝談道，聚焦多模態(tài)大模型的后GPT-4時(shí)代呈現(xiàn)出4大趨勢(shì)，一是語言模型到多模態(tài)大模型，二是數(shù)據(jù)集成到向量數(shù)據(jù)庫(kù)，三是Agent到大模型操作系統(tǒng)，四是微調(diào)到Plugin（插件）。

他認(rèn)為大模型是通向AGI最靠譜的方法，并預(yù)測(cè)下一個(gè)AI 2.0爆發(fā)點(diǎn)及落地大方向?qū)⑹茿I for Robotics。這需要理解物理世界面臨的挑戰(zhàn)，包括數(shù)據(jù)標(biāo)準(zhǔn)化、模型分散且場(chǎng)景復(fù)雜、環(huán)境硬件限制、算力成本貴且訓(xùn)練時(shí)間長(zhǎng)等方面。

▲前Meta?席?程負(fù)責(zé)?胡魯輝

云天勵(lì)飛“云天天書”大模型技術(shù)負(fù)責(zé)人余曉填將大模型比作人類知識(shí)的信息壓縮機(jī)，即壓縮海量數(shù)據(jù)，學(xué)習(xí)其中的統(tǒng)計(jì)規(guī)律。在大模型四大要素——參數(shù)、算力、數(shù)據(jù)、人才中，他認(rèn)為人才是最重要的根基，結(jié)合其他要素能實(shí)現(xiàn)高效的海量信息壓縮。

余曉填將大模型落地分為三個(gè)階段：技術(shù)找場(chǎng)景、場(chǎng)景反哺技術(shù)、場(chǎng)景找技術(shù)。目前處于第二階段，需要在深度場(chǎng)景挖掘更多數(shù)據(jù)，有針對(duì)地提升算法能力，找到技術(shù)變現(xiàn)在精度、成本、效率“三角約束”的平衡點(diǎn)。云天勵(lì)飛的解決方案就是“算法芯片化”。

▲云天勵(lì)飛“云天天書”大模型技術(shù)負(fù)責(zé)人余曉填

萬興科技副總裁朱偉談道，當(dāng)下，大模型正從1.0圖文時(shí)代進(jìn)入以音視頻多媒體為載體的2.0時(shí)代。視頻創(chuàng)作需求量巨大，然而長(zhǎng)期來視頻相關(guān)模型僅占極少數(shù)，且大模型在音視頻領(lǐng)域的應(yīng)用面臨數(shù)據(jù)集缺失、視頻內(nèi)容結(jié)構(gòu)及層級(jí)復(fù)雜、算力成本高等嚴(yán)峻挑戰(zhàn)。

進(jìn)入2024年AI視頻年，萬興科技將在4月28日正式公測(cè)旗下萬興“天幕”音視頻多媒體大模型。該模型具有多媒體、垂直解決方案、算力數(shù)據(jù)及應(yīng)用本土化三大特色，將支持60秒視頻一鍵生成，并具備視頻生視頻、文生音樂、文生音效等多項(xiàng)能力。

▲萬興科技副總裁朱偉

四、李未可科技首發(fā)多模態(tài)AI大模型，AI基礎(chǔ)設(shè)施升級(jí)助攻提質(zhì)增效

邁入大模型時(shí)代，算法、應(yīng)用與AI基礎(chǔ)設(shè)施都在競(jìng)速快跑。

李未可科技合伙人&AI負(fù)責(zé)人古鑒宣布，李未可科技首次發(fā)布針對(duì)“AI+終端”定向優(yōu)化研發(fā)的多模態(tài)AI大模型平臺(tái)WAKE-AI。他分享說，相比手機(jī)、新型硬件，眼鏡能帶來極致的輕薄，更適合室外場(chǎng)景的AI落地。

WAKE-AI使用MoE架構(gòu)，針對(duì)眼鏡端用戶的使用方式、場(chǎng)景等進(jìn)行了優(yōu)化，在語音返回速度上能做到90%，ASR字錯(cuò)率低于2%，能夠?yàn)橛脩籼峁敉膺\(yùn)動(dòng)、文化旅行、日程管理及實(shí)時(shí)翻譯等多種多模態(tài)AI服務(wù)。古鑒還透露道，李未可科技即將推出搭載WAKE-AI的終端新品。

▲李未可科技合伙人&AI負(fù)責(zé)人古鑒

中科曙光智能計(jì)算產(chǎn)品事業(yè)部副總經(jīng)理胡曉東談道，中科曙光通過異構(gòu)平臺(tái)與算力網(wǎng)絡(luò)打造了算力基礎(chǔ)及能力，由于大模型閉環(huán)流程的每個(gè)環(huán)節(jié)對(duì)軟件棧有不同需求，打造AI全棧軟件也至關(guān)重要。

在基礎(chǔ)軟件棧方面，中科曙光推出了DAS AI Software Stack基礎(chǔ)軟件棧，通過多種AI組件、性能組件支持大模型快速遷移和優(yōu)化。除此之外，中科曙光還深度還聚焦AI開發(fā)平臺(tái)、內(nèi)容創(chuàng)作平臺(tái)、訓(xùn)練推理平臺(tái)等多個(gè)平臺(tái)服務(wù)，并通過創(chuàng)空間WorkSpace將平臺(tái)能力進(jìn)行資源整合與分配，支持AI能力化實(shí)踐。

▲中科曙光智能計(jì)算產(chǎn)品事業(yè)部副總經(jīng)理胡曉東

陽光保險(xiǎn)集團(tuán)人工智能首席科學(xué)家杜新凱談道，大模型和保險(xiǎn)的底層邏輯天然契合，融合“數(shù)字化轉(zhuǎn)型+大模型應(yīng)用”的智能化轉(zhuǎn)型成為當(dāng)前階段保險(xiǎn)業(yè)發(fā)展新質(zhì)生產(chǎn)力最應(yīng)該把握的科技主題。

陽光保險(xiǎn)基于陽光正言GPT大模型，正在打造“三個(gè)智能化”，即銷售智能化、客服智能化、管理智能化，積極探索通過大模型深度賦能改變傳統(tǒng)的保險(xiǎn)業(yè)務(wù)模式。

▲陽光保險(xiǎn)集團(tuán)人工智能首席科學(xué)家杜新凱

安謀科技產(chǎn)品總監(jiān)楊磊指出，生成式AI正逐步成為客戶端設(shè)備上的人機(jī)交互界面，而具備100億參數(shù)級(jí)別的模型已成為終端設(shè)備的最佳匹配規(guī)格。然而，在終端部署這類大型模型時(shí)，仍面臨成本、功耗及軟件生態(tài)等多重挑戰(zhàn)。

在當(dāng)前大模型發(fā)展的硬件驅(qū)動(dòng)階段，楊磊談道，異構(gòu)計(jì)算是部署端側(cè)大模型的理想選擇，它能最大限度地提升SoC的性能、能效以及面積利用率。NPU作為端側(cè)AI應(yīng)用的關(guān)鍵算力資源，將為大模型的分布式落地演進(jìn)提供核心動(dòng)力。安謀科技自研“周易”NPU面向大模型場(chǎng)景做了架構(gòu)、內(nèi)存墻等多方面改進(jìn)。它采用多核設(shè)計(jì)，能夠同時(shí)支持卷積神經(jīng)網(wǎng)絡(luò)（CNN）和Transformer架構(gòu)，并已成功適配了國(guó)內(nèi)外多個(gè)主流大模型。

▲安謀科技產(chǎn)品總監(jiān)楊磊

聯(lián)匯科技CEO兼首席科學(xué)家趙天成談道，中大型企業(yè)普遍存在“知識(shí)斷層”問題，大量專業(yè)知識(shí)轉(zhuǎn)移、檢索效率低，導(dǎo)致行業(yè)數(shù)字化轉(zhuǎn)型受阻、技術(shù)創(chuàng)新遇到瓶頸，這對(duì)多模態(tài)大模型驅(qū)動(dòng)的知識(shí)新引擎提出要求。

聯(lián)匯科技開創(chuàng)了三位一體產(chǎn)品棧“模型+工具+應(yīng)用”，提供To B的全棧式AI2.0解決方案，通過智能體的人機(jī)對(duì)話、實(shí)時(shí)數(shù)據(jù)、自動(dòng)決策能力實(shí)現(xiàn)員工提質(zhì)增效。

▲聯(lián)匯科技CEO兼首席科學(xué)家趙天成

五、圓桌對(duì)話：通用AGI之路千萬條，開源至關(guān)重要

始智AI wisemodel創(chuàng)始人兼CEO劉道全擔(dān)任下午場(chǎng)圓桌討論的主持人，帶領(lǐng)嘉賓們探討了一系列關(guān)鍵問題，包括：大模型來臨前后的AI開發(fā)有什么區(qū)別？如何看待閉源模型和開源模型路線之爭(zhēng)？以及大家在大模型開發(fā)中有哪些成果和挑戰(zhàn)？

劉道全認(rèn)為，通用AGI之路千萬條，開源是至關(guān)重要的一條。劉道全及其團(tuán)隊(duì)于去年9月上線了國(guó)內(nèi)第一個(gè)中立開放的AI開源平臺(tái)wisemodel.cn，該平臺(tái)已囊括了國(guó)內(nèi)主要的大模型公司及科研院所最新發(fā)布的開源模型。

▲始智AI wisemodel創(chuàng)始人兼CEO劉道全

vivo AI解決方案中心總監(jiān)謝偉欽認(rèn)為，端側(cè)大模型會(huì)是未來AGI道路上的一條重要路徑，可在給用戶提供個(gè)性化服務(wù)的同時(shí)，更好地保護(hù)用戶，也能支持在無網(wǎng)和弱網(wǎng)環(huán)境下的大模型應(yīng)用。對(duì)于大模型企業(yè)來說也可以節(jié)約大量服務(wù)器成本。vivo自研藍(lán)心大模型率先實(shí)現(xiàn)端側(cè)化部署。

大模型及AI技術(shù)在很多維度上是對(duì)人能力的提升，如多模態(tài)大模型的圖文理解和問答能力可以很好地幫助視障用戶了解周圍的環(huán)境和事物，更好地工作生活。vivo會(huì)持續(xù)關(guān)注更多類似的大模型應(yīng)用場(chǎng)景，并將支持更多的模型開源，同時(shí)希望借助開源社區(qū)的力量迭代大模型效果和產(chǎn)品體驗(yàn)。

▲vivo AI解決方案中心總監(jiān)謝偉欽

硅基智能CTO林會(huì)杰認(rèn)為，雖然現(xiàn)在閉源模型暫時(shí)領(lǐng)先，但未來開源一定會(huì)比閉源更好?；仡櫥ヂ?lián)網(wǎng)時(shí)代，頭部搜索引擎公司都是基于開源軟件的力量構(gòu)建產(chǎn)品，對(duì)于開發(fā)者來說，開源從體驗(yàn)、效率到質(zhì)量都更勝一籌，“只有敢開源的公司才能做出好的大模型”。

對(duì)于AGI，硅基智能的愿景是在數(shù)字空間里讓代碼感知、理解，像人一樣表達(dá)和交互，也就是具身智能。

▲硅基智能CTO林會(huì)杰

聯(lián)匯科技CEO兼首席科學(xué)家趙天成認(rèn)為，在AI技術(shù)早期不確定性時(shí)，投入基礎(chǔ)設(shè)施是明智之選。他在2020年歸國(guó)創(chuàng)業(yè)時(shí)顧慮小模型定制化成本過高，于是轉(zhuǎn)而做工具鏈等基礎(chǔ)設(shè)施，而后逐步確立了預(yù)訓(xùn)練模型及Agent發(fā)展路線。趙天成希望五年后每個(gè)企業(yè)都有自己的數(shù)字助手，讓效率提升10倍以上。

▲聯(lián)匯科技CEO兼首席科學(xué)家趙天成

結(jié)語：共探中國(guó)生成式AI產(chǎn)業(yè)脈搏

除上述嘉賓外，還有7位技術(shù)專家在下午的智猩猩具身智能技術(shù)閉門研討會(huì)上進(jìn)行干貨分享。

繼去年在北京舉辦國(guó)內(nèi)首場(chǎng)聚焦生成式AI的高規(guī)格創(chuàng)新峰會(huì)，今天，智東西與智猩猩連續(xù)第二年聯(lián)合舉辦聚焦生成式AI領(lǐng)域的行業(yè)盛會(huì)，希望通過豐富的議程設(shè)置、多元化的嘉賓經(jīng)驗(yàn)分享與觀點(diǎn)碰撞，讓大家不虛此行。

明日，精彩繼續(xù)，29位產(chǎn)學(xué)研代表將分享圍繞AI Infra、AIGC應(yīng)用、AI智能體、智算中心等相關(guān)技術(shù)與應(yīng)用，共探中國(guó)生成式AI產(chǎn)業(yè)的脈搏。

消息來源：智東西