AICC圓桌對(duì)話：打破跟隨，實(shí)現(xiàn)大模型創(chuàng)新能力突破

2023-12-12 15:29

北京2023年12月12日 /美通社/ -- 2023年，全球科技領(lǐng)域最重要的事，就是新一輪人工智能大模型競(jìng)賽。隨著OpenAI公司發(fā)布ChatGPT一鳴驚人，國(guó)產(chǎn)大模型如雨后春筍般噴涌而出，"百模大戰(zhàn)"盛況吸引全球關(guān)注，大模型的發(fā)展速度日新月異。然而，大模型早已從單一技術(shù)比拼，升級(jí)為整個(gè)體系生態(tài)的競(jìng)爭(zhēng)，決勝關(guān)鍵點(diǎn)在于誰(shuí)能夯實(shí)基礎(chǔ)、系統(tǒng)布局，更好迎接AI驅(qū)動(dòng)的"算力時(shí)代"。

近日，在AICC 2023人工智能計(jì)算大會(huì)上，新智元?jiǎng)?chuàng)始人&CEO楊靜在大模型創(chuàng)新主題圓桌論壇，與循環(huán)智能AI負(fù)責(zé)人陳虞君、中國(guó)科學(xué)院自動(dòng)化研究所研究員張家俊、浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華圍繞大模型時(shí)代的智算機(jī)遇、痛點(diǎn)與破局之道展開(kāi)思想碰撞。

與會(huì)嘉賓指出，中國(guó)大模型發(fā)展與應(yīng)用落地仍處于探索時(shí)期，需要在算法、數(shù)據(jù)、算力三方面進(jìn)行創(chuàng)新，通過(guò)用戶反饋和實(shí)踐創(chuàng)新反哺大模型，進(jìn)一步夯實(shí)基礎(chǔ)大模型技術(shù)，推動(dòng)大模型的場(chǎng)景化落地。

以下是圓桌問(wèn)答實(shí)錄整理：

楊靜：百模大戰(zhàn)各顯神通，頭部的玩家結(jié)合自己的優(yōu)勢(shì)布局大模型，也想請(qǐng)各位分享一下各自的大模型業(yè)務(wù)布局。

陳虞君："提升大模型長(zhǎng)文本能力，降低幻覺(jué)問(wèn)題"

循環(huán)智能基于ToB的服務(wù)經(jīng)驗(yàn)，我們希望能夠讓大模型的長(zhǎng)文本能力盡可能在各種企業(yè)應(yīng)用上產(chǎn)生價(jià)值，同時(shí)降低大模型幻覺(jué)問(wèn)題。我們的業(yè)務(wù)也是基于如何提升改善大模型這兩個(gè)能力展開(kāi)的，希望利用這兩個(gè)特性產(chǎn)生一些針對(duì)企業(yè)的更好用的大模型應(yīng)用。

張家俊："打造多模態(tài)大模型，解決實(shí)際問(wèn)題"

我們暫時(shí)還沒(méi)有成立工程實(shí)體，業(yè)務(wù)布局更多的是ToB和ToG。除此之外，我們?cè)谧龆嗄B(tài)大模型，可以更容易地落地行業(yè)場(chǎng)景。我們不強(qiáng)調(diào)是大語(yǔ)言模型或者多模通用，而是在實(shí)際場(chǎng)景當(dāng)中解決實(shí)際問(wèn)題，通過(guò)我們的探索，確實(shí)比以前降本增效了，之前解決不了的問(wèn)題能夠解決了。

吳韶華："筑基基礎(chǔ)大模型，助力行業(yè)落地"

浪潮信息始終把精力投入在基礎(chǔ)模型創(chuàng)新層面，全面的賦能應(yīng)用層的開(kāi)發(fā)者、元腦生態(tài)伙伴去觸達(dá)最終的用戶。我們認(rèn)為當(dāng)前在大模型領(lǐng)域，只有先把基礎(chǔ)模型能力真正提上去了，大模型在行業(yè)應(yīng)用層面才能真正解決碎片化的問(wèn)題，才能更好的支撐行業(yè)場(chǎng)景的落地。

楊靜：基礎(chǔ)大模型發(fā)展的技術(shù)突破口是什么？我們應(yīng)該如何破局，才能創(chuàng)造出高性能的大模型，盡快追趕上GPT4？

吳韶華："算法數(shù)據(jù)雙創(chuàng)新，打造內(nèi)部飛輪"

如果想接近甚至超越GPT4的能力，一定要同時(shí)考慮算法和數(shù)據(jù)。首先是算法，不能一味的使用LIama結(jié)構(gòu)或者Transformer結(jié)構(gòu)，而不做任何創(chuàng)新。其次是數(shù)據(jù)，OpenAI的數(shù)據(jù)飛輪效應(yīng)是非常顯著的，他們可以通過(guò)各種途徑收集非常多的實(shí)際用戶的真實(shí)反饋。在這種情況下，想要接近甚至超過(guò)GPT4的核心是創(chuàng)新，尤其是算法和數(shù)據(jù)兩方面的創(chuàng)新。

基于源2.0的實(shí)踐，為了獲取高質(zhì)量的中文數(shù)學(xué)數(shù)據(jù)，我們清洗了從2018年至今約12PB的數(shù)據(jù)，最后僅得到10GB的中文數(shù)學(xué)數(shù)據(jù)。而這不到10GB數(shù)據(jù)還有很大的質(zhì)量提升的空間。對(duì)此，我們選擇用大模型合成數(shù)據(jù)，構(gòu)建了內(nèi)部的數(shù)據(jù)清洗工具和平臺(tái)，利用工具快速實(shí)現(xiàn)了內(nèi)部獲取非常緊缺的數(shù)據(jù)、高質(zhì)量的數(shù)據(jù)。

張家?。?quot;跟隨無(wú)法超越，大膽創(chuàng)新、大膽嘗試，利用專長(zhǎng)能力解決實(shí)際問(wèn)題"

在追趕和超越GPT4的過(guò)程中，我們面臨著不知道它的算法，不知道用了哪些數(shù)據(jù)的問(wèn)題，這使得我們無(wú)法跟隨和全面驗(yàn)證GPT4，只能在某些數(shù)據(jù)集上，在某些能力上超越了GPT4，沒(méi)有一個(gè)全面的、公認(rèn)的度量標(biāo)準(zhǔn)。所以跟隨它永遠(yuǎn)超越不了，我覺(jué)得應(yīng)該是創(chuàng)新。一方面要從數(shù)據(jù)配比層面創(chuàng)新，另外從模型算法創(chuàng)新，在模型結(jié)構(gòu)上大膽嘗試、大膽變化，跟隨是解決不了根本問(wèn)題的。

值得注意的是，我們并不一定需要達(dá)到GPT4的能力才能將技術(shù)應(yīng)用于實(shí)際場(chǎng)景中，比如我們解決了模態(tài)方面的理解問(wèn)題，解決了可控性，安全性的問(wèn)題，很多領(lǐng)域都可以用，沒(méi)有必須達(dá)到GPT4的能力。

陳虞君："以終為始，加強(qiáng)用戶共創(chuàng)，發(fā)現(xiàn)模型局限性問(wèn)題，實(shí)現(xiàn)創(chuàng)新突破"

對(duì)于大模型來(lái)說(shuō)不存在真正意義上的突破點(diǎn)，比如沒(méi)有大模型技術(shù)之前，谷歌的機(jī)器翻譯做的就很好了。不同的問(wèn)題會(huì)有不同的臨界點(diǎn)，我們需要具體分析，有些問(wèn)題可能大模型可以直接解決，而有些問(wèn)題則可能需要長(zhǎng)時(shí)間的迭代。其次，我們不應(yīng)只追求如何追趕或者超越GPT4，從構(gòu)建、訓(xùn)練一個(gè)大模型的角度來(lái)說(shuō)，我們更應(yīng)該去思考怎么樣讓大模型理解人類的意圖，讓大模型真正幫助我們完成任務(wù)。

我們以終為始去看這個(gè)問(wèn)題，發(fā)現(xiàn)當(dāng)前的模型存在很多局限性，比如不能支持長(zhǎng)文本、存在幻覺(jué)、語(yǔ)義理解輸出不穩(wěn)定，包括GPT4也存在一些局限。這塊我們做了兩方面努力，一方面，所以我們孵化了一家ToC的公司，與所有使用模型的用戶進(jìn)行共創(chuàng)。另一方面，我們也廣泛的和我們B端的合作伙伴進(jìn)行共創(chuàng)，讓模型在合作伙伴身上產(chǎn)生價(jià)值。我們相信，只有盡可能多的使用模型，才能知道模型的局限點(diǎn)在哪里，才能夠有所創(chuàng)新突破。

楊靜：目前堆算力一直被認(rèn)為是驅(qū)動(dòng)大模型進(jìn)化的有效手段，但是算力荒已經(jīng)成為業(yè)界共有的問(wèn)題，從貴公司的發(fā)展?fàn)顩r來(lái)看，對(duì)于創(chuàng)新基礎(chǔ)設(shè)施，提升大模型訓(xùn)練效率層面有哪些可以分享的經(jīng)驗(yàn)？

陳虞君："用盡可能少的真實(shí)的數(shù)據(jù)實(shí)現(xiàn)盡可能好的訓(xùn)練效果"

算力荒現(xiàn)在是普遍存在的問(wèn)題，OpenAI也會(huì)存在算力荒。我們能夠做的就是在盡可能少的資源的情況下，能夠通過(guò)算法、數(shù)據(jù)上的創(chuàng)新，來(lái)應(yīng)對(duì)這一問(wèn)題。我們可以利用盡可能少的真實(shí)的數(shù)據(jù)實(shí)現(xiàn)盡可能好的效果，我們節(jié)省了很多算力的情況下達(dá)到了相近或者更好的效果這種形式。從算法上來(lái)說(shuō)我們借助非常好的訓(xùn)練方法，讓模型盡可能需要少的算力的情況下達(dá)到盡可能好的效果。

張家?。?quot;算力是重要因素，但算力荒不會(huì)阻礙創(chuàng)新"

算力在訓(xùn)練大模型時(shí)確實(shí)是一個(gè)重要因素，OpenAI使用大算力訓(xùn)練出的模型表現(xiàn)確實(shí)優(yōu)于小算力訓(xùn)練出來(lái)的小模型，這是公認(rèn)的事實(shí)。然而，這并不意味著我們必須擁有與OpenAI相當(dāng)?shù)乃懔Σ拍苓M(jìn)行創(chuàng)新，算力不會(huì)阻礙我們的創(chuàng)新。盡管我們可能需要訓(xùn)練更長(zhǎng)的時(shí)間，比如OpenAI訓(xùn)練兩個(gè)月的時(shí)間我們需要訓(xùn)練半年，但只要我們擁有適當(dāng)?shù)乃惴ê蛿?shù)據(jù)，我們?nèi)匀豢梢詫?shí)現(xiàn)創(chuàng)新。

吳韶華："大模型結(jié)構(gòu)、分布式訓(xùn)練算法、數(shù)據(jù)協(xié)同優(yōu)化，降低算力需求"

這個(gè)問(wèn)題的本質(zhì)在于大模型訓(xùn)練時(shí)，大家普遍認(rèn)為算力越大模型性能越高，但實(shí)際上這個(gè)觀念主要來(lái)自于早期的研究，當(dāng)模型參數(shù)量和數(shù)據(jù)量增大時(shí)，模型的精度會(huì)有所提升。但這種提升會(huì)被折算到算力上，導(dǎo)致形成了算力越大模型性能越高的觀念。但現(xiàn)在的大模型訓(xùn)練范式已經(jīng)發(fā)生了變化，引入了指令微調(diào)，幾千條高質(zhì)量的數(shù)據(jù)就可以提升模型能力，所以是否需要在預(yù)訓(xùn)練階段投入大量算力成為了一個(gè)問(wèn)題。

根據(jù)開(kāi)發(fā)源2.0的經(jīng)驗(yàn)來(lái)看，我們清洗了互聯(lián)網(wǎng)上12PB的數(shù)據(jù)，只得到了10GB的中文數(shù)學(xué)數(shù)據(jù)。在這種情況下追求數(shù)據(jù)的體量沒(méi)有意義，如果能夠找到有效的手段把數(shù)據(jù)量降下來(lái)，算力需求就會(huì)降下來(lái)。在源2.0的開(kāi)發(fā)過(guò)程中，我們整體數(shù)據(jù)體量并不大，但是內(nèi)部評(píng)估質(zhì)量非常高，這是提升算力效率的一個(gè)非常有效的手段。同時(shí)在設(shè)計(jì)模型結(jié)構(gòu)的時(shí)候，在相同的架構(gòu)下盡可能降低參數(shù)量，這樣能提升參數(shù)效率，也能節(jié)省算力，相當(dāng)于從算法層面考慮算力的開(kāi)銷。除此之外，目前成型的分布式訓(xùn)練算法，實(shí)現(xiàn)的前提是芯片之間的P2P帶寬要足夠高，要滿足張量并行對(duì)于通信巨大的需求。對(duì)于這種情況，我們針對(duì)算力大規(guī)模分布訓(xùn)練做了額外的工作，可以降低大模型訓(xùn)練過(guò)程中對(duì)于通信帶寬的需求，可以用更多樣化的設(shè)備訓(xùn)練大模型。

楊靜：大型預(yù)訓(xùn)練模型已經(jīng)展現(xiàn)出了強(qiáng)大的性能，但在行業(yè)中的應(yīng)用仍然面臨一些挑戰(zhàn)，如部署、定制化、數(shù)據(jù)隱私和安全性等問(wèn)題。那么，大家認(rèn)為大型預(yù)訓(xùn)練模型應(yīng)如何走向行業(yè)并發(fā)揮其潛力呢？

陳虞君："攜手合作伙伴、行業(yè)專家教授大模型行業(yè)知識(shí)"

循環(huán)智能從2019年開(kāi)始做商業(yè)化落地，一直在思考如何實(shí)現(xiàn)AI模型落地行業(yè)，所以在推出相關(guān)產(chǎn)品的時(shí)候，也關(guān)注了一些包括銀行、保險(xiǎn)、汽車、房產(chǎn)等在內(nèi)的十個(gè)左右的行業(yè)需求。今年在使用大模型去解決各個(gè)行業(yè)問(wèn)題的時(shí)候，我們發(fā)現(xiàn)大模型落地一個(gè)比較有挑戰(zhàn)的點(diǎn)是每個(gè)行業(yè)都有不一樣的專業(yè)知識(shí)和knowhow，比如法律公司對(duì)模型的輸出準(zhǔn)確性要求非常高，需要模型讀懂整篇的法律法規(guī)，并且必須一字不差地輸出法規(guī)內(nèi)容，同時(shí)需要模型記住法律法規(guī)對(duì)應(yīng)的章節(jié)號(hào)；而在房地產(chǎn)營(yíng)銷的場(chǎng)景，通過(guò)對(duì)銷售與客戶溝通場(chǎng)景的抽取，我們發(fā)現(xiàn)類似于"200的500"這種的行業(yè)"黑話"，代表了房子面積是200平米，對(duì)應(yīng)的是500萬(wàn)的價(jià)格；而對(duì)于金融行業(yè)需要理解財(cái)報(bào)表格信息，這些都是大模型落地行業(yè)過(guò)程中我們遇到的問(wèn)題。所以實(shí)現(xiàn)大模型落地行業(yè)的最重要的一個(gè)步驟，就是和合作伙伴、行業(yè)專家一起去教授大模型行業(yè)知識(shí)。同時(shí)，我們也在構(gòu)建一個(gè)合作的形式，能夠讓盡可能多的合作伙伴加入一起打造大模型，通過(guò)大量的客戶反饋，發(fā)現(xiàn)模型當(dāng)前存在的問(wèn)題，找到下階段的進(jìn)化方向。

張家俊："放低姿態(tài)，用戶預(yù)期管理，多接觸，多耐心"

第一，放低姿態(tài)。我們的大模型是讓大家拿去直接用的，很多場(chǎng)景下我們要放低自己的姿態(tài)。第二，用戶預(yù)期管理。我們需要給出一個(gè)解決問(wèn)題所需時(shí)間的預(yù)期，因?yàn)椴煌袠I(yè)會(huì)有各種不同的問(wèn)題需要解決，我們要避免給客戶過(guò)高的預(yù)期，實(shí)事求是地解決問(wèn)題。第三，多接觸。讓大家多使用，發(fā)現(xiàn)問(wèn)題、解決問(wèn)題，從用戶反饋的角度會(huì)越來(lái)越好。第四，多耐心。不管做大模型，還是作為用戶，培養(yǎng)大家多耐心，未來(lái)肯定越來(lái)越好。

吳韶華："大模型共訓(xùn)，賦能開(kāi)發(fā)者觸達(dá)應(yīng)用場(chǎng)景"

對(duì)于源2.0模型來(lái)說(shuō)，我們推出大模型共訓(xùn)計(jì)劃，這個(gè)計(jì)劃的核心出發(fā)點(diǎn)希望能夠讓我們的研發(fā)團(tuán)隊(duì)，能夠接觸到所有的開(kāi)發(fā)者。開(kāi)發(fā)者提出自己的應(yīng)用或場(chǎng)景的需求，提供1~2條示例，由我們來(lái)準(zhǔn)備訓(xùn)練數(shù)據(jù)并對(duì)源大模型進(jìn)行增強(qiáng)訓(xùn)練，訓(xùn)練后的模型依然在社區(qū)開(kāi)源。同時(shí)，我們還有另外一種形式，浪潮信息會(huì)賦能合作伙伴，把我們?cè)谀Ｐ湍芰ι系慕?jīng)驗(yàn)提供給他們，助力伙伴們把這些應(yīng)用到行業(yè)當(dāng)中。

楊靜：現(xiàn)如今大家都面臨著算力緊缺的問(wèn)題，大模型訓(xùn)練也離不開(kāi)充足算力的支持。所以請(qǐng)問(wèn)各位嘉賓，目前看到或者正在做哪些工作來(lái)適應(yīng)算力多元化的時(shí)代趨勢(shì)的？

陳虞君："避免算力重復(fù)和浪費(fèi)，集中行業(yè)知識(shí)合作共訓(xùn)"

大家的訓(xùn)練應(yīng)該是合作共訓(xùn)的邏輯，不同的行業(yè)會(huì)有不同的知識(shí)，我們應(yīng)該盡可能地匯聚這些知識(shí)，利用有限的算力資源共訓(xùn)，這樣就能夠達(dá)到節(jié)省算力的地步，避免大量算力的重復(fù)和浪費(fèi)。

張家?。?quot;不會(huì)把雞蛋放在一個(gè)籃子里，走國(guó)產(chǎn)化大模型之路"

我們的做法是不會(huì)把雞蛋放在一個(gè)籃子里，我們也會(huì)用到國(guó)內(nèi)外的各種算力。我們從2020年開(kāi)始走國(guó)產(chǎn)化的大模型道路，一直堅(jiān)持這條路，幾乎國(guó)內(nèi)所有的芯片算力都適配過(guò)，這樣可以保證我們有能力保留訓(xùn)練大模型的方案。

吳韶華："從系統(tǒng)層面應(yīng)對(duì)算力多元化趨勢(shì)"

浪潮信息開(kāi)發(fā)了一套框架，利用這套框架里面的一層，可以專門管理各類算力，我們從系統(tǒng)的角度為業(yè)界面向多元算力提供一個(gè)方案。

消息來(lái)源：浪潮信息