AICC AI Infra技術(shù)創(chuàng)新圓桌共話大模型時(shí)代的掘金利器

2023-12-20 19:03

北京2023年12月20日 /美通社/ -- 2023年大模型智能應(yīng)用涌現(xiàn)，帶來了大模型工程實(shí)踐的爆發(fā)，在大模型進(jìn)一步落地應(yīng)用過程中，AI Infra作為連接硬件和上層應(yīng)用的中間層基礎(chǔ)設(shè)施，無疑是關(guān)鍵的一環(huán)。

近日，AICC 2023人工智能計(jì)算大會(huì)上，量子位主編方馭洋主持“AI Infra：大模型時(shí)代掘金利器”圓桌論壇，與浪潮信息AI應(yīng)用架構(gòu)師朱紅、潞晨科技副總裁梁爽、始智AI wisemodel創(chuàng)始人兼CEO劉道全、無問芯穹商務(wù)副總裁李楓，圍繞大模型時(shí)代AI Infra概念、行業(yè)地位、發(fā)展挑戰(zhàn)和多元化算力等關(guān)鍵問題展開思想碰撞。

與會(huì)嘉賓指出，AI Infra是支撐AI和大模型的底座，大模型訓(xùn)練和推理是復(fù)雜的系統(tǒng)工程，需要在硬件、軟件以及訓(xùn)練、推理等各個(gè)層面和角度深入優(yōu)化，解決算力成本、訓(xùn)練門檻和多元化算力等挑戰(zhàn)，發(fā)揚(yáng)開源思想，推動(dòng)人工智能快速發(fā)展。

以下是圓桌論壇問答實(shí)錄：

主持人：目前AI Infra的概念并不統(tǒng)一，有人把它定義為AI所需要的全部硬件基礎(chǔ)設(shè)施，有人強(qiáng)調(diào)它是算力層跟應(yīng)用層之間的軟件堆棧，請(qǐng)問各位如何定義AI Infra？在當(dāng)前整個(gè)AI產(chǎn)業(yè)當(dāng)中，扮演著什么樣的角色？

朱紅：從業(yè)界角度來說，大家認(rèn)為AI Infra是硬件之上的軟件層。從浪潮信息的角度來看，應(yīng)用層之下的硬件、軟件都可以納入AI Infra中，也可以稱之為AI中臺(tái)或者AI平臺(tái)。

AI Infra在整個(gè)AI產(chǎn)業(yè)中起著承上啟下的作用，因?yàn)锳I由算力驅(qū)動(dòng)，而算力的發(fā)揮取決于AI Infra層。

梁爽：我覺得AI Infra包含硬件、軟件。大模型一般需要在成千上萬的計(jì)算卡上進(jìn)行分布式訓(xùn)練，用戶如果采用原生軟硬件方案，在海量參數(shù)的情況下可能會(huì)出現(xiàn)顯存溢出，很難把硬件的利用效率發(fā)揮出來。通過數(shù)據(jù)并行、張量模型并行、流水線并行等方式，AI Infra為客戶提供更強(qiáng)的計(jì)算能力，能夠在大模型訓(xùn)練時(shí)高效地把分布式硬件利用起來。同時(shí)，訓(xùn)練大模型的成本可能高達(dá)上千萬，我們的AI Infra目標(biāo)是把訓(xùn)練成本減少一半、時(shí)間減少一半，這也是用戶關(guān)心的點(diǎn)。

劉道全：AI Infra還有一個(gè)更寬泛的范圍，除了前面已提到軟硬件系統(tǒng)，還包括網(wǎng)絡(luò)、存儲(chǔ)等硬件和軟件等。大模型的訓(xùn)練、推理是一個(gè)系統(tǒng)工程，需要在計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等各個(gè)層面優(yōu)化，才能更好地把性能和效率發(fā)揮出來。

從大模型社區(qū)的角度來說，我們現(xiàn)在更多地把模型和數(shù)據(jù)集匯聚起來，后續(xù)還會(huì)把應(yīng)用開發(fā)層、模型訓(xùn)練、部署和推理等相關(guān)的開源工具軟件也匯聚起來，讓大家更容易地獲取和使用，提升工作效率。

李楓：在我們看來，AI Infra是支撐以大模型為代表的AI技術(shù)的底座，包括硬件、軟件、工具鏈和優(yōu)化方法等，是一個(gè)整體解決方案。無問芯穹成立剛剛半年，此前我們公開露面不是很多，業(yè)內(nèi)很多朋友記得我們團(tuán)隊(duì)，就是從“M×N”開始的。我們?cè)贏I Infra上，著眼于軟硬一體的整體解決方案，做從算法到芯片、從芯片集群到模型、再?gòu)哪Ｐ偷綉?yīng)用的三階段“M×N”中間層產(chǎn)品，一方面幫助AI開發(fā)者們克服目前多元異構(gòu)算力初階軟件生態(tài)，以及異構(gòu)算力池的影響，另一方面依托我們行業(yè)領(lǐng)先的AI計(jì)算優(yōu)化能力，助力提高算力的供給水平、持續(xù)降低計(jì)算成本、提高大模型的落地能效。

主持人：隨著大模型熱潮的到來，大家對(duì)于大模型工程實(shí)踐有了更明確的認(rèn)知。大模型訓(xùn)練和推理是一件非常復(fù)雜的事情，需要很多基礎(chǔ)設(shè)施作為支撐，也正因?yàn)榇耍?/span>AI Infra越來越受到關(guān)注，請(qǐng)各位嘉賓談?wù)劥竽Ｐ蛻?yīng)用面臨哪些挑戰(zhàn)？

朱紅：效率是大模型應(yīng)用的核心挑戰(zhàn)，包括剛才提到延遲、速度等都屬于效率范疇。浪潮信息認(rèn)為效率需要從橫向和縱向來看，首先是縱向的效率是AI計(jì)算平臺(tái)的效率如何發(fā)揮出來，是大家非常關(guān)心的點(diǎn)；第二，橫向的效率亦即穩(wěn)定性，無論是訓(xùn)練還是推理都能夠長(zhǎng)期運(yùn)行，這是保障。

浪潮信息的很多工作聚焦在這兩個(gè)層面，也就是怎么解決縱向和橫向的效率問題，然后去推動(dòng)大模型的落地應(yīng)用，這是我們服務(wù)客戶過程中發(fā)現(xiàn)的挑戰(zhàn)和解決思路。

梁爽：對(duì)于客戶來說，AI大模型應(yīng)用的挑戰(zhàn)包括推理延遲、推理速度，以及如何減少推理參數(shù)，還有一些量化技術(shù)。在終端應(yīng)用場(chǎng)景，比如像“智能座艙”，客戶對(duì)于硬件的需求更為敏感，現(xiàn)在智能駕駛大多數(shù)采用高通芯片，能不能實(shí)現(xiàn)大模型推理、推理能不能達(dá)到主流加速卡的效果，這對(duì)于相關(guān)應(yīng)用來說都是非常重要的。這種終端場(chǎng)景的硬件算力是有限的，又牽扯到模型壓縮技術(shù)和推理優(yōu)化，我們也在做推理方面的研發(fā)工作。

劉道全：大模型應(yīng)用最大的問題是應(yīng)用跟模型的脫節(jié)。因?yàn)樽罱K到應(yīng)用層面，需要從業(yè)務(wù)角度去考慮?，F(xiàn)實(shí)是應(yīng)用方面的人員大都不懂模型，而模型方面人員多數(shù)也很難體會(huì)實(shí)際應(yīng)用場(chǎng)景。大模型廠商都想著怎么把模型的通用能力提升起來，但是對(duì)應(yīng)用的理解和認(rèn)知其實(shí)可能遠(yuǎn)遠(yuǎn)不夠。無論是ToB應(yīng)用還是ToC應(yīng)用，每個(gè)環(huán)節(jié)和流程都有很多的業(yè)務(wù)知識(shí)在里面，怎么把這一部分業(yè)務(wù)知識(shí)跟模型能力結(jié)合起來，就需要應(yīng)用和模型開發(fā)人員共同參與進(jìn)來，可能才能真正的解決問題，做出好的應(yīng)用。

現(xiàn)階段始智AI是從社區(qū)切入，能夠更多地了解行業(yè)需求，不管是應(yīng)用端的需求，還是模型層等的需求，最終是希望打通大模型應(yīng)用開發(fā)的環(huán)節(jié)，讓后續(xù)應(yīng)用開發(fā)環(huán)節(jié)不再需要關(guān)心模型怎么調(diào)，模型相關(guān)事務(wù)都可以在平臺(tái)上基本自動(dòng)化的完成，做到應(yīng)用跟模型的分離。這里涉及很多中間環(huán)節(jié)，我們也可以跟潞晨科技、無問芯穹等中間各方合作，一起把中間的環(huán)節(jié)串起來，讓更多的人更方便地使用大模型。

在這個(gè)過程中，開源社區(qū)就有重要地位和作用。開源社區(qū)是行業(yè)信息的匯集地，在從應(yīng)用到底層的框架到更底層芯片的架構(gòu)中起到承上啟下的作用。大模型和中間工具軟件最終還是需要落地應(yīng)用才能創(chuàng)造價(jià)值，整個(gè)過得始終離不開社區(qū)承上啟下的作用。我們未來不會(huì)自己去做應(yīng)用，還是希望在中間聯(lián)合更多合作伙伴把大模型應(yīng)用開發(fā)的環(huán)節(jié)打通，最后讓應(yīng)用變得簡(jiǎn)單，讓AI落地也更簡(jiǎn)單。

李楓：因?yàn)榇竽Ｐ吐涞爻杀竞芨?，做推理很貴，大部分人接受不了這個(gè)價(jià)格，我們利用軟硬一體化優(yōu)勢(shì)，首先把成本降下來，其次軟硬一體化能夠發(fā)揮異構(gòu)算力潛能，可以把模型開發(fā)訓(xùn)練門檻降低，讓更多創(chuàng)造者有能力進(jìn)入這個(gè)領(lǐng)域，這是我們的考慮。

另外，大模型如果想真正在行業(yè)落地，還需要行業(yè)數(shù)據(jù)。這時(shí)候一定需要軟硬結(jié)合，才能去做行業(yè)落地的完整方案，而非僅依靠模型。因?yàn)橐粋€(gè)模型的落地，不足以實(shí)現(xiàn)一個(gè)場(chǎng)景。

主持人：看來大模型應(yīng)用和普及的核心關(guān)鍵是“效率”，各位嘉賓都有著豐富的一線實(shí)踐經(jīng)驗(yàn)，請(qǐng)大家分享一下真正降低大模型普及門檻的著力點(diǎn)，技術(shù)或者是生態(tài)領(lǐng)域都可以談一談。

梁爽：開源大模型框架系統(tǒng)是我們推動(dòng)大模型應(yīng)用和普及的實(shí)際行動(dòng)，也填補(bǔ)了國(guó)內(nèi)相關(guān)技術(shù)空白。AI之所以發(fā)展的如火如荼，與開源精神和無數(shù)開源社區(qū)貢獻(xiàn)者密不可分。潞晨科技開源大模型框架，也是希望能夠把研發(fā)成果共享給大家，讓AI能夠發(fā)展的更好，降低AI的門檻，提升生產(chǎn)力。

劉道全：首先，解決剛才提到的應(yīng)用跟模型脫節(jié)的問題，關(guān)鍵是促進(jìn)應(yīng)用層和模型層之間的互動(dòng)交流，這需要讓更多應(yīng)用場(chǎng)景里的人參與到大模型應(yīng)用的開發(fā)中。

第二，數(shù)據(jù)質(zhì)量比較好的場(chǎng)景，也是大模型落地更容易的方向，比如銀行、金融、電商等領(lǐng)域，還有工業(yè)領(lǐng)域已經(jīng)實(shí)現(xiàn)IoT數(shù)據(jù)采集和自動(dòng)化的場(chǎng)景等，總體上有了高質(zhì)量的數(shù)據(jù)，就有大模型應(yīng)用落地更好的基礎(chǔ)。

第三，目前大模型應(yīng)用的聚焦點(diǎn)更多的還是AI技術(shù)領(lǐng)域，而對(duì)于核心場(chǎng)景應(yīng)用需求的挖掘還不夠，未來在應(yīng)用場(chǎng)景和需求方向上做更多的探索。

主持人：除了開源軟件包括框架層面的進(jìn)展，我們現(xiàn)在面臨著一個(gè)很大問題，就是算力的緊缺，從軟硬件結(jié)合角度，有哪些可以努力改進(jìn)的地方？

朱紅：開源確實(shí)是促進(jìn)AI產(chǎn)業(yè)發(fā)展、推動(dòng)行業(yè)落地的很關(guān)鍵的一步，對(duì)于整個(gè)產(chǎn)業(yè)推動(dòng)也是很大。浪潮信息目前也在嘗試把自身工作以類似的方式推出去，加速大模型的應(yīng)用和普及，降低行業(yè)應(yīng)用門檻。

李楓：針對(duì)算力緊缺的問題，首先要“把能用的算力用得更好”，可以從推理端進(jìn)行更多量化，通過減少模型的存儲(chǔ)空間和計(jì)算需求來提高推理效率，使得同樣算力可以跑更多的模型。第二，“把以前利用不了的算力用起來”，也就是對(duì)于模型訓(xùn)練考慮異構(gòu)化，通過異構(gòu)計(jì)算平臺(tái)把更多的算力使用起來。

主持人：當(dāng)前大模型訓(xùn)練等底層支撐面臨算力多元化的挑戰(zhàn)，現(xiàn)在從AI Infra層面考慮還是要做更多元化的適配。目前各位是否有相關(guān)技術(shù)布局？

朱紅：多元算力支撐是現(xiàn)在非常熱的話題，也是浪潮信息持續(xù)關(guān)注的方向。我們兩年前發(fā)布“源 1.0”大模型之后，就開始考慮在推理階段適配更多推理硬件，也落地了一些實(shí)際工作，能夠把當(dāng)時(shí)百億規(guī)模模型，高效地推理跑起來?，F(xiàn)在，“源 2.0”也在做各種硬件適配。

當(dāng)然，模型訓(xùn)練也是我們重點(diǎn)關(guān)注的方向，我們也在與比較有潛力的算力提供方進(jìn)行更多優(yōu)化工作，也引入了開源工作。目的是希望無論是商業(yè)化軟硬件方案，還是硬件+開源軟件的方案，我們都能夠支持用戶又快又好地把訓(xùn)練、推理跑起來。

梁爽：我們已經(jīng)適配了比較多的硬件。相比國(guó)外，國(guó)內(nèi)的多元算力在算子數(shù)量、生態(tài)系統(tǒng)等方面確實(shí)存在差距。這時(shí)，就需要多元算力廠商和用戶一起去做研發(fā)適配，爭(zhēng)取能夠盡快地趕上。

劉道全：適配工作其實(shí)并不是我們自己去做，我們目前和一些多元算力廠商的探索更多是生態(tài)層面的合作。社區(qū)可以作為一個(gè)很好的入口，讓大家可以先體驗(yàn)一下多元算力的能力，這也是比較重要，特別是很多偏應(yīng)用的中小企業(yè)，很多可能還沒有使用過多元算力。體驗(yàn)之后才能更好地了解相關(guān)芯片在推理和訓(xùn)練方面的能力。

李楓：我們的布局核心是“M×N”中間層。其中“M”和“N”都是指多元適配，在硬件側(cè)支持多種芯片，在模型側(cè)支持多種大模型，這一中間層具備大模型推理引擎、訓(xùn)練引擎、異構(gòu)算力評(píng)測(cè)等能力，使大模型算法能運(yùn)行在多種芯片上，并實(shí)現(xiàn)最優(yōu)訓(xùn)練與推理效率，相當(dāng)于是在大模型和不同芯片之間搭建了橋梁。

消息來源：浪潮信息