omniture

AICC AI Infra技術(shù)創(chuàng)新圓桌 共話大模型時(shí)代的掘金利器

2023-12-20 19:03

北京2023年12月20日 /美通社/ -- 2023年大模型智能應(yīng)用涌現(xiàn),帶來了大模型工程實(shí)踐的爆發(fā),在大模型進(jìn)一步落地應(yīng)用過程中,AI Infra作為連接硬件和上層應(yīng)用的中間層基礎(chǔ)設(shè)施,無疑是關(guān)鍵的一環(huán)。

近日,AICC 2023人工智能計(jì)算大會(huì)上,量子位主編方馭洋主持“AI Infra:大模型時(shí)代掘金利器”圓桌論壇,與浪潮信息AI應(yīng)用架構(gòu)師朱紅、潞晨科技副總裁梁爽、始智AI wisemodel創(chuàng)始人兼CEO劉道全、無問芯穹商務(wù)副總裁李楓,圍繞大模型時(shí)代AI Infra概念、行業(yè)地位、發(fā)展挑戰(zhàn)和多元化算力等關(guān)鍵問題展開思想碰撞。

與會(huì)嘉賓指出,AI Infra是支撐AI和大模型的底座,大模型訓(xùn)練和推理是復(fù)雜的系統(tǒng)工程,需要在硬件、軟件以及訓(xùn)練、推理等各個(gè)層面和角度深入優(yōu)化,解決算力成本、訓(xùn)練門檻和多元化算力等挑戰(zhàn),發(fā)揚(yáng)開源思想,推動(dòng)人工智能快速發(fā)展。


以下是圓桌論壇問答實(shí)錄:

主持人:目前AI Infra的概念并不統(tǒng)一,有人把它定義為AI所需要的全部硬件基礎(chǔ)設(shè)施,有人強(qiáng)調(diào)它是算力層跟應(yīng)用層之間的軟件堆棧,請(qǐng)問各位如何定義AI Infra?在當(dāng)前整個(gè)AI產(chǎn)業(yè)當(dāng)中,扮演著什么樣的角色?

朱紅:從業(yè)界角度來說,大家認(rèn)為AI Infra是硬件之上的軟件層。從浪潮信息的角度來看,應(yīng)用層之下的硬件、軟件都可以納入AI Infra中,也可以稱之為AI中臺(tái)或者AI平臺(tái)。

AI Infra在整個(gè)AI產(chǎn)業(yè)中起著承上啟下的作用,因?yàn)锳I由算力驅(qū)動(dòng),而算力的發(fā)揮取決于AI Infra層。

梁爽:我覺得AI Infra包含硬件、軟件。大模型一般需要在成千上萬的計(jì)算卡上進(jìn)行分布式訓(xùn)練,用戶如果采用原生軟硬件方案,在海量參數(shù)的情況下可能會(huì)出現(xiàn)顯存溢出,很難把硬件的利用效率發(fā)揮出來。通過數(shù)據(jù)并行、張量模型并行、流水線并行等方式,AI Infra為客戶提供更強(qiáng)的計(jì)算能力,能夠在大模型訓(xùn)練時(shí)高效地把分布式硬件利用起來。同時(shí),訓(xùn)練大模型的成本可能高達(dá)上千萬,我們的AI Infra目標(biāo)是把訓(xùn)練成本減少一半、時(shí)間減少一半,這也是用戶關(guān)心的點(diǎn)。

劉道全:AI Infra還有一個(gè)更寬泛的范圍,除了前面已提到軟硬件系統(tǒng),還包括網(wǎng)絡(luò)、存儲(chǔ)等硬件和軟件等。大模型的訓(xùn)練、推理是一個(gè)系統(tǒng)工程,需要在計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等各個(gè)層面優(yōu)化,才能更好地把性能和效率發(fā)揮出來。

從大模型社區(qū)的角度來說,我們現(xiàn)在更多地把模型和數(shù)據(jù)集匯聚起來,后續(xù)還會(huì)把應(yīng)用開發(fā)層、模型訓(xùn)練、部署和推理等相關(guān)的開源工具軟件也匯聚起來,讓大家更容易地獲取和使用,提升工作效率。

李楓:在我們看來,AI Infra是支撐以大模型為代表的AI技術(shù)的底座,包括硬件、軟件、工具鏈和優(yōu)化方法等,是一個(gè)整體解決方案。無問芯穹成立剛剛半年,此前我們公開露面不是很多,業(yè)內(nèi)很多朋友記得我們團(tuán)隊(duì),就是從“M×N”開始的。我們?cè)贏I Infra上,著眼于軟硬一體的整體解決方案,做從算法到芯片、從芯片集群到模型、再?gòu)哪P偷綉?yīng)用的三階段“M×N”中間層產(chǎn)品,一方面幫助AI開發(fā)者們克服目前多元異構(gòu)算力初階軟件生態(tài),以及異構(gòu)算力池的影響,另一方面依托我們行業(yè)領(lǐng)先的AI計(jì)算優(yōu)化能力,助力提高算力的供給水平、持續(xù)降低計(jì)算成本、提高大模型的落地能效。

主持人:隨著大模型熱潮的到來,大家對(duì)于大模型工程實(shí)踐有了更明確的認(rèn)知。大模型訓(xùn)練和推理是一件非常復(fù)雜的事情,需要很多基礎(chǔ)設(shè)施作為支撐,也正因?yàn)榇耍?/span>AI Infra越來越受到關(guān)注,請(qǐng)各位嘉賓談?wù)劥竽P蛻?yīng)用面臨哪些挑戰(zhàn)?

朱紅:效率是大模型應(yīng)用的核心挑戰(zhàn),包括剛才提到延遲、速度等都屬于效率范疇。浪潮信息認(rèn)為效率需要從橫向和縱向來看,首先是縱向的效率是AI計(jì)算平臺(tái)的效率如何發(fā)揮出來,是大家非常關(guān)心的點(diǎn);第二,橫向的效率亦即穩(wěn)定性,無論是訓(xùn)練還是推理都能夠長(zhǎng)期運(yùn)行,這是保障。

浪潮信息的很多工作聚焦在這兩個(gè)層面,也就是怎么解決縱向和橫向的效率問題,然后去推動(dòng)大模型的落地應(yīng)用,這是我們服務(wù)客戶過程中發(fā)現(xiàn)的挑戰(zhàn)和解決思路。

梁爽:對(duì)于客戶來說,AI大模型應(yīng)用的挑戰(zhàn)包括推理延遲、推理速度,以及如何減少推理參數(shù),還有一些量化技術(shù)。在終端應(yīng)用場(chǎng)景,比如像“智能座艙”,客戶對(duì)于硬件的需求更為敏感,現(xiàn)在智能駕駛大多數(shù)采用高通芯片,能不能實(shí)現(xiàn)大模型推理、推理能不能達(dá)到主流加速卡的效果,這對(duì)于相關(guān)應(yīng)用來說都是非常重要的。這種終端場(chǎng)景的硬件算力是有限的,又牽扯到模型壓縮技術(shù)和推理優(yōu)化,我們也在做推理方面的研發(fā)工作。

劉道全:大模型應(yīng)用最大的問題是應(yīng)用跟模型的脫節(jié)。因?yàn)樽罱K到應(yīng)用層面,需要從業(yè)務(wù)角度去考慮?,F(xiàn)實(shí)是應(yīng)用方面的人員大都不懂模型,而模型方面人員多數(shù)也很難體會(huì)實(shí)際應(yīng)用場(chǎng)景。大模型廠商都想著怎么把模型的通用能力提升起來,但是對(duì)應(yīng)用的理解和認(rèn)知其實(shí)可能遠(yuǎn)遠(yuǎn)不夠。無論是ToB應(yīng)用還是ToC應(yīng)用,每個(gè)環(huán)節(jié)和流程都有很多的業(yè)務(wù)知識(shí)在里面,怎么把這一部分業(yè)務(wù)知識(shí)跟模型能力結(jié)合起來,就需要應(yīng)用和模型開發(fā)人員共同參與進(jìn)來,可能才能真正的解決問題,做出好的應(yīng)用。

現(xiàn)階段始智AI是從社區(qū)切入,能夠更多地了解行業(yè)需求,不管是應(yīng)用端的需求,還是模型層等的需求,最終是希望打通大模型應(yīng)用開發(fā)的環(huán)節(jié),讓后續(xù)應(yīng)用開發(fā)環(huán)節(jié)不再需要關(guān)心模型怎么調(diào),模型相關(guān)事務(wù)都可以在平臺(tái)上基本自動(dòng)化的完成,做到應(yīng)用跟模型的分離。這里涉及很多中間環(huán)節(jié),我們也可以跟潞晨科技、無問芯穹等中間各方合作,一起把中間的環(huán)節(jié)串起來,讓更多的人更方便地使用大模型。

在這個(gè)過程中,開源社區(qū)就有重要地位和作用。開源社區(qū)是行業(yè)信息的匯集地,在從應(yīng)用到底層的框架到更底層芯片的架構(gòu)中起到承上啟下的作用。大模型和中間工具軟件最終還是需要落地應(yīng)用才能創(chuàng)造價(jià)值,整個(gè)過得始終離不開社區(qū)承上啟下的作用。我們未來不會(huì)自己去做應(yīng)用,還是希望在中間聯(lián)合更多合作伙伴把大模型應(yīng)用開發(fā)的環(huán)節(jié)打通,最后讓應(yīng)用變得簡(jiǎn)單,讓AI落地也更簡(jiǎn)單。

李楓:因?yàn)榇竽P吐涞爻杀竞芨?,做推理很貴,大部分人接受不了這個(gè)價(jià)格,我們利用軟硬一體化優(yōu)勢(shì),首先把成本降下來,其次軟硬一體化能夠發(fā)揮異構(gòu)算力潛能,可以把模型開發(fā)訓(xùn)練門檻降低,讓更多創(chuàng)造者有能力進(jìn)入這個(gè)領(lǐng)域,這是我們的考慮。

另外,大模型如果想真正在行業(yè)落地,還需要行業(yè)數(shù)據(jù)。這時(shí)候一定需要軟硬結(jié)合,才能去做行業(yè)落地的完整方案,而非僅依靠模型。因?yàn)橐粋€(gè)模型的落地,不足以實(shí)現(xiàn)一個(gè)場(chǎng)景。

主持人:看來大模型應(yīng)用和普及的核心關(guān)鍵是“效率”,各位嘉賓都有著豐富的一線實(shí)踐經(jīng)驗(yàn),請(qǐng)大家分享一下真正降低大模型普及門檻的著力點(diǎn),技術(shù)或者是生態(tài)領(lǐng)域都可以談一談。

梁爽:開源大模型框架系統(tǒng)是我們推動(dòng)大模型應(yīng)用和普及的實(shí)際行動(dòng),也填補(bǔ)了國(guó)內(nèi)相關(guān)技術(shù)空白。AI之所以發(fā)展的如火如荼,與開源精神和無數(shù)開源社區(qū)貢獻(xiàn)者密不可分。潞晨科技開源大模型框架,也是希望能夠把研發(fā)成果共享給大家,讓AI能夠發(fā)展的更好,降低AI的門檻,提升生產(chǎn)力。

劉道全:首先,解決剛才提到的應(yīng)用跟模型脫節(jié)的問題,關(guān)鍵是促進(jìn)應(yīng)用層和模型層之間的互動(dòng)交流,這需要讓更多應(yīng)用場(chǎng)景里的人參與到大模型應(yīng)用的開發(fā)中。

第二,數(shù)據(jù)質(zhì)量比較好的場(chǎng)景,也是大模型落地更容易的方向,比如銀行、金融、電商等領(lǐng)域,還有工業(yè)領(lǐng)域已經(jīng)實(shí)現(xiàn)IoT數(shù)據(jù)采集和自動(dòng)化的場(chǎng)景等,總體上有了高質(zhì)量的數(shù)據(jù),就有大模型應(yīng)用落地更好的基礎(chǔ)。

第三,目前大模型應(yīng)用的聚焦點(diǎn)更多的還是AI技術(shù)領(lǐng)域,而對(duì)于核心場(chǎng)景應(yīng)用需求的挖掘還不夠,未來在應(yīng)用場(chǎng)景和需求方向上做更多的探索。

主持人:除了開源軟件包括框架層面的進(jìn)展,我們現(xiàn)在面臨著一個(gè)很大問題,就是算力的緊缺,從軟硬件結(jié)合角度,有哪些可以努力改進(jìn)的地方?

朱紅:開源確實(shí)是促進(jìn)AI產(chǎn)業(yè)發(fā)展、推動(dòng)行業(yè)落地的很關(guān)鍵的一步,對(duì)于整個(gè)產(chǎn)業(yè)推動(dòng)也是很大。浪潮信息目前也在嘗試把自身工作以類似的方式推出去,加速大模型的應(yīng)用和普及,降低行業(yè)應(yīng)用門檻。

李楓:針對(duì)算力緊缺的問題,首先要“把能用的算力用得更好”,可以從推理端進(jìn)行更多量化,通過減少模型的存儲(chǔ)空間和計(jì)算需求來提高推理效率,使得同樣算力可以跑更多的模型。第二,“把以前利用不了的算力用起來”,也就是對(duì)于模型訓(xùn)練考慮異構(gòu)化,通過異構(gòu)計(jì)算平臺(tái)把更多的算力使用起來。

主持人:當(dāng)前大模型訓(xùn)練等底層支撐面臨算力多元化的挑戰(zhàn),現(xiàn)在從AI Infra層面考慮還是要做更多元化的適配。目前各位是否有相關(guān)技術(shù)布局?

朱紅:多元算力支撐是現(xiàn)在非常熱的話題,也是浪潮信息持續(xù)關(guān)注的方向。我們兩年前發(fā)布“源 1.0”大模型之后,就開始考慮在推理階段適配更多推理硬件,也落地了一些實(shí)際工作,能夠把當(dāng)時(shí)百億規(guī)模模型,高效地推理跑起來?,F(xiàn)在,“源 2.0”也在做各種硬件適配。

當(dāng)然,模型訓(xùn)練也是我們重點(diǎn)關(guān)注的方向,我們也在與比較有潛力的算力提供方進(jìn)行更多優(yōu)化工作,也引入了開源工作。目的是希望無論是商業(yè)化軟硬件方案,還是硬件+開源軟件的方案,我們都能夠支持用戶又快又好地把訓(xùn)練、推理跑起來。

梁爽:我們已經(jīng)適配了比較多的硬件。相比國(guó)外,國(guó)內(nèi)的多元算力在算子數(shù)量、生態(tài)系統(tǒng)等方面確實(shí)存在差距。這時(shí),就需要多元算力廠商和用戶一起去做研發(fā)適配,爭(zhēng)取能夠盡快地趕上。

劉道全:適配工作其實(shí)并不是我們自己去做,我們目前和一些多元算力廠商的探索更多是生態(tài)層面的合作。社區(qū)可以作為一個(gè)很好的入口,讓大家可以先體驗(yàn)一下多元算力的能力,這也是比較重要,特別是很多偏應(yīng)用的中小企業(yè),很多可能還沒有使用過多元算力。體驗(yàn)之后才能更好地了解相關(guān)芯片在推理和訓(xùn)練方面的能力。

李楓:我們的布局核心是“M×N”中間層。其中“M”和“N”都是指多元適配,在硬件側(cè)支持多種芯片,在模型側(cè)支持多種大模型,這一中間層具備大模型推理引擎、訓(xùn)練引擎、異構(gòu)算力評(píng)測(cè)等能力,使大模型算法能運(yùn)行在多種芯片上,并實(shí)現(xiàn)最優(yōu)訓(xùn)練與推理效率,相當(dāng)于是在大模型和不同芯片之間搭建了橋梁。

消息來源:浪潮信息