OGAI詳解：AIStation調度平臺如何實現(xiàn)大模型高效長時間持續(xù)訓練

浪潮信息

2023-09-15 14:51 5062

北京2023年9月15日 /美通社/ -- 大模型是當前通用人工智能產業(yè)發(fā)展創(chuàng)新的核心技術，目前國內已發(fā)布的生成式AI模型超過了100個。面向以大模型為核心的生成式AI開發(fā)與應用場景，近日浪潮信息發(fā)布了大模型智算軟件棧OGAI（Open GenAI Infra）——"元腦生智"，為大模型業(yè)務提供了全棧全流程的智算軟件棧，包括AI算力系統(tǒng)環(huán)境部署、算力調度保障、模型開發(fā)管理等。OGAI軟件棧由5層架構組成，從L0到L4分別對應于基礎設施層的智算中心OS產品、系統(tǒng)環(huán)境層的PODsys產品、調度平臺層的AIStation產品、模型工具層的YLink產品和多模納管層的MModel產品。

其中L2層AIStation是面向大模型開發(fā)的AI算力調度平臺，AIStation針對大模型訓練中的資源使用與調度、訓練流程與保障、算法與應用管理等方面進行了系統(tǒng)性優(yōu)化，具備大模型斷點續(xù)訓能力，保證長時間持續(xù)訓練。AIStation支撐浪潮信息"源"大模型的訓練算力效率達到44.8%。某大型商業(yè)銀行基于AIStation打造的大規(guī)模并行運算集群，幫助其充分發(fā)掘計算潛能進行大模型訓練，并榮獲2022 IDC"未來數(shù)字基礎架構領軍者"獎項。

本文將重點討論大模型訓練面臨的挑戰(zhàn)、AIStation如何提升大模型訓練效率，以及取得的效果。

一、大模型訓練面臨巨大挑戰(zhàn)

1.大模型訓練巨大算力成本和算力利用難題

大模型訓練要面對的首要挑戰(zhàn)就是海量數(shù)據(jù)和計算量，算力開銷巨大，如GPT-3是在10000個GPU上訓練得到的，"源1.0"模型是在2128個GPU上通過AIStation平臺完成1800億tokens的訓練，訓練一個萬億token的700億參數(shù)模型將花費上百萬美元。但計算平臺的性能通常不能隨著算力線性增長，而是會出現(xiàn)耗損，因此大模型訓練還需要高效的算力調度來發(fā)揮算力平臺的效能。而這不僅需要依賴算法、框架的優(yōu)化，還需要借助高效的算力調度平臺，以根據(jù)算力集群的硬件特點和計算負載特性實現(xiàn)最優(yōu)化的算力調度，整體提高算力利用率和訓練效率。

2.耗時且維護復雜的多種網絡兼容適配

大模型訓練過程中，成千上萬顆GPU會在節(jié)點內和節(jié)點間不斷地進行通信。為了獲得最優(yōu)的訓練效果，單臺GPU服務器會搭載多張InfiniBand、ROCE等高性能網卡，為節(jié)點間通信提供高吞吐、低時延的服務。但不同的網絡方案各有優(yōu)劣，InfiniBand因性能優(yōu)異已被公認為大模型訓練的首選，但其成本較高；RoCE雖然成本較低，但在大規(guī)模的網絡環(huán)境下，其性能和穩(wěn)定性不如InfiniBand方案。因此要想滿足大模型訓練對通信的要求，就要對集群網絡中的通信設備適配使用和網絡情況進行探索和設計。

3.不穩(wěn)定的大模型訓練和高門檻的系統(tǒng)級別優(yōu)化

大模型訓練過程比傳統(tǒng)的分布式訓練復雜，訓練周期長達數(shù)月。集群計算效力低、故障頻發(fā)且處理復雜，會導致訓練中斷后不能及時恢復，從而會降低大模型訓練的成功概率，也會使得大模型訓練成本居高不下。因此，大模型對訓練的穩(wěn)定性、故障檢測與訓練容錯提出了更高的要求。同時簡化大模型分布式任務提交、實現(xiàn)智能與自動化的任務資源匹配和訓練健壯性也是提升訓練效率的重要保證。

Meta在訓練模型體量與GPT3規(guī)模相當?shù)腛pen Pre-trained Transformer (OPT)-175B時，遇到的一大工程問題就是訓練不穩(wěn)定。如下圖所示，可以看到有許多訓練停止的時間節(jié)點，原因有GPU掉卡、GPU性能異常導致訓練意外中斷等。訓練穩(wěn)定性和有效的斷點續(xù)訓是目前大模型訓練中亟待解決的問題。

總之，在超大規(guī)模分布式環(huán)境下開展大模型訓練，如果想要縮短訓練周期、降低訓練成本，就需要解決算力調度、網絡通信、訓練穩(wěn)定性等各種挑戰(zhàn)。不僅要靈活、充分地利用集群內的所有資源，通過多種手段優(yōu)化數(shù)據(jù)使用、通訊，還要及時處理大規(guī)模計算集群的異常。

二、AIStation全流程簡化和提速大模型訓練

浪潮信息AIStation提供了系統(tǒng)性軟硬一體優(yōu)化的平臺與軟件棧能力，來保障大模型的訓練需求。AIStation平臺從資源使用與調度、訓練流程與保障、算法與應用等角度進行了系統(tǒng)性的優(yōu)化，實現(xiàn)了對大模型訓練的端到端優(yōu)化和加速。

AIStation全面支撐與保障大模型業(yè)務

1. 毫秒級調度，高效使用大規(guī)模算力，解決算力利用低難題

AIStation在大模型訓練實踐中，針對云原生調度系統(tǒng)性能做了優(yōu)化，實現(xiàn)了上千POD極速啟動和環(huán)境就緒。如下表所示，AIStation調度器與原生社區(qū)版相比，能大幅提升大規(guī)模POD任務的調度性能，尤其能保證大模型訓練的計算資源的調度使用。

表1 大規(guī)模POD調度任務性能對比

	社區(qū)調度器	AIStation調度器	效果對比
1000 pod 吞吐量	4.97 (pods/s)	26.31 (pods/s)	POD吞吐量提升5倍
1000 pod調度時延/500節(jié)點	100346 ms	18523 ms	時延下降5倍

此外，AIStation平臺能夠支持大模型特有的開發(fā)模式，提供多種尺度作業(yè)資源使用方式，包括小尺度資源調度，大尺度資源調度、高性能調度等。算力調度器通過動態(tài)、智能地管理和調配集群計算資源，制定合理的作業(yè)執(zhí)行計劃，以最大限度地利用資源，滿足各類訓練任務的時延和吞吐需求，保證作業(yè)高效穩(wěn)定運行，實現(xiàn)算力平臺高利用率、強擴展性、高容錯性。

通過多種資源高效管理和調度策略，AIStation能實現(xiàn)毫秒級調度，將整體資源利用率提升到70%以上，幫助客戶更好地利用計算集群算力，充分發(fā)揮算力價值。

2.高效網絡資源管理，多卡加速比達90%，極致加速訓練過程

AIStation定義了互相獨立的計算高性能網絡、存儲高性能網絡，并且支持交換機級別的資源調度，減少跨交換機流量，同時具備網絡故障自動識別和處理功能。針對大模型訓練通信要求高的場景，AIStation提供集群拓撲感知能力，容器網絡與集群物理網絡一致，保證了容器互聯(lián)性能，滿足訓練通信要求。分布式通信優(yōu)化結合集群的InfiniBand或 RoCE高性能網絡和專門優(yōu)化的通信拓撲，使得AIStation在千卡規(guī)模集群測試中，多卡加速比達到了90%。尤其AIStation對大規(guī)模RoCE無損網絡下的大模型訓練也做了相應優(yōu)化，實測網絡性能穩(wěn)定性達到了業(yè)界較高水平。

借助AIStation平臺，某大型商業(yè)銀行實現(xiàn)了主流大模型訓練框架，如DeepSpeed、Megatron-LM和大語言模型在RoCE網絡環(huán)境的訓練，快速實現(xiàn)大模型的落地實踐。

3.大規(guī)模訓練系統(tǒng)級別優(yōu)化，故障處理時間縮短90%，最大限度降低實驗成本

大模型任務提交時，經常會伴隨著大量的環(huán)境配置、依賴庫適配和超參數(shù)調整。AIStation能夠自動化配置計算、存儲、網絡環(huán)境，同時對一些基本的超參數(shù)提供自定義修改，方便用戶使用，通過幾步就能啟動大模型分布式訓練，目前支持諸多大模型訓練框架和開源方案，如Megatron-LM、DeepSpeed等。

AIStation上快速部署Megatron-LM，提供訓練全過程保障

AIStation在大規(guī)模訓練集群上利用自研數(shù)據(jù)緩存系統(tǒng)，提高了訓練前、訓練中的數(shù)據(jù)讀取速率，大大減少對存儲系統(tǒng)和網絡的依賴。配合優(yōu)化的調度策略，與直接使用存儲系統(tǒng)相比，可讓模型訓練效率獲得200%-300%的提升，硬件性能100%釋放。

健壯性與穩(wěn)定性是高效完成大模型訓練的必要條件。AIStation針對資源故障等集群突發(fā)情況，會自動進行容錯處理或者執(zhí)行彈性擴縮容策略，保證訓練任務中斷后能以最快速度恢復，為需要長時間訓練的大模型提供可靠環(huán)境，平均將異常故障處理時間縮短90%以上。

大規(guī)模預訓練任務的異常處理和斷點續(xù)訓流程

綜上，針對大規(guī)模分布式計算，AIStation內置分布式訓練自適應系統(tǒng)，覆蓋訓練的全生命周期，滿足了大模型訓練的諸多訴求，提供資源使用視圖、計算與網絡調度策略、分布式訓練加速、訓練監(jiān)控、訓練容錯與自愈能力，在加速訓練的同時，能夠自動定位故障和恢復任務，保證了訓練的穩(wěn)定性和效率。某銀行客戶在AIStation智能容錯的機制保障下，在極其嚴苛的業(yè)務投產測試中能夠實現(xiàn)快速故障排查和恢復，大幅降低業(yè)務投產上線時間。

三、AIStation助力行業(yè)提升大模型開發(fā)效率

AIStation平臺在AI開發(fā)、應用部署和大模型工程實踐上積累了寶貴的經驗和技術，幫助諸多行業(yè)客戶在資源、開發(fā)、部署層面實現(xiàn)降本增效。在垂直行業(yè)領域，AIStation平臺幫助頭部金融客戶、生物制藥服務公司快速利用密集數(shù)據(jù)訓練、驗證大模型，大大降低大模型業(yè)務成本。某大型商業(yè)銀行基于AIStation打造的并行運算集群，憑借領先的大規(guī)模分布式訓練支撐能力，榮獲2022 IDC"未來數(shù)字基礎架構領軍者"獎項。

浪潮信息AIStation在大模型方面已經取得了諸多業(yè)界領先的經驗和積累，實現(xiàn)了端到端的優(yōu)化，是更適合大模型時代的人工智能平臺。未來AIStation將與浪潮信息OGAI軟件棧一同進化，進一步通過低代碼、標準化的大模型開發(fā)流程，以及低成本和高效的推理服務部署，幫助客戶快速實現(xiàn)大模型開發(fā)和落地，搶占先機。

消息來源：浪潮信息