浪潮信息發(fā)布源2.0基礎大模型，千億參數(shù)全面開源

浪潮信息

2023-11-27 19:30 11291

北京2023年11月27日 /美通社/ -- 11月27日，浪潮信息發(fā)布"源2.0"基礎大模型，并宣布全面開源。源2.0基礎大模型包括1026億、518億、21億等三種參數(shù)規(guī)模的模型，在編程、推理、邏輯等方面展示出了先進的能力。

當前，大模型技術正在推動生成式人工智能產業(yè)迅猛發(fā)展，而基礎大模型的關鍵能力則是大模型在行業(yè)和應用落地能力表現(xiàn)的核心支撐，但基礎大模型的發(fā)展也面臨著在算法、數(shù)據(jù)和算力等方面的諸多挑戰(zhàn)。源2.0基礎大模型則針對性地提出了新的改進方法并獲得了能力的提升。

算法方面，源2.0提出并采用了一種新型的注意力算法結構：局部注意力過濾增強機制(LFA：Localized Filtering-based Attention)。LFA通過先學習相鄰詞之間的關聯(lián)性，然后再計算全局關聯(lián)性的方法，能夠更好地學習到自然語言的局部和全局的語言特征，對于自然語言的關聯(lián)語義理解更準確、更人性，提升了模型的自然語言表達能力，進而提升了模型精度。

數(shù)據(jù)方面，源2.0通過使用中英文書籍、百科、論文等高質量中英文資料，降低了互聯(lián)網語料內容占比，結合高效的數(shù)據(jù)清洗流程，為大模型訓練提供了高質量的專業(yè)數(shù)據(jù)集和邏輯推理數(shù)據(jù)集。為了獲取中文數(shù)學數(shù)據(jù)，我們清洗了從2018年至今約12PB的互聯(lián)網數(shù)據(jù)，但僅獲取到了約10GB的數(shù)學數(shù)據(jù)，投入巨大，收益較小。為了更高效地獲得相對匱乏的高質量中文數(shù)學及代碼數(shù)據(jù)集，源2.0采用了基于大模型的數(shù)據(jù)生產及過濾方法，在保證數(shù)據(jù)的多樣性的同時也在每一個類別上提升數(shù)據(jù)質量，獲取了一批高質量的數(shù)學與代碼預訓練數(shù)據(jù)。

算力方面，源2.0采用了非均勻流水并行的方法，綜合運用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行的策略，讓模型在流水并行各階段的顯存占用量分布更均衡，避免出現(xiàn)顯存瓶頸導致的訓練效率降低的問題，該方法顯著降低了大模型對芯片間P2P帶寬的需求，為硬件差異較大訓練環(huán)境提供了一種高性能的訓練方法。