北京2025年3月20日 /美通社/ -- 浪潮信息宣布推出元腦CPU推理服務(wù)器,可高效運(yùn)行DeepSeek和千問QwQ等新一代大推理模型。元腦CPU推理服務(wù)器NF8260G7和NF8480G7設(shè)計(jì)采用4顆高性能通用CPU和多通道內(nèi)存系統(tǒng),通過先進(jìn)的張量并行策略和AMX加速技術(shù),單機(jī)即可高效運(yùn)行DeepSeek-R1 32B和QwQ-32B推理模型,單用戶性能超20 tokens/s,可同時(shí)處理20個(gè)并發(fā)用戶請求,是企業(yè)快速、易獲得、低投入部署上線大模型平臺的理想算力選擇,將加速DeepSeek帶動下AI落地普及速度。
大模型行業(yè)應(yīng)用落地加速,DeepSeek-R1 32B、QwQ-32B等模型中文能力見長,并在理解能力和知識儲備上有顯著優(yōu)勢,是企業(yè)平衡性能和部署成本的最佳模型選擇。元腦CPU推理服務(wù)器僅基于通用處理器進(jìn)行軟硬協(xié)同優(yōu)化,可為企業(yè)32B模型推理與云計(jì)算、數(shù)據(jù)庫等通用關(guān)鍵業(yè)務(wù)場景融合提供更高效、更靈活、更穩(wěn)定的AI通用算力支撐。
隨著DeepSeek等大模型在企業(yè)場景中的應(yīng)用日趨廣泛,以及與企業(yè)業(yè)務(wù)系統(tǒng)的融合更加緊密,CPU服務(wù)器憑借其獨(dú)特優(yōu)勢成為中小規(guī)模并發(fā)場景部署DeepSeek的最佳選擇。CPU服務(wù)器具備卓越的通用性和靈活性,可同時(shí)支持AI推理、云計(jì)算、數(shù)據(jù)庫等多種工作負(fù)載,避免了專用AI硬件的使用局限,為大模型應(yīng)用與現(xiàn)有IT基礎(chǔ)設(shè)施的融合提供了更加靈活、經(jīng)濟(jì)的方案選擇,使企業(yè)能夠以較低的硬件投入快速實(shí)現(xiàn)大模型應(yīng)用落地。
在企業(yè)部署大模型的過程中,參數(shù)規(guī)模與其應(yīng)用場景息息相關(guān)。浪潮信息與IDC聯(lián)合發(fā)布的《2025年中國人工智能計(jì)算力發(fā)展評估報(bào)告》顯示,目前92%企業(yè)使用的生成式人工智能模型平均參數(shù)量小于50B。一般而言,671B等超大規(guī)模參數(shù)的模型性能更強(qiáng),但對硬件資源要求高,部署成本昂貴;而32B級模型在理解能力和知識儲備上有顯著優(yōu)勢,能夠平衡性能和部署成本。以業(yè)界32B模型為例,DeepSeek-R1 32B在知識問答、智能寫作、內(nèi)容生成等方面表現(xiàn)優(yōu)秀,QwQ-32B則在數(shù)學(xué)推理、編程任務(wù)和長文本處理等方面的性能優(yōu)異。DeepSeek-R1 32B和QwQ-32B的訓(xùn)練數(shù)據(jù)中包含海量的高質(zhì)量中文語料庫,會更加適合于國內(nèi)企業(yè)應(yīng)用,而Llama 70B主要基于英文語料進(jìn)行訓(xùn)練,對中文用戶而言不夠友好。因此,大多數(shù)企業(yè)應(yīng)用場景中,如企業(yè)知識庫問答、文檔寫作、會議紀(jì)要整理等場景,32B參數(shù)級別的模型往往是最佳選擇,既能提供強(qiáng)大的能力支持,又能保持合理的硬件投入。
目前元腦CPU推理服務(wù)器NF8260G7和NF8480G7基于通用處理器架構(gòu)進(jìn)行軟硬協(xié)同優(yōu)化,已經(jīng)完成與DeepSeek-R1 32B和QwQ-32B等大模型的深度適配和優(yōu)化。元腦CPU推理服務(wù)器通過采用先進(jìn)的張量并行策略和AMX加速技術(shù),業(yè)界主流企業(yè)級大模型推理服務(wù)框架,實(shí)現(xiàn)多處理器并行計(jì)算,并使用AWQ(激活感知權(quán)重量化)技術(shù),進(jìn)一步提升推理解碼性能,成功實(shí)現(xiàn)單用戶最高20tokens/s的最佳性能,為企業(yè)的AI大模型部署應(yīng)用帶來流暢體驗(yàn)。
面對CPU服務(wù)器部署大模型面臨算力和帶寬方面的挑戰(zhàn),元腦CPU推理服務(wù)器采用了多項(xiàng)創(chuàng)新技術(shù)。
當(dāng)前,元腦服務(wù)器研發(fā)團(tuán)隊(duì)正與業(yè)內(nèi)團(tuán)隊(duì)密切合作,在計(jì)算架構(gòu)、算子調(diào)優(yōu)、并行策略、框架適配、調(diào)度管理等多個(gè)方面持續(xù)發(fā)力,旨在為用戶帶來高效、穩(wěn)定的DeepSeek等大模型部署方案,助力大模型快速落地應(yīng)用。