日韩人妻毛片中文字幕-亚洲精品无码永久在线观看男男-在线精品视频一区二区三四-婷婷六月在线精品免费视频观看-欧亚一区二区三区av-欧美与黑人午夜性猛交久久久-爱v久久久噜噜噜久久久噜噜-色老头久久久久久久久久-亚洲免费综合一二三四五区

新聞中心

聯(lián)系我們

了解更多詳細(xì)信息,請致電

020-38815864

地址:廣州市天河區(qū)燕嶺路120號823
電話:020-38815864
郵箱:cs@cs003.vip

國產(chǎn)十萬卡訓(xùn)推集群:昇騰芯片 + MoE 調(diào)度算法,AIDC 支持千億參數(shù)模型訓(xùn)練


發(fā)布時間:2025-12-30


當(dāng)通用人工智能浪潮席卷全球,大模型的參數(shù)規(guī)模與訓(xùn)練算力需求呈指數(shù)級增長,千億乃至萬億參數(shù)模型已成為技術(shù)競爭的核心賽道。在此背景下,依賴國外芯片與架構(gòu)的算力體系始終面臨"卡脖子"風(fēng)險(xiǎn)。如今,國產(chǎn)十萬卡訓(xùn)推集群的橫空出世,以昇騰芯片為硬件底座、MoE調(diào)度算法為智能引擎,依托人工智能數(shù)據(jù)中心(AIDC)的基礎(chǔ)設(shè)施支撐,成功實(shí)現(xiàn)千億參數(shù)模型的高效訓(xùn)練,標(biāo)志著我國在超大規(guī)模算力集群領(lǐng)域完成關(guān)鍵突破,構(gòu)建起自主可控的AI算力生態(tài)。


硬件底座:昇騰芯片構(gòu)建規(guī)模化算力基石

算力集群的核心競爭力始于硬件芯片,昇騰系列AI芯片以全棧自主創(chuàng)新打破國外壟斷,為十萬卡級集群提供了堅(jiān)實(shí)的硬件支撐。與傳統(tǒng)芯片簡單堆疊不同,昇騰采用創(chuàng)新性的超節(jié)點(diǎn)架構(gòu)設(shè)計(jì),其中昇騰384超節(jié)點(diǎn)通過高速互聯(lián)總線實(shí)現(xiàn)384顆NPU的全對等互聯(lián),摒棄了以CPU為中心的傳統(tǒng)架構(gòu),使計(jì)算單元直接互訪,實(shí)現(xiàn)全局TB級內(nèi)存統(tǒng)一編址,通信能力較傳統(tǒng)架構(gòu)提升10倍,徹底解決了大規(guī)模集群的通信瓶頸。

這種硬件架構(gòu)的突破帶來了顯著的性能躍升:昇騰384超節(jié)點(diǎn)采用全液冷設(shè)計(jì)與光互聯(lián)技術(shù),算力密度較傳統(tǒng)架構(gòu)提升3倍,能效比優(yōu)化40%,單節(jié)點(diǎn)性能已超越國際同類產(chǎn)品。在此基礎(chǔ)上,通過最佳負(fù)載均衡組網(wǎng)方案,可將多個超節(jié)點(diǎn)組成數(shù)萬卡的Atlas 900 SuperCluster集群,而甘肅慶陽十萬卡國產(chǎn)算力集群的啟動建設(shè),更將這一規(guī)模推向新高度,其整體算力突破10萬P,聚焦"訓(xùn)推一體"能力,可覆蓋大模型從預(yù)訓(xùn)練到推理的全生命周期。實(shí)測數(shù)據(jù)顯示,基于昇騰集群的LLaMA3等千億稠密模型性能較傳統(tǒng)集群提升2.5倍以上,在MoE類模型上性能提升可達(dá)3倍,展現(xiàn)出強(qiáng)大的硬件潛力。


智能引擎:MoE調(diào)度算法破解規(guī)模擴(kuò)張難題

如果說昇騰芯片是十萬卡集群的"肌肉",那么MoE(混合專家)調(diào)度算法就是驅(qū)動這副肌肉高效運(yùn)轉(zhuǎn)的"智慧大腦"。隨著大模型參數(shù)規(guī)模邁向千億級,傳統(tǒng)稠密模型的計(jì)算成本呈指數(shù)級增長,而MoE模型通過動態(tài)激活部分專家的稀疏計(jì)算特性,成為平衡性能與成本的核心路徑,但隨之而來的專家負(fù)載不均、跨節(jié)點(diǎn)通信開銷大等問題,成為制約大規(guī)模集群應(yīng)用的關(guān)鍵瓶頸。
國產(chǎn)團(tuán)隊(duì)針對這些痛點(diǎn)展開算法創(chuàng)新,構(gòu)建了多層次的系統(tǒng)優(yōu)化體系。華為提出的H2P分層混合并行架構(gòu),借鑒"專項(xiàng)小組"高效協(xié)作模式,對模型不同模塊實(shí)施精準(zhǔn)并行策略:Attention模塊采用DP2+TP4組合方案減少通信量,Expert模塊設(shè)計(jì)TP2+EP4模式解決負(fù)載均衡,共享專家層采用TP8全芯片并行最大化效率,使Decode階段吞吐性能較傳統(tǒng)方案提升33.1%。在通信優(yōu)化層面,TopoComm拓?fù)涓兄ㄐ欧桨竿ㄟ^SlimRing算法減少35%的同步次數(shù),結(jié)合NHD分級傳輸機(jī)制提升21%的鏈路帶寬,將AllGather通信耗時降低39%。而DuoStream通算融合方案則實(shí)現(xiàn)計(jì)算與通信的細(xì)粒度并發(fā),使Expert模塊的通信掩蓋率提升至85%以上,硬件利用率提升40%。

這些算法創(chuàng)新已得到實(shí)踐驗(yàn)證:華為昇騰平臺通過DSSN穩(wěn)定架構(gòu)與TinyInit小初始化方法,成功完成7180億參數(shù)的盤古Ultra MoE模型全流程訓(xùn)練,萬卡集群預(yù)訓(xùn)練的MFU(模型計(jì)算利用率)從30%提升至41%;Pangu Pro MoE 72B模型在昇騰平臺上實(shí)現(xiàn)推理性能6至8倍的跨越式提升,單卡解碼吞吐峰值達(dá)321 tokens/s,充分證明了國產(chǎn)MoE調(diào)度算法的領(lǐng)先性。


生態(tài)支撐:AIDC構(gòu)建全鏈路訓(xùn)練保障體系

十萬卡訓(xùn)推集群的高效運(yùn)行,離不開人工智能數(shù)據(jù)中心(AIDC)的基礎(chǔ)設(shè)施支撐。國產(chǎn)AIDC通過算力互聯(lián)、存儲優(yōu)化、全鏈路運(yùn)維等核心能力,為千億參數(shù)模型訓(xùn)練提供了穩(wěn)定可靠的環(huán)境,更實(shí)現(xiàn)了算力資源的跨域整合與高效利用。
在算力互聯(lián)方面,上海AI實(shí)驗(yàn)室研發(fā)的DeepLink技術(shù)方案與運(yùn)營商AINET算力智聯(lián)網(wǎng)深度融合,成功將相隔1500公里的上海與濟(jì)南智算中心互聯(lián),完成千億參數(shù)模型混訓(xùn),等效算力達(dá)單集群單芯片算力的95%以上。基于中國電信息壤算網(wǎng),更是在不到10G帶寬的條件下實(shí)現(xiàn)北京、上海、貴州三地智算中心互聯(lián),等效算力保持90%以上,這意味著國內(nèi)任意兩地的AIDC都可通過該方案整合算力,為十萬卡級集群提供彈性擴(kuò)展能力。

在基礎(chǔ)設(shè)施保障上,中國移動哈爾濱智算中心作為標(biāo)志性工程,部署超1.8萬張國產(chǎn)AI加速卡,通過參數(shù)面與數(shù)據(jù)面分離的RDMA組網(wǎng)技術(shù),實(shí)現(xiàn)"萬卡并行訓(xùn)練 + 分鐘級斷點(diǎn)續(xù)訓(xùn)",其自研的智算管控平臺可實(shí)現(xiàn)算力、存儲、網(wǎng)絡(luò)的全鏈路可視化運(yùn)維。北京昇騰人工智能計(jì)算中心則基于MindSpore框架與MindFormers套件,實(shí)現(xiàn)主流開源模型的快速適配,支持企業(yè)用戶通過160張卡集群開展二次預(yù)訓(xùn)練,大幅降低行業(yè)開發(fā)者的技術(shù)門檻。


產(chǎn)業(yè)價值:重塑國產(chǎn)AI算力生態(tài)格局

國產(chǎn)十萬卡訓(xùn)推集群的落地,不僅破解了千億參數(shù)模型訓(xùn)練的算力瓶頸,更具有深遠(yuǎn)的產(chǎn)業(yè)意義。在技術(shù)層面,它實(shí)現(xiàn)了從芯片、算法到基礎(chǔ)設(shè)施的全棧自主創(chuàng)新,打破了國外在超大規(guī)模算力領(lǐng)域的壟斷,證明了"非摩爾補(bǔ)摩爾、數(shù)學(xué)補(bǔ)物理"的系統(tǒng)工程創(chuàng)新路徑的可行性。在產(chǎn)業(yè)層面,該集群已開始支撐金融、政務(wù)、工業(yè)等垂直領(lǐng)域的AI落地:浦發(fā)銀行基于昇騰千卡算力集群部署多種主流大模型,實(shí)現(xiàn)200多個AI應(yīng)用場景落地;北京昇騰AIDC已孵化多個金融、政務(wù)領(lǐng)域行業(yè)大模型,推動AI技術(shù)從通用領(lǐng)域向行業(yè)深度滲透。
展望未來,隨著Atlas 960 SuperCluster等百萬卡級集群的規(guī)劃推進(jìn),國產(chǎn)算力規(guī)模將實(shí)現(xiàn)新的突破。當(dāng)規(guī)模達(dá)到當(dāng)前10倍乃至更大的AI模型出現(xiàn)時,AIDC的跨域算力整合能力將避免天價新建超大型智算中心的成本,通過"低成本組合"滿足未來算力需求。國產(chǎn)十萬卡訓(xùn)推集群所奠定的技術(shù)基礎(chǔ)與生態(tài)優(yōu)勢,將為我國在通用人工智能時代的競爭提供核心算力保障,推動AI產(chǎn)業(yè)實(shí)現(xiàn)高質(zhì)量發(fā)展。

返回上一頁
  • 返回頂部
  • 020-38815864
  • 微信咨詢
    關(guān)注我們