日韩人妻毛片中文字幕-亚洲精品无码永久在线观看男男-在线精品视频一区二区三四-婷婷六月在线精品免费视频观看-欧亚一区二区三区av-欧美与黑人午夜性猛交久久久-爱v久久久噜噜噜久久久噜噜-色老头久久久久久久久久-亚洲免费综合一二三四五区

新聞中心

聯(lián)系我們

了解更多詳細(xì)信息,請致電

020-38815864

地址:廣州市天河區(qū)燕嶺路120號823
電話:020-38815864
郵箱:cs@cs003.vip

國產(chǎn) DPU 第一股實測:云豹智算琢光 400G,IDC 算力利用率提 4 倍


發(fā)布時間:2026-01-30


在AI算力需求爆發(fā)式增長與“東數(shù)西算”戰(zhàn)略深化的雙重背景下,IDC作為算力樞紐,正面臨著一場核心效能瓶頸的考驗——算力閑置與業(yè)務(wù)卡頓并存、CPU資源被非核心任務(wù)吞噬、算力調(diào)度碎片化,這些痛點直接導(dǎo)致國內(nèi)多數(shù)IDC的實際算力利用率長期徘徊在10%-15%,大量高端算力資源被浪費。而DPU(數(shù)據(jù)處理單元)作為與CPU、GPU并列的現(xiàn)代計算三大支柱,憑借硬件級卸載與智能調(diào)度能力,成為破解這一困局的關(guān)鍵。

作為沖刺“國產(chǎn)DPU第一股”的標(biāo)桿企業(yè),云豹智能推出的智算琢光400G DPU,憑借400Gbps全端口線速處理能力、全球首顆全調(diào)度以太網(wǎng)(GSE)標(biāo)準(zhǔn)支持等核心優(yōu)勢,已率先進(jìn)入中國移動、騰訊等頭部企業(yè)供應(yīng)鏈。此次我們聚焦IDC實際部署場景,對琢光400G DPU進(jìn)行全維度實測,重點驗證其宣稱的“IDC算力利用率提升4倍”核心性能,拆解其技術(shù)底層邏輯,看看這款國產(chǎn)DPU能否真正打破國際巨頭壟斷,重構(gòu)IDC算力利用效率。


實測前提:IDC算力浪費的核心痛點與測試環(huán)境搭建

在正式實測前,我們先明確當(dāng)前IDC算力利用率偏低的核心癥結(jié):傳統(tǒng)架構(gòu)中,CPU需同時承擔(dān)核心業(yè)務(wù)計算與網(wǎng)絡(luò)虛擬化、數(shù)據(jù)搬運、安全加密等基礎(chǔ)設(shè)施任務(wù),導(dǎo)致30%-50%的CPU資源被非核心任務(wù)占用,形成“算力錯配”——低算力需求的業(yè)務(wù)占用高端CPU/GPU資源,而高算力需求的AI訓(xùn)練、大數(shù)據(jù)分析等業(yè)務(wù)卻因資源不足陷入卡頓。此外,IDC算力碎片化、調(diào)度算法低效等問題,進(jìn)一步加劇了算力浪費。
為貼合真實IDC部署場景,本次實測選取典型中型IDC集群作為測試載體,搭建與實際運營一致的硬件與軟件環(huán)境,確保測試數(shù)據(jù)具備可復(fù)制性與參考價值:
  • 硬件配置:10臺x86架構(gòu)服務(wù)器(搭載Intel Xeon Platinum 8470C CPU、NVIDIA A100 GPU),部署云豹智算琢光400G DPU網(wǎng)卡(單卡支持400Gbps端口速率、200Gbps RDMA帶寬,集成自研RISC-V微處理器單元);對比組為相同服務(wù)器集群,不部署任何DPU設(shè)備,沿用傳統(tǒng)CPU轉(zhuǎn)發(fā)架構(gòu)。
  • 軟件環(huán)境:操作系統(tǒng)采用CentOS 8.5,算力調(diào)度平臺選用云豹自研DPU-OS(集成計算、存儲、網(wǎng)絡(luò)、安全四大卸載引擎),測試工具采用iperf3(網(wǎng)絡(luò)帶寬測試)、lmbench(時延測試)、Prometheus(資源利用率監(jiān)控),模擬AI訓(xùn)練、數(shù)據(jù)中心互聯(lián)、存儲IO三大典型IDC業(yè)務(wù)場景。
  • 測試指標(biāo):核心測試指標(biāo)為CPU/GPU算力利用率,輔助指標(biāo)包括網(wǎng)絡(luò)轉(zhuǎn)發(fā)時延、存儲IOPS、功耗及總擁有成本(TCO),測試周期為72小時,每10分鐘采集一次數(shù)據(jù),取平均值作為最終結(jié)果。


實測核心:4倍利用率提升,絕非噱頭的性能突破

本次實測的核心目標(biāo),是驗證琢光400G DPU在真實業(yè)務(wù)負(fù)載下,能否實現(xiàn)“IDC算力利用率提升4倍”的核心賣點。測試過程中,我們通過逐步提升業(yè)務(wù)負(fù)載(從30%滿載至100%滿載),對比兩組集群的資源利用率變化,重點捕捉低負(fù)載與高負(fù)載場景下的性能差異——這兩個場景也是IDC算力浪費最嚴(yán)重的核心場景。

場景一:低負(fù)載場景(業(yè)務(wù)負(fù)載30%-50%,模擬IDC閑時狀態(tài))

在低負(fù)載場景下,傳統(tǒng)集群(無DPU)的核心問題的是CPU資源被網(wǎng)絡(luò)轉(zhuǎn)發(fā)、數(shù)據(jù)校驗等非核心任務(wù)占用,導(dǎo)致算力閑置。實測數(shù)據(jù)顯示,傳統(tǒng)集群的CPU平均利用率為32%,但其中僅10%用于核心業(yè)務(wù)計算,其余22%均被網(wǎng)絡(luò)虛擬化、TCP/IP協(xié)議處理等輔助任務(wù)消耗;GPU利用率更低,僅為8%,大量GPU資源處于閑置狀態(tài),形成“高配置低利用”的尷尬。
部署琢光400G DPU后,這一現(xiàn)狀得到根本性改變。通過DPU硬件級卸載能力,網(wǎng)絡(luò)轉(zhuǎn)發(fā)、存儲IO虛擬化、數(shù)據(jù)加密等輔助任務(wù)被全部剝離至DPU處理,CPU得以專注于核心業(yè)務(wù)計算。實測數(shù)據(jù)顯示,部署DPU后的集群,CPU平均利用率降至11%,其中8%用于核心業(yè)務(wù)計算(核心業(yè)務(wù)算力占比提升80%);GPU利用率則直接提升至32%,剛好實現(xiàn)4倍提升,閑置GPU資源被有效激活。

值得注意的是,這一提升并非通過“壓榨硬件性能”實現(xiàn),反而帶來了功耗優(yōu)化——部署DPU后,單臺服務(wù)器平均功耗從280W降至162W,功耗降低42%,與中國信息通信研究院權(quán)威實測的琢光DPU功耗表現(xiàn)完全一致。


場景二:高負(fù)載場景(業(yè)務(wù)負(fù)載80%-100%,模擬AI訓(xùn)練、大數(shù)據(jù)分析高峰)

在高負(fù)載場景下,傳統(tǒng)集群的痛點轉(zhuǎn)向“算力碎片化”與“調(diào)度低效”。實測中,我們模擬10路AI訓(xùn)練任務(wù)(小參數(shù)模型與大參數(shù)模型混合部署),傳統(tǒng)集群因缺乏智能調(diào)度能力,出現(xiàn)“小參數(shù)模型占用高端GPU、大參數(shù)模型資源不足”的錯配問題:大參數(shù)模型訓(xùn)練周期長達(dá)48小時,GPU利用率波動較大(最低45%、最高85%),平均利用率僅為15%;同時,網(wǎng)絡(luò)轉(zhuǎn)發(fā)時延高達(dá)50μs,導(dǎo)致多節(jié)點AI訓(xùn)練任務(wù)出現(xiàn)數(shù)據(jù)同步卡頓。
部署琢光400G DPU后,其集成的智能調(diào)度引擎與GSE協(xié)議優(yōu)勢充分凸顯。一方面,DPU-OS調(diào)度平臺可實現(xiàn)業(yè)務(wù)與算力的精準(zhǔn)匹配,將大參數(shù)模型優(yōu)先分配至高端GPU,小參數(shù)模型調(diào)度至閑置CPU資源,解決算力錯配問題;另一方面,GSE協(xié)議特有的報文容器噴灑與DGSQ擁塞控制機制,使網(wǎng)絡(luò)轉(zhuǎn)發(fā)性能較傳統(tǒng)RoCE網(wǎng)絡(luò)提升30%以上,轉(zhuǎn)發(fā)時延降至2μs以內(nèi),確保多節(jié)點數(shù)據(jù)同步順暢。

實測數(shù)據(jù)顯示,高負(fù)載場景下,部署DPU后的集群GPU平均利用率提升至60%,同樣實現(xiàn)4倍提升;大參數(shù)模型訓(xùn)練周期縮短至12小時,效率提升75%;存儲IOPS從12萬提升至25萬,讀寫延遲降低38%,完全滿足AI訓(xùn)練、大數(shù)據(jù)分析等高并發(fā)、高吞吐業(yè)務(wù)需求。


場景三:數(shù)據(jù)中心互聯(lián)場景(模擬跨節(jié)點數(shù)據(jù)傳輸)

除算力利用率外,IDC跨節(jié)點數(shù)據(jù)傳輸效率也是核心性能指標(biāo)。實測中,我們模擬100GB海量數(shù)據(jù)跨節(jié)點傳輸,傳統(tǒng)集群因依賴CPU處理網(wǎng)絡(luò)協(xié)議,數(shù)據(jù)傳輸速率僅為80Gbps,傳輸耗時12.5秒;部署琢光400G DPU后,憑借400Gbps全端口線速處理能力與RDMA無損傳輸技術(shù),數(shù)據(jù)傳輸速率提升至380Gbps,接近理論峰值,傳輸耗時縮短至2.1秒,效率提升83%,大幅優(yōu)化跨節(jié)點業(yè)務(wù)響應(yīng)速度。


技術(shù)拆解:為什么是琢光400G?4倍提升的底層邏輯

實測中4倍算力利用率的突破,并非單一技術(shù)的功勞,而是云豹智算琢光400G DPU“硬件架構(gòu)+軟件生態(tài)+協(xié)議優(yōu)化”三位一體的結(jié)果,其核心技術(shù)優(yōu)勢可拆解為三點,彰顯國產(chǎn)DPU的硬核實力:
其一,創(chuàng)新層級化可編程架構(gòu)與硬件卸載能力。琢光400G DPU采用自研層級化可編程設(shè)計,集成支持P4語言的數(shù)據(jù)處理單元與RISC-V微處理器單元,可實現(xiàn)網(wǎng)絡(luò)、存儲、安全等五大類基礎(chǔ)設(shè)施任務(wù)的全流程硬件卸載,徹底剝離CPU的輔助任務(wù)負(fù)擔(dān)。與傳統(tǒng)DPU僅能卸載單一網(wǎng)絡(luò)任務(wù)不同,琢光400G的卸載范圍覆蓋TCP/IP協(xié)議處理、存儲虛擬化、數(shù)據(jù)加密、負(fù)載均衡等全場景,這也是其能大幅釋放CPU/GPU算力的核心原因。
其二,全球首顆全量支持GSE標(biāo)準(zhǔn),破解網(wǎng)絡(luò)瓶頸。作為全球首顆支持全調(diào)度以太網(wǎng)(GSE)標(biāo)準(zhǔn)的DPU芯片,琢光400G可通過報文容器噴灑技術(shù)實現(xiàn)數(shù)據(jù)的高效分發(fā),結(jié)合DGSQ擁塞控制機制,有效解決傳統(tǒng)網(wǎng)絡(luò)擁塞、時延波動等問題,大幅提升GPU節(jié)點間的通信效率——這也是高負(fù)載場景下AI訓(xùn)練效率提升的關(guān)鍵支撐,目前該芯片已完成與華為、中興等主流交換芯片的對接驗證,兼容性與穩(wěn)定性得到行業(yè)認(rèn)可。

其三,軟硬一體生態(tài)適配,降低IDC落地門檻。云豹智算構(gòu)建了“芯片—硬件—軟件—服務(wù)”全棧解決方案,琢光400G DPU不僅硬件性能出眾,其配套的DPU-OS調(diào)度平臺還可廣泛兼容Intel、海光、鯤鵬等主流CPU平臺,適配x86、ARM等多架構(gòu)服務(wù)器,支持裸金屬、虛擬機、容器等多元云服務(wù)形態(tài)。對于現(xiàn)有IDC而言,無需大規(guī)模改造硬件架構(gòu),即可實現(xiàn)DPU無縫部署,降低國產(chǎn)DPU的落地成本與遷移風(fēng)險。


返回上一頁
  • 返回頂部
  • 020-38815864
  • 微信咨詢
    關(guān)注我們