2025 年 5 月 19 日,全球領先的開源解決方案提供商紅帽公司在波士頓舉行的年度峰會上宣布,正式推出紅帽 AI 推理服務器(Red Hat AI Inference Server)。這一創(chuàng)新產(chǎn)品的發(fā)布標志著紅帽在混合云環(huán)境下推動生成式 AI(GenAI)規(guī)模化部署的重要突破,通過開源技術(shù)與硬件協(xié)同優(yōu)化,為企業(yè)提供高效、靈活且經(jīng)濟的 AI 基礎設施解決方案。
紅帽 AI 推理服務器基于開源 vLLM 項目開發(fā),并深度整合了其近期收購的 NeuralMagic 技術(shù)成果,實現(xiàn)了對訓練后 AI 模型的輕量化與性能優(yōu)化。通過神經(jīng)網(wǎng)絡稀疏化技術(shù),該服務器可在不增加硬件成本的前提下,將主流大語言模型(如 GPT 系列、LLaMA、DeepSeek 等)的推理速度提升 30% 以上,同時顯著降低能耗。
值得關注的是,紅帽 AI 推理服務器支持跨多廠商硬件的兼容性,覆蓋 AMD/Nvidia GPU、Intel Gaudi 加速器及 Google TPU 等主流 AI 芯片,真正實現(xiàn) “任意云環(huán)境 + 任意加速器” 的靈活部署。紅帽高級副總裁兼 AI 首席技術(shù)官 Brian Stevens 在發(fā)布會上表示:“基于 vLLM 的預優(yōu)化模型可實現(xiàn) 2-4 倍的 Token 產(chǎn)出效率,這一技術(shù)突破讓企業(yè)從依賴單一廠商的困境中解脫出來。”
作為紅帽 AI 戰(zhàn)略的核心組件,該推理服務器可與紅帽現(xiàn)有技術(shù)棧深度融合:
- 操作系統(tǒng)層:與專為 AI 優(yōu)化的 Red Hat Enterprise Linux AI 版本結(jié)合,提供從芯片到應用的全棧性能調(diào)優(yōu);
- 平臺層:集成至 Red Hat OpenShift AI 平臺,支持容器化部署與 MLOps 全流程管理,實現(xiàn)從邊緣到云端的一致性體驗;
- 生態(tài)擴展:通過 Hugging Face 平臺提供經(jīng)官方驗證的優(yōu)化模型,并加入新成立的 llm-d 開源社區(qū),推動分布式推理技術(shù)的行業(yè)標準化。
紅帽混合云平臺副總裁 Mike Barrett 指出:“我們的目標是幫助企業(yè)在不顛覆現(xiàn)有 IT 架構(gòu)的前提下,將 AI 無縫融入核心業(yè)務流程。”
根據(jù) IDC 數(shù)據(jù),當前 92% 的企業(yè) AI 模型參數(shù)量小于 50B,如何平衡性能與成本成為關鍵挑戰(zhàn)。紅帽 AI 推理服務器通過三大創(chuàng)新為行業(yè)提供解決方案:
- 成本優(yōu)化:通過模型壓縮與 GPU 資源復用技術(shù),單臺服務器可同時處理 20 個并發(fā)用戶請求,單用戶性能超 20 tokens/s,顯著降低 TCO(總擁有成本);
- 敏捷部署:支持容器化獨立運行或與現(xiàn)有虛擬化環(huán)境(如 Red Hat OpenShift Virtualization)無縫集成,自 2024 年以來,該虛擬化方案的部署量已增長 150%;
- 安全合規(guī):結(jié)合 Red Hat Enterprise Linux 10 的后量子加密技術(shù),為金融、醫(yī)療等敏感行業(yè)提供抵御未來攻擊的安全防護。
IDC 全球研究集團副總裁 Rick Villars 評價稱:“紅帽通過軟件定義的方式重新定義了 AI 基礎設施,這將幫助企業(yè)最大化現(xiàn)有投資價值,實現(xiàn)從模型訓練到業(yè)務嵌入的端到端優(yōu)化。”
此次發(fā)布會上,紅帽還宣布與 Google Cloud、Microsoft Azure 等云廠商合作,在其平臺上推出 Red Hat OpenShift Virtualization 的技術(shù)預覽版,進一步拓展混合云場景。同時,計劃于 6 月發(fā)布 OpenShift Lightspeed 生成式 AI 助手,為開發(fā)者提供自然語言驅(qū)動的運維支持。
紅帽公司表示,未來將持續(xù)通過開源社區(qū)(如 vLLM、NeuralMagic)推動技術(shù)迭代,目標在 2026 年前覆蓋 80% 的主流企業(yè)級 AI 應用場景。憑借 “軟件定義硬件” 的獨特策略,紅帽正引領行業(yè)從硬件依賴向生態(tài)驅(qū)動的 AI 基礎設施轉(zhuǎn)型。