遮天辰东小说笔趣阁,大主宰天蚕土豆,穿越小说完本

Habana Gaudi2性能穩超英偉達A100有助于實現高效率AI訓練

（2025年3月29日更新）

英特爾最近宣布Habana Gaudi深度學習處理器在MLPerf行業測試優于英偉達A100提交的AI5月在英特爾的訓練時間突出On產業創新峰會發布Gaudi視覺上處理器（ResNet-50）和語言（BERT）訓練時間在模型上的優勢。

芯片采購網專注于整合國內外授權IC代理商現貨資源，芯片庫存實時查詢，行業價格合理，采購方便IC芯片，國內專業芯片采購平臺。

英特爾執行副總裁、數據中心和人工智能部總經理 Sandra Rivera很高興能和大家分享Gaudi 2在MLPerf我也為英特爾團隊在產品發布僅一個月的成績感到自豪。我們相信，在視覺和語言模型中提供領先的性能可以給客戶帶來價值，有助于加速他們AI深入學習解決方案。”

借助Habana Labs的Gaudi該平臺，英特爾數據中心團隊可以專注于深度學習處理器技術，使數據科學家和機器學習工程師能夠有效地進行模型培訓，實現新模型構建或現有模型遷移，提高工作效率，降低運營成本。

Habana Gaudi2處理器縮短訓練時間（TTT）與第一代相比Gaudi有了顯著的提升。Habana Labs2022年5月提交的Gaudi2處理器在視覺和語言模型訓練時間上已經超過了英偉達A100-80G的MLPerf測試結果。其中，針對視覺模型ResNet-50，Gaudi2處理器的TTT結果與英偉達相比A100-80GB與戴爾提交的相比，縮短了36%。ResNet-50和BERT模型，使用8個加速器A100-40GB服務器，Gaudi2的TTT測試結果縮短了45%。

MLCommons2022年6月發布的數據。https://mlcommons.org/en/training-normal-20/

與第一代相比Gaudi處理器，Gaudi2在ResNet-訓練吞吐量增加了50模型的3倍，BERT訓練模型的吞吐量增加了4.7倍。這是因為工藝從16納米到7納米，Tensor處理器內核數量增加了三倍GEMM高帶寬存儲容量的發動機計算能力和包裝增加了三倍，SRAM帶寬增加，容量增加一倍。訓練視覺處理模型，Gaudi2集成媒體處理引擎的處理器可以獨立完成AI對壓縮圖像進行數據增強和預處理。

兩代Gaudi在沒有特殊軟件操作的情況下，處理器的性能是通過的Habana實現客戶開箱即用的商業軟件棧。

在商用軟件提供的開箱即用性能中Habana 8個GPU服務器與HLS-Gaudi2參考服務器上的測試比較。其中，訓練吞吐量來自NGC和Habana公共庫的TensorFlow docker，在混合精度訓練模式下測量雙方推薦的最佳性能參數。值得注意的是，吞吐量是影響最終訓練時間收斂的關鍵因素。

圖形測試配置詳見說明部分。

圖形測試配置見說明部分。

除了Gaudi2在MLPerf測試中的優異表現，第一代Gaudi128加速器和256加速器RBelFuse代理esNet基準測試顯示出強大的性能和令人印象深刻的近線性擴展，支持客戶高效的系統擴展。

Habana Labs首席運營官Eitan Medina說：我們最新的MLPerf測試結果證明Gaudi2在訓練性能方面具有顯著優勢。我們將繼續深入學習訓練結構和軟件創新，創造最具成本效益的AI訓練解決方案。

關于MLPerf基準測試：MLPerf社區旨在設計公平實用的基準測試，公平測量機器學習解決方案的準確性、速度和效率。該社區來自學術界、研究實驗室和行業AI領導者建立了基準，制定了一套嚴格的規則，以確保所有參與者都能公平公正地進行性能比較�；谝惶酌鞔_的規則，能夠公平比較端到端任務，目前MLPerf是AI行業唯一可靠的基準測試。此外，MLPerf同行對基準測試結果進行為期一個月的評估，這將進一步驗證報告結果。

說明：

ResNet-50性能比較中使用的測試配置

A100-80GB：Habana于2022年4月在Azure實例Standard_ND96amsr_A100_v4上測量，使用一個A100-80GB，其中應用了NGC的TF docker 22.03-tf2-py3（optimizer=sgd, BS=256）

A100-40GB：Habana于2022年4月在DGX-A測量100，使用一個A100-40GB，其中應用了NGC的TF docker 22.03-tf2-py3（optimizer=sgd, BS=256）

V100-32GB?：Habana于2022年4月在p3dn.24xlarge測量，使用一個V100-32GB，其中應用了NGC的TF docker 22.03-tf2-py3（optimizer=sgd, BS=256）

Gaudi2：Habana于2022年5月在Gaudi2-HLS測量系統，使用一個Gaudi二、其中應用SynapseAI TF docker 1.5.0（BS=256）

結果可能會有所不同。

BERT性能比較中使用的測試配置

A100-80GB：Habana于2022年4月在Azure實例Standard_ND96amsr_A100_v4.測試，使用一個A100-80GB，包含NGC的TF docker 22.03-tf2-py3（Phase-1：Seq len=128，BS=312，accu steps=256；Phase-2：seq len=512，BS=40，accu steps=768）

A100-40GB：Habana于2022年4月在DGX-A100測試，使用一個A100-40GB，包含NGC的TF docker 22.03-tf2-py3（Phase-1：Seq len=128，BS=64，accu steps=1024；Phase-2：seq len=512，BS=16，accu steps=2048）

V100-32GB：Habana于2022年4月在上p3dn.24xlarge測試，使用一個V100-32GB，包含NGC的TF docker 21.12-tf2-py3（Phase-1：Seq len=128，BS=64，accu steps=1024；Phase-2：seq len=512，BS=8，accu steps=4096）

Gaudi2：Habana于2022年5月在上Gaudi2-HLS測試，使用一個Gaudi2，包含SynapseAI TF docker 1.5.0（Phase-1：Seq len=128，BS=64，accu steps=1024；Phase-2：seq len=512，BS=16，accu steps=2048）

結果可能會有所不同。

Habana Labs、Habana、Habana標識、Gaudi和SynapseAI是Habana Labs的商標。