英特爾最近宣布Habana Gaudi深度學習處理器在MLPerf行業測試優于英偉達A100提交的AI5月在英特爾的訓練時間突出On產業創新峰會發布Gaudi視覺上處理器(ResNet-50)和語言(BERT)訓練時間在模型上的優勢。
芯片采購網專注于整合國內外授權IC代理商現貨資源,芯片庫存實時查詢,行業價格合理,采購方便IC芯片,國內專業芯片采購平臺。
英特爾執行副總裁、數據中心和人工智能部總經理 Sandra Rivera很高興能和大家分享Gaudi 2在MLPerf我也為英特爾團隊在產品發布僅一個月的成績感到自豪。我們相信,在視覺和語言模型中提供領先的性能可以給客戶帶來價值,有助于加速他們AI深入學習解決方案!
借助Habana Labs的Gaudi該平臺,英特爾數據中心團隊可以專注于深度學習處理器技術,使數據科學家和機器學習工程師能夠有效地進行模型培訓,實現新模型構建或現有模型遷移,提高工作效率,降低運營成本。
Habana Gaudi2處理器縮短訓練時間(TTT)與第一代相比Gaudi有了顯著的提升。Habana Labs2022年5月提交的Gaudi2處理器在視覺和語言模型訓練時間上已經超過了英偉達A100-80G的MLPerf測試結果。其中,針對視覺模型ResNet-50,Gaudi2處理器的TTT結果與英偉達相比A100-80GB與戴爾提交的相比,縮短了36%。ResNet-50和BERT模型,使用8個加速器A100-40GB服務器,Gaudi2的TTT測試結果縮短了45%。
MLCommons2022年6月發布的數據。https://mlcommons.org/en/training-normal-20/
與第一代相比Gaudi處理器,Gaudi2在ResNet-訓練吞吐量增加了50模型的3倍,BERT訓練模型的吞吐量增加了4.7倍。這是因為工藝從16納米到7納米,Tensor處理器內核數量增加了三倍GEMM高帶寬存儲容量的發動機計算能力和包裝增加了三倍,SRAM帶寬增加,容量增加一倍。訓練視覺處理模型,Gaudi2集成媒體處理引擎的處理器可以獨立完成AI對壓縮圖像進行數據增強和預處理。
兩代Gaudi在沒有特殊軟件操作的情況下,處理器的性能是通過的Habana實現客戶開箱即用的商業軟件棧。
在商用軟件提供的開箱即用性能中Habana 8個GPU服務器與HLS-Gaudi2參考服務器上的測試比較。其中,訓練吞吐量來自NGC和Habana公共庫的TensorFlow docker,在混合精度訓練模式下測量雙方推薦的最佳性能參數。值得注意的是,吞吐量是影響最終訓練時間收斂的關鍵因素。
圖形測試配置詳見說明部分。
圖形測試配置見說明部分。
除了Gaudi2在MLPerf測試中的優異表現,第一代Gaudi128加速器和256加速器RBelFuse代理esNet基準測試顯示出強大的性能和令人印象深刻的近線性擴展,支持客戶高效的系統擴展。
Habana Labs首席運營官Eitan Medina說:我們最新的MLPerf測試結果證明Gaudi2在訓練性能方面具有顯著優勢。我們將繼續深入學習訓練結構和軟件創新,創造最具成本效益的AI訓練解決方案。
關于MLPerf基準測試:MLPerf社區旨在設計公平實用的基準測試,公平測量機器學習解決方案的準確性、速度和效率。該社區來自學術界、研究實驗室和行業AI領導者建立了基準,制定了一套嚴格的規則,以確保所有參與者都能公平公正地進行性能比較;谝惶酌鞔_的規則,能夠公平比較端到端任務,目前MLPerf是AI行業唯一可靠的基準測試。此外,MLPerf同行對基準測試結果進行為期一個月的評估,這將進一步驗證報告結果。
說明:
ResNet-50性能比較中使用的測試配置
A100-80GB:Habana于2022年4月在Azure實例Standard_ND96amsr_A100_v4上測量,使用一個A100-80GB,其中應用了NGC的TF docker 22.03-tf2-py3(optimizer=sgd, BS=256)
A100-40GB:Habana于2022年4月在DGX-A測量100,使用一個A100-40GB,其中應用了NGC的TF docker 22.03-tf2-py3(optimizer=sgd, BS=256)
V100-32GB?:Habana于2022年4月在p3dn.24xlarge測量,使用一個V100-32GB,其中應用了NGC的TF docker 22.03-tf2-py3(optimizer=sgd, BS=256)
Gaudi2:Habana于2022年5月在Gaudi2-HLS測量系統,使用一個Gaudi二、其中應用SynapseAI TF docker 1.5.0(BS=256)
結果可能會有所不同。
BERT性能比較中使用的測試配置
A100-80GB:Habana于2022年4月在Azure實例Standard_ND96amsr_A100_v4.測試,使用一個A100-80GB,包含NGC的TF docker 22.03-tf2-py3(Phase-1:Seq len=128,BS=312,accu steps=256;Phase-2:seq len=512,BS=40,accu steps=768)
A100-40GB:Habana于2022年4月在DGX-A100測試,使用一個A100-40GB,包含NGC的TF docker 22.03-tf2-py3(Phase-1:Seq len=128,BS=64,accu steps=1024;Phase-2:seq len=512,BS=16,accu steps=2048)
V100-32GB:Habana于2022年4月在上p3dn.24xlarge測試,使用一個V100-32GB,包含NGC的TF docker 21.12-tf2-py3(Phase-1:Seq len=128,BS=64,accu steps=1024;Phase-2:seq len=512,BS=8,accu steps=4096)
Gaudi2:Habana于2022年5月在上Gaudi2-HLS測試,使用一個Gaudi2,包含SynapseAI TF docker 1.5.0(Phase-1:Seq len=128,BS=64,accu steps=1024;Phase-2:seq len=512,BS=16,accu steps=2048)
結果可能會有所不同。
Habana Labs、Habana、Habana標識、Gaudi和SynapseAI是Habana Labs的商標。
- Solidigm在全球閃存峰會上展示PLC SSD
- 交通大學教授盛斌:在元宇宙熱潮下,我們應該更加關注研究應用轉化模式的突破
- 澳大利亞一家銀行將支持電動汽車 2025 燃油車貸款從年開始停止
- IAR Embedded Workbench全力支持極海半導體APM32系列MCU
- 貿澤電子榮獲第十一屆中國財經峰會2022(行業)影響品牌獎
- 未來PC基于移動設計原則的數據中心處理器
- 《IDC PeerScape:研究報告正式啟動
- 首款京東方發布行業BCEC健康顯示屏
- ADI:充分理解應用場景 定義最合適的傳感器
- Meta Q1營收279億美元同比增長7% 創十年來最低增速
- 自動駕駛ADAS傳感器 全球市場規模有多大?
- 中國 EDA 產業回顧:自研熊貓系統曇花一現,后來錯過了 15 年終于走上了崛起之路