隨著數據密集型應用程序的增加,大型數據中心的工作負荷越來越重。數據中心的網絡流量顯著增加,促使架構師找到新的方法來實現更高的數據速度和吞吐量。
芯片采購網專注于整合國內外授權IC代理商現貨資源,芯片庫存實時查詢,行業價格合理,采購方便IC芯片,國內專業芯片采購平臺。
目前, 最先進的網絡適配器(NIC) 達到每端口200 G 速度。然而,為了滿足數據中心日益增長的需求,該行業正在使用400 G NIC 但前提是相關的支持技術需要同時進步,這并不容易。Molex(莫仕)深入探討了這一變化帶來的散熱挑戰,以及我們合作工作組解決這些問題的獨特方法。
400G運行散熱挑戰
下一代數據中心將過渡到400G 因此,網絡適配器面臨著各種散熱問題。
我們面臨的第一個挑戰是,更高的數據速率會消耗更多的功率。通過廣泛的研究、測試和模擬,我們發現數據速率和熱產生之間的關系大致是線性的,其中數據速率的兩倍將使系統的熱量增加兩倍以上。結論是什么?也就是說,網絡適配器的速度是200 G 轉變成400 G之后,系統的熱量大幅增加。
第二個挑戰是需要支持400 G NIC 基礎設施。直接源電纜直接連接(DAC) 的200 G NIC 不同,有時400 G NIC大功率有源光纜可能需要使用(AOC)支持高數據速率。這些大功率AOC 功耗可高達8W,將自身熱量導入系統,再加上高速運輸數據,使溫度不斷升高。
質疑基礎設施
這些迫在眉睫的散熱挑戰,讓我們對當下感興趣NIC 懷疑環境基礎設施中某些部件的可行性。我們懷疑英偉達(NVIDIA) 和Meta 兩家公司合作,深入研究這個問題。
一項研究的重點是外觀尺寸。具體來說,我們研究了它的使用OCP NIC 3.0 行業標準小型光纖連接頭(small form factor,SFF) 產品的可行性取決于它是否與之前提出的產品相匹配TSFF(tall SFF)。眾所周知,TSFF 它可以提供更多的空間,從而實現更好的空間I/O 散熱解決方案。在理想情況下,系統架構師可以在可能的情況下繼續使用SFF。真正的問題是,SFF 是否能為400 G NIC 提供可行的解決方案?還是我們需要轉而轉而轉?TSFF 行業標準是什么?很難直接回答這個問題,因為幾個變量可能會影響結論。因此,我們的研究考慮了許多可能對散熱性能產生重大影響的因素,包括以下幾個方面。
● 外形尺寸:TSFF 對比SFF。
● NIC ASIC 功率限制( 僅限使用DAC 電纜)。
● 模塊類型:QSFP-DD Type 1 對比Type 2 A。
● 監測位置點:底盤后部上方的平均溫度和散熱器
底座溫度和前端溫度。
● 測試裝置類型︰有/ 沒有測試裝置。
● 冷信道比較熱信道。
設置和假設模擬試驗
每個攝氏度溫度的變化都會影響結論。由于可行性,有必要確保模擬試驗反映了現實和合理的使用。
對此,我們的模擬試驗同時使用TSFF 和SFF 兩種形狀尺寸OCP NIC 3.0 網絡適配器建立模型。英偉達慷慨地為研究提供了模擬試驗ASIC 散熱模型的原型設計ConnectX-6 DX。假設功率上限為23,以進行模擬試驗 W,并根據配備標準鋁散熱器的裝置建立模型。
對于QSFP-DD 正常功耗為10的類型模塊.2 W 多信道散熱模型。ASIC 原型設計相似,我們選擇QSFP-DD 該模型配備了標準的鋁散熱器,以最大化覆蓋的加熱表面積,但不使用任何先進的冷卻技術或材料,以了解上述變量之間的相對影響。
對于模擬試驗的環境,我們同時測試了熱信道和冷信道。熱信道的環境溫度為55°C,氣流速度范圍為200 至1 000 LFM( 每分鐘線性英尺),氣流方向從后到前。所有這些都是一致的OCP 3.0 技術規范。另一種不同的環境是冷信道,環境溫度為35°C,氣流速度范圍為200 到600 LFM,從前到后的氣流方向。,我們的模擬實驗使用英偉達OCP NIC 3.0 標準化的測試裝置包括安裝在測試箱中的兩個相同的網絡適配器。
圖1 模擬測試中使用的測試裝置和模型設置
研究結果:外觀尺寸的影響
通過模擬試驗結果,我們了解了幾個邊界條件和變量如何對散熱性能產生非零影響( 即超過幾攝氏度)。
在調查中,第一個值得注意的結果是外觀尺寸正確QSFP-DD 模型的散熱性能有重要影響,我們發現TSFF 散熱性能明顯優于SFF,特別是當氣流速度較低時。在這種情況下,散熱性能提高了多達6 C ° 。盡管結果并不令人驚訝,但6°C 改進真的很突出。
同樣,我們的研究結果表明,它被用于熱信道應用TSFF 尺寸時,ASIC 原型設計的散熱性能提高了10°C還有,關于NIC ASIC原型設計的功率限制參數( 無源DAC 在熱信道條件下使用)SFF相比,采用TSFF 模塊功率限制增加約2.5 W。
圖2 我們在模擬試驗中發現TSFF散熱性能明顯優于SFF
調研結果︰其必須考慮其它變量
除了外觀尺寸,我們的研究還深入了解模塊類型和監測位置對散熱結果的影響。在比較兩個行業標準模塊時,我們發現QSFP-DD Type Ecliptek代理2 A 模塊具有優異的散熱性能,提高了約4個 C ° 。性能改進的主要原因是Type 2A 模塊本身的前端有一個外部集成散熱器。同樣,結果也不令人驚訝,但非常突出。
最后,我們發現不同的監測位置點( 也就是模塊上的探測點) 兩者之間存在溫度偏差。例如,模擬試驗表明,散熱器底座的監測溫度低于前端的監測溫度 C ° 。,在量化NIC 監測位置點顯然是模塊熱性能時不可忽視的因素。
圖3 監測位置點對散熱結果有重大影響
調研結論
我們的研究深入了解了幾個特定變量和邊界條件對散熱性能的影響,但結果并不是主要結論。更重要的是,該研究表明,該行業迫切需要就這些變量和邊界條件達成共識。
試驗結果以模塊類型和監測位置點等變量為例, 模塊類型會對散熱性能產生重大影響( ? 4°C ),這個發現帶來了一個問題:除了排除SFF 尺寸在400G NIC 除了可用性,能否保留?SFF 尺寸但改用Type 2 A QSFP-DD 模塊呢?到目前為止,該行業還沒有達成共識。如要對SFF 要得出真正的結論,首先要定義并在行業內達成共識。
同樣,該行業也沒有就監測位置點達成協議。研究表明,監測散熱性能的位置點會對模擬試驗結果產生重大影響,差距甚至高達5 C ° 。如果我們不能就監測位置點達成共識,那么所有研究數據之間就會缺乏一致性,這將導致無法真正比較測試結果。這里再次強調,OCP 整個行業向4000邁進G NIC 要發展,首先要達成共識。
呼吁采取行動
如何達成關鍵的行業共識?我們認為模塊,I/O、NIC、系統和數據中心需要參與更多的專業領域。這種合作將有所幫助OCP 更好地協調可實現的目標,確定最合適的環境進行這些可行性研究。此外,到目前為止,研究所的范圍還不全面,我們還必須考慮其他變量,包括使用QSFP-DD 有源電纜(AEC) 預計其散熱量低于可行性AOC。
若行業發現SFF 無法適用于AOC,下一步可以考慮使用AEC。另外,如果采用開發TSFF 尺寸網絡適配器需要擴展研究內容,涵蓋八個集成散熱器SFF 可插拔模塊(OSFP-RHS) 端口的可行性。
實現散熱設計共識對行業內的多方合作至關重要OCP 它將發揮關鍵作用。Molex 莫仕很榮幸能和Meta 與英偉達合作,對下一代相關解決方案進行實驗研究。我們三方合作設計測試方案,仔細模擬和量化每個定義的變量的影響,然后共同分析結果,并在數據中心尋求新的性能水平。
(本文來源《IC2022年3月,代理雜志