隨著人工智能在企業(yè)環(huán)境中蓬勃發(fā)展,數(shù)據(jù)中心的功耗也將隨之增長。人工智能是很多東西,但省電并不是其中之一。
對于運行典型企業(yè)應用程序的數(shù)據(jù)中心,機架的平均功耗約為7 kW。然而,據(jù)數(shù)據(jù)中心組織AFCOM稱,對于AI應用而言,每個機架使用30 kW以上的功率是很常見的。這是因為AI需要更高的處理器利用率,并且處理器(尤其是GPU)非常耗電。例如,Nvidia GPU的運行速度可能比CPU快幾個數(shù)量級,但每個芯片的功耗也要翻倍。使問題復雜化的是,許多數(shù)據(jù)中心已經受到功率限制。
散熱也是一個問題:面向AI的服務器需要更高的處理器密度,這意味著會有更多芯片塞滿機箱,而且它們都非常熱。與典型的后臺服務器相比,更高的密度以及更高的利用率增加了對冷卻的需求。更高的冷卻要求反過來又增加了功率要求。
因此,如果出于競爭原因希望采用AI,但現(xiàn)有設施的電源容量卻無法滿足AI的高密度基礎設施要求,您該怎么辦?這里有一些選擇。
考慮液體冷卻
一旦機架超過15 kW,風扇冷卻通常就會失去生存能力。然而,根據(jù)企業(yè)液體冷卻產品制造商CoolIT Systems的說法,水的熱容量是空氣的3000倍。結果,服務器機柜制造商一直在向機柜添加液體管道,并將水管道連接至散熱器,而不是風扇。
“對于高密度負載,液體冷卻絕對是一個很好的選擇,”數(shù)據(jù)中心開發(fā)商和運營商Sabey數(shù)據(jù)中心運營高級副總裁John Sasser說。“這消除了混亂的氣流問題。水散發(fā)的熱量比空氣散發(fā)的熱量多得多,您可以通過管道將其引導。許多HPC(高性能計算)都是通過液體冷卻來完成的。”
Sasser表示,大多數(shù)數(shù)據(jù)中心都是為空氣冷卻而設置的,因此液體冷卻將需要資本投資,“對于這些工作,這可能是更為明智的解決方案,尤其是如果公司決定朝[AI]的方向發(fā)展。”說。
以較低的分辨率運行AI工作負載
Hyperion Research高級研究副總裁史蒂夫·康威(Steve Conway)表示,現(xiàn)有的數(shù)據(jù)中心也許能夠以減少的方式處理AI計算工作量。即使不是大多數(shù),許多工作負載也可以以一半或四分之一的精度而不是64位雙精度來運行。
“對于某些問題,半精??度是可以的,” Conway說。“以更低的分辨率運行它,減少數(shù)據(jù)量?;蚱渲械目茖W更少。”
在科學研究中,主要需要雙精度浮點計算,這通常是在分子水平上進行的。在AI訓練或深度學習模型推論中通常不使用雙精度,因為不需要。甚至Nvidia也提倡在深度神經網絡中使用單精度和半精度計算。
建立一個AI收容區(qū)
人工智能將成為您業(yè)務的一部分,但不是全部,這應該反映在您的數(shù)據(jù)中心中。“正在建造的新設施正在考慮將其設施的一部分分配給更高的能耗,”建造和運營數(shù)據(jù)中心的Five 9s Digital的合伙人Doug Hollidge說。“您不會將所有設施置為更高的密度,因為還有其他應用程序具有較低的吸引力。”
Hollidge說,第一件事就是評估建筑物的能源供應。“如果要增加建筑物的能源消耗,必須確保電源供應器可以增加電源。”