(取自NVIDIA臉書粉專)
算力不足是目前整個AI產業都在面對的問題,就在上週OpenAI的Devday後,由於一系列新功能吸引了大量用戶試用,ChatGPT和GPT的API出現了大範圍長時間的當機,而Sam Altman也宣布暫停Plus新會員的註冊。
目前在AI算力領域,NVIDIA的GPU佔據近乎壟斷的地位,無論是A100,H100還是剛剛發布的H200,都是AI算力晶片的標竿,但是它的GPU面臨一個問題,就是部署於數據中心的顯卡算力集群,會因為連接網路無法足夠快速地提供數據,在部分時間無法滿負載運行,從而造成算力的浪費,進而推高總擁有成本(TCO)。
而一家叫Enfabrica的新創公司,利用專為人工智慧數據中心開發的網路晶片,可以使GPU性能節點的算力利用率提升50%,降低AI推理和訓練的算力成本。
近日,Enfabrica完成了由Atreides Management領投,NVIDIA作為戰略投資人參投的1.25億美元B輪融資,其他參與本輪融資的投資者包括IAG Capital Partners、Liberty Global Ventures、Valor Equity Partners、Infinitum Partners和Alumni Ventures,它的早期投資者Sutter Hill Ventures也繼續加磅。
這一輪融資使公司估值較前一輪成長了5倍以上,使其累計融資達到1.48億美元,Atreides Management的創始人Gavin Baker加入董事會,以協助公司的發展和戰略方向。
瞄準AI算力領域的重大挑戰,兩位晶片領域資深人士聯手創業
根據650集團(專注雲端運算供應鏈的研究機構)最新市場研究,AI/ML運算需求的規模可能會在每24個月內成長8到275倍,在未來十年的時間裡,基於AI/ML的伺服器將從市場的1%成長到近20%。
但是,因為AI運算的特點,數據和元數據在分散式運算元素之間的大量移動形成了瓶頸,SemiAnalysis的分析師Dylan Patel指出,每一代晶片/封裝的浮點運算能力(FLOPs)的成長速度都超過數據輸入輸出速度,而且這種不匹配正變得越來越嚴重。
Enfabrica由Rochan Sankar和Shrijeet Mukherjee聯手創建,Rochan Sankar曾是晶片巨頭博通的工程總監,Shrijeet Mukherjee曾在Google負責網路平台和架構,他們對於晶片和網路架構有深刻的理解和豐富的經驗。
在組織架構上,Sankar擔任執行長,Mukherjee擔任開發長,Enfabrica核心團隊包括來自思科、Meta和英特爾等公司AI、網路、晶片領域的資深工程師。
Enfabrica瞄準的是AI產業對「並行、加速和異構」基礎算力設施(也就是GPU)的成長需求。
Rochan Sankar表示:「當前AI革命帶來的最大挑戰,是AI基礎設施的擴展—無論是運算成本還是運算的可持續性。傳統的網路晶片,如交換機,在跟上現代AI工作負載的數據移動需求方面存在困難,這會對在訓練過程中需要大量數據集的AI訓練或AI微調等運算需求造成瓶頸。AI運算領域迫切需要彌合不斷成長的AI工作負載需求與運算集群的總體成本、效率、可持續性和擴展便利性之間的差距。」
Enfabrica推出了加速運算結構交換機(ACF-S)設備和解決方案,這些解決方案與GPU、CPU和加速器相輔相成,能夠解決數據中心AI和高性能運算集群中的關鍵網路、I/O和內存擴展問題。
它能使數據中心GPU和加速運算集群的運算成本降低50%,內存擴展50倍,並且在相同的性能點上將大模型推理的運算成本降低約50%,實現了總擁有成本(TCO)的降低。
根據Dell’Oro Group的數據,AI基礎設施投資將使數據中心資本支出在2027年前超過5000億美元;同時,根據IDC的預測,廣義上針對AI的硬件投資在未來五年內預計將有20.5%的複合年成長率。
預計到2027年,數據中心用的互聯半導體市場規模將從2022年的近125億美元翻倍至近250億美元。
加入Enfabrica董事會的Gavin Baker是Atreides Management的資訊長兼管理合夥人,它曾經投資了Nutanix、Jet.com、AppNexus、Dataminr、Cloudflare和SpaceX等公司,並且擔任部分公司的董事會成員。
在談到AI的算力基礎設施時,他談到了幾個重要的改進方面:「通過更快的儲存、更好的後端網路(尤其是Enfabrica),以及現在正在出現的線性可插拔/共封裝光學器件和改進的CPU/GPU集成(NVIDIA的GraceHopper、AMD的MI300和特斯拉的Dojo)來提高GPU利用率,這些結合在一起打破了「內存牆」,將進一步提高訓練的投資回報率,既直接降低了訓練成本,也間接地通過以下方式增加了利潤率降低推理成本。
總結來說,在「每單位能量有用運算」具有優勢的架構將獲勝,我們正在快速朝著每單位能量更有用的運算邁進。」
幫助NVIDIA GPU運算集群打破「內存牆」
在AI加速運算領域,「內存壁壘」是一個實際存在的問題,它指的是處理性能與提供這種性能所需的內存頻寬之間日益擴大的差距。
相對於傳統CPU運算,AI普遍使用的GPU運算在這個方面表現得更嚴重,因為GPU擁有更多的核心,更高的處理吞吐量,以及對數據的巨大需求。
AI使用的數據必須首先被組織和儲存在內存中,然後才能由GPU處理,為AI提供必要的內存頻寬和容量是一個當前急需解決的問題。
為解決這個問題,已經有幾個關鍵技術可以利用,包括之前已經在CPU和分散式集群運算中使用的內存性能/容量分層和緩存架構;支持擴展AI系統的遠程直接內存訪問(RDMA)網路技術;以及業界廣泛認可和採用的Compute Express Link(CXL)接口標準。
Enfabrica的方案融合了CXL.mem解耦、性能/容量分層和RDMA網路等關鍵技術,實現了一個可擴展的、高頻寬、高容量、延遲有界的內存層次結構,為任何大規模AI運算集群提供服務。
它的第一款晶片叫做ACF (Accelerated Compute Fabric)轉換晶片,它能夠讓GPU算力池與數十TB的本地CXL.mem DRAM池直接連接,延遲極低。
具體來說,ACF進一步推動了內存分層構造,通過800GbE網路端口,實現對分散在運算集群和數據中心其餘部分的PB級DRAM的高頻寬訪問,進而為加速運算建構一個具有近內存、近遠內存、網路遠內存,並在每個內存層次上都有嚴格延遲限制的層次化數據儲存。
通過ACF的幫助,執行數據處理的NVIDIA GPU能夠從多個不同的地方提取數據,而不會遇到速度障礙。
Enfabrica的解決方案叫ACF-S,它由多個ACF晶片組成,具有8-Tbps人工智慧基礎設施網路節點,具有800G以太網、PCIe第5代和CXL 2.0+接口,與NVIDIA DGX-H100系統和Meta Grand Teton搭載八個NVIDIA H100 GPU的系統相比,它可以將I/O功耗降低高達50%(每機架節省2千瓦)。
「ACF-S是一種融合解決方案,它消除了對傳統的、各不相同的服務器I/O和網路晶片的需求,如架級網路交換機、伺服器網路接口控制器和PCIe交換機的需求。」Rochan Sankar解釋道。
ACF-S設備能夠讓處理AI推理任務的公司使用盡可能少的GPU、CPU和其他AI加速器,這是因為ACF-S能夠通過快速移動大量數據,更有效地利用現有硬體。
而且,Enfabrica的解決方案不僅可以用於大規模AI推理,也適用於AI訓練,以及數據庫和網格運算等非AI用例。
Enfabrica計劃向系統建構者(雲端廠商,數據中心業者)銷售晶片和解決方案,而不是自己建構系統。
Sankar透露,Enfabrica與NVIDIA生態系統具有較深的契合度,但是他們也計劃與更多不同的AI算力公司合作。
他說:「ACF-S對用於AI運算的AI處理器的類型和品牌,以及部署的確切模型都持中立態度,這允許建構跨多個不同用例的AI基礎設施,並支持多個處理器供應商,無需專有技術鎖定。」
速度更快,能耗更低,新一代AI算力體系正在成型
H100剛剛出貨一年時間,NVIDIA就推出了H200,這顯示出它維護自己在AI算力領域領先地位的急迫。
因為過去一年的生成式AI大爆發,它的競爭對手們也都推出了強力的AI算力產品,無論是AMD的MI300系列晶片還是微軟推出的對標H100的Maia晶片。
AI算力是一個技術集中和資金集中的產業,面對巨頭們的「神仙打架」,AI算力創業公司們如何生存?Enfabrica和此前我們介紹過的d-Matrix給出了自己的答案。
d-Matrix的做法是專注在AI推理上,推出的AI推理專用芯片比NVIDIA的同類產品更快更省電。Enfabrica卻沒有去直接「搶NVIDIA的飯碗」,而是作為AI算力體系的一個重要部分,幫助NVIDIA的GPU(以及其他AI算力晶片)打破「內存牆」,減少算力閒置,整體上提高算力系統的利用率。
AI算力系統與所有算力系統一樣,有兩個重要的因素,速度和能耗,儘管大型的AI運算(無論是訓練還是推理)都由算力集群來運行,但是更快的運算速度和更低的能耗仍然是行業整體的努力方向。
NVIDIA的GPU在更快的運算速度這個方向上優勢明顯,而Enfabrica這樣的公司則在往更低的能耗上努力。
正如Enfabrica的創辦人Rochan Sankar所說:「要想讓AI運算真正普及,成本曲線必須下降,關鍵在於GPU的算力是否得到更好,更高效的利用。」
顯然,NVIDIA對於Enfabrica的投資也是基於這個邏輯,隨著Enfabrica技術讓NVIDIA的GPU算力利用率進一步提高,它在產業中的領先優勢有望進一步穩固。
不過,面對這個顯而易見又迫切的需求,產業中並不止Enfabrica一家在做,產業巨頭思科也已經推出了Silicon One G200和G202系列AI網路硬體,博通也在這個領域耕耘。
Enfabrica想要進一步成長,仍然面臨著競爭。
本文為AI新智界授權刊登,原文標題為「大幅降低GPU算力閒置率,Enfabrica獲NVIDIA參投的1.25億美元融資」