終結NVIDIA的統治?全球科技巨頭紛紛佈局自研AI晶片
澎湃新聞-邵文 / AIcore / 何渝婷編譯
2023-05-22 14:00

挑戰NVIDIA AI晶片王者地位的競爭又加速了!

Meta公司披露其正在建構首款專門用於運行AI模型的訂製晶片「MTIA(Meta Training and Inference Accelerator)」,使用名為RISC-V的開源晶片架構,預計於2025年問世。

同樣在這週,微軟發表了一系列晶片相關招聘資訊,其中一則寫道,「我們正在尋找一名首席設計工程師在充滿活力的微軟AISoC(人工智慧晶片及解決方案)團隊中工作。」

據稱,該團隊正在研究能夠以極其高效的方式,執行複雜和高性能功能的尖端人工智慧設計。

換句話說,微軟某種程度上已把自己的未來寄託在人工智慧開發機構OpenAI的一系列技術上,想要製造出比現成的GPU(圖形處理器)和相關加速器更高效的晶片來運行這些模型。

當下,NVIDIA還是當之無愧的「AI算力王者」,A100、H100系列晶片佔據金字塔頂尖位置,是ChatGPT這樣的大型語言模型背後的動力來源。

然而,不管是為了降低成本,還是減少對NVIDIA的依賴、提高議價能力,科技巨頭們也都紛紛下場自研AI晶片。

粗略統計,微軟、谷歌、亞馬遜這3家公司已經推出或計劃發布8款伺服器和AI晶片。

研究公司Forrester主管奧唐奈(Glenn ODonnell)認為:「如果你能製造出針對人工智慧進行優化的晶片,那麼你就會取得巨大的勝利。」

根據目前幾家海外科技巨頭在AI晶片方面的最新動作和進展,總體看來,在這場競賽中,亞馬遜似乎佔據了先機,已擁有兩款AI專用晶片,分別是訓練晶片Trainium和推理晶片Inferentia,谷歌則擁有第四代TPU(張量處理單元)。

相比之下,微軟等還在很大程度上依賴於NVIDIA、AMD和英特爾等晶片製造商的現成或訂製硬體。

谷歌:最早自研TPU晶片

早在2013年,谷歌就已秘密研發一款專注於AI機器學習算法的晶片,並將其用在內部的雲端運算數據中心中,以取代NVIDIA的GPU。

2016年5月,這款自研晶片公諸於世,即TPU。

TPU可以為深度學習模型執行大規模矩陣運算,例如用於自然語言處理、電腦視覺和推薦系統的模型,其最初專為谷歌的超級業務雲端運算數據中心而生。

2020年,谷歌實際上已在其數據中心部署了人工智慧晶片TPU v4,不過直到今年4月4日,谷歌才首次公開了技術細節:相比TPU v3,TPU v4性能提升2.1倍。

基於TPU v4的超級電腦擁有4096塊晶片,整體速度提高了約10倍。

谷歌稱,對於類似大小的系統,谷歌能做到比Graphcore IPU Bow(Intelligence Processing Unit,智慧處理單元)快4.3到4.5倍,比NVIDIAA100快1.2到1.7倍,功耗低1.3到1.9倍。

在谷歌發布TPU v4的技術細節後,NVIDIA也非常巧合地發布了一篇部落格文章,在文章中,創辦人兼CEO黃仁勳指出A100晶片是3年前發表的,最近發表的H100晶片提供的性能比A100高出四倍。

目前,谷歌已將負責AI晶片的工程團隊轉移到了谷歌雲端,旨在提高谷歌雲端出售AI晶片給租用其伺服器的公司的能力,從而與更大的競爭對手微軟和亞馬遜雲端科技(AWS)相抗衡。

今年3月,生成式人工智慧明星企業Midjourney選擇了谷歌雲端,稱其正在使用基於雲端的TPU來訓練機器學習模型。

亞馬遜:訓練和推理晶片佔據先機

從2013年推出首顆Nitro1晶片至今,AWS是最先涉足自研晶片的雲端廠商,已擁有網路晶片、伺服器晶片、人工智慧機器學習自研晶片3條產品線。

2018年初,科技媒體《Information》爆料亞馬遜已經開始設計訂製AI晶片。

AWS自研AI晶片版圖包括推理晶片Inferentia和訓練晶片Trainium,2018年底,AWS推出自研AI推理晶片Inferentia,可以以低成本在雲端運行圖像辨識、語音辨識、自然語言處理、個性化和詐欺檢測等大規模機器學習推理應用程式。

「運行機器學習的速度和成本,最理想的是深度學習,是企業的競爭優勢,速度優勢將決定企業的成敗,這種速度只能通過訂製硬體來實現,Inferentia是AWS進入這個遊戲的第一步。」研究機構Constellation Research的分析師穆勒(Holger Mueller)在當時表示,谷歌在TPU基礎設施方面有2到3年的領先優勢。

2020年底,AWS推出專用於訓練機器學習模型的Trainium。「我們知道我們想繼續提高機器學習訓練的CP值,所以我們將不得不投資自己的晶片。」AWS執行長賈西(Andy Jassy)在發布會當天表示。

2023年初,專為人工智慧打造的Inferentia 2發表,將運算性能提高了三倍,加速器總內存提高了四分之一,吞吐量提高了四分之一,延遲提高了十分之一。

Inf2實例(可通過晶片之間的直接超高速連接支持分散式推理)最多可支持1750億個參數,這使其成為大規模模型推理的有力競爭者。

在亞馬遜、微軟和谷歌這三家中,亞馬遜是唯一一家在伺服器中提供兩種類型晶片(標準計算晶片和用於訓練與運行機器學習模型的專用晶片)的雲端提供商,其在2015年收購以色列晶片設計公司Annapurna Labs為這些努力奠定了基礎。

今年5月初,亞馬遜CFO奧爾薩夫斯基(Brian Olsavsky)在財報電話會議上告訴投資者,該公司計劃將支出從零售業務轉移到AWS,部分原因是為了投資支持ChatGPT等應用所需的基礎設施。

亞馬遜的一位發言人拒絕詳細說明這筆錢將花在什麼地方,但根據公司年報,其基礎設施成本包括晶片。

微軟:用Athena替代昂貴的A100/H100

4月18日,科技媒體《The Information》報導指出,微軟正在秘密研發自己的AI晶片,代號雅典娜(Athena),該晶片由台積電代工,採用5nm先進製程,計劃最早於明年推出。

這篇報導指出,微軟自2019年以來就一直在開發一款訂製的專用晶片,用於為大型語言模型提供動力,目前已在測試階段。

Athena的首個目標是為OpenAI提供算力引擎,以替代昂貴的NVIDIA A100/H100,如果明年大規模推出,Athena將允許微軟內部和OpenAI的團隊同時訓練和推理模型。

SemiAnalysis的分析師帕特爾(Dylan Patel)表示,開發類似於雅典娜的晶片可能每年需要花費1億美元左右,ChatGPT每天的營運成本約70萬美元,大部分成本來源於昂貴的伺服器,如果雅典娜晶片與NVIDIA的產品擁有同等競爭力,每個晶片的成本將可以降低三分之一。

從微軟本週公布的一系列招聘資訊看,該公司對訂製晶片的興趣超越了AI加速器。

據其尋找設計驗證工程師的招聘貼文,該職位所屬的矽運算開發團隊將研究針對雲端工作負載的SoC(系統級晶片,也稱片上系統)設計,這表明微軟正在考慮採用類似於亞馬遜Graviton系列的訂製處理器。

微軟還在微軟雲端的硬體系統和基礎設施部門,招聘了一名DPU(數據處理單元)的矽工程師和一名封裝設計工程師,這並不令人驚訝,因為微軟在1月收購了DPU供應商Fungible;與此同時,後一個職位將負責「為各種數據中心產品領域」的「高性能運算晶片設計提供先進的封裝解決方案」,這也表明微軟的目標是跟隨亞馬遜的腳步,為各種運算應用程式建構訂製晶片。

Meta:控制堆疊的每一層

Meta在採用AI友好的硬體系統方面歷來進展緩慢,這阻礙了其與谷歌和微軟等競爭對手保持同步的能力。

直到2022年,Meta還主要使用CPU(中央處理器)和專為加速AI算法而設計的訂製晶片組合來運行其AI工作負載。

對於這類任務來說,CPU的效率往往不如GPU。

後來,Meta取消了於2022年大規模推出訂製晶片的計劃,轉而訂購了價值數十億美元的NVIDIA GPU。

為了扭轉局面,Meta已經在開發內部晶片,並於5月19日公布了AI訓練與推理晶片項目,稱其為針對推理工作負載的內部訂製加速器晶片系列。

「為了在我們的重要工作負載中獲得更高水準的效率和性能,我們需要一個為模型、軟體堆疊和系統硬體共同設計的訂製解決方案。」Meta基礎設施副總裁比約林(Alexis Bjorlin)在接受採訪時稱。

據介紹,MTIA晶片的功耗僅為25瓦,佔NVIDIA等市場領先供應商晶片功耗的一小部分,並使用了RISC-V(第五代精簡指令處理器)開源架構。

Meta稱,它在2020年創建了第一代MTIA「MTIA v1」,基於7奈米工藝,在其設計的基準測試中,MITA晶片在處理「低複雜性」和「中等複雜度」的AI模型時,比GPU更高效。

值得注意的是,Meta於5月初收購了英國AI晶片獨角獸Graphcore的AI網路技術團隊。

Graphcore創辦人圖恩(Nigel Toon)曾公開表示,Graphcore不屬於CPU、GPU和ASIC(專用運算晶片)中的任何一類,而是一款全新的,專為AI加速而生的處理器,既有極高的運算能力以處理高性能運算業務(HPC),又和GPU一樣可編輯程式,以滿足不同的場景需求。

「建構我們自己的硬體功能使我們能夠控制堆疊的每一層,從數據中心設計到訓練框架。」比約林說,需要這種水準的垂直整合,才能大規模突破人工智慧研究的界限。

本文為巴比特授權刊登,原文標題為「終結英偉達的統治?全球科技巨頭紛紛佈局自研AI芯片