一年一度的 Arm Tech Symposia 年度技術大會在深圳圓滿結束。
Arm 在本次大會上深入探討了 AI 對運算的需求,並分享了如何通過硬體、軟體、生態系統三大核心更好地把握 AI 的發展機遇,在場與會者也共同探討了基於 Arm 的技術創新和 AI 發展趨勢。
Arm 終端事業部產品管理副總裁 James McNiven 在深圳場的大會主題演講中強調,Armv9 作為 Arm 最新的技術架構,推出伊始便是為支撐 AI 運算而設計,並持續迭代更新,通過 SVE、SVE2、SME 等關鍵技術,Arm 以架構創新和強大的軟硬體協同能力不斷優化行動端 AI 體驗,賦能開發者實現卓越的 AI 性能。
在本次大會中,KleidiAI 軟體是值得關注的亮點之一。
它實現了與主流 AI 框架的深度集成,能夠為開發者提供絲滑的開發體驗;當與 Arm CSS 搭配使用時,KleidiAI 通過整合 Neon™、SVE2 和 SME2 等一系列 Arm 加速技術,從而顯著提升運算應用的性能表現。
據悉,KleidiAI 是一套專門面向 AI 框架開發者的高性能運算內核。
它能夠幫助開發者在各種設備上輕鬆發揮 Arm CPU 上的最佳性能,並充分利用 Neon、SVE2 和 SME2 等關鍵 Arm 架構的核心特性。
此外,KleidiAI 還集成了 PyTorch、Tensorflow、MediaPipe 等熱門 AI 框架,對 Meta Llama 3、Phi-3 等模型進行了性能優化,並且還採用了可前後兼容的設計。
這樣做的好處是,確保 Arm 未來在引入更多技術時依然能適用未來市場的需求。
據介紹,KleidiAI 的集成顯著提升了生成式 AI 的工作效率。
數據顯示,與參考實現方案(基於 llama.cpp,但不含 Kleidi 軟件優化)相比,在新的 Arm Cortex-X925 CPU 上,使用(集成了 KleidiAI 的)llama.cpp 的 Meta Llama 3 和微軟 Phi-3 大語言模型 (LLM) 的詞元 (Token) 首次響應時間加快了 190%。
KleidiAI 的另一大優勢在於易於集成。
據悉,Arm 的工程團隊只用不到 24 小時就完成了 Llama 3 的性能優化測試。
此外,KleidiAI 還通過 XNNPACK 與 MediaPipe 集成,為在行動設備上運行的開源 Gemma LLM 提供支持。
得益於此,Google Pixel 8 Pro 智慧型手機上 Gemma 2B 的詞元首次響應時間縮短了 25%。
與此同時,Arm 還與 Unity 合作開發端側 AI 推理引擎Sentis,可以讓遊戲開發者在所有支持 Unity 遊戲引擎的設備上打造全新的 AI 遊戲體驗。
另外,作為迄今速度最快的 Arm 運算平台,Arm 終端 CSS 在運算和圖形性能方面實現了超過 30% 的提升,足以應對各類嚴苛的 Android 工作負載。
與此同時,Arm 終端 CSS 也提高了 59% 的 AI 推理速度,適用於更廣泛的 AI/機器學習 (ML) 和計算視覺工作負載。
Arm 終端 CSS 的核心優勢在於其搭載了 Arm 迄今性能最強、效率最高、功能最全面的 CPU 集群,致力於實現性能與能效的最佳平衡。
而憑藉新一代 Arm Cortex®-X CPU,AI 優化的 Arm 終端 CSS 帶來最高的 IPC 較同期提升,性能提高 36%;新的 Arm Immortalis™ GPU 的圖形性能提高 37%。
(取自Arm 臉書粉專)
Arm Immortalis-G925 GPU 是 Arm 性能最強、效率最高的 GPU,在多款手遊應用中實現了 37% 的性能提升,並在多個 AI 和 ML 網絡上提升了 34% 的性能。
Immortalis-G925 主要面向旗艦智慧型手機市場。
而包括 Arm Mali™-G725 和 Mali-G625 GPU 在內的全新高可擴展性 GPU 系列,則面向從高端手機到智慧型手錶和 XR 可穿戴設備等廣泛的消費電子設備市場。
Arm 預計到 2025 年底,全球將有超過 1000 億台具備 AI 能力的 Arm 設備。
從感測器、智慧型手機,到工業網路、汽車和數據中心,就像建造摩天大樓需要堅實的地基,AI 技術的蓬勃發展也離不開強大而高效的運算平台作為支撐。
憑藉在晶片架構與技術創新上的不懈努力,Arm 正在為這座「AI 摩天大樓」打造最可靠的基石,也將在這場技術變革中扮演越發關鍵的角色。
本文為愛范兒授權刊登,原文標題為「Arm 年度技術大會收官,下一代 AI 計算平台在路上了」