MIT警示「深度學習過度依賴算力」，研究三年算法不如用10倍GPU

（示意圖/取自pixabay）

目前深度學習的繁榮，過度依賴算力的提升，在後摩爾定律時代可能遭遇發展瓶頸，在算法改進上還需多多努力。

根據外媒Venturebeat報導，麻省理工學院（MIT）聯合安德伍德國際學院（UIC），和巴西利亞大學（UnB）的研究人員進行了一項「深度學習算力」的研究。

在研究中，為了瞭解深度學習性能與運算之間的聯繫，研究人員分析了Arxiv以及其他包含基準測試來源的1058篇論文。

論文領域包括圖像分類、目標檢測、問答、命名實體辨識和機器翻譯等。

得出的結論是：訓練模型的進步，取決於算力的大幅提高，具體來說，運算能力提高10倍相當於三年的算法改進。

而這算力提高的背後，其實現目標所隱含的運算需求，包括硬體、環境和金錢成本將無法承受。

圖注：模型指標的線性成長和運算代價的指數成長相關。

為什麼說「深度學習過度依賴算力」？

他們得出這個結論的根據，是在1058篇論文中所統計的兩個資訊：

1、在給定的深度學習模型中，單次傳播（即權重調整）所需的浮點操作數。

2、硬體負擔，或用於訓練模型的硬體的運算能力，運算方式為處理器數量，乘以計算速率和時間。（研究人員承認，儘管這是一種不精確的運算方法，但在他們分析的論文中，對這種計算方式的報告比其他基準要廣泛。）

為了更清楚的說明「單次傳播所需的浮點操作數」和「硬體負擔」這兩個指標，作者在合著的研究報告中，舉了ImageNet的例子。

作者說，通過分析這些論文，目標檢測、命名實體辨識和機器翻譯，尤其顯示出硬體負擔的大幅增加，而結果的改善卻相對較小。在流行的開源ImageNet基準測試中，運算能力貢獻了圖像分類準確率的43％。

另外，即使是最樂觀的運算，要降低ImageNet上的圖像分類錯誤率，也需要進行10*5次以上的運算。

深度學習需要的硬體負擔和運算次數，自然涉及巨額資金花費。據Synced的一篇報告估計，華盛頓大學的Grover假新聞檢測模型，在大約兩週的時間內，訓練費用為25,000美元。

OpenAI花費了高達1200萬美元，來訓練其GPT-3語言模型，而Google估計花費了6912美元來訓練BERT，這是一種雙向Transformer模型，重新定義了11種自然語言處理任務的SOTA。

在去年6月的麻薩諸塞大學阿默斯特分校的另一份報告中指出，訓練和搜索某種模型，所需的電量涉及大約626,000磅的二氧化碳排放量。這相當於美國普通汽車使用壽命內，將近五倍的排放量。

當然，研究人員也同時指出，在算法水平上進行深度學習改進已經成為提升算力性能的重要方向。他們提到了硬體加速器，例如Google的TPU、FPGA和ASIC，以及通過網路壓縮和加速技術，來降低運算複雜性的嘗試。他們還提到了神經架構搜索和元學習，這些方法使用優化來搜索在某一類問題上，具有良好性能的架構。

OpenAI的一項研究表明，自2012年以來，將AI模型訓練到ImageNet圖像分類中，相同性能所需的運算量，每16個月減少一半。

Google的Transformer架構超越了seq2seq，在seq2seq推出三年後，運算量減少了61倍。DeepMind的AlphaZero，可以從頭開始學習如何掌握國際象棋、將棋和圍棋遊戲，與一年前該系統的前身AlphaGoZero相比，其運算量減少了八倍。

運算能力的爆發結束了「AI的冬天」，並為各種任務的運算性能樹立了新的基準。但是，深度學習對運算能力的巨大需求，限制了它改善性能的程度，特別是在硬體性能改善的步伐變得緩慢的時代。

研究人員說：「這些運算限制的可能影響，迫使機器學習轉向比深度學習更高效的技術。」

深度學習會被算力鎖死嗎？頂層設計仍有希望

關於深度學習是否達到了運算能力上限這件事情，之前就有過討論，例如MIT、輝達、微軟研究者合著的一篇Science論文，便從軟體、算法、硬體架構三個角度，去分析了算力的發展趨勢。

在Science這篇論文中，作者給過去算力的提升歸納了兩個原因，一個是「底部」的發展，即電腦部件的小型化，其受摩爾定律制約；另一個則是「頂部」的發展，是上面提到的軟體、算法、硬體架構的統稱。

在文章中，作者提到，在後摩爾定律時代，提升運算性能的方法，雖然「底部」已經沒有太多提升的空間，但「頂部」還有機會。

在軟體層面，可以通過性能工程（performance engineering），提高軟體的效率，改變傳統軟體的開發策略，盡可能縮短軟體運行時間，而不是縮短軟體開發時間。

另外，性能工程還可以根據硬體的情況進行軟體訂製，如利用並行處理器和矢量單元。

在算法層面，在已有算法上的改進是不均勻的，而且具有偶然性，大量算法進展可能來源於新的問題領域、可擴展性問題、根據硬體訂製算法。

另外，在今年的5月份，OpenAI針對AI算法，在過去數年中性能的提升做了一個詳細的分析。

他們發現，自2012年以來，在ImageNet分類上訓練具有相同性能的神經網路，所需要的運算量每16個月降低一半。與2012年相比，現在將神經網路訓練到AlexNet的性能，所需的運算量僅為原來的1/44（相比之下，摩爾定律僅降低為1/11）。

顯然，算法上的進步相比服從摩爾定理硬體的進步，能產生更多的效益。

在硬體層面，由於摩爾定律的制約，顯然需要改進的是硬體的架構，主要問題就是如何簡化處理器和利用應用程式的併行性。

通過簡化處理器，可以將複雜的處理核替換為電晶體數量需求更少的簡單處理核。由此釋放出的電晶體預算可重新分配到其他用途上，比如增加並行運行的處理核數量，這將大幅提升可利用並行性問題的效率。

簡化的另一種形式是領域專門化（domain specialization），即針對特定應用程式訂製硬體。這種專門化允許考慮領域的特點，自定義簡化硬體結構，具有極強的針對性。