MIT警示「深度學習過度依賴算力」,研究三年算法不如用10倍GPU
蔣寶尚、青暮 / 何渝婷編譯
2020-09-18 16:50

(示意圖/取自pixabay)

目前深度學習的繁榮,過度依賴算力的提升,在後摩爾定律時代可能遭遇發展瓶頸,在算法改進上還需多多努力。

根據外媒Venturebeat報導,麻省理工學院(MIT)聯合安德伍德國際學院(UIC),和巴西利亞大學(UnB)的研究人員進行了一項「深度學習算力」的研究。

在研究中,為了瞭解深度學習性能與運算之間的聯繫,研究人員分析了Arxiv以及其他包含基準測試來源的1058篇論文。

論文領域包括圖像分類、目標檢測、問答、命名實體辨識和機器翻譯等。

得出的結論是:訓練模型的進步,取決於算力的大幅提高,具體來說,運算能力提高10倍相當於三年的算法改進。

而這算力提高的背後,其實現目標所隱含的運算需求,包括硬體、環境和金錢成本將無法承受。     

 

圖注:模型指標的線性成長和運算代價的指數成長相關。

為什麼說「深度學習過度依賴算力」?

他們得出這個結論的根據,是在1058篇論文中所統計的兩個資訊:

1、在給定的深度學習模型中,單次傳播(即權重調整)所需的浮點操作數。

2、硬體負擔,或用於訓練模型的硬體的運算能力,運算方式為處理器數量,乘以計算速率和時間。(研究人員承認,儘管這是一種不精確的運算方法,但在他們分析的論文中,對這種計算方式的報告比其他基準要廣泛。)

為了更清楚的說明「單次傳播所需的浮點操作數」和「硬體負擔」這兩個指標,作者在合著的研究報告中,舉了ImageNet的例子。

作者說,通過分析這些論文,目標檢測、命名實體辨識和機器翻譯,尤其顯示出硬體負擔的大幅增加,而結果的改善卻相對較小。在流行的開源ImageNet基準測試中,運算能力貢獻了圖像分類準確率的43%。

另外,即使是最樂觀的運算,要降低ImageNet上的圖像分類錯誤率,也需要進行10*5次以上的運算。

深度學習需要的硬體負擔和運算次數,自然涉及巨額資金花費。據Synced的一篇報告估計,華盛頓大學的Grover假新聞檢測模型,在大約兩週的時間內,訓練費用為25,000美元。

OpenAI花費了高達1200萬美元,來訓練其GPT-3語言模型,而Google估計花費了6912美元來訓練BERT,這是一種雙向Transformer模型,重新定義了11種自然語言處理任務的SOTA。

在去年6月的麻薩諸塞大學阿默斯特分校的另一份報告中指出,訓練和搜索某種模型,所需的電量涉及大約626,000磅的二氧化碳排放量。這相當於美國普通汽車使用壽命內,將近五倍的排放量。

當然,研究人員也同時指出,在算法水平上進行深度學習改進已經成為提升算力性能的重要方向。他們提到了硬體加速器,例如Google的TPU、FPGA和ASIC,以及通過網路壓縮和加速技術,來降低運算複雜性的嘗試。他們還提到了神經架構搜索和元學習,這些方法使用優化來搜索在某一類問題上,具有良好性能的架構。

OpenAI的一項研究表明,自2012年以來,將AI模型訓練到ImageNet圖像分類中,相同性能所需的運算量,每16個月減少一半。

Google的Transformer架構超越了seq2seq,在seq2seq推出三年後,運算量減少了61倍。DeepMind的AlphaZero,可以從頭開始學習如何掌握國際象棋、將棋和圍棋遊戲,與一年前該系統的前身AlphaGoZero相比,其運算量減少了八倍。

運算能力的爆發結束了「AI的冬天」,並為各種任務的運算性能樹立了新的基準。但是,深度學習對運算能力的巨大需求,限制了它改善性能的程度,特別是在硬體性能改善的步伐變得緩慢的時代。

研究人員說:「這些運算限制的可能影響,迫使機器學習轉向比深度學習更高效的技術。」

深度學習會被算力鎖死嗎?頂層設計仍有希望  

(論文網址:https://science.sciencemag.org/content/368/6495/eaam9744

關於深度學習是否達到了運算能力上限這件事情,之前就有過討論,例如MIT、輝達、微軟研究者合著的一篇Science論文,便從軟體、算法、硬體架構三個角度,去分析了算力的發展趨勢。

在Science這篇論文中,作者給過去算力的提升歸納了兩個原因,一個是「底部」的發展,即電腦部件的小型化,其受摩爾定律制約;另一個則是「頂部」的發展,是上面提到的軟體、算法、硬體架構的統稱。

在文章中,作者提到,在後摩爾定律時代,提升運算性能的方法,雖然「底部」已經沒有太多提升的空間,但「頂部」還有機會。

在軟體層面,可以通過性能工程(performance engineering),提高軟體的效率,改變傳統軟體的開發策略,盡可能縮短軟體運行時間,而不是縮短軟體開發時間。

另外,性能工程還可以根據硬體的情況進行軟體訂製,如利用並行處理器和矢量單元。

在算法層面,在已有算法上的改進是不均勻的,而且具有偶然性,大量算法進展可能來源於新的問題領域、可擴展性問題、根據硬體訂製算法。

另外,在今年的5月份,OpenAI針對AI算法,在過去數年中性能的提升做了一個詳細的分析。

他們發現,自2012年以來,在ImageNet分類上訓練具有相同性能的神經網路,所需要的運算量每16個月降低一半。與2012年相比,現在將神經網路訓練到AlexNet的性能,所需的運算量僅為原來的1/44(相比之下,摩爾定律僅降低為1/11)。

顯然,算法上的進步相比服從摩爾定理硬體的進步,能產生更多的效益。 

在硬體層面,由於摩爾定律的制約,顯然需要改進的是硬體的架構,主要問題就是如何簡化處理器和利用應用程式的併行性。

通過簡化處理器,可以將複雜的處理核替換為電晶體數量需求更少的簡單處理核。由此釋放出的電晶體預算可重新分配到其他用途上,比如增加並行運行的處理核數量,這將大幅提升可利用並行性問題的效率。

簡化的另一種形式是領域專門化(domain specialization),即針對特定應用程式訂製硬體。這種專門化允許考慮領域的特點,自定義簡化硬體結構,具有極強的針對性。

本文為雷鋒網授權刊登,原文標題為「MIT警示「深度學習過度依賴算力」,研究三年算法不如用10倍GPU