無懼雨雪風霜?史丹佛找到一種更適應動態環境的強化學習方法
周蕾 / 何渝婷編譯
2020-07-02 11:15

(示意圖/取自pixabay)

史丹佛人工智慧實驗室(SAIL)的研究人員最近設計了一種方法,能處理那些會隨時間變化的數據和環境,性能優於一些領先的強化學習方法,它被命名為LILAC(Lifelong Latent Actor-Critic)。

這一方法使用了潛在變量模型和最大熵策略,以此利用過去的經驗,在動態環境中獲得更好的採樣效率和性能。

他們在一篇關於LILAC的論文中寫道:「我們觀察到,在具有顯著非平穩性的各種連續控制任務中,與最先進的強化學習方法相比,我們的方法帶來了實質性的改進。」例如,它能夠更好地適應環境,機器人或自主車輛,可以在天氣條件變化較多(比如遇到雨雪環境)引入時運行這一方法。

作者在該動態強化學習環境中進行了四個測試,包括來自metaworld基準測試的Sawyer機器人、OpenAI Gym的Half-Cheetah和2D導航任務。

研究人員發現,與柏克萊AI研究院(BAIR)於2018年推出的SAC(Soft Actor Critical),和加州大學柏克萊分校(UC Berkeley)研究人員,今年早些時候推出的SLAC(Rastic Potential Actor Critic)等頂級強化學習方法相比,LILAC在所有領域都能獲得更高、更穩定的回報。

史丹佛大學的研究人員Annie Xie、James Harrison和Chelsea Finn兩周前在arXiv上,發表了一篇關於LILAC的論文。主要作者Xie,也與加州大學柏克萊分校教授Sergey Levine合作研究SAC和SLAC。

「與這些方法不同,儘管在每一集中都會經歷環境的持續變化,但LILAC卻能推斷出未來環境的變化,並在訓練過程中穩步保持高回報。」

作者說,LILAC與終身學習和線上學習算法有相似之處。元學習和元強化學習算法也試圖快速適應新的設置。

在最近的其他強化學習新聞中,來自Google Brain、卡內基梅隆大學、匹茲堡大學和加州大學柏克萊分校的AI研究人員,最近又引入了一種新的域適應方法,即在強化學習環境中改變代理的獎勵函數。與其他強化學習環境一樣,該方法試圖使模擬器中的源域更像真實世界中的目標域。

一篇上周發表的域適配論文指出,「行為主體會因為轉換而受到懲罰,轉換可以表明行為主體是在與源域還是目標域交互。」「在一系列控制任務上的實驗表明,我們的方法可以利用源域來學習在目標域中運行良好的策略,儘管只觀察到目標域的少數轉換。」

研究人員修改了獎勵函數,使用分類器來區分源域和目標域的轉換。他們在OpenAI Gym用三個任務來測試他們的方法。

本文為雷鋒網授權刊登,原文標題為「無懼雨雪風霜?斯坦福找到一種更適應動態環境的強化學習方法