憑藉Google新演算法，機器人自學行走平均只需3.5小時

在機器人領域，讓機器人保持站立並進行平穩的運動一直是一個棘手的挑戰，因為這需要超高的專業知識和設計水準。儘管一些傳統的機器人能在人工控制的情況下完成站立和運動，但它們的活動範圍也充滿了各種侷限性。

為了解決這個問題，Google近日和喬治亞理工學院以及加州大學柏克萊分校的研究人員聯合發表了一篇論文，詳細介紹了他們如何成功地打造了一個透過AI以自學走路的機器人。他們為這隻四腳的小機器人取了個可愛的代號「Rainbow Dash」。

根據世界紀錄，嬰兒從爬行到學會行走的最快速度是6個月，而根據論文中的測試資料顯示，Rainbow Dash平均只需要大約3.5小時來學習向前、向後和左右轉彎等運動。在堅硬平坦的地面上，該機器人學習走路需要1.5個小時，在由記憶海綿材質的床墊上大約需要5.5個小時，在鏤空地毯上大約需要4.5個小時。

具體來說，該機器人使用深度強化學習，即結合了深度學習和強化學習兩種不同類型的AI技術。透過深度學習，系統可以處理和評估來自其身處環境的原始輸入資料；透過強化學習，演算法可以反覆試驗，以學習如何執行任務，並根據完成的程度來獲得獎勵和懲罰。也就是說，透過上述的這種方式，機器人便可以在其不了解環境中實現自動控制策略。

在以往的此類實驗中，研究人員最初都會讓機器人透過類比來學習真實世界的環境。在模擬環境中，機器人的虛擬體首先與虛擬環境進行交互，然後，演算法接收這些虛擬資料，直到系統有能力對這些資料「應對自如」，一個搭載系統的物理形態的機器人才會被放置到現實環境中進行實驗。這種方法有助於避免在試錯過程中，對機器人及其周圍環境造成損害。

不過，環境雖然容易建立模型，但通常耗時長，而且現實環境中充滿了各種意想不到的情況，因此，在類比環境中訓練機器人的意義有限。畢竟，此類研究的最終目標恰恰是讓機器人為現實世界的場景做好準備。

Google和喬治亞理工學院以及加州大學柏克萊分校的研究人員並沒有「守舊」。在他們的實驗中，從一開始就在真實環境中對Rainbow Dash進行訓練，如此一來，機器人不僅能夠很好地適應自己所處的環境，也能夠更好地適應相似的環境。

儘管Rainbow Dash能夠獨立運動，這並不代表研究人員可以對其「撒手不管」。在一個環境中學習行走的最開始，研究人員仍需要對Rainbow Dash手動干預上百次。為了解決這個問題，研究人員限定了機器人運動的環境，讓其一次性進行多重動作訓練。

在Rainbow Dash自學行走之後，研究人員可以透過連入控制手把來操控機器人實現理想的運動軌跡，將機器人控制在設定的環境內。此外，機器人在辨識到環境的邊界後，也會自動往回走。

Google在該研究中的負責人Jan Tan告訴媒體，這項研究花費了大約一年的時間才完成。他說道：「我們有興趣讓機器人，能夠在各種複雜的現實世界環境中運動。不過，要設計出能夠靈活處理多樣性和複雜性的運動控制器十分困難。」

據了解，接下來，研究人員希望他們的演算法能適用於不同種類的機器人，或適用於多個機器人在同一環境中同時進行學習。研究人員相信，破解機器人的運動能力將是解鎖更多實用機器人的關鍵，人類用腿來走路，如果機器人不會使用腿，它們就不能在人類世界中行走。

然而，讓機器人在人類世界中行走是一個至關重要的課題，它們可以代替人類探索地球上不同的地形或未被人類探索過的地區，比如太空。但由於該機器人依賴於安裝在其上方的動作捕捉系統來確定位置，該裝置暫時還不能直接用於現實世界。

本文為雷鋒網授權刊登，原文標題為「憑藉 Google 新演算法，機器人自學行走平均只需 3.5 小時」