機器人遞接物品反應慢？輝達開發AI模型成功率達100%

（示意圖/取自pixabay）

想像一下，想要將手中的小方塊優雅地遞給別人，是用手卡住方塊的側面送出？

還是伸出托著方塊底部的手？

那麼如果對方是機器人，持握小方塊的方式是否會影響機器人快速、精確的辨識呢？

答案是「會」！

因此，輝達（Nvidia）研究人員設計了一種人類-機器人遞接物品的新方式，當機器人面對人類時，對其持握動作進行判斷、分類，進而設計出遞接物品的方式。這一方式比基線更流暢，可為合作機器人的設計提供新思路，從而提高倉庫工人的生產力。

當地時間2020年3月12日，相關論文Human Grasp Classification for Reactive Human-to-Robot Handovers（基於人手持握動作分類的人類-機器人遞接物品反應）發表於預印本網站 arXiv。

解決物品和人手相互遮擋的問題

如今關注人類-機器人無縫遞接物品領域的研究越來越多。就目前而言，絕大多數研究著眼於將物品從機器人轉移到人類手中的挑戰，假設人類可將物品放置在機器人的抓取器中，進行反向操作。

不過，人類-機器人無縫遞接物品的一個挑戰，便是機器人缺少可靠、連續的感知。在遞接物品過程中，物品和人手難免會相互遮擋，而且人在遞接物品時還經常同時在做其他事情，因此機器人對人手和物品狀態、位置的估計並不是很精準。

對此，研究人員提出的一種策略是，通過從電腦視覺借用現成的方法，估計人手的動作及物品的6D狀態。然而，這一方法僅僅關注於人手或物品。

基於此，輝達研究人員做了一系列改進。

將人手持握物品的動作劃分類別

首先，研究人員利用微軟Azure Kinect深度感測器的身體追蹤SDK（軟體開發工具包）獲取檢測到的以人手為中心的點雲（point cloud），編輯一個數據集，訓練AI模型。

此外，研究人員展示持握物品的示例圖像，並記錄20～60秒內人手做出的類似動作。在此期間，人可以不斷移動身體或手，保證視角多樣化。據瞭解，該研究團隊數據集的圖像已超過15萬張。

在此基礎上，研究人員將持握動作劃分類別，比如手中拿著一個小方塊時，動作可以被描述為「手掌張開」、「卡住底部」、「卡住頂部」、「卡住側面」或「抬起」。

研究人員表示：「目前我們的系統，覆蓋了77%的人手持握物品方式，未來我們還要將其擴展到更大的範圍。」

隨後，研究人員將遞接物品任務建模，基於一個「魯棒動態邏輯系統」（Robust Logical-Dynamical System），設計出遞接物品的軌跡，免去了特定種類的抓取器和人手接觸的麻煩。

這一系統必須適應人類各種可能的持握動作，才能做出反應，判斷接近人類並遞接物品的方式。在系統確切地估計出人類將以何種方式持握物品之前，它將始終在原位（「home」 position）保持等待狀態。

實際上，研究人員在一系列實驗中對人手所有可能的位置、動作進行了系統性的回顧，確定了分類模型和任務模型。同時，研究人員也考慮了這一過程中可能涉及的額外操作（下圖為按優先級降序排列的可能，出現的額外操作）。

遞接成功率為100%

實驗中，研究人員用到的是來自德國慕尼黑機器人公司Franka Amika的兩個不同的「熊貓機器人」（Panda robots），研究人員將其安裝在同一張桌子上的不同位置，分別從人類手中接過4種不同顏色的物品。

該論文的兩位作者表示，與2個基線方法（一個不判斷人手狀態，另一個僅依賴於手和物體的狀態）相比，他們的方法提升了人類-機器人無縫遞接物品的成功率，並縮短了計劃、執行時間，而且遞接成功率為100%（第二高為80%），判斷成功率為64.3%（第二高為29.6%），計劃、執行總動作為17.34秒（第二短為36.34秒）。

不過，研究人員也明確提到了這一系統存在的不足與未來的研究方向：「提升判斷成功率，將會是未來我們的一個努力方向，這是因為即使系統已經可以處理大部分物品和人手彼此遮擋的場景，但不確定性也更高了，有時機器人不得不重新進行判斷。」

此外，他們計劃讓系統從數據中學習不同的持握類型，而不是依賴於人工制訂的規則。

本文為雷鋒網授權刊登，原文標題為「機器人遞接物品反應慢？英偉達開發 AI 模型：數據集圖像總量逾 15 萬，成功率 100%」