GC 程式屋: [KaaS] OpenAI 造出一款機器手臂，50 小時就能累積 100 年的訓練量

2018年7月31日星期二

資料來源:
https://ift.tt/2OBtgvE
本文:

由伊隆‧馬斯克（Elon Musk）創辦的非營利性人工智慧組織 OpenAI，向外界展示了一項新的研究成果：讓機械手像人手抓取和操縱物體。雖然這種仿真造型的手掌已見過很多，但讓「手指」能和人類手一樣靈活可動，對機器結構來說不是一件簡單的事。

下面的動圖能看到，這套名為 Dactyl 的機器手臂系統能按照指令要求，輕鬆完成轉動立方體的動作，且這種包含各種技巧的指尖操作，顯然比過去看到的機器人行走跳躍複雜得多。

Dactyl 之所以能高效運作，和 OpenAI 使用的強化學習演算法有關。就像剛出生的小孩，AI 或機器人剛造出來的時候什麼都不懂，如果你希望它能完全理解某項複雜任務的流程，肯定需要反覆訓練。

尤其是對真實存在的物理機器人來說，研究人員往往要耗費大量現實時間指導其練習。

但 OpenAI 現在的做法，是完全在虛擬環境訓練 AI 機器人，然後再把 AI 應用在實體機器人身上。他們還在訓練過程增加大量動態隨機事件，讓 AI 自己領悟完成任務的訣竅。

以這次的機器手掌為例，他們會在一個控制網路教導機器手臂最基礎的翻轉指令，以及利用鏡頭，在視覺網路預估立方體的位置和方向；然後開始改變周圍環境的燈光和噪聲，還有立方體的顏色、重量、紋理和摩擦力等；甚至是改變重力環境因素。

之所以加入隨機化變量，是為了讓 AI 更能應付各種意外情況：「比如說不同的重力環境下，Dactyl 就會領悟這對立方體操控造成哪些影響。不然現實世界中，一旦我們改變手臂的高度，重力環境發生改變，立方體可能就會滑落。」

另外，由於不用模仿人類的行為，所以 OpenAI 的訓練方式也可允許 AI 充分思考人類沒有想過的方式，說不定能獲得意想不到的成果。

這種虛擬環境的訓練模式還有一個好處，就是不耗費現實世界的時間。目前 Dactyl 已積累約 100 年的訓練經驗，嘗試用無數種方法來控制立方體轉動，但實際上這個過程只相當於現實世界的 50 個小時而已。

在虛擬世界裡完成訓練後，AI 就可應用這些經驗分析現實世界的動態因素，並調整行為完成任務了。如今 Dactyl 已可連續完成 50 次立方體旋轉操作，且不會出錯。

值得一提的是，這種超高效訓練模式不僅能運用在物理機器人，也同樣可用於其他虛擬 AI 模型。去年 7 月，OpenAI 開發的 Open AI Five 在虛擬世界經歷上萬個小時的學習，實際上只花費了幾天時間，然後便在 Dota2 遊戲擊敗了職業選手 Dendi。

雖然只是一次 Solo 對決而非 5v5，但依舊讓我們看到人工智慧在電競這種複雜領域的有效性，包括我們熟知的「圍棋殺手」 AlphaGo，也是 DeepMind 公司使用深度強化學習訓練出來的 AI 模型。

據說強化學習的靈感最早來自人類長期觀察自然界動物學習過程，之所以近幾年才開始嘗試，也是受益於神經網路技術進步，以及 OpenAI 本身的規模優勢。一旦強化學習的基準更多樣複雜，自然也得付出不小的運算成本。

按照 OpenAI 的數據，Dactyl 的訓練設備動用約 6,144 顆 CPU，以及 8 顆 Nvidia 的 V100 GPU，這種規模的基礎硬體只有很少數研究機構才能用得起。

總地來說，OpenAI 提出的「將模擬環境的成果應用到現實世界」會是開發通用機器人的有效解決方案之一，但也有機器人專家認為，這種程度的實驗結果只局限在某特定任務，能否真正解決現實世界的難題，仍然是未知數。

（本文由愛范兒授權轉載；圖片來源：OpenAI）

心得討論: 除了運算量快速累積外，資料的儲存與傳送也都是未來很快就會遇到的門檻，我可以想著如何去解決這些問題。

GC 程式屋