OpenAI發表新演算法,讓機器人像人類般透過模仿學習新技能

機器學習-編按:OpenAI今日發表的機器人學習系統,讓機器人只要看過一次人類在虛擬實境(VR)中的示範後,

就能成功複製人類行為,完成任務。

仿是人類與天俱來的能力,這也讓我們得以習得新技能,而現在,機器人也能採同樣的學習方式。

OpenAI今日發表的機器人學習系統,讓機器人只要看過一次人類在虛擬實境(VR)中的示範後,

就能成功複製人類行為,讓機器人的學習過程就和人類孩童時期模仿大人行為一樣,

差別只在於,機器人可完全在虛擬環境中訓練。

 

先用視覺演算法辨識物件,再用模仿演算法預測執行動作

在示範影片中,機器人的任務是將不同顏色的方塊按照固定順序堆疊在一起,在訓練一開始,

研究人員只需要透過VR裝置在虛擬環境中示範任務一次。

而在實際執行任務時,系統會先透過視覺演算法辨識不同顏色的方塊位置。

在此前,OpenAI已經先在虛擬環境中,將方塊和桌面的各種背景、顏色、紋理的排列組合供視覺演算法學習。

相較於利用真實圖像訓練演算法,透過虛擬環境訓練演算法的成本更低且更有效率。

接著,系統會再利用「單次模仿學習(one-time imitation learning)」,辨識人類示範動作的任務目標,

並預測人類在類似情形會透過哪些動作來完成任務、模仿人類行為,再把動作指令傳給機器人。

由於過去已在虛擬環境中進行上千次的模擬演練,機器人不用看過一模一樣的場景,也能成功完成任務。

例如,以堆疊方塊的例子來說,方塊位置不需要和示範時一模一樣,機器人也可按照示範中方塊堆疊的顏色和順序疊好方塊。

 

目標為打造家居型機器人,可用於訓練極端環境任務機器人

和以往機器人訓練差異最大的地方在於,OpenAI開發的演算法,讓訓練過程完全在虛擬環境中進行,並直接部署於機器人。

研究人員指出,目標為希望打造出通用的家居型機器人,幫助整理桌面和環境等家庭事務。

而由於這套系統只要在虛擬環境中,即可訓練機器人執行複雜任務,將有助於訓練專門在極端環境中執行任務的機器人

如輻射外洩、極端水域等環境)。

 

文章出處:數位時代