機(jī)器人領(lǐng)域向前邁出了一步,緊隨其后的又是另一步。最近,一個名為Rainbow Dash的機(jī)器人自學(xué)了走路。這只四腳機(jī)器只需要幾個小時就可以學(xué)會向前和向后行走,并在此過程中左右旋轉(zhuǎn)。
谷歌,加州大學(xué)伯克利分校和佐治亞理工學(xué)院的研究人員在ArXiv預(yù)印服務(wù)器上發(fā)表了一篇論文,描述了一種統(tǒng)計(jì)AI技術(shù),即深度強(qiáng)化學(xué)習(xí),他們用來產(chǎn)生這種成就,這是很重要的,其原因有很多。
大多數(shù)強(qiáng)化學(xué)習(xí)部署都在計(jì)算機(jī)模擬的環(huán)境中進(jìn)行。但是,Rainbow Dash使用此技術(shù)來學(xué)習(xí)在實(shí)際物理環(huán)境中行走。
而且,它能夠在沒有專門的教學(xué)機(jī)制的情況下進(jìn)行操作,例如人工指導(dǎo)或帶有標(biāo)簽的培訓(xùn)數(shù)據(jù)。最終,Rainbow Dash成功地在多個表面上行走,包括柔軟的泡沫床墊和帶有明顯凹口的門墊。
機(jī)器人使用的深度強(qiáng)化學(xué)習(xí)技術(shù)包括一種機(jī)器學(xué)習(xí),其中代理與環(huán)境交互以通過反復(fù)試驗(yàn)來學(xué)習(xí)。大多數(shù)強(qiáng)化學(xué)習(xí)用例都涉及計(jì)算機(jī)游戲,其中數(shù)字特工學(xué)習(xí)如何玩贏。
這種形式的機(jī)器學(xué)習(xí)與傳統(tǒng)的有監(jiān)督或無監(jiān)督學(xué)習(xí)明顯不同,在傳統(tǒng)的有監(jiān)督或無監(jiān)督學(xué)習(xí)中,機(jī)器學(xué)習(xí)模型需要標(biāo)記的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)。深度強(qiáng)化學(xué)習(xí)將強(qiáng)化學(xué)習(xí)方法與深度學(xué)習(xí)相結(jié)合,傳統(tǒng)的機(jī)器學(xué)習(xí)的規(guī)模隨著強(qiáng)大的計(jì)算能力而大大擴(kuò)展。盡管研究團(tuán)隊(duì)將Rainbow Dash的學(xué)習(xí)能力歸功于自己,但人為干預(yù)仍在實(shí)現(xiàn)該目標(biāo)方面發(fā)揮了重要作用。研究人員必須創(chuàng)建邊界,機(jī)器人可以在該邊界內(nèi)學(xué)習(xí)走路,以防止機(jī)器人離開該區(qū)域。
他們還必須設(shè)計(jì)特定的算法來防止機(jī)器人摔倒,其中一些算法集中在限制機(jī)器人的運(yùn)動上。為了防止諸如墜落損壞之類的事故,通常在數(shù)字環(huán)境中進(jìn)行機(jī)器人強(qiáng)化學(xué)習(xí),然后再將算法轉(zhuǎn)移到物理機(jī)器人上以保持其安全性。
彩虹短跑的勝利發(fā)生大約一年后,研究人員最初想出如何讓機(jī)器人在物理學(xué)習(xí),而不是虛擬的,周圍的環(huán)境。
斯坦福大學(xué)與Google無關(guān)的助理教授切爾西·芬恩(Chelsea Finn)表示,“將人員從[學(xué)習(xí)]過程中撤離確實(shí)很困難。通過允許機(jī)器人自主學(xué)習(xí),機(jī)器人將更接近于能夠在現(xiàn)實(shí)世界中學(xué)習(xí)我們的生活。”