畫(huà)
隨著越來(lái)越多的機(jī)器人進(jìn)入各種復(fù)雜的環(huán)境,研究人員正在努力使它們與人類(lèi)的交互盡可能流暢自然。訓(xùn)練機(jī)器人對(duì)口頭指令立即做出反應(yīng),例如“拿起玻璃并向右移動(dòng)”,在許多情況下都是理想的,因?yàn)檫@最終會(huì)使人類(lèi)和機(jī)器人之間的交互更加直接和直觀。然而,這并不總是容易的,因?yàn)樗枰獧C(jī)器人理解用戶(hù)的指令,還需要知道如何根據(jù)特定的空間關(guān)系移動(dòng)對(duì)象。
德國(guó)弗賴(lài)堡大學(xué)的研究人員最近設(shè)計(jì)了一種新方法,通過(guò)對(duì)“幻覺(jué)”場(chǎng)景的表征進(jìn)行分類(lèi),教會(huì)機(jī)器人根據(jù)人類(lèi)用戶(hù)的指令移動(dòng)物體。他們預(yù)先發(fā)表的關(guān)于arXiv的論文將于今年6月在IEEE機(jī)器人和自動(dòng)化國(guó)際會(huì)議(ICRA)上發(fā)表。
“在我們的工作中,我們專(zhuān)注于相關(guān)對(duì)象的放置指令,如‘將杯子放在盒子的右側(cè)’或‘將黃色玩具放在盒子的頂部’。”參與這項(xiàng)研究的研究人員之一Oier Mees告訴TechXplore。“為了做到這一點(diǎn),機(jī)器人需要考慮將杯子相對(duì)于盒子或任何其他參考對(duì)象放在哪里,以再現(xiàn)用戶(hù)描述的空間關(guān)系。”
訓(xùn)練機(jī)器人理解空間關(guān)系并相應(yīng)地移動(dòng)物體是非常困難的,因?yàn)橛脩?hù)的指令通常不會(huì)在機(jī)器人觀察的更大場(chǎng)景中描繪特定位置。換句話說(shuō),如果一個(gè)人類(lèi)用戶(hù)說(shuō)“把杯子放在手表左側(cè)”,機(jī)器人應(yīng)該把杯子放在手表左側(cè)多遠(yuǎn),不同方向之間的確切界限在哪里(例如,右、左、前、后等。)?
“由于這種固有的模糊性,沒(méi)有可用于學(xué)習(xí)空間關(guān)系建模的基本事實(shí)或‘正確’數(shù)據(jù)。”Mees說(shuō),“我們從輔助學(xué)習(xí)的角度解決了空間關(guān)系的基于事實(shí)的像素標(biāo)注不可用的問(wèn)題。”
Mees和他的同事設(shè)計(jì)的方法背后的主要思想是,更容易確定兩個(gè)物體和代表它們被發(fā)現(xiàn)的環(huán)境的圖像之間的空間關(guān)系。這使得機(jī)器人能夠檢測(cè)一個(gè)物體是否在另一個(gè)物體的左側(cè)、上方、前方等等。
雖然識(shí)別兩個(gè)對(duì)象之間的空間關(guān)系并不能指定這些對(duì)象應(yīng)該放在哪里來(lái)重現(xiàn)這種關(guān)系,但是在場(chǎng)景中插入其他對(duì)象可以讓機(jī)器人推斷出在多個(gè)空間關(guān)系中的分布。將這些不存在的(即虛幻的)物體添加到機(jī)器人所看到的東西中,將允許它在執(zhí)行給定動(dòng)作(即在桌面上的特定位置或其前方放置一個(gè)物體)時(shí)評(píng)估場(chǎng)景的外部環(huán)境。
“最常見(jiàn)的情況是,在圖像中實(shí)際‘粘貼’一個(gè)對(duì)象需要訪問(wèn)3D模型和輪廓,或者仔細(xì)設(shè)計(jì)一個(gè)優(yōu)化過(guò)程來(lái)生成對(duì)策網(wǎng)絡(luò)(GANs)。”米斯說(shuō),“此外,簡(jiǎn)單地‘粘貼’圖像中的對(duì)象會(huì)產(chǎn)生微妙的像素偽像,導(dǎo)致明顯不同的特征,并使訓(xùn)練錯(cuò)誤地專(zhuān)注于這些差異。我們使用一種不同的方法,將物體的高級(jí)特征植入卷積神經(jīng)網(wǎng)絡(luò)生成的場(chǎng)景特征圖中,從而對(duì)場(chǎng)景表征產(chǎn)生錯(cuò)覺(jué),并將其歸類(lèi)為輔助任務(wù),以獲得學(xué)習(xí)信號(hào)。”
在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)基于錯(cuò)覺(jué)物體的空間關(guān)系之前,研究人員必須確保它能夠根據(jù)單個(gè)圖像對(duì)單個(gè)物體對(duì)之間的關(guān)系進(jìn)行分類(lèi)。隨后,他們“欺騙”了這個(gè)名為RelNet的網(wǎng)絡(luò),通過(guò)在不同的空間位置植入高級(jí)別的物體特征,對(duì)“幻覺(jué)”場(chǎng)景進(jìn)行分類(lèi)。
“我們的方法允許機(jī)器人在最少的數(shù)據(jù)收集或靈感的情況下,遵循人類(lèi)用戶(hù)給出的自然語(yǔ)言放置指令。”米斯說(shuō),“每個(gè)人都希望家里有一個(gè)服務(wù)機(jī)器人,它可以通過(guò)理解自然語(yǔ)言指令來(lái)執(zhí)行任務(wù)。這是機(jī)器人更好地理解公共空間的意義的第一步。”
現(xiàn)有的訓(xùn)練機(jī)器人移動(dòng)物體的方法大多是利用與物體三維形狀相關(guān)的信息來(lái)模擬成對(duì)的空間關(guān)系。這些技術(shù)的一個(gè)關(guān)鍵限制是它們通常需要額外的技術(shù)組件,例如可以跟蹤不同物體運(yùn)動(dòng)的跟蹤系統(tǒng)。另一方面,Mees和他的同事提出的方法不需要任何額外的工具,因?yàn)樗皇腔?D視覺(jué)技術(shù)。
研究人員在一系列涉及真實(shí)用戶(hù)和機(jī)器人的實(shí)驗(yàn)中評(píng)估了他們的方法。這些測(cè)試的結(jié)果非常有希望,因?yàn)樗麄兊姆椒梢允箼C(jī)器人根據(jù)人類(lèi)用戶(hù)語(yǔ)音指令描述的空間關(guān)系,有效地識(shí)別出在桌子上放置物體的最佳策略。
“幻覺(jué)場(chǎng)景代表我們的新穎方法也可以應(yīng)用于機(jī)器人和計(jì)算機(jī)視覺(jué)社區(qū),因?yàn)闄C(jī)器人通常需要能夠估計(jì)未來(lái)狀態(tài)的良好程度,以便推斷它們需要采取的行動(dòng)。”米斯說(shuō)。“通過(guò)使用幻覺(jué)場(chǎng)景表示作為數(shù)據(jù)增強(qiáng)的一種形式,它還可以用于提高許多神經(jīng)網(wǎng)絡(luò)的性能,如對(duì)象檢測(cè)網(wǎng)絡(luò)。”
Mees和他的同事可以可靠地建立一組自然語(yǔ)言空間單詞的模型(如右、左、上等。)而不使用3D可視化工具。未來(lái),他們研究中提出的方法可以用來(lái)提高現(xiàn)有機(jī)器人的能力,使它們能夠更有效地完成簡(jiǎn)單的物體移動(dòng)任務(wù),并遵循人類(lèi)用戶(hù)的語(yǔ)音指令。
同時(shí),他們的論文也可以為開(kāi)發(fā)類(lèi)似技術(shù)提供參考,以增強(qiáng)人類(lèi)和機(jī)器人在其他物體操作任務(wù)中的交互。如果加入輔助學(xué)習(xí)方法,Mees和他的同事開(kāi)發(fā)的方法也可以減少機(jī)器人研究數(shù)據(jù)集編譯相關(guān)的成本和工作,因?yàn)樗梢栽跊](méi)有大型標(biāo)注數(shù)據(jù)集的情況下預(yù)測(cè)像素概率。
米斯總結(jié)道:“我們認(rèn)為這是人類(lèi)和機(jī)器人達(dá)成共識(shí)的充滿希望的第一步。”“未來(lái),我們希望將我們的方法擴(kuò)展到包括對(duì)參考表達(dá)式的理解,以便開(kāi)發(fā)一個(gè)遵循自然語(yǔ)言指令的拾取和放置系統(tǒng)。”