將有色液體圖像轉(zhuǎn)換成透明液體,CMU教機(jī)器人準(zhǔn)確掌控向杯中倒多少水
借助不同風(fēng)格之間的圖像轉(zhuǎn)換,CMU 的研究者教會(huì)了機(jī)器人理解透明液體。
如果機(jī)器人可以倒液體,則可以幫助我們自動(dòng)完成烹飪、將****品倒入****瓶或給植物澆水等任務(wù)。但是,透明液體在圖像中很難被感知出來(lái),完全透明的液體可以提供的唯一視覺(jué)信號(hào)是光線穿過(guò)液體的折射。此外,獲得液體的深度測(cè)量同樣不容易,因?yàn)橐后w會(huì)折射所投射的紅外光。
以往的工作已經(jīng)探索了機(jī)器人在各種環(huán)境下倒水,但都需要在環(huán)境或數(shù)據(jù)收集方法上做出重大妥協(xié)。透明液體細(xì)分的方法需要在訓(xùn)練期間加熱液體,以在熱成像儀觀察下獲得真值標(biāo)簽。
然而,為訓(xùn)練加熱液體是一個(gè)單調(diào)乏味的過(guò)程,對(duì)可以輕松收集多少訓(xùn)練數(shù)據(jù)有限制。其他方法需要從多視角、背景、重量測(cè)量或液體運(yùn)動(dòng)等方面觀察液體,這些施加在環(huán)境上的要求限制了這些方法的適用性。
近期,在 CMU 和圣母大學(xué)的一篇論文中,研究者提出了一種在透明容器中感知透明液體(如水)的方法。與以往方法相比,本研究提出的方法減輕了對(duì)操作域的限制。具體地,他們?cè)趩蝹€(gè)圖像上進(jìn)行操作,不需要液體運(yùn)動(dòng)或多幀,也不需要在訓(xùn)練期間進(jìn)行手動(dòng)注釋或加熱液體。研究者使用一個(gè)生成模型來(lái)學(xué)習(xí)將有色液體的圖像轉(zhuǎn)換為透明液體的合成圖像,這種做法可以用來(lái)訓(xùn)練透明的液體細(xì)分模型。
論文一作 Gautham Narasimhan 現(xiàn)為 CMU 機(jī)器人研究所的助理研究員,2020 年在 CMU 拿到了碩士學(xué)位。目前,他致力于研究用于機(jī)器人倒水任務(wù)的強(qiáng)化學(xué)習(xí)模型。該研究由 LG Electronics 和美國(guó)國(guó)家科學(xué)基金會(huì)提供資助,并于 5 月份發(fā)表在 IEEE 國(guó)際機(jī)器人和自動(dòng)化會(huì)議上。該論文已被機(jī)器人領(lǐng)域國(guó)際頂會(huì) ICRA 2022 接收。
- 論文地址:https://arxiv.org/pdf/2203.01538.pdf
- 項(xiàng)目主頁(yè):https://sites.google.com/view/transparentliquidpouring
研究中非常重要的是,研究者在透明和有色液體的未配對(duì)圖像數(shù)據(jù)集上訓(xùn)練轉(zhuǎn)換模型,也就是說(shuō),他們的方法不需要有色和透明圖像之間的標(biāo)簽對(duì)應(yīng)來(lái)學(xué)習(xí)有色到透明轉(zhuǎn)換模型。這樣可以實(shí)現(xiàn)自動(dòng)和高效的數(shù)據(jù)集收集。由于很容易獲得有色液體的細(xì)分標(biāo)簽,研究者可以直接使用一張有色液體圖像的細(xì)分標(biāo)簽作為同一張圖像的真值細(xì)分標(biāo)簽,只要它已經(jīng)轉(zhuǎn)換成了透明液體。
為了證明這種數(shù)據(jù)集轉(zhuǎn)換方法在現(xiàn)實(shí)世界系統(tǒng)中的實(shí)用性,研究者構(gòu)建了一個(gè)機(jī)器人倒水系統(tǒng),它利用一個(gè)透明液體細(xì)分模型來(lái)完成倒水任務(wù)。在一個(gè)由機(jī)器人工作區(qū)中轉(zhuǎn)換模型生成的透明液體合成圖像的小型數(shù)據(jù)集上,他們對(duì)該細(xì)分模型進(jìn)行訓(xùn)練。最后,研究者還進(jìn)行了幾個(gè)數(shù)據(jù)集擴(kuò)增實(shí)驗(yàn),以證明他們的方法有潛力訓(xùn)練可以泛化至多樣化場(chǎng)景的透明液體細(xì)分模型。
研究者展示了機(jī)器人倒水的效果,比如倒了玻璃杯 75% 高度的水:
再比如倒了玻璃杯 50% 高度的水:
方法和實(shí)驗(yàn)概覽
圖像轉(zhuǎn)換算法使用圖像集合來(lái)訓(xùn)練 AI 將圖像從一種風(fēng)格轉(zhuǎn)換成另一種風(fēng)格,比如將一張照片轉(zhuǎn)換成莫奈風(fēng)格的繪畫或者使一匹馬的圖像看起來(lái)像斑馬。在本文中,研究者使用了一種對(duì)比學(xué)習(xí)方法來(lái)進(jìn)行未配對(duì)的圖像到圖像轉(zhuǎn)換(簡(jiǎn)稱為 CUT)。
如下為有色液體圖像轉(zhuǎn)換成透明液體圖像的詳細(xì)流程圖。他們利用論文 Section III-A 中描述的損失來(lái)訓(xùn)練一個(gè)生成器 G,它將有色液體 D_color 的圖像轉(zhuǎn)換為 D_transpatent 圖像。
Narasimhan 的導(dǎo)師、CMU 機(jī)器人研究所助理教授 David Held 表示,在學(xué)習(xí)的訓(xùn)練階段,我們需要某種方式來(lái)告訴算法哪些是正確和錯(cuò)誤的答案。然而,標(biāo)記數(shù)據(jù)是一個(gè)耗時(shí)的過(guò)程,尤其是在教機(jī)器人倒水時(shí),人類可能需要在圖像中標(biāo)記出單個(gè)水滴。
David Held 還表示,正如我們可以訓(xùn)練一個(gè)將馬的圖像看起來(lái)像斑馬的模型,我們同樣能夠訓(xùn)練一個(gè)將有色液體圖像轉(zhuǎn)換為透明液體圖像的模型。這樣,研究者可以使用該模型使機(jī)器人理解透明液體。下圖為通過(guò)研究者訓(xùn)練的模型,實(shí)現(xiàn)了有色液體向透明液體的圖像轉(zhuǎn)換效果。圖上為真實(shí)世界有色液體的圖像,下圖為生成的透明液體的圖像。
透明液體細(xì)分是非常重要的一步,如下圖所示,研究者使用生成器 G 將 D_color 的圖像轉(zhuǎn)換為透明圖像,并通過(guò)背景減除從有色液體中生成偽真值的細(xì)分掩膜 M_i。最后,研究者使用標(biāo)準(zhǔn)的二進(jìn)制交叉熵?fù)p失在這個(gè)合成數(shù)據(jù)集上訓(xùn)練一個(gè)透明液體細(xì)分模型 S。
機(jī)器人很難看到像水這樣的透明液體,因?yàn)橥该饕后w反射、折射和吸收光線的方式因環(huán)境而異。為了教顯示器通過(guò)一杯水看到不同的背景,研究者在裝滿水的透明玻璃杯后播放 YouTube 視頻。通過(guò)這種方式訓(xùn)練系統(tǒng),使得機(jī)器人可以在現(xiàn)實(shí)世界的不同背景下倒水,無(wú)論它處于何處。
下圖為針對(duì)新的(未見(jiàn)過(guò))容器和背景的細(xì)分泛化。
Narasimhan 說(shuō),即使對(duì)人類來(lái)說(shuō),有時(shí)也很難準(zhǔn)確地確定水和空氣的邊界。使用他們的方法,機(jī)器人能夠?qū)⑺惯M(jìn)玻璃杯中的一定高度,如前文動(dòng)圖所示。
他還表示,未來(lái)依然有擴(kuò)展這種方法的空間,添加不同的光線條件,讓機(jī)器人挑戰(zhàn)將水從一個(gè)容器倒進(jìn)另一個(gè),或者不只估計(jì)水的高度還有體積。
原文鏈接:https://www.cs.cmu.edu/news/2022/robots-pouring-water
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。