將有色液體圖像轉換成透明液體，CMU教機器人準確掌控向杯中倒多少水

發(fā)布人：機器之心時間：2022-06-22 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

借助不同風格之間的圖像轉換，CMU 的研究者教會了機器人理解透明液體。

如果機器人可以倒液體，則可以幫助我們自動完成烹飪、將****品倒入****瓶或給植物澆水等任務。但是，透明液體在圖像中很難被感知出來，完全透明的液體可以提供的唯一視覺信號是光線穿過液體的折射。此外，獲得液體的深度測量同樣不容易，因為液體會折射所投射的紅外光。

以往的工作已經(jīng)探索了機器人在各種環(huán)境下倒水，但都需要在環(huán)境或數(shù)據(jù)收集方法上做出重大妥協(xié)。透明液體細分的方法需要在訓練期間加熱液體，以在熱成像儀觀察下獲得真值標簽。
然而，為訓練加熱液體是一個單調(diào)乏味的過程，對可以輕松收集多少訓練數(shù)據(jù)有限制。其他方法需要從多視角、背景、重量測量或液體運動等方面觀察液體，這些施加在環(huán)境上的要求限制了這些方法的適用性。
近期，在 CMU 和圣母大學的一篇論文中，研究者提出了一種在透明容器中感知透明液體（如水）的方法。與以往方法相比，本研究提出的方法減輕了對操作域的限制。具體地，他們在單個圖像上進行操作，不需要液體運動或多幀，也不需要在訓練期間進行手動注釋或加熱液體。研究者使用一個生成模型來學習將有色液體的圖像轉換為透明液體的合成圖像，這種做法可以用來訓練透明的液體細分模型。
論文一作 Gautham Narasimhan 現(xiàn)為 CMU 機器人研究所的助理研究員，2020 年在 CMU 拿到了碩士學位。目前，他致力于研究用于機器人倒水任務的強化學習模型。該研究由 LG Electronics 和美國國家科學基金會提供資助，并于 5 月份發(fā)表在 IEEE 國際機器人和自動化會議上。該論文已被機器人領域國際頂會 ICRA 2022 接收。

論文地址：https://arxiv.org/pdf/2203.01538.pdf
項目主頁：https://sites.google.com/view/transparentliquidpouring

研究中非常重要的是，研究者在透明和有色液體的未配對圖像數(shù)據(jù)集上訓練轉換模型，也就是說，他們的方法不需要有色和透明圖像之間的標簽對應來學習有色到透明轉換模型。這樣可以實現(xiàn)自動和高效的數(shù)據(jù)集收集。由于很容易獲得有色液體的細分標簽，研究者可以直接使用一張有色液體圖像的細分標簽作為同一張圖像的真值細分標簽，只要它已經(jīng)轉換成了透明液體。
為了證明這種數(shù)據(jù)集轉換方法在現(xiàn)實世界系統(tǒng)中的實用性，研究者構建了一個機器人倒水系統(tǒng)，它利用一個透明液體細分模型來完成倒水任務。在一個由機器人工作區(qū)中轉換模型生成的透明液體合成圖像的小型數(shù)據(jù)集上，他們對該細分模型進行訓練。最后，研究者還進行了幾個數(shù)據(jù)集擴增實驗，以證明他們的方法有潛力訓練可以泛化至多樣化場景的透明液體細分模型。
研究者展示了機器人倒水的效果，比如倒了玻璃杯 75% 高度的水：

再比如倒了玻璃杯 50% 高度的水：

方法和實驗概覽
圖像轉換算法使用圖像集合來訓練 AI 將圖像從一種風格轉換成另一種風格，比如將一張照片轉換成莫奈風格的繪畫或者使一匹馬的圖像看起來像斑馬。在本文中，研究者使用了一種對比學習方法來進行未配對的圖像到圖像轉換（簡稱為 CUT）。
如下為有色液體圖像轉換成透明液體圖像的詳細流程圖。他們利用論文 Section III-A 中描述的損失來訓練一個生成器 G，它將有色液體 D_color 的圖像轉換為 D_transpatent 圖像。

Narasimhan 的導師、CMU 機器人研究所助理教授 David Held 表示，在學習的訓練階段，我們需要某種方式來告訴算法哪些是正確和錯誤的答案。然而，標記數(shù)據(jù)是一個耗時的過程，尤其是在教機器人倒水時，人類可能需要在圖像中標記出單個水滴。
David Held 還表示，正如我們可以訓練一個將馬的圖像看起來像斑馬的模型，我們同樣能夠訓練一個將有色液體圖像轉換為透明液體圖像的模型。這樣，研究者可以使用該模型使機器人理解透明液體。下圖為通過研究者訓練的模型，實現(xiàn)了有色液體向透明液體的圖像轉換效果。圖上為真實世界有色液體的圖像，下圖為生成的透明液體的圖像。

透明液體細分是非常重要的一步，如下圖所示，研究者使用生成器 G 將 D_color 的圖像轉換為透明圖像，并通過背景減除從有色液體中生成偽真值的細分掩膜 M_i。最后，研究者使用標準的二進制交叉熵損失在這個合成數(shù)據(jù)集上訓練一個透明液體細分模型 S。

機器人很難看到像水這樣的透明液體，因為透明液體反射、折射和吸收光線的方式因環(huán)境而異。為了教顯示器通過一杯水看到不同的背景，研究者在裝滿水的透明玻璃杯后播放 YouTube 視頻。通過這種方式訓練系統(tǒng)，使得機器人可以在現(xiàn)實世界的不同背景下倒水，無論它處于何處。
下圖為針對新的（未見過）容器和背景的細分泛化。

Narasimhan 說，即使對人類來說，有時也很難準確地確定水和空氣的邊界。使用他們的方法，機器人能夠將水倒進玻璃杯中的一定高度，如前文動圖所示。
他還表示，未來依然有擴展這種方法的空間，添加不同的光線條件，讓機器人挑戰(zhàn)將水從一個容器倒進另一個，或者不只估計水的高度還有體積。
原文鏈接：https://www.cs.cmu.edu/news/2022/robots-pouring-water