AI從System 1邁向System 2重要一步,中科院自動化所探索物體動靜態(tài)物理屬性,入選AAAI和ICLR
研究者開發(fā)的框架可以根據(jù)視頻輸入發(fā)現(xiàn)物體的動態(tài)和靜態(tài)物理屬性,進而推理時序物理事件以及預(yù)測未來視頻幀。
人類感知和理解周圍環(huán)境通常要借助于物理常識:直覺物理 (Intuitive Physics),這種常識的建立從嬰兒時期就已開始,依托于對物體物理屬性 (object-centric representation) 的探索和理解,比如物體的大小、形狀、質(zhì)量、材料、運動速度等。
對于深度神經(jīng)網(wǎng)絡(luò)而言,模型缺乏像人類一樣以自監(jiān)督的方式去將場景里的物體拆分表示以更好地理解場景的能力:無法將紅色、綠色、黃色等屬性正確地分配給所屬物體,缺少屬性與物體之間的對應(yīng)關(guān)系,而這種理解場景的方式對于抽象常識的建立以及因果關(guān)系的發(fā)現(xiàn)十分重要。
通過對輸入的觀測分離表示場景中各個物體的靜態(tài)屬性,進一步借助物理事件推斷物體的動態(tài)物理屬性 可以賦予模型類人的物理常識,從而更好地理解場景以處理更為上層的任務(wù):因果推理、決策、規(guī)劃等。
中科院自動化所 2035 創(chuàng)新團隊基于不同的視角提出兩種因果關(guān)系與物理屬性發(fā)現(xiàn)框架,在視頻預(yù)測、反事實預(yù)測、視頻推理多個基準(zhǔn)數(shù)據(jù)集取得優(yōu)異的性能。相關(guān)工作先后被 AAAI2022 及 ICLR2022 接收。
用于反事實預(yù)測的物理動力學(xué)解混雜(AAAI 2022)
研究背景
發(fā)現(xiàn)潛在的因果關(guān)系是推理周圍環(huán)境和預(yù)測物理世界未來狀態(tài)的基礎(chǔ)能力?;谝曈X輸入的反事實預(yù)測根據(jù)過去未出現(xiàn)的情況推斷未來狀態(tài),是因果關(guān)系任務(wù)中的重要組成部分?,F(xiàn)有研究方法缺乏對因果鏈的深入挖掘,致使不能夠有效建模物體之間的關(guān)聯(lián)并估測動力學(xué)系統(tǒng)中的物理屬性。
方法概述
對此,團隊研究了物理動力學(xué)中的混雜影響因子,包括質(zhì)量、摩擦系數(shù)等,建立干預(yù)變量和未來狀態(tài)可能改變變量之間的關(guān)聯(lián)關(guān)系,提出了一種包含全局因果關(guān)系注意力(GCRA)和混雜因子傳輸結(jié)構(gòu)(CTS)的神經(jīng)網(wǎng)絡(luò)框架。
圖 1:整體網(wǎng)絡(luò)架構(gòu)。
GCRA 尋找不同變量之間的潛在因果關(guān)系,通過捕獲空域和時序信息來估計混雜因子,確保模型能夠有效建模長距離跨幀物體之間的關(guān)聯(lián)。CTS 以殘差的方式整合和傳輸學(xué)習(xí)到的混雜因子,利用空序信息加強層,時序信息聚合層以及時空信息傳輸層來高效編碼和利用混雜因子信息和物體狀態(tài)信息,進而加強反事實預(yù)測的能力。
實驗證明,在混雜因子真實值未知的情況下,本文的方法能夠充分學(xué)習(xí)并利用混雜因子形成的約束,在相關(guān)數(shù)據(jù)集的預(yù)測任務(wù)上取得了目前最優(yōu)的性能,并可以較好地泛化到新的環(huán)境,實現(xiàn)良好的預(yù)測精度。
圖 2:在不同數(shù)據(jù)集上的反事實預(yù)測效果。
基于物體動態(tài)特征蒸餾的場景分解與表示(ICLR 2022)
論文地址:https://openreview.net/forum?id=1iWoD04yVZU
研究背景
從生成模型的角度來說,已有的一些方法可以通過 VAE 框架對簡單場景中的每個物體進行解耦表示,包括物體的形狀、大小、位置等靜態(tài)物理屬性,這種對場景中不同物體的分離并解耦的表示方式對于下游任務(wù)有著很大的促進作用,增強模型對場景的理解和推理能力。
但是,此類方法大多關(guān)注圖像輸入,即便是對于視頻輸入也要分解為對單幀圖像的分別處理,由于缺乏物理事件的引入,物體的動力學(xué)屬性(運動方向、速度等)無法被網(wǎng)絡(luò)學(xué)習(xí)并編碼。
方法概述
團隊提出物體動態(tài)特征蒸餾網(wǎng)絡(luò) (Object Dynamic Distillation Network,ODDN)。
圖 3:ODDN 網(wǎng)絡(luò)框架。
對于視頻輸入:
基于 VAE 架構(gòu)的編碼器分解每幀圖像的場景為多個物體,并將物體的靜態(tài)物理屬性解耦表示,以****重建為原圖作為監(jiān)督;
通過 Transformer 的架構(gòu)自適應(yīng)匹配不同幀的物體靜態(tài)物理表示,并根據(jù)這個不同幀物體表示的差 異性通過一個前向網(wǎng)絡(luò)蒸餾出物體的動態(tài)特征;
結(jié)合編碼器編碼的物體靜態(tài)物理屬性以及蒸餾網(wǎng)絡(luò)蒸餾得到的物體動態(tài)物理屬性,顯式的建模物體對之間的交互作用以更新每個物體的動態(tài)表示。每個物體更新后的動態(tài)表示和靜態(tài)表示預(yù)測下一幀的物體狀態(tài)并解碼為下一幀圖像。
實驗結(jié)果
以動態(tài)屬性作為額外的物體表示在 CLEVER 數(shù)據(jù)集 (基于物理事件推理、問答) 取得了 SOTA 的效果,表明物體的動態(tài)屬性對于視頻理解和推理很有幫助,這個結(jié)果也符合物理常識。
此外,ODDN 顯式建模了物體間的交互,結(jié)合生成模型,賦予了模型直接預(yù)測未來視頻幀的能力。團隊在 CLEVRER 以及 Real Tower 數(shù)據(jù)集上做了視頻預(yù)測的實驗,結(jié)果表明在多物體場景 ODDN 的預(yù)測精度優(yōu)于現(xiàn)階段其他方法,尤其是包含物理事件 (碰撞、相互作用力) 的場景。
圖 4:基于輸入的兩幀預(yù)測后續(xù)視頻幀效果對比。
相比于 Baseline 模型,ODDN 最核心的改進是引入了的物體運動相關(guān)的線索,這不僅使得模型在其場景表征以及視頻預(yù)測能力獲益,還改善了其圖像重建以及自監(jiān)督分割的性能,主要表現(xiàn)在物體與物體之間分的更開,細節(jié)刻畫更為精細。
圖 5:分割與重建性能對比。
可視化表明,ODDN 自適應(yīng)學(xué)習(xí)推理得出的物體動態(tài)物理屬性編碼了物體在不同方向的運動速度,驗證了模型發(fā)現(xiàn)物理屬性的解耦性。
圖 6:動態(tài)物理屬性解耦可視化:基于給定兩幀預(yù)測第三幀,調(diào)節(jié)物體屬性值會改變其對應(yīng)方向的速度值。
未來展望
人類對物理世界的常識、語言、交互和認知通常以物體為基本單位,所以一種自監(jiān)督的以物體為中心的表示非常有意義。目前相關(guān)的工作都關(guān)注在簡單的 toy 場景,團隊希望未來會有在復(fù)雜真實場景有效分割表示場景的方法出現(xiàn)。另外,團隊希望把以物體為中心的表示做到解耦合,并在此基礎(chǔ)上進一步探索場景中物體與事件的因果關(guān)系,相信這是現(xiàn)階段人工智能從 System 1 邁向 System 2 的重要一步。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。