2021年Graph ML熱門趨勢(shì)和主要進(jìn)展總結(jié)(1)
來源:DeepHub IMBA
對(duì)于 Graph ML 來說2021年是重要的一年——成千上萬的論文、無數(shù)的會(huì)議和研討會(huì)......說明這個(gè)領(lǐng)域是在蓬勃的發(fā)展。我將Graph ML 這一年的進(jìn)展進(jìn)行結(jié)構(gòu)化的展示,并重點(diǎn)介紹
趨勢(shì)和主要進(jìn)步。
無論您是在研究細(xì)分的主題還是剛開始使用 Graph ML - 我們都希望這篇文章是一個(gè)很好的參考點(diǎn)。這個(gè)領(lǐng)域太大了如果我錯(cuò)過了一些重要的東西,請(qǐng)?jiān)谠u(píng)論中告訴我們!
Graph Transformers + Positional Features
GNN 在通常是稀疏的圖上運(yùn)行,而 Graph Transformers (GT) 在全連接圖上運(yùn)行,其中每個(gè)節(jié)點(diǎn)都連接到圖中的每個(gè)其他節(jié)點(diǎn)。一方面,這帶來了節(jié)點(diǎn) N 數(shù)量的 O (N2) 復(fù)雜度。另一方面,GT 不會(huì)遭受過度平滑,這是長(zhǎng)距離消息傳遞的常見問題。全連接圖意味著我們有來自原始圖的“真”邊和從全連接變換中獲得的“假”邊。我們還需要一種方法來為節(jié)點(diǎn)注入一些位置特征,否則 GT 會(huì)落后于 GNN(如 Dwivedi 和 Bresson 的 2020 年論文所示)。
今年最引人注目的兩個(gè)Graph Transformers模型可能是 SAN(Spectral Attention Nets)和 Graphormer。
Kreuzer、Beaini 等人的 SAN 使用了拉普拉斯算子的 top-k 特征值和特征向量,表明單獨(dú)的譜特征(spectral features)可以區(qū)分被 1-WL 檢驗(yàn)確定是否同構(gòu)的圖。SAN 將光譜特征與輸入節(jié)點(diǎn)特征連接起來,在許多分子任務(wù)上優(yōu)于稀疏 GNN。
Ying 等人的 Graphormer 采用了不同的方法并使用了空間特征。節(jié)點(diǎn)特征豐富了中心性編碼(centrality encoding)——可學(xué)習(xí)的入度和出度嵌入。注意力機(jī)制有兩個(gè)偏置項(xiàng):1、節(jié)點(diǎn) i 和 j 之間最短路徑的距離;2、取決于一條可用最短路徑的邊特征編碼。
Graphormer完成了2021年Graph ML大滿貫:OGB large Challenge和Open Catalyst Challenge圖回歸任務(wù)第一名!(以下將詳細(xì)介紹這些挑戰(zhàn))
SAN 和 Graphormer 在分子級(jí)別的任務(wù)上進(jìn)行了評(píng)估,圖相當(dāng)?。ㄆ骄?50-100 個(gè)節(jié)點(diǎn)),這樣計(jì)算量不會(huì)特別大,例如運(yùn)行 O (N3) Floyd-Warshall 所有對(duì)最短路徑。Graph Transformers 仍然受到 O (N2) 注意力機(jī)制的限制??s放到大于分子的圖形可能會(huì)解決這些問題。來自 NLP的思想可能會(huì)有所幫助,但由于他們從未實(shí)現(xiàn)注意力矩陣,因此需要找到一種聰明的方法將邊緣特征置于此類模型中。在 2022 年應(yīng)該會(huì)看到更多關(guān)于這方面的研究!
Equivariant GNNs
Geoffrey Hinton 提出的equivariance有何獨(dú)特之處?
equivariance在 2021 年掀起了 ML 的風(fēng)暴,在 Graph ML 中,它在許多molecular tasks中尤其具有破壞性。等變 GNN 需要一個(gè)額外的節(jié)點(diǎn)特征輸入——即物理坐標(biāo)的一些表示,這些表示將在 n 維空間中旋轉(zhuǎn)/反射/平移。
Satorras、Hoogeboom 和 Welling 提出了 EGNN、E(n) 等變 GNN,其與普通 GNN 的重要區(qū)別在于將物理坐標(biāo)添加到消息傳遞和更新步驟。方程 3 將相對(duì)平方距離添加到消息 m,方程 4 更新位置特征。EGNN 在建模 n 體系統(tǒng)、作為自動(dòng)編碼器和量子化學(xué)任務(wù)(QM9 數(shù)據(jù)集)方面顯示出令人印象深刻的結(jié)果。
另一種選擇是合并原子之間的角度,如 Klicpera、Becker 和 Günnemann 在 GemNet 中所做的那樣。這可能需要將輸入圖轉(zhuǎn)換為折線圖,例如邊圖,其中來自原始圖的邊變成折線圖中的節(jié)點(diǎn)。這樣就可以將角度作為新圖中的邊特征。
GemNet 在分子動(dòng)力學(xué)任務(wù)上取得了不錯(cuò)的成績(jī):COLL、MD17 和 Open Catalyst20。顯然equivariance才剛剛起步
由于幾何深度學(xué)習(xí),整個(gè)****物發(fā)現(xiàn) (DD) 領(lǐng)域在 2021 年得到了顯著的發(fā)展。DD 的眾多關(guān)鍵挑戰(zhàn)之一是生成具有所需屬性的分子(圖)。這個(gè)領(lǐng)域很大,所以我們只強(qiáng)調(diào)模型的三個(gè)分支。
Normalizing Flows.
Satorras、Hoogeboom 等人應(yīng)用上述equivariance框架來創(chuàng)建 E(n) 等變歸一化流,能夠生成具有位置和特征的 3D 分子。
概率模型
Shi、Luo 等人研究了在給定 2D 圖形的情況下生成 3D 構(gòu)象異構(gòu)體(即 3D 結(jié)構(gòu))的問題。模型 ConfGF 估計(jì)原子坐標(biāo)對(duì)數(shù)密度的梯度場(chǎng)。作者想出了一種方法將這種旋轉(zhuǎn)平移等變屬性合并到估計(jì)器中。
RL方法
用一種非常不科學(xué)的方式來描述,這些方法通過逐步添加“構(gòu)建塊”來生成分子。我們可以根據(jù)這種構(gòu)建過程的條件對(duì)這些方法進(jìn)行廣泛的分類。例如Gao、Mercado和Coley將構(gòu)建過程設(shè)定在合成能力上,也就是說否能夠在實(shí)驗(yàn)室中創(chuàng)造這個(gè)分子。他們首先學(xué)習(xí)如何創(chuàng)建構(gòu)建塊的合成樹(類似模板)。
由Yoshua Bengio領(lǐng)導(dǎo)的Mila和Stanford研究團(tuán)隊(duì)提出了一個(gè)更通用的框架,Yoshua Bengio介紹了GFlowNets。這很難用幾句話來概括——當(dāng)想要對(duì)不同的候選人進(jìn)行抽樣時(shí),GFlowNets可以用于主動(dòng)學(xué)習(xí)案例并且抽樣概率與獎(jiǎng)勵(lì)函數(shù)成正比。他們最近在NeurIPS發(fā)表的21篇論文顯示了GFlowNets應(yīng)用于分子生成任務(wù)的好處。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。