2021年Graph ML熱門趨勢和主要進(jìn)展總結(jié)（1）

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2022-01-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

來源：DeepHub IMBA

對(duì)于 Graph ML 來說2021年是重要的一年——成千上萬的論文、無數(shù)的會(huì)議和研討會(huì)......說明這個(gè)領(lǐng)域是在蓬勃的發(fā)展。我將Graph ML 這一年的進(jìn)展進(jìn)行結(jié)構(gòu)化的展示，并重點(diǎn)介紹

趨勢和主要進(jìn)步。

無論您是在研究細(xì)分的主題還是剛開始使用 Graph ML - 我們都希望這篇文章是一個(gè)很好的參考點(diǎn)。這個(gè)領(lǐng)域太大了如果我錯(cuò)過了一些重要的東西，請(qǐng)?jiān)谠u(píng)論中告訴我們！

Graph Transformers + Positional Features

GNN 在通常是稀疏的圖上運(yùn)行，而 Graph Transformers (GT) 在全連接圖上運(yùn)行，其中每個(gè)節(jié)點(diǎn)都連接到圖中的每個(gè)其他節(jié)點(diǎn)。一方面，這帶來了節(jié)點(diǎn) N 數(shù)量的 O (N2) 復(fù)雜度。另一方面，GT 不會(huì)遭受過度平滑，這是長距離消息傳遞的常見問題。全連接圖意味著我們有來自原始圖的“真”邊和從全連接變換中獲得的“假”邊。我們還需要一種方法來為節(jié)點(diǎn)注入一些位置特征，否則 GT 會(huì)落后于 GNN（如 Dwivedi 和 Bresson 的 2020 年論文所示）。
今年最引人注目的兩個(gè)Graph Transformers模型可能是 SAN（Spectral Attention Nets）和 Graphormer。
Kreuzer、Beaini 等人的 SAN 使用了拉普拉斯算子的 top-k 特征值和特征向量，表明單獨(dú)的譜特征（spectral features）可以區(qū)分被 1-WL 檢驗(yàn)確定是否同構(gòu)的圖。SAN 將光譜特征與輸入節(jié)點(diǎn)特征連接起來，在許多分子任務(wù)上優(yōu)于稀疏 GNN。

Ying 等人的 Graphormer 采用了不同的方法并使用了空間特征。節(jié)點(diǎn)特征豐富了中心性編碼（centrality encoding）——可學(xué)習(xí)的入度和出度嵌入。注意力機(jī)制有兩個(gè)偏置項(xiàng)：1、節(jié)點(diǎn) i 和 j 之間最短路徑的距離；2、取決于一條可用最短路徑的邊特征編碼。

Graphormer完成了2021年Graph ML大滿貫:OGB large Challenge和Open Catalyst Challenge圖回歸任務(wù)第一名!(以下將詳細(xì)介紹這些挑戰(zhàn))
SAN 和 Graphormer 在分子級(jí)別的任務(wù)上進(jìn)行了評(píng)估，圖相當(dāng)?。ㄆ骄?50-100 個(gè)節(jié)點(diǎn)），這樣計(jì)算量不會(huì)特別大，例如運(yùn)行 O (N3) Floyd-Warshall 所有對(duì)最短路徑。Graph Transformers 仍然受到 O (N2) 注意力機(jī)制的限制?？s放到大于分子的圖形可能會(huì)解決這些問題。來自 NLP的思想可能會(huì)有所幫助，但由于他們從未實(shí)現(xiàn)注意力矩陣，因此需要找到一種聰明的方法將邊緣特征置于此類模型中。在 2022 年應(yīng)該會(huì)看到更多關(guān)于這方面的研究！

Equivariant GNNs

Geoffrey Hinton 提出的equivariance有何獨(dú)特之處？
equivariance在 2021 年掀起了 ML 的風(fēng)暴，在 Graph ML 中，它在許多molecular tasks中尤其具有破壞性。等變 GNN 需要一個(gè)額外的節(jié)點(diǎn)特征輸入——即物理坐標(biāo)的一些表示，這些表示將在 n 維空間中旋轉(zhuǎn)/反射/平移。

Satorras、Hoogeboom 和 Welling 提出了 EGNN、E(n) 等變 GNN，其與普通 GNN 的重要區(qū)別在于將物理坐標(biāo)添加到消息傳遞和更新步驟。方程 3 將相對(duì)平方距離添加到消息 m，方程 4 更新位置特征。EGNN 在建模 n 體系統(tǒng)、作為自動(dòng)編碼器和量子化學(xué)任務(wù)（QM9 數(shù)據(jù)集）方面顯示出令人印象深刻的結(jié)果。

另一種選擇是合并原子之間的角度，如 Klicpera、Becker 和 Günnemann 在 GemNet 中所做的那樣。這可能需要將輸入圖轉(zhuǎn)換為折線圖，例如邊圖，其中來自原始圖的邊變成折線圖中的節(jié)點(diǎn)。這樣就可以將角度作為新圖中的邊特征。

GemNet 在分子動(dòng)力學(xué)任務(wù)上取得了不錯(cuò)的成績：COLL、MD17 和 Open Catalyst20。顯然equivariance才剛剛起步

我們將在 2022 年看到更多進(jìn)步！

Generative Models for Molecules

由于幾何深度學(xué)習(xí)，整個(gè)****物發(fā)現(xiàn) (DD) 領(lǐng)域在 2021 年得到了顯著的發(fā)展。DD 的眾多關(guān)鍵挑戰(zhàn)之一是生成具有所需屬性的分子（圖）。這個(gè)領(lǐng)域很大，所以我們只強(qiáng)調(diào)模型的三個(gè)分支。
Normalizing Flows.
Satorras、Hoogeboom 等人應(yīng)用上述equivariance框架來創(chuàng)建 E(n) 等變歸一化流，能夠生成具有位置和特征的 3D 分子。

概率模型

Shi、Luo 等人研究了在給定 2D 圖形的情況下生成 3D 構(gòu)象異構(gòu)體（即 3D 結(jié)構(gòu)）的問題。模型 ConfGF 估計(jì)原子坐標(biāo)對(duì)數(shù)密度的梯度場。作者想出了一種方法將這種旋轉(zhuǎn)平移等變屬性合并到估計(jì)器中。

RL方法

用一種非常不科學(xué)的方式來描述，這些方法通過逐步添加“構(gòu)建塊”來生成分子。我們可以根據(jù)這種構(gòu)建過程的條件對(duì)這些方法進(jìn)行廣泛的分類。例如Gao、Mercado和Coley將構(gòu)建過程設(shè)定在合成能力上，也就是說否能夠在實(shí)驗(yàn)室中創(chuàng)造這個(gè)分子。他們首先學(xué)習(xí)如何創(chuàng)建構(gòu)建塊的合成樹(類似模板)。

由Yoshua Bengio領(lǐng)導(dǎo)的Mila和Stanford研究團(tuán)隊(duì)提出了一個(gè)更通用的框架，Yoshua Bengio介紹了GFlowNets。這很難用幾句話來概括——當(dāng)想要對(duì)不同的候選人進(jìn)行抽樣時(shí)，GFlowNets可以用于主動(dòng)學(xué)習(xí)案例并且抽樣概率與獎(jiǎng)勵(lì)函數(shù)成正比。他們最近在NeurIPS發(fā)表的21篇論文顯示了GFlowNets應(yīng)用于分子生成任務(wù)的好處。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

2021年Graph ML熱門趨勢和主要進(jìn)展總結(jié)（1）

相關(guān)推薦

技術(shù)專區(qū)