神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方式-從網(wǎng)絡(luò)傳播到圖卷積
來源:DeepHub IMBA
你可能聽說過圖卷積,因?yàn)樗诋?dāng)時是一個非常熱門的話題。雖然不太為人所知,但網(wǎng)絡(luò)傳播是計(jì)算生物學(xué)中用于網(wǎng)絡(luò)學(xué)習(xí)的主要方法。在這篇文章中,我們將深入研究網(wǎng)絡(luò)傳播背后的理論和直覺,我們也將看到網(wǎng)絡(luò)傳播是圖卷積的一種特殊情況。
網(wǎng)絡(luò)傳播是計(jì)算生物學(xué)中基于內(nèi)疚關(guān)聯(lián)原理的一種流行方法。
兩種不同的網(wǎng)絡(luò)傳播觀點(diǎn):隨機(jī)游走和擴(kuò)散,以HotNet2為例。
網(wǎng)絡(luò)傳播是圖卷積的一種特例。
計(jì)算生物學(xué)中的網(wǎng)絡(luò)傳播
網(wǎng)絡(luò)自然產(chǎn)生于許多真實(shí)世界的數(shù)據(jù),如社交網(wǎng)絡(luò),交通網(wǎng)絡(luò),生物網(wǎng)絡(luò),僅舉幾個例子。網(wǎng)絡(luò)結(jié)構(gòu)編碼了關(guān)于網(wǎng)絡(luò)中每個個體角色的豐富信息。
在計(jì)算生物學(xué)中,像蛋白質(zhì)相互作用(PPI)這樣的生物網(wǎng)絡(luò),節(jié)點(diǎn)是蛋白質(zhì),邊緣代表兩個蛋白質(zhì)相互作用的可能性,在重建生物過程,甚至揭示疾病基因方面非常有用[1,2]。這種重建可以簡單地通過直接觀察目標(biāo)蛋白的鄰近蛋白是否是生物過程或疾病的一部分來完成。這種通過鄰近蛋白質(zhì)來推斷蛋白質(zhì)隸屬度的過程稱為網(wǎng)絡(luò)傳播。我們將在下一節(jié)中更仔細(xì)地研究精確的數(shù)學(xué)公式,但是現(xiàn)在讓我們想想為什么這樣一個簡單的方法有效。
這一切都?xì)w結(jié)為內(nèi)疚關(guān)聯(lián)(GBA)原則,即通過物理交互作用或其他相似度量(如基因共同表達(dá)),蛋白質(zhì)彼此緊密相關(guān),可能參與相同的生物過程或途徑。GBA原理來自于觀察到許多蛋白質(zhì)復(fù)合物(如酵母[3]中的SAGA/TFIID復(fù)合物)定位于一個內(nèi)聚網(wǎng)絡(luò)模塊。同樣,在人類疾病基因網(wǎng)絡(luò)[4]中,我們可以看到,例如,與耳、鼻、喉疾病或血液病相關(guān)的疾病基因都局限在網(wǎng)絡(luò)模塊中。作為旁注,在這篇文章中,蛋白質(zhì)和基因這兩個詞將互換使用。
網(wǎng)絡(luò)傳播的數(shù)學(xué)公式——兩種不同的觀點(diǎn)
1. 符號
給定一個(無向)圖G=(V, E, w),有n個頂點(diǎn)的頂點(diǎn)集V,邊集E,權(quán)函數(shù)w,設(shè)A為相應(yīng)的n × n維鄰接矩陣:
利用對角度矩陣D,它的對角項(xiàng)是相應(yīng)節(jié)點(diǎn)的度,我們可以將A按行或按列規(guī)格化,得到兩個新的矩陣P和W。
最后,設(shè)p0為°熱編碼的標(biāo)簽向量,其中p0對應(yīng)的正標(biāo)簽節(jié)點(diǎn)的項(xiàng)為1,其余均為0。
觀點(diǎn)1:隨機(jī)游走
我們可以在網(wǎng)絡(luò)上以隨機(jī)游走的方式進(jìn)行網(wǎng)絡(luò)傳播。在這種情況下,我們要問的關(guān)鍵問題如下。
通過一跳傳播,從目標(biāo)節(jié)點(diǎn)開始并最終到達(dá)任何一個具有正標(biāo)簽的節(jié)點(diǎn)的概率是多少?
在數(shù)學(xué)上,該操作對應(yīng)于P和p0之間的矩陣向量乘法,得到預(yù)測得分向量y:
讓我們看一個例子??紤]基因g1、g2、g3和g4的以下子網(wǎng)。假設(shè)g2和g3被注釋到一種疾病中,這意味著已知這兩個基因與此處研究的疾病有關(guān)。另一方面,g1和g4沒有對該疾病進(jìn)行注釋(注意:這并不意味著它們對該疾病沒有影響,而是目前還不知道它們與該疾病有關(guān))。
為了確定g1是否與疾病相關(guān),我們可以簡單地設(shè)計(jì)一個從g1開始的單跳隨機(jī)行走,看看它落在疾病基因(g2或g3)上的概率是多少。經(jīng)過簡單的計(jì)算,我們看到預(yù)測得分是2/3,這是相當(dāng)高的。這是有道理的,因?yàn)間1的三個鄰近基因中有兩個與疾病相關(guān),而根據(jù)GBA原理,g1很可能與這種疾病相關(guān)。
觀點(diǎn)2:擴(kuò)散
網(wǎng)絡(luò)傳播的另一種觀點(diǎn)是通過網(wǎng)絡(luò)進(jìn)行擴(kuò)散。在這種情況下,我們要問的關(guān)鍵問題如下。
有多少“熱度”被擴(kuò)散到目標(biāo)節(jié)點(diǎn)?或者換句話說,從帶有正標(biāo)簽的節(jié)點(diǎn)開始,通過一跳傳播最終到達(dá)目標(biāo)節(jié)點(diǎn)的概率是多少?
數(shù)學(xué)上,該操作對應(yīng)于波浪號P和p0 (p0的標(biāo)準(zhǔn)化版本)之間的矩陣向量乘法,產(chǎn)生預(yù)測得分向量y波浪號。
注:p0歸一化保證了從一個概率分布映射到一個概率分布,即y波浪號等于1。
讓我們回到上面的例子,通過網(wǎng)絡(luò)傳播疾病基因預(yù)測。這一次,我們想將標(biāo)簽傳播作為擴(kuò)散來執(zhí)行。結(jié)果,兩個注釋疾病基因產(chǎn)生的總“熱”中有很大一部分(5/12)被g1收集。因此g1很可能與本病相關(guān)。
超越了單跳傳播
單跳傳播方法簡單有效。然而,當(dāng)標(biāo)記數(shù)據(jù)稀缺時(這是計(jì)算生物學(xué)中典型的情況),單跳傳播方法只能計(jì)算疾病基因直接鄰居的非平凡預(yù)測分?jǐn)?shù)??紤]到人類基因組中有超過2萬個基因,這顯然導(dǎo)致了次優(yōu)預(yù)測。因此,我們可以擴(kuò)展到2-hop, 3-hop,甚至更多,而不是局限于1-hop社區(qū)。圖中顯示了k-hop從k = 1到k = 2的傳播過程。
HotNet2擴(kuò)散
有許多不同的變體來執(zhí)行多跳擴(kuò)散或隨機(jī)游走。我們將以HotNet2為例。與上面介紹的擴(kuò)散類似,HotNet2算法迭代更新初始“heat”分布p0波浪線如下。
其中beta值從0到1,是將“熱量”帶回其源頭的“重啟概率”。包含這個重啟概率的原因有幾個(有些相關(guān))。首先,之前定義的擴(kuò)散算子給出了當(dāng)前節(jié)點(diǎn)擁有的所有“熱量”,因此在第t步,之前所有的擴(kuò)散信息都丟失了。添加beta有效地在每一步中保留了一些熱量,因此在第t步,分布包含了之前步驟的所有信息。其次,(非零)beta參數(shù)保證了t趨近于無窮時熱分布的收斂性,從而給出了t=∞時熱分布的封閉形式解:
最后,在[1]中已經(jīng)證明,在生物通路重建、疾病基因預(yù)測等方面,這種HotNet2擴(kuò)散方法比上一節(jié)定義的單跳網(wǎng)絡(luò)傳播能夠產(chǎn)生持續(xù)更好的預(yù)測。
與圖卷積的關(guān)系
回想一下,圖卷積網(wǎng)絡(luò)遵循如下的分層傳播規(guī)則:
其中H(l)是第l層的隱藏特征,W(l)是可學(xué)習(xí)參數(shù),非線性σ (DAD)內(nèi)部的主導(dǎo)部分是具有自連接的譜歸一化鄰接矩陣。自連接的作用類似于重新啟動概率,以保留當(dāng)前迭代的一些信息。
通過下面的替換,我們可以完全重建標(biāo)簽傳播作為圖卷積的一種特殊情況。
用行歸一化(P)或列歸一化(W)版本替換譜歸一化自連接鄰接矩陣
用p(l)代替H(l)
用恒等式代替非線性和W(l)(或者干脆忽略這些變換)
注意,第一次替換不會改變圖的頻譜,因此仍然會執(zhí)行相同的卷積操作。
現(xiàn)在你知道了,網(wǎng)絡(luò)傳播是圖卷積的一種特殊情況!
總結(jié)
基于關(guān)聯(lián)原理,網(wǎng)絡(luò)傳播由于細(xì)胞組織的模塊化,在計(jì)算生物學(xué)中被廣泛應(yīng)用于疾病基因預(yù)測等各種任務(wù)。我們已經(jīng)深入研究了網(wǎng)絡(luò)傳播的兩個觀點(diǎn)及其與圖卷積的聯(lián)系。
引用
[1] R. Liu, C. A. Mancuso, A. Yannakopoulos, K. A. Johnson, A. Krishnan, Supervised learning is an accurate method for network-based gene classification (2020), Bioinformatics
[2] L. Cowen, T. Ideker, B. J. Raphael, R. Sharan, Netowork propagation: a universal amplifier of genetic associations (2017), Nat Rev Genet
[3] V. Spirin and L. A. Mirny, Protein complexes and functional modules in molecular networks (2003), Proceedings of the National Academy of Sciences
[4] K. Goh, M. E. Cusick, D. Valle, B. Childs, M. Vidal, A. Barabasi, The human disease network (2007), Proceedings of the National Academy of Sciences
[5] W. L. Hamilton, R. Ying, J. Leskovec, Inductive Representation Learning on Large Graphs (2017), arXiv
[6] T. N. Kipf and M. Welling, Semi-Supervised Classification with Graph Convolutional Networks (2016), arXiv
作者:Remy Lau
原文地址:https://towardsdatascience.com/network-learning-from-network-propagation-to-graph-convolution-eb3c62d09de8
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。