圖卷積神經(jīng)網(wǎng)絡(luò)分析復雜碳水化合物
來源:DeepHub IMBA
作者:Daniel Bojar
圖卷積神經(jīng)網(wǎng)絡(luò) (GCN) 在過去幾年中引起了越來越多的關(guān)注,越來越多的學科開始使用它們。這也已擴展到生命科學領(lǐng)域,因為 GCN 已被用于分析蛋白質(zhì)、****物,當然還有生物網(wǎng)絡(luò)。實現(xiàn)這種擴展的 GCN 的一個關(guān)鍵優(yōu)勢是它們能夠在本地處理非線性數(shù)據(jù)格式,這與更線性的數(shù)據(jù)結(jié)構(gòu)(如自然語言)形成對比。由于此功能,我們還為自己感興趣的主題(復雜碳水化合物或聚糖的研究)使用了 GCN。
聚糖在生物學中無處不在,裝飾每個細胞并在病毒感染或腫瘤免疫逃避等過程中發(fā)揮關(guān)鍵作用。它們也是極其多樣化的生物序列,由數(shù)百個獨特的構(gòu)建塊組成,相比之下,蛋白質(zhì)為 20 個,DNA/RNA 為 4 個,它們也可以在不斷增長的聚糖鏈中以幾種不同的配置組合。最后,聚糖是唯一的非線性生物序列,自然形成廣泛的分支,這些分支本身可以進一步分支。因此,它們是圖子類的一部分,即樹。這使得聚糖成為在生物學中適當應用 GCN 的主要候選者。
以前,我們開發(fā)了通過將聚糖序列視為一種生物語言來分析聚糖序列的技術(shù)。我們使用循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)置來解決聚糖序列的非線性問題,以預測它們的免疫原性、對致病性的貢獻和分類學起源。這在一定程度上效果很好,超過了基線,例如使用基于主題頻率的隨機森林。然而,我們相信更強大的算法,能夠適應聚糖的樹結(jié)構(gòu),將改進現(xiàn)有的應用程序,并在聚糖的研究中實現(xiàn)新的方法。這就是為什么我們轉(zhuǎn)向 GCN 來設(shè)置分析聚糖的最新技術(shù)。
GCN 通過圖中的鄰居來表征節(jié)點,或者更準確地說,是通過鄰居節(jié)點的特征來表征節(jié)點,從而學習圖(或樹)中的關(guān)系。在我們的案例中,我們將單糖(聚糖構(gòu)建塊,如葡萄糖或半乳糖)及其連接鍵視為節(jié)點。雖然將單糖視為節(jié)點并將連接視為邊緣似乎更自然,但我們決定反對這種做法,以適應僅由一個單糖和一個連接組成的短而重要的聚糖。為了讓我們的 GCN 學習節(jié)點鄰域的特征,我們首先實現(xiàn)了節(jié)點嵌入,以便通過嵌入特征來表示每個單糖和鏈接類型,這些特征可以由我們的模型學習并用于表征節(jié)點鄰域。為了最好地表達聚糖的豐富多樣性,我們?yōu)榇耸褂昧?128 維嵌入。
接下來,我們必須選擇用于執(zhí)行圖卷積的圖內(nèi)核。這個過程就是上面提到的通過節(jié)點及其特征(在我們的例子中,節(jié)點類型的嵌入特征)來學習節(jié)點的過程。在測試了各種圖核之后,我們最終得到了 k 維圖神經(jīng)網(wǎng)絡(luò)算子,它受 Weisfeiler-Leman 算法的啟發(fā)來測試圖同構(gòu),并在我們的數(shù)據(jù)集上顯示出最佳性能。現(xiàn)在,GCN 的偉大之處在于您可以在單個模型中擁有多個圖卷積層。這允許您分析不同粒度級別的圖形/聚糖。雖然第一層可能只考慮直接連接的節(jié)點進行分析,但后續(xù)層可以擴展這個所謂的感受野,并考慮節(jié)點與圖中進一步刪除的節(jié)點的關(guān)系。在我們的案例中,我們選擇了一個具有三個這樣的層的模型作為同類最佳模型。
這種連續(xù)圖卷積層的方法允許模型學習圖鄰域,甚至可以在監(jiān)督設(shè)置中預測下游分類任務(wù)的特征圖案。為了總結(jié)從這些步驟中學到的特征,我們使用池化層將來自圖卷積層的顯著信息濃縮為后續(xù)層。在每個圖卷積層之后,我們首先使用一個 topk 池化層,它根據(jù)學習的投影分數(shù)將圖投影到較小的圖。然后,我們將全局平均池化和全局平均池化操作的結(jié)果連接起來。
這個最終的圖形表示,跨越三個圖卷積層,然后通過一個完全連接的神經(jīng)網(wǎng)絡(luò)路由,以達到對相應任務(wù)的最終預測。除了標準的(leaky)ReLU、dropout 和批量歸一化設(shè)置之外,我們還在這部分中包含了一個所謂的繁榮層。通常,卷積后表示的維數(shù)在這最后部分向低維模型輸出緩慢降低。然而,繁榮層會暫時增加維度(與瓶頸相反),以允許模型擺脫局部最小值并提高性能。我們將這個最終模型命名為 SweetNet,以向傳統(tǒng)上已知和喜愛的碳水化合物類型致敬。現(xiàn)在我們可以看看你可以用 GCN 為聚糖做些什么有趣的事情!
在構(gòu)建 SweetNet 時,我們確保我們的預測性能優(yōu)于之前報告的架構(gòu),例如上面提到的循環(huán)神經(jīng)網(wǎng)絡(luò),在所有報告的任務(wù)上。其中一項任務(wù)是預測人類免疫系統(tǒng)是否會識別聚糖序列。這是相關(guān)的,因為聚糖可能具有很強的免疫原性,例如在過敏原或血型不匹配的情況下,但也具有免疫抑制性,例如在腫瘤免疫逃避的情況下。在我們的數(shù)據(jù)集上,SweetNet 實現(xiàn)了約 95% 的測試集準確率,完全基于聚糖序列。然后,我們提取了這些序列的圖表示,這些序列由經(jīng)過訓練的用于預測聚糖免疫原性的 SweetNet 模型學習,緊接在圖卷積層之后。對此進行可視化時,很明顯該模型已經(jīng)學會了區(qū)分兩類免疫原性/非免疫原性聚糖。更重要的是,在非免疫原性聚糖中,可以看到精細結(jié)構(gòu),讓人聯(lián)想到不同類別的人類聚糖(當然,它們在同一類別內(nèi)具有序列相似性)。糖脂和 O-聚糖都與免疫原性聚糖部分重疊,因為這些聚糖存在于我們的粘膜表面,并被具有免疫原性的微生物模仿。
除了其他應用之外,我們還將這個用于聚糖的 GCN 與用于分析蛋白質(zhì)序列的循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,以預測病毒和聚糖之間的相互作用。大多數(shù)病毒,從流感病毒到 SARS-CoV-2,都需要宿主細胞上的特定聚糖才能感染它們。事實上,病毒與宿主聚糖的匹配可以決定病毒的宿主范圍。在流感病毒的情況下,一種特定的蛋白質(zhì)血凝素負責在細胞進入和感染之前與細胞的聚糖結(jié)合。不同的流感病毒株具有不同的血凝素序列,這會影響它們的聚糖結(jié)合特異性。這方面的一個例子是禽流感病毒和哺乳動物流感病毒之間的差異。雖然這兩種類型的流感病毒主要識別一種稱為 Neu5Ac 的特定單糖,一種唾液酸,但禽流感病毒通常僅與 α2-3 構(gòu)型的 Neu5Ac 結(jié)合,而哺乳動物流感病毒更喜歡 α2-6 構(gòu)型的 Neu5Ac。一個微妙的結(jié)構(gòu)轉(zhuǎn)變,但這是阻止禽流感病毒“跳過”感染人類的唯一障礙。突變禽血凝素以與 α2-6 構(gòu)型的 Neu5Ac 結(jié)合,然后您就可以用這種突變的禽流感病毒感染人類。
血凝素序列與聚糖結(jié)合特異性之間的這種明確關(guān)系使我們假設(shè)我們可以使用模型來學習這些關(guān)聯(lián)并預測流感病毒和其他病毒的基于病毒聚糖的受體。因此,我們建立了一種匹配模型,給定一個血凝素序列和一個聚糖,可以在回歸設(shè)置中預測這是否會導致結(jié)合。我們很幸運,因為我們有大量實驗觀察到的來自各種流感病毒株的血凝素相互作用的數(shù)據(jù)集和一組可用于訓練和評估模型的聚糖。
訓練后,我們確實可以證明一個訓練有素的模型用α2-3 連接的Neu5Ac 用于禽流感病毒和α2-6 連接的Neu5Ac 用于哺乳動物流感病毒。此外,該模型還預測了可能與流感病毒結(jié)合相關(guān)的其他基序,例如硫酸化聚糖基序,這些基序過去曾被認為可能是流感受體。然后我們表明,這項研究也可以擴展到其他病毒,例如輪狀病毒,這是嬰兒感染的常見原因。在這里,我們可以證明訓練有素的模型預測高度復雜的母乳聚糖與輪狀病毒蛋白結(jié)合,輪狀病毒蛋白已被獨立證明可以結(jié)合和中和輪狀病毒,證明了母乳的保護作用。聚糖的這種中和作用,通過與病毒緊密結(jié)合并阻止它們與細胞結(jié)合,被我們的身體在各種情況下使用,并且也可能為使用我們的模型設(shè)計具有改進結(jié)合特性的新聚糖提供機會,在未來,可以作為一種新型的抗病毒****物。
這就是在聚糖分析中了解 GCN 當前狀態(tài)的全部內(nèi)容!嗯,反正大部分。前往報紙了解更多詳情。或者前往新聞稿,獲取有關(guān)我們研究影響的更易于理解的信息。當然,這里是 SweetNet 的代碼,所有使用的數(shù)據(jù)都可以在 GitHub 或論文的補充表中找到。
SweetNet 代碼:
https://github.com/BojarLab/SweetNet
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。