圖卷積神經(jīng)網(wǎng)絡(luò)分析復(fù)雜碳水化合物

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2021-07-16 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

來源：DeepHub IMBA

作者：Daniel Bojar

圖卷積神經(jīng)網(wǎng)絡(luò) (GCN) 在過去幾年中引起了越來越多的關(guān)注，越來越多的學(xué)科開始使用它們。這也已擴(kuò)展到生命科學(xué)領(lǐng)域，因?yàn)?GCN 已被用于分析蛋白質(zhì)、****物，當(dāng)然還有生物網(wǎng)絡(luò)。實(shí)現(xiàn)這種擴(kuò)展的 GCN 的一個(gè)關(guān)鍵優(yōu)勢(shì)是它們能夠在本地處理非線性數(shù)據(jù)格式，這與更線性的數(shù)據(jù)結(jié)構(gòu)（如自然語言）形成對(duì)比。由于此功能，我們還為自己感興趣的主題（復(fù)雜碳水化合物或聚糖的研究）使用了 GCN。

聚糖在生物學(xué)中無處不在，裝飾每個(gè)細(xì)胞并在病毒感染或腫瘤免疫逃避等過程中發(fā)揮關(guān)鍵作用。它們也是極其多樣化的生物序列，由數(shù)百個(gè)獨(dú)特的構(gòu)建塊組成，相比之下，蛋白質(zhì)為 20 個(gè)，DNA/RNA 為 4 個(gè)，它們也可以在不斷增長(zhǎng)的聚糖鏈中以幾種不同的配置組合。最后，聚糖是唯一的非線性生物序列，自然形成廣泛的分支，這些分支本身可以進(jìn)一步分支。因此，它們是圖子類的一部分，即樹。這使得聚糖成為在生物學(xué)中適當(dāng)應(yīng)用 GCN 的主要候選者。

以前，我們開發(fā)了通過將聚糖序列視為一種生物語言來分析聚糖序列的技術(shù)。我們使用循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)置來解決聚糖序列的非線性問題，以預(yù)測(cè)它們的免疫原性、對(duì)致病性的貢獻(xiàn)和分類學(xué)起源。這在一定程度上效果很好，超過了基線，例如使用基于主題頻率的隨機(jī)森林。然而，我們相信更強(qiáng)大的算法，能夠適應(yīng)聚糖的樹結(jié)構(gòu)，將改進(jìn)現(xiàn)有的應(yīng)用程序，并在聚糖的研究中實(shí)現(xiàn)新的方法。這就是為什么我們轉(zhuǎn)向 GCN 來設(shè)置分析聚糖的最新技術(shù)。

GCN 通過圖中的鄰居來表征節(jié)點(diǎn)，或者更準(zhǔn)確地說，是通過鄰居節(jié)點(diǎn)的特征來表征節(jié)點(diǎn)，從而學(xué)習(xí)圖（或樹）中的關(guān)系。在我們的案例中，我們將單糖（聚糖構(gòu)建塊，如葡萄糖或半乳糖）及其連接鍵視為節(jié)點(diǎn)。雖然將單糖視為節(jié)點(diǎn)并將連接視為邊緣似乎更自然，但我們決定反對(duì)這種做法，以適應(yīng)僅由一個(gè)單糖和一個(gè)連接組成的短而重要的聚糖。為了讓我們的 GCN 學(xué)習(xí)節(jié)點(diǎn)鄰域的特征，我們首先實(shí)現(xiàn)了節(jié)點(diǎn)嵌入，以便通過嵌入特征來表示每個(gè)單糖和鏈接類型，這些特征可以由我們的模型學(xué)習(xí)并用于表征節(jié)點(diǎn)鄰域。為了最好地表達(dá)聚糖的豐富多樣性，我們?yōu)榇耸褂昧?128 維嵌入。

接下來，我們必須選擇用于執(zhí)行圖卷積的圖內(nèi)核。這個(gè)過程就是上面提到的通過節(jié)點(diǎn)及其特征（在我們的例子中，節(jié)點(diǎn)類型的嵌入特征）來學(xué)習(xí)節(jié)點(diǎn)的過程。在測(cè)試了各種圖核之后，我們最終得到了 k 維圖神經(jīng)網(wǎng)絡(luò)算子，它受 Weisfeiler-Leman 算法的啟發(fā)來測(cè)試圖同構(gòu)，并在我們的數(shù)據(jù)集上顯示出最佳性能?，F(xiàn)在，GCN 的偉大之處在于您可以在單個(gè)模型中擁有多個(gè)圖卷積層。這允許您分析不同粒度級(jí)別的圖形/聚糖。雖然第一層可能只考慮直接連接的節(jié)點(diǎn)進(jìn)行分析，但后續(xù)層可以擴(kuò)展這個(gè)所謂的感受野，并考慮節(jié)點(diǎn)與圖中進(jìn)一步刪除的節(jié)點(diǎn)的關(guān)系。在我們的案例中，我們選擇了一個(gè)具有三個(gè)這樣的層的模型作為同類最佳模型。

這種連續(xù)圖卷積層的方法允許模型學(xué)習(xí)圖鄰域，甚至可以在監(jiān)督設(shè)置中預(yù)測(cè)下游分類任務(wù)的特征圖案。為了總結(jié)從這些步驟中學(xué)到的特征，我們使用池化層將來自圖卷積層的顯著信息濃縮為后續(xù)層。在每個(gè)圖卷積層之后，我們首先使用一個(gè) topk 池化層，它根據(jù)學(xué)習(xí)的投影分?jǐn)?shù)將圖投影到較小的圖。然后，我們將全局平均池化和全局平均池化操作的結(jié)果連接起來。

這個(gè)最終的圖形表示，跨越三個(gè)圖卷積層，然后通過一個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)路由，以達(dá)到對(duì)相應(yīng)任務(wù)的最終預(yù)測(cè)。除了標(biāo)準(zhǔn)的（leaky）ReLU、dropout 和批量歸一化設(shè)置之外，我們還在這部分中包含了一個(gè)所謂的繁榮層。通常，卷積后表示的維數(shù)在這最后部分向低維模型輸出緩慢降低。然而，繁榮層會(huì)暫時(shí)增加維度（與瓶頸相反），以允許模型擺脫局部最小值并提高性能。我們將這個(gè)最終模型命名為 SweetNet，以向傳統(tǒng)上已知和喜愛的碳水化合物類型致敬?，F(xiàn)在我們可以看看你可以用 GCN 為聚糖做些什么有趣的事情！

在構(gòu)建 SweetNet 時(shí)，我們確保我們的預(yù)測(cè)性能優(yōu)于之前報(bào)告的架構(gòu)，例如上面提到的循環(huán)神經(jīng)網(wǎng)絡(luò)，在所有報(bào)告的任務(wù)上。其中一項(xiàng)任務(wù)是預(yù)測(cè)人類免疫系統(tǒng)是否會(huì)識(shí)別聚糖序列。這是相關(guān)的，因?yàn)榫厶强赡芫哂泻軓?qiáng)的免疫原性，例如在過敏原或血型不匹配的情況下，但也具有免疫抑制性，例如在腫瘤免疫逃避的情況下。在我們的數(shù)據(jù)集上，SweetNet 實(shí)現(xiàn)了約 95% 的測(cè)試集準(zhǔn)確率，完全基于聚糖序列。然后，我們提取了這些序列的圖表示，這些序列由經(jīng)過訓(xùn)練的用于預(yù)測(cè)聚糖免疫原性的 SweetNet 模型學(xué)習(xí)，緊接在圖卷積層之后。對(duì)此進(jìn)行可視化時(shí)，很明顯該模型已經(jīng)學(xué)會(huì)了區(qū)分兩類免疫原性/非免疫原性聚糖。更重要的是，在非免疫原性聚糖中，可以看到精細(xì)結(jié)構(gòu)，讓人聯(lián)想到不同類別的人類聚糖（當(dāng)然，它們?cè)谕活悇e內(nèi)具有序列相似性）。糖脂和 O-聚糖都與免疫原性聚糖部分重疊，因?yàn)檫@些聚糖存在于我們的粘膜表面，并被具有免疫原性的微生物模仿。

除了其他應(yīng)用之外，我們還將這個(gè)用于聚糖的 GCN 與用于分析蛋白質(zhì)序列的循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合，以預(yù)測(cè)病毒和聚糖之間的相互作用。大多數(shù)病毒，從流感病毒到 SARS-CoV-2，都需要宿主細(xì)胞上的特定聚糖才能感染它們。事實(shí)上，病毒與宿主聚糖的匹配可以決定病毒的宿主范圍。在流感病毒的情況下，一種特定的蛋白質(zhì)血凝素負(fù)責(zé)在細(xì)胞進(jìn)入和感染之前與細(xì)胞的聚糖結(jié)合。不同的流感病毒株具有不同的血凝素序列，這會(huì)影響它們的聚糖結(jié)合特異性。這方面的一個(gè)例子是禽流感病毒和哺乳動(dòng)物流感病毒之間的差異。雖然這兩種類型的流感病毒主要識(shí)別一種稱為 Neu5Ac 的特定單糖，一種唾液酸，但禽流感病毒通常僅與 α2-3 構(gòu)型的 Neu5Ac 結(jié)合，而哺乳動(dòng)物流感病毒更喜歡 α2-6 構(gòu)型的 Neu5Ac。一個(gè)微妙的結(jié)構(gòu)轉(zhuǎn)變，但這是阻止禽流感病毒“跳過”感染人類的唯一障礙。突變禽血凝素以與 α2-6 構(gòu)型的 Neu5Ac 結(jié)合，然后您就可以用這種突變的禽流感病毒感染人類。

血凝素序列與聚糖結(jié)合特異性之間的這種明確關(guān)系使我們假設(shè)我們可以使用模型來學(xué)習(xí)這些關(guān)聯(lián)并預(yù)測(cè)流感病毒和其他病毒的基于病毒聚糖的受體。因此，我們建立了一種匹配模型，給定一個(gè)血凝素序列和一個(gè)聚糖，可以在回歸設(shè)置中預(yù)測(cè)這是否會(huì)導(dǎo)致結(jié)合。我們很幸運(yùn)，因?yàn)槲覀冇写罅繉?shí)驗(yàn)觀察到的來自各種流感病毒株的血凝素相互作用的數(shù)據(jù)集和一組可用于訓(xùn)練和評(píng)估模型的聚糖。

訓(xùn)練后，我們確實(shí)可以證明一個(gè)訓(xùn)練有素的模型用α2-3 連接的Neu5Ac 用于禽流感病毒和α2-6 連接的Neu5Ac 用于哺乳動(dòng)物流感病毒。此外，該模型還預(yù)測(cè)了可能與流感病毒結(jié)合相關(guān)的其他基序，例如硫酸化聚糖基序，這些基序過去曾被認(rèn)為可能是流感受體。然后我們表明，這項(xiàng)研究也可以擴(kuò)展到其他病毒，例如輪狀病毒，這是嬰兒感染的常見原因。在這里，我們可以證明訓(xùn)練有素的模型預(yù)測(cè)高度復(fù)雜的母乳聚糖與輪狀病毒蛋白結(jié)合，輪狀病毒蛋白已被獨(dú)立證明可以結(jié)合和中和輪狀病毒，證明了母乳的保護(hù)作用。聚糖的這種中和作用，通過與病毒緊密結(jié)合并阻止它們與細(xì)胞結(jié)合，被我們的身體在各種情況下使用，并且也可能為使用我們的模型設(shè)計(jì)具有改進(jìn)結(jié)合特性的新聚糖提供機(jī)會(huì)，在未來，可以作為一種新型的抗病毒****物。

這就是在聚糖分析中了解 GCN 當(dāng)前狀態(tài)的全部?jī)?nèi)容！嗯，反正大部分。前往報(bào)紙了解更多詳情?；蛘咔巴侣劯澹@取有關(guān)我們研究影響的更易于理解的信息。當(dāng)然，這里是 SweetNet 的代碼，所有使用的數(shù)據(jù)都可以在 GitHub 或論文的補(bǔ)充表中找到。

SweetNet 代碼：

https://github.com/BojarLab/SweetNet

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

圖卷積神經(jīng)網(wǎng)絡(luò)分析復(fù)雜碳水化合物

相關(guān)推薦

技術(shù)專區(qū)