博客專欄

EEPW首頁(yè) > 博客 > Transformer新玩法登Nature子刊:DeepMind用新變體讀取DNA長(zhǎng)序列,瞄準(zhǔn)遺傳病高發(fā)區(qū)域

Transformer新玩法登Nature子刊:DeepMind用新變體讀取DNA長(zhǎng)序列,瞄準(zhǔn)遺傳病高發(fā)區(qū)域

發(fā)布人:機(jī)器之心 時(shí)間:2021-10-07 來(lái)源:工程師 發(fā)布文章

繼蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)之后,一路領(lǐng)跑的 DeepMind 又將 AI 的觸角伸向了 DNA。

當(dāng)人類基因組計(jì)劃成功地繪制出人類基因組的 DNA 序列時(shí),整個(gè)國(guó)際研究界都為之一振。因?yàn)檫@樣一來(lái),人類就有機(jī)會(huì)進(jìn)一步了解影響人類健康和發(fā)展的遺傳指令。

從眼球顏色到是否容易患某種疾病,DNA 攜帶著決定一切的基因信息。人體內(nèi)大約有 2 萬(wàn)個(gè) DNA 片段被確定為基因,其中包含有關(guān)蛋白質(zhì)氨基酸序列的指令,這些蛋白質(zhì)在我們的細(xì)胞中執(zhí)行許多基本功能。然而,這些基因占整個(gè)基因組的比重還不到 2%。剩下的堿基對(duì)——占基因組 30 億個(gè)「字母」的 98%——被稱為「非編碼」,包含一些不太為人所知的指令,這些指令讓基因知道應(yīng)該在何時(shí)、何地產(chǎn)生或表達(dá)。為了更好地完成人類遺傳學(xué)的很多下游應(yīng)用任務(wù),我們必須弄清楚非編碼區(qū) DNA 如何決定不同細(xì)胞類型中的基因表達(dá)。

10 月 4 日,DeepMind 與谷歌旗下生物科技公司 Calico 的一項(xiàng)研究登上了國(guó)際頂級(jí)方法學(xué)期刊《Nature Methods》。在這篇論文中,他們引入了一種叫做 Enformer 的神經(jīng)網(wǎng)絡(luò)架構(gòu),大大提高了根據(jù) DNA 序列預(yù)測(cè)基因表達(dá)的準(zhǔn)確性。為了進(jìn)一步研究疾病中的基因調(diào)控和致病因素,研究者還公開(kāi)了他們的模型及其對(duì)常見(jiàn)遺傳變異的初步預(yù)測(cè)。

1.png

論文鏈接:https://www.nature.com/articles/s41592-021-01252-x.pdf

項(xiàng)目鏈接:https://github.com/deepmind/deepmind-research/tree/master/enformer

DeepMind 的研究者表示,「我們相信 AI 可以幫助我們深入理解這些復(fù)雜的領(lǐng)域,加速科學(xué)進(jìn)步,并未人類健康帶來(lái)潛在收益?!?/p>

以往關(guān)于基因表達(dá)的研究通常使用卷積神經(jīng)網(wǎng)絡(luò)作為基本構(gòu)建塊,但這些網(wǎng)絡(luò)在建模遠(yuǎn)端增強(qiáng)子(enhancer)對(duì)基因表達(dá)的影響方面存在局限。增強(qiáng)子是 DNA 上一小段可與蛋白質(zhì)結(jié)合的區(qū)域,與蛋白質(zhì)結(jié)合之后,基因的轉(zhuǎn)錄作用將會(huì)加強(qiáng)。增強(qiáng)子可能位于基因上游,也可能位于下游,且不一定接近所要作用的基因,這是因?yàn)槿旧|(zhì)的纏繞結(jié)構(gòu),使序列上相隔很遠(yuǎn)的位置也有機(jī)會(huì)相互接觸。因此,要想精確研究增強(qiáng)子對(duì)基因表達(dá)的影響,模型需要「閱讀」盡可能長(zhǎng)的 DNA 序列。

DeepMind 表示,他們最初的探索依賴于 Calico 的 Basenji2 模型,它可以從相對(duì)較長(zhǎng)的 DNA 序列(40, 000 個(gè)堿基對(duì))中預(yù)測(cè)調(diào)控活性,但這個(gè)長(zhǎng)度還是不夠。

基于這些認(rèn)識(shí),研究者意識(shí)到,要想捕獲長(zhǎng)序列,必須在基本架構(gòu)層面進(jìn)行改變。

于是,他們開(kāi)發(fā)了一個(gè)基于 Transformer 的新模型——Enformer,以利用自注意力機(jī)制處理更大范圍的 DNA 上下文。和擅長(zhǎng)閱讀長(zhǎng)文本的 Transformer 類似,改造后的 Enformer 能夠「閱讀」很長(zhǎng)的 DNA 序列,可處理的序列長(zhǎng)度達(dá)到之前的 5 倍(200, 000 個(gè)堿基對(duì))。有了這樣一個(gè)模型,研究者就能從更長(zhǎng)的 DNA 序列上建模增強(qiáng)子對(duì)基因表達(dá)的影響。

2.png

研究者訓(xùn)練 Enformer 以預(yù)測(cè)功能性基因組數(shù)據(jù),包括來(lái)自輸入 DNA 的 200, 000 個(gè)堿基對(duì)的基因表達(dá)。上圖的示例展示了 5000 多種可能的基因組軌跡中的 3 種。

為了更好地理解 Enformer 是如何解釋 DNA 序列以得到更準(zhǔn)確的預(yù)測(cè)的,研究者使用貢獻(xiàn)分(contribution score)來(lái)突出輸入序列中對(duì)預(yù)測(cè)影響最大的部分。如同生物直覺(jué)一般,研究者發(fā)現(xiàn)即使距離基因超過(guò) 50000 個(gè)堿基對(duì),模型也會(huì)注意到增強(qiáng)子。

預(yù)測(cè)哪些增強(qiáng)子調(diào)控哪些基因仍然是基因組學(xué)中一個(gè)尚未解決的問(wèn)題,研究顯示, Enformer 的貢獻(xiàn)分與專門(mén)為此任務(wù)開(kāi)發(fā)的現(xiàn)有方法(使用實(shí)驗(yàn)數(shù)據(jù)作為輸入)表現(xiàn)相當(dāng)。此外,Enformer 還理解了絕緣子元件(insulator element),后者將 DNA 的兩個(gè)獨(dú)立調(diào)控區(qū)域分隔開(kāi)。

3.png

Enformer 注意到的相關(guān)的調(diào)控 DNA 區(qū)域(藍(lán)色),增強(qiáng)子為灰色塊。

目前全面研究生物體的 DNA 已經(jīng)成為了可能的事,但要想理解基因組還需要復(fù)雜的實(shí)驗(yàn)。盡管進(jìn)行了大量的實(shí)驗(yàn),大多數(shù) DNA 對(duì)基因表達(dá)的控制仍然是個(gè)謎。借助人工智能技術(shù),人類可以探索在基因組中發(fā)現(xiàn)模式的新的可能性,并提供關(guān)于序列變化的機(jī)制假設(shè)。與拼寫(xiě)檢查器的原理類似,Enformer 能夠部分理解 DNA 序列的「詞匯」,因此能夠「高亮」那些可能導(dǎo)致基因表達(dá)改變的編輯。

這一新模型的主要應(yīng)用是預(yù)測(cè) DNA 字母的變化,也稱為基因變異,它會(huì)改變基因表達(dá)。與以前的模型相比,Enformer 在預(yù)測(cè)變異對(duì)基因表達(dá)的影響方面更加準(zhǔn)確,無(wú)論是自然遺傳變異還是改變重要調(diào)控序列的合成變異。

借助這一特性,我們可以對(duì)越來(lái)越多的疾病相關(guān)變異進(jìn)行研究。要知道,與復(fù)雜遺傳疾病相關(guān)的變異主要位于基因組的非編碼區(qū),可能通過(guò)改變基因表達(dá)引起疾病。但是由于變異之間的內(nèi)在聯(lián)系,這些疾病相關(guān)的許多變異只是虛假的聯(lián)系,而非因果關(guān)系?,F(xiàn)在,計(jì)算工具可以幫助區(qū)分真正的聯(lián)系和假陽(yáng)性。

當(dāng)然,人類基因組中仍有尚未解開(kāi)的謎團(tuán),Enformer 只是在理解基因組序列的復(fù)雜性方面向前邁出了一步。

DeepMind 的研究者希望這些進(jìn)展能讓與人類疾病相關(guān)的更高效的精細(xì)定位成為可能,并提供一個(gè)解釋順式調(diào)控演變的框架。

參考鏈接:https://deepmind.com/blog/article/enformer

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉