DeepMind攻破生物學(xué)領(lǐng)域50年難題:蛋白質(zhì)結(jié)構(gòu)預(yù)測準(zhǔn)確性可達(dá)92.4分
導(dǎo)語:蛋白質(zhì)的形狀與其功能密切相關(guān),能夠預(yù)測這種結(jié)構(gòu)可使人們更好地了解它的功能和工作原理,從而突破世界上許多強(qiáng)有力的挑戰(zhàn),如開發(fā)疾病治療方法或?qū)ふ曳纸夤I(yè)廢物的酶等。因此在過去50年里,“蛋白質(zhì)折疊問題”一直是生物學(xué)界的一個挑戰(zhàn)。近日,谷歌旗下人工智能技術(shù)公司 DeepMind 提出深度學(xué)習(xí)算法「Alphafold」,破解了這一難題。
蛋白質(zhì)對于生命非常重要,它幾乎支撐著生命的所有功能。它們是由氨基酸鏈組成的復(fù)雜大分子,蛋白質(zhì)的功能在很大程度上取決于它獨特的三維結(jié)構(gòu)。搞清楚蛋白質(zhì)會折疊成什么形狀被稱為“蛋白質(zhì)折疊問題”,在過去的50年里,它一直是生物學(xué)界的一個重大挑戰(zhàn)。我們的人工智能系統(tǒng)AlphaFold的最新版本已經(jīng)被兩年一度的蛋白質(zhì)結(jié)構(gòu)預(yù)測臨界評估(CASP)組織會認(rèn)可為這一重大挑戰(zhàn)的解決方案,是一項重大的科學(xué)進(jìn)展。這一突破彰顯了人工智能技術(shù)對科學(xué)發(fā)現(xiàn)的影響,以及它在解釋和塑造世界上一些最基本領(lǐng)域上的潛力。
蛋白質(zhì)的形狀與其功能密切相關(guān),預(yù)測這種結(jié)構(gòu)的能力可以使人們更好地了解它的功能和工作原理。世界上許多強(qiáng)有力的挑戰(zhàn),如開發(fā)疾病治療方法或?qū)ふ曳纸夤I(yè)廢物的酶,基本上都與蛋白質(zhì)及其所扮演的角色有關(guān)。
“近50年來,我們一直糾結(jié)于一個問題——蛋白質(zhì)如何折疊??吹紻eepMind為這個問題找到解決方案,在經(jīng)歷了這么長時間的個人努力之后,經(jīng)過了這么多的反復(fù)嘗試,我想知道我們是否能做到這一點,這是一個非常特殊的時刻。”約翰·穆爾特教授,馬里蘭大學(xué)CASP聯(lián)合創(chuàng)始人兼主席 如此說到。
這是多年來科學(xué)研究的一個焦點,使用各種實驗技術(shù)來檢驗和確定蛋白質(zhì)結(jié)構(gòu),如核磁共振和X射線晶體學(xué)。這些技術(shù)以及較新的方法,如低溫電子顯微鏡,都依賴于廣泛的實驗和誤差,每種結(jié)構(gòu)可能需要數(shù)年艱苦的工作,并且需要使用價值數(shù)百萬美元的專門設(shè)備。
“蛋白質(zhì)折疊問題”
在1972年諾貝爾化學(xué)獎的獲獎演說中,克里斯蒂安·安芬森(Christian Anfinsen)提出了一個著名的假設(shè):理論上,蛋白質(zhì)的氨基酸序列應(yīng)該完全決定它的結(jié)構(gòu)。這一假設(shè)引發(fā)了一個長達(dá)50年的探索,即能夠僅根據(jù)蛋白質(zhì)的1D氨基酸序列來計算預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。然而,一個主要的挑戰(zhàn)是,理論上一種蛋白質(zhì)在形成最終的三維結(jié)構(gòu)之前可以折疊的方式是天文數(shù)字。1969年,賽勒斯·萊文塔爾(Cyrus Levinthal)指出,用強(qiáng)力計算法計算出一種典型蛋白質(zhì)的所有可能的構(gòu)型需要比已知宇宙年齡更長的時間——Levinthal估計了一種典型蛋白質(zhì)的10^300種可能的構(gòu)象。然而,在自然界中,蛋白質(zhì)會自發(fā)折疊,有些在幾毫秒之內(nèi)——這種二分法有時被稱為Levinthal悖論。
CASP14評估結(jié)果
1994年,JohnMoult教授和Krzysztof Fidelis教授創(chuàng)立了CASP,進(jìn)行兩年一度的盲評估,以促進(jìn)研究,監(jiān)控進(jìn)展,并確立蛋白質(zhì)結(jié)構(gòu)預(yù)測的最新水平。它既是評估預(yù)測技術(shù)的金標(biāo)準(zhǔn),也是建立在共同努力基礎(chǔ)上的獨特的全球社區(qū)。關(guān)鍵的是,CASP選擇最近才被實驗確定的蛋白質(zhì)結(jié)構(gòu)(有些在評估時仍在等待確定)作為團(tuán)隊測試其結(jié)構(gòu)預(yù)測方法的GroundTruth;它們均未提前發(fā)布。參與者必須盲目地預(yù)測蛋白質(zhì)的結(jié)構(gòu),當(dāng)這些預(yù)測變得可用時,這些預(yù)測將與基本事實的實驗數(shù)據(jù)進(jìn)行比較。我們要感謝CASP的組織者和整個社區(qū),尤其是實驗人員,其組織架構(gòu)使得這種嚴(yán)格的評估成為可能。
CASP用來衡量預(yù)測精度的主要指標(biāo)是全距離檢驗(GDT),其范圍為0-100。簡單地說,GDT可以近似地認(rèn)為是氨基酸殘基(蛋白質(zhì)鏈中的珠子)在離正確位置一定距離內(nèi)的百分比。根據(jù)Moult教授的說法,90 左右的GDT分?jǐn)?shù)被非正式地認(rèn)為與實驗方法得到的結(jié)果相似。
在今天發(fā)布的第14次CASP評估的結(jié)果中,我們最新的AlphaFold系統(tǒng)在所有目標(biāo)中實現(xiàn)了92.4的GDT總分。這意味著我們的預(yù)測平均誤差(RMSD)約為1.6埃,相當(dāng)于一個原子的寬度(或0.1納米)。即使對于最難的蛋白質(zhì)目標(biāo),那些在最具挑戰(zhàn)性的自由建模類別,AlphaFold也達(dá)到了87.0 GDT的中位數(shù)(數(shù)據(jù)可在這里獲得)。
這些令人興奮的結(jié)果為生物學(xué)家將計算結(jié)構(gòu)預(yù)測作為科學(xué)研究的核心工具打開了大門。我們的方法可能被證明會有助于重要的蛋白質(zhì)類,如膜蛋白,這些蛋白質(zhì)很難結(jié)晶,因此很難實驗測定。
“這項計算工作代表了蛋白質(zhì)折疊問題的驚人進(jìn)展,這是生物學(xué)界一個有50年歷史的重大挑戰(zhàn)。幾十年前,這個領(lǐng)域的許多人還沒有預(yù)料到??吹剿鼘母旧细淖兩飳W(xué)研究的許多方面,這非常令人興奮?!盫ENKI RAMAKRISHNAN教授,諾貝爾獎獲得者、英國皇家學(xué)會主席。
蛋白質(zhì)折疊問題的探討
2018年,我們首次使用AlphaFold的初始版本進(jìn)入CAP13,該版本在參賽者中達(dá)到了最高的精確度。之后,我們發(fā)表了一篇關(guān)于CASP13方法和相關(guān)代碼的文章,這篇文章進(jìn)一步啟發(fā)了其他工作和社區(qū)開發(fā)的開源實現(xiàn)?,F(xiàn)在,我們開發(fā)的新的深度學(xué)習(xí)體系結(jié)構(gòu)改變了我們對CASP14的方法,使其能夠達(dá)到無與倫比的精確度。這些方法從生物學(xué)、物理學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域獲得靈感,當(dāng)然也包括過去半個世紀(jì)以來蛋白質(zhì)折疊領(lǐng)域許多科學(xué)家的工作。
折疊的蛋白質(zhì)可以看作是一個“空間圖”,其中殘基是節(jié)點,邊將殘基緊密地連接在一起。這張圖對于理解蛋白質(zhì)內(nèi)部的物理相互作用以及它們的進(jìn)化史很重要。對于CASP14使用的AlphaFold的最新版本,我們創(chuàng)建了一個基于注意力的神經(jīng)網(wǎng)絡(luò)系統(tǒng),經(jīng)過端到端的訓(xùn)練,它試圖解釋這個圖的結(jié)構(gòu),同時對它所構(gòu)建的隱式圖進(jìn)行推理。它使用進(jìn)化相關(guān)序列、多序列比對(MSA)和氨基酸殘基對的表示來細(xì)化該圖。
通過重復(fù)這個過程,系統(tǒng)可以對蛋白質(zhì)的基本物理結(jié)構(gòu)做出強(qiáng)有力的預(yù)測,并且能夠在幾天內(nèi)確定高度精確的結(jié)構(gòu)。此外,AlphaFold可以使用內(nèi)部置信度來評估每個預(yù)測的蛋白質(zhì)結(jié)構(gòu)的哪些部分是可靠的。
我們利用蛋白質(zhì)數(shù)據(jù)庫中的170000個蛋白質(zhì)結(jié)構(gòu)和包含未知結(jié)構(gòu)蛋白質(zhì)序列的大型數(shù)據(jù)庫對該系統(tǒng)進(jìn)行了訓(xùn)練。它使用大約128個TPUv3內(nèi)核(大約相當(dāng)于約100-200個gpu)運(yùn)行數(shù)周。與我們的CASP13 AlphaFold系統(tǒng)一樣,我們正在準(zhǔn)備一篇關(guān)于該系統(tǒng)的論文,以便在適當(dāng)?shù)臅r候提交給同行評審的期刊。
對現(xiàn)實世界的影響
十年前,當(dāng)DeepMind成立時,我們希望有一天人工智能的突破能夠成為一個平臺,幫助我們更好地理解基本科學(xué)問題?,F(xiàn)在,經(jīng)過4年的努力建立了AlphaFold,我們開始看到這一愿景的實現(xiàn),并對****物設(shè)計和環(huán)境可持續(xù)性等領(lǐng)域產(chǎn)生了影響。
馬克斯·普朗克發(fā)育生物學(xué)研究所所長、CASP評估師安德烈·盧帕斯教授告訴我們,“AlphaFold驚人準(zhǔn)確的模型使我們能夠解決我們在近10年里一直堅持的蛋白質(zhì)結(jié)構(gòu),重新啟發(fā)了我們對信號如何通過細(xì)胞膜傳遞的理解?!?/p>
我們對AlphaFold在生物學(xué)研究和更廣闊的世界的影響持樂觀態(tài)度,我們也很高興與其他人合作,在未來的歲月里進(jìn)一步了解它的潛力。除了撰寫同行評議的論文外,我們還在探索如何以可伸縮的方式提供對系統(tǒng)更廣泛的訪問。
同時,我們也在研究蛋白質(zhì)結(jié)構(gòu)預(yù)測如何與少數(shù)專家小組一起幫助我們了解特定疾病,例如幫助識別出有故障的蛋白質(zhì)并解釋它們?nèi)绾蜗嗷プ饔?。這些認(rèn)識可以使****物的研發(fā)更精確,補(bǔ)充現(xiàn)有的實驗方法,更快地找到有希望的治療方法。
“預(yù)測蛋白質(zhì)結(jié)構(gòu)的速度是驚人的。這一飛躍展示了數(shù)值計算方法準(zhǔn)備如何改變生物學(xué)研究,并有望加速****物發(fā)現(xiàn)?!眮喩·萊文森。博士,創(chuàng)始人兼首席執(zhí)行官卡利科,前董事長兼首席執(zhí)行官,基因泰克
我們也看到一些跡象表明,蛋白質(zhì)結(jié)構(gòu)預(yù)測在未來的疾病大流行應(yīng)對工作中可能是有用的,它是科學(xué)界開發(fā)的許多工具之一。今年早些時候,我們預(yù)測了SARS-CoV-2病毒的幾種蛋白質(zhì)結(jié)構(gòu),包括ORF3a,其結(jié)構(gòu)以前是未知的。在CASP14,我們預(yù)測了另一種冠狀病毒蛋白質(zhì)ORF8的結(jié)構(gòu)。實驗家們已經(jīng)證實了ORF3a和ORF8的結(jié)構(gòu)。盡管它們具有挑戰(zhàn)性,而且相關(guān)序列很少,但與實驗確定的結(jié)構(gòu)相比,我們在兩種預(yù)測上都獲得了較高的準(zhǔn)確度。
除了加速對已知疾病的了解外,這些技術(shù)仍然有潛力探索我們目前還沒有模型的數(shù)億蛋白質(zhì)結(jié)構(gòu),這是一個生物學(xué)未知的廣闊領(lǐng)域。由于DNA指定了構(gòu)成蛋白質(zhì)結(jié)構(gòu)的氨基酸序列,基因組學(xué)革命使得人們能夠大規(guī)模地從自然界中讀取蛋白質(zhì)序列——有1.8億個蛋白質(zhì)序列,并在通用蛋白質(zhì)數(shù)據(jù)庫(UniProt)中計數(shù)。相比之下,考慮到從序列到結(jié)構(gòu)所需的實驗工作,蛋白質(zhì)數(shù)據(jù)庫(PDB)中只有大約170000個蛋白質(zhì)結(jié)構(gòu)。在這些尚未確定的蛋白質(zhì)中,可能會有一些新的和令人興奮的功能,就像望遠(yuǎn)鏡能幫助人們更深入地觀察未知的宇宙一樣,像AlphaFold這樣的技術(shù)可以幫助我們找到它們。
未來新的可能性
AlphaFold是迄今為止我們最重要的進(jìn)展之一,但是,與所有科學(xué)研究一樣,仍然有許多問題需要回答。不是每一個我們預(yù)測的結(jié)構(gòu)都是完美的。還有很多東西需要學(xué)習(xí),包括多個蛋白質(zhì)如何形成復(fù)合物,它們?nèi)绾闻cDNA、RNA或小分子相互作用,以及我們?nèi)绾未_定所有氨基酸側(cè)鏈的精確位置。在與其他人的合作中,我們還需要學(xué)習(xí)如何最好地利用這些科學(xué)發(fā)現(xiàn)來開發(fā)新****、管理環(huán)境的方法等等。
對于我們所有致力于科學(xué)計算和機(jī)器學(xué)習(xí)方法的人來說,AlphaFold這樣的系統(tǒng)展示了人工智能作為幫助基礎(chǔ)發(fā)現(xiàn)的工具的潛力。正如50年前安芬森提出了一個遠(yuǎn)遠(yuǎn)超出科學(xué)研究范圍的挑戰(zhàn),我們宇宙的許多方面仍然是未知的。今天宣布的進(jìn)展讓我們進(jìn)一步相信,人工智能將成為人類拓展科學(xué)知識前沿最有用的工具之一,我們期待著未來多年的努力和發(fā)現(xiàn)!
原文鏈接:
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。