博客專欄

EEPW首頁(yè) > 博客 > 你真的了解計(jì)算生物學(xué)和AI for Science嗎?

你真的了解計(jì)算生物學(xué)和AI for Science嗎?

發(fā)布人:MSRAsia 時(shí)間:2022-03-17 來源:工程師 發(fā)布文章

編者按:近年來,計(jì)算生物學(xué)無疑是人工智能領(lǐng)域的一大熱門話題。但,計(jì)算生物學(xué)究竟是什么?目前進(jìn)展如何?未來又蘊(yùn)藏了怎樣的機(jī)遇?


近期,在量子位對(duì)撞派推出的“計(jì)算生物學(xué)”專題直播中,微軟亞洲研究院副院長(zhǎng)劉鐵巖、首席研究員邵斌和主管研究員王童介紹了微軟亞洲研究院計(jì)算生物學(xué)領(lǐng)域的最新研究,并對(duì)未來 AI for Science 的發(fā)展和融合進(jìn)行了分享。 
回放視頻以及精華版文字內(nèi)容如下,趕快一鍵收藏吧!



Q1:AlphaFold2的最大意義是什么?




A1:這個(gè)看似突破性的進(jìn)展,其實(shí)是技術(shù)演進(jìn)的必然結(jié)果。 


此外,如果我們換個(gè)視角來看待這個(gè)問題,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)僅僅是計(jì)算生物學(xué)這個(gè)大門類里面一個(gè)相對(duì)來說定義得比較清晰(well-defined)的問題。還有很多比蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)更加復(fù)雜也更有挑戰(zhàn)性的問題,等著我們用人工智能的手段去推進(jìn)。




Q2:我們認(rèn)為應(yīng)該如何去定義計(jì)算生物學(xué)這一個(gè)學(xué)科,它里面又會(huì)有哪些細(xì)分的領(lǐng)域和維度呢? 




A2:研究對(duì)象的角度,有宏觀的,也有微觀的。從微觀的角度,可以小到一個(gè)蛋白、DNA 或者是一個(gè)單細(xì)胞。從宏觀的角度,可以大到人類或者說生物體的組織、器官、個(gè)體甚至是群體。


研究手段來講,既有傳統(tǒng)的生物實(shí)驗(yàn),也有包括計(jì)算手段在內(nèi)的數(shù)學(xué)建模、數(shù)值仿真、數(shù)據(jù)分析或者是機(jī)器學(xué)習(xí)。 


應(yīng)用門類來講,幾乎和我們平時(shí)生活或者科學(xué)發(fā)展的方方面面都有關(guān)系,它既有在基礎(chǔ)科學(xué)方面的潛力,也在制****診療方面有著巨大價(jià)值。




Q3:2021年,微軟亞洲研究院首次針對(duì)新冠病毒中的 NTD 提出了對(duì)應(yīng)的楔型模型,并鑒定了潛在的****物靶點(diǎn)。能否介紹一下這項(xiàng)工作是怎么基于計(jì)算生物學(xué)完成的呢?




A3:之前科學(xué)家們發(fā)現(xiàn),新冠感染人體的物質(zhì)叫 S 蛋白。我們可以把它想象成一個(gè)英文字母 Y,有兩個(gè)枝杈,還有一個(gè)中軸。S 蛋白的中軸會(huì)固定在病毒的表面,而伸出的這兩個(gè)枝杈(RBD 和 NTD),其中的 RBD 會(huì)和我們的受體蛋白發(fā)生識(shí)別,然后進(jìn)入人體。 


我們的研究主要圍繞著機(jī)理還未明確的 NTD 展開。我們和清華大學(xué)計(jì)算生物學(xué)的老師通力合作,利用分子動(dòng)力學(xué)模擬技術(shù)對(duì)整個(gè) S 蛋白,全構(gòu)象是百萬級(jí)原子的巨大體系,進(jìn)行了數(shù)十億步的動(dòng)力學(xué)平衡模擬。通過分子動(dòng)力學(xué),我們發(fā)現(xiàn) NTD 就像一個(gè)開關(guān),可以去控制另一個(gè)枝杈 RBD 是否能和人體的蛋白發(fā)生識(shí)別、結(jié)合。而 NTD 和 RBD 兩者結(jié)合的界面,就自然形成了****物和疫苗設(shè)計(jì)的一個(gè)潛在靶點(diǎn)。




Q4:計(jì)算生物學(xué)算是一門交叉性非常強(qiáng)的學(xué)科,一方面是生物知識(shí)和人工智能的交叉,也就是所謂的 BT+IT。另一方面,也是干實(shí)驗(yàn)和濕實(shí)驗(yàn)的一種交叉。那請(qǐng)問幾位老師是如何看待這兩種強(qiáng)的交叉關(guān)系的? 




A4:計(jì)算生物學(xué)是一個(gè)非常典型的交叉學(xué)科。這個(gè)交叉二字其實(shí)有幾個(gè)不同的層次。 


首先是知識(shí)層面上,有生物學(xué)、醫(yī)學(xué)、****學(xué)、計(jì)算機(jī)科學(xué),包括人工智能這些不同的知識(shí)門類的交叉。 


還有一個(gè)研究方法的交叉,比如說傳統(tǒng)生物學(xué)的生物實(shí)驗(yàn),就是“濕實(shí)驗(yàn)”。計(jì)算機(jī)的模擬或者人工智能的手段,我們通常稱為“干實(shí)驗(yàn)”。 


更重要的其實(shí)是人才的交叉。因?yàn)樵谶@個(gè)過程中會(huì)涉及到計(jì)算機(jī)的人才、生物學(xué)的人才。而最有趣的是,每個(gè)人其實(shí)都是有自己的個(gè)性的,甚至是有一些偏見的。當(dāng)我們面對(duì)著一個(gè)新的課題或者一個(gè)新的事物的時(shí)候,通常會(huì)帶入我們固有的一些思維。所以想要讓交叉學(xué)科發(fā)展得非常好,我們就需要一個(gè)開放、包容、多元化的環(huán)境,讓不同的知識(shí)做交融,讓不同類型的人才去做碰撞,讓不同的研究手段去進(jìn)行互補(bǔ)或者形成某種閉環(huán)。


圖片

對(duì)談嘉賓: 微軟亞洲研究院副院長(zhǎng)劉鐵巖(左二),微軟亞洲研究院首席研究員邵斌(右二),微軟亞洲研究院主管研究員王童(右一)




Q5: 是否存在哪些明顯的瓶頸?




A5:高質(zhì)量數(shù)據(jù)。盡管過去我們?cè)谏飳W(xué)領(lǐng)域積累了大量的數(shù)據(jù),但是高質(zhì)量的數(shù)據(jù)仍然十分短缺。 


從技術(shù)上來說,在做計(jì)算生物學(xué)的過程中,我們還是碰到了非常多的挑戰(zhàn)。比如說,真正的蛋白質(zhì)其實(shí)是處在一個(gè)非常復(fù)雜的細(xì)胞環(huán)境中的,這種微環(huán)境使得計(jì)算機(jī)的建模難度非常大。比如說在 NTD 的分子動(dòng)力模擬中,就需要考慮到這個(gè)蛋白在人體內(nèi)真正的環(huán)境是什么樣的?是不是處在一個(gè)水溶液的環(huán)境里?是不是會(huì)有一些離子?在計(jì)算生物學(xué)的研究中,我們也要盡量地去仿照人體中真實(shí)的微環(huán)境,這可能是一個(gè)比較大的挑戰(zhàn)。 


那還有一個(gè)挑戰(zhàn)是什么呢?在做計(jì)算免疫學(xué)的時(shí)候,其實(shí)每個(gè)人內(nèi)在的免疫環(huán)境都是千差萬別的。我們做一個(gè) AI 模型,如果想在每個(gè)人身上都適用,取得很好的效果,也是很大的一個(gè)挑戰(zhàn)。這也就是為什么我們要對(duì)每個(gè)人有一個(gè)更個(gè)性化的建模過程和解決方案。 


還有動(dòng)態(tài)變化的問題。


生命科學(xué)很特別的一點(diǎn),就是它的研究對(duì)象是活的。比如說,人體每天應(yīng)對(duì)著我們所在的環(huán)境,包括各種病源的侵?jǐn)_,我們是不斷地在進(jìn)化、在變化中去抵抗它們的。所以當(dāng)我們使用傳統(tǒng)的機(jī)器學(xué)習(xí)或人工智能的手段去做了分析建模,很可能這個(gè)模型未來要使用的對(duì)象已經(jīng)發(fā)生了變化。


所以當(dāng)我們用人工智能的手段去解決這些生物問題的時(shí)候,怎么能夠做更好的泛化外推,能夠去解決和應(yīng)對(duì)生物體本身的變化,這是一個(gè)非常有趣的問題,它不僅僅是對(duì)計(jì)算生物學(xué)有意義,對(duì)人工智能、對(duì)機(jī)器學(xué)習(xí)都是一個(gè)新的挑戰(zhàn)。




Q6:那我們是如何看待 AI for Science 這種形式的?




A6:當(dāng)我們用人工智能跟自然科學(xué)進(jìn)行交叉的時(shí)候,其實(shí)有兩個(gè)視角。


一個(gè)是我們已經(jīng)知道了自然科學(xué)的規(guī)律,也產(chǎn)生了很多的數(shù)據(jù),我們?cè)趺?strong style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important;">用人工智能從里面學(xué)到某種模型去加速這個(gè)過程。


另一分支就是當(dāng)我們能夠有那么多的觀測(cè)數(shù)據(jù),這些數(shù)據(jù)可能是科學(xué)家們用肉眼分析不過來的。如果我們有很好的人工智能技術(shù),我們能不能去通過大量的高通量數(shù)據(jù)分析,總結(jié)出一些現(xiàn)有的科學(xué)家還沒有發(fā)現(xiàn)的科學(xué)規(guī)律,這個(gè)科學(xué)發(fā)現(xiàn)的價(jià)值可能比加速的價(jià)值更高。




Q7:在 AI for Science,這個(gè)具體的融合過程中,有沒有什么經(jīng)驗(yàn)和大家分享?




A7:人工智能帶來了科學(xué)研究范式的轉(zhuǎn)型。因?yàn)閺挠?jì)算機(jī)科學(xué)的視角看,現(xiàn)在很多的問題求解不再單純依賴于人工的算法設(shè)計(jì),而更多的是轉(zhuǎn)成以數(shù)據(jù)驅(qū)動(dòng)的模型構(gòu)建。


此外,從基礎(chǔ)科學(xué)研究的視角去看,傳統(tǒng)基礎(chǔ)科學(xué)研究更多是一種提出科學(xué)假設(shè),然后驗(yàn)證科學(xué)假設(shè)的研究范式。隨著大數(shù)據(jù)和人工智能的發(fā)展、普及和成熟,我們觀察到越來越多的科學(xué)研究從假設(shè)推動(dòng)的范式,走向了利用大數(shù)據(jù)和計(jì)算機(jī)技術(shù)挖掘科學(xué)洞見的這種數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究范式。


從生物科學(xué)的角度出發(fā),我們之前更多是基于專業(yè)領(lǐng)域知識(shí)(domain knowledge)的觸發(fā)來做研究。通俗來講,AI 其實(shí)只是作為一種計(jì)算手段扮演了配角的作用。更多是在有大量的生物學(xué)數(shù)據(jù)和生物領(lǐng)域知識(shí)的前提下,用一種非常簡(jiǎn)單的統(tǒng)計(jì)模型或者是機(jī)器學(xué)習(xí)來做簡(jiǎn)單的擬合。


但伴隨著 AI 技術(shù)的發(fā)展和深化,AI 在 AI for Science 里逐漸變成了主角。它并不是只去對(duì)生物數(shù)據(jù)做簡(jiǎn)單的擬合,而是從 AI 入手去認(rèn)識(shí)科學(xué)問題,即為科學(xué)問題量身定制一套 AI 的算法與開發(fā)。


但從另一方面來說,傳統(tǒng)計(jì)算生物學(xué)的研究,更多是為了提升性能,也就是追求更高的數(shù)字?,F(xiàn)在的 AI for Science 并不是這樣。以 AI+****物設(shè)計(jì)研發(fā)為例,我們并不像之前一樣只關(guān)注準(zhǔn)確率,而更關(guān)注可解釋性。比如說在****物虛擬篩選里,是潛在****物的哪些原子和我們的受體蛋白的哪一些殘基、哪一些原子能發(fā)生相互作用,這個(gè)模型能否提供更好的解釋性等等。


傳統(tǒng)的自然科學(xué)領(lǐng)域有一個(gè)研究范式,就是科學(xué)家們受到實(shí)驗(yàn)數(shù)據(jù)的啟發(fā),然后大膽假說提出一套科學(xué)理論,再通過設(shè)計(jì)實(shí)驗(yàn)去進(jìn)一步地驗(yàn)證這些理論或者推論。人工智能其實(shí)就是使傳統(tǒng)科學(xué)家做研究的這種過程變得自動(dòng)化、規(guī)模化、并行化。所以,如果我們說傳統(tǒng)的自然科學(xué)的發(fā)展嚴(yán)重依賴于少數(shù)頂級(jí)科學(xué)家的智慧的話,在未來,有了人工智能技術(shù)的加持,我們相信有更多的科學(xué)工作者可以以更高的通量去做更了不起的研究。



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉