北京大學高歌:21世紀的生命科學屬于數(shù)據(jù)科學丨獨家專訪
高歌現(xiàn)為北京大學生物醫(yī)學前沿創(chuàng)新中心 (BIOPIC)、北京未來基因診斷高精尖創(chuàng)新中心 (ICG)、生物信息中心 (CBI) 暨蛋白質與植物基因研究國家重點實驗室研究員、博士生導師。他長期從事新一代的生物信息方法和技術研究,其團隊正在基于大數(shù)據(jù)、統(tǒng)計學習等計算方法和單細胞多組學技術,深入挖掘和整合高通量生物數(shù)據(jù),在單細胞水平上精準解析細胞調控圖譜并探索其在生物醫(yī)****領域的應用方向。
他形象地將其團隊從事的事情描述為科學地 “看相” 和 “算命”,即利用計算的方法解析生物大數(shù)據(jù)中蘊含的新生命規(guī)律。具體來說就是基于基因組、轉錄組等大規(guī)模組學測量數(shù)據(jù) (科學 “看相”),通過多種計算方法有效挖掘、整合、建模,發(fā)現(xiàn)新現(xiàn)象、總結新規(guī)律,形成對生命過程的統(tǒng)一解析和理解,進而將其應用于生物醫(yī)****領域的診治中,實現(xiàn) “科學算命”。 其技術路線可以總結為 “數(shù)據(jù)導向”(Data-Oriented)、“方法驅動”(Methodology-Driven)、“干濕結合”(in silico for in vivo)。 細胞是構成生命的基本單元,細胞中多種調控機制造就了機體中功能形態(tài)豐富多樣的細胞群體,并進而構成了早期發(fā)育、腫瘤發(fā)展等多種關鍵生理病理現(xiàn)象的生物學基礎。而現(xiàn)階段,要實現(xiàn) “科學看相” 和 “科學算命”,核心工作就在于精準解析細胞調控圖譜。 “隨著近年來以單細胞多組學數(shù)據(jù)為代表的新一代測量數(shù)據(jù)爆發(fā)式增長,以深度學習、因果推斷等為代表的統(tǒng)計建模方法不斷取得新進展,以及以混合計算、彈性計算等為代表的計算技術快速鋪開,我們有望在近期內精準解析人類細胞調控圖譜?!?/span>
“21 世紀的生命科學正在進入數(shù)據(jù)科學時代,生命科學的整體研究方法或者研究思路很大程度上都將隨著數(shù)據(jù)量的快速增長而變化,這種改變將會帶來巨大、深遠的影響。” 高歌說。 如何在海量的生物學數(shù)據(jù)中有效挖掘新的生物學知識是利用計算方法解析生命的關鍵,而無論是新型的深度學習模型、還是經(jīng)典的統(tǒng)計學習方法,都高度依賴高質量的生物學數(shù)據(jù)。近年來,單細胞多組學測量技術的快速發(fā)展是獲取高維度生物數(shù)據(jù)的關鍵之一。
單細胞多組學測量技術是指對單個細胞包含的基因組、表觀基因組、轉錄組、蛋白質組和代謝組等組學信息進行測量分析,從而獲得單個細胞在多個層面的運作狀態(tài)。 在此基礎上,科研人員可以進一步開發(fā)新的計算方法,從多個層面分析細胞,整合和解讀不同層面的數(shù)據(jù),以全面理解細胞的組成成分和運作機制。進一步地,在臨床上,多組學數(shù)據(jù)能夠幫助人們理解細胞在病理狀態(tài)和生理狀態(tài)之間的差異,并精準鎖定診斷標志物和治療性靶點。 “作為近年來生命科學技術領域最大進展之一的單細胞多組學技術正在蓬勃發(fā)展。隨著多組學技術產生的數(shù)據(jù)量持續(xù)增長,我們在歷史上第一次有可能從整體上構建細胞調控圖譜,進而在單細胞水平上對基因表達調控及其生理、病理結果進行精準解析,并最終實現(xiàn)在計算機中建立細胞調控的高精度模型,構造 Virtual Cell。” 高歌說。
“在生命科學領域,數(shù)據(jù)本身具有不可忽視的價值。然而,產生海量數(shù)據(jù)只是第一步;只有發(fā)展新的計算技術與方法解析、挖掘這些寶貴的數(shù)據(jù),才能發(fā)現(xiàn)新的生物學現(xiàn)象與規(guī)律,并進而將其運用于生物醫(yī)學的實踐中。” 高歌說。 “數(shù)據(jù)導向,方法驅動” 是高歌團隊的核心研究路線。高歌相信,方法學(方法特指計算方法)的進步是獲得新發(fā)現(xiàn)的有效途徑,并將為從根本上提升對生命系統(tǒng)的理解提供全新的視角與可能。 有鑒于此,該團隊近年來圍繞生物數(shù)據(jù)的解析、挖掘與整合,開發(fā)了一系列生物信息學新方法與新技術。截止目前,其團隊已自主研發(fā) 10 余款生物信息新算法軟件和數(shù)據(jù)庫,外部有效訪問量累計逾 10 億次。
具體來說,高歌團隊已經(jīng)開發(fā)出了多款深度學習模型和組件,包括最新發(fā)表的新型卷積層 vConv、新型池化層 ePooling、單細胞轉錄組數(shù)據(jù)整合和注釋的新方法 Cell BLAST 等。據(jù)介紹,其基本思路是根據(jù)生物數(shù)據(jù)特點,針對現(xiàn)有深度學習模型或者組件進行調整和優(yōu)化,進而從底層重構一套適用于生物學的深度學習框架。
高歌告訴生輝,對于一個計算模型的評價可以從兩個方面來看,一是計算模型本身的性能;二是可解釋性,也就是幫助科學家理解生物數(shù)據(jù)中所蘊含的信息與知識的能力。 今年 7 月,該團隊在線發(fā)表最新深度學習組件 —— 基于自適應卷積核的新型卷積層 vConv。標準卷積神經(jīng)網(wǎng)絡的卷積核長度通常是固定的,但是在生物信號檢測過程中,信號本身的長度并不固定?;诖耍搱F隊針對生物醫(yī)****領域的數(shù)據(jù)對卷積神經(jīng)網(wǎng)絡里的常用卷積層進行了改良。 高歌告訴生輝,該模型最大的創(chuàng)新之處在于通過針對細分領域的數(shù)據(jù)特點設計深度學習組件,將標準卷積神經(jīng)網(wǎng)絡中長度固定的卷積核變?yōu)榭勺詣诱{整長度的卷積核。 ePooling 則是該團隊開發(fā)的一種具有明確概率可解釋性的新型池化層,它從概率可解釋性出發(fā),通過理性設計,對當前主流的池化方法進行了改進,不僅提升了可解釋性、也提高了性能。 2020 年 7 月,該團隊在 Nature Communications 上發(fā)表了一種基于深度對抗學習模型的數(shù)據(jù)檢索和注釋新方法 ——Cell BLAST,和一個高質量單細胞轉錄組參考數(shù)據(jù)庫 ACA。今年3月,這項研究入選了《基因組蛋白質組與生物信息學報》評選的 2020 年度 “中國生物信息學十大進展”。
在比較跨數(shù)據(jù)集時,批次效應往往會降低預測的準確性和可靠性,并影響現(xiàn)有數(shù)據(jù)的利用,借助對抗學習方法,Cell BLAST 可以有效地消除數(shù)據(jù)之間的批次效應。此外,Cell BLAST 還能夠發(fā)現(xiàn)存在于用戶提交的待查數(shù)據(jù)集、但不存在于 ACA 參考數(shù)據(jù)集中的細胞類型。 據(jù)悉,該團隊還在開發(fā)深度學習模型 GLUE 以整合包括轉錄組、表觀組、蛋白質組等在內不同維度的單細胞多組學數(shù)據(jù),最新研究結果近期已刊登于預印本網(wǎng)站 bioRxiv 上。
今年是高歌加入北京大學的第 10 個年頭。目前,高歌團隊的工作專注于構建解析細胞調控圖譜,并探索其在早期發(fā)育、消化道腫瘤和免疫相關疾病上的應用潛力。 科研成果更大的意義是走向轉化應用,真正為生命科學行業(yè)以及應用帶來變革。對于科研轉化落地,高歌也有自己的想法。 “從落地角度來看,我們希望可以找到更有意義和價值的應用場景和方向。對于具體應用方向,我們需要考慮自己能夠為行業(yè)提供哪些具有長期價值、長期競爭優(yōu)勢的科研成果。” 高歌說。 雖然還沒有具體的規(guī)劃,但是該團隊現(xiàn)階段也有了一些前期的考慮和計劃。高歌認為,現(xiàn)階段多組學技術已經(jīng)應用于精準醫(yī)學研究,預計未來 5 年可能會進一步應用于精準醫(yī)學臨床診斷與治療。
目前在產前診斷、靶向用****等領域廣泛應用的遺傳篩查仍主要基于對疾病易感基因遺傳變異的檢測,然而,不完全外顯 (reduced penetrance, 即基因型有缺陷的前提下沒有表型上的變化) 等情形會嚴重影響最終診斷的信度與效度。 高歌告訴生輝,現(xiàn)在實驗室的一項工作就是降低遺傳疾病診斷的誤差,現(xiàn)已初步獲得了一些可以降低誤差的發(fā)現(xiàn)。 目前高歌團隊仍將以基礎科研為主,不過他們正在探索場景落地的可能性。高歌繼續(xù)補充,“如果要找到具有長期價值的方向,我覺得需要與高校的技術創(chuàng)新能力結合起來。從基礎到應用的過程中,高校往往聚焦于 0-1 的階段,大型企業(yè)會專注于 100-10000,而我們希望能著眼于填補 1-100 之間的空白。”
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。