阿里達摩院專家解密:AI算法將肺炎疑似病例基因分析縮短至半小時的背后
到今天為止,肺炎疫情的發(fā)展依舊是每個人頭腦里繃得最緊的一根弦。
本文引用地址:http://2s4d.com/article/202002/409557.htm截至2月1日24時,國家衛(wèi)生健康委收到31個省(自治區(qū)、直轄市)和新疆生產建設兵團累計報告確診病例14380例,疑似病例有19544例。
盡管疫情嚴重,但一個好消息是,AI正成為前線醫(yī)務人員的重要加持力量。
雷鋒網了解到,2月1日,浙江省疾控中心上線自動化的全基因組檢測分析平臺,利用阿里達摩院研發(fā)的AI算法,可將原來數(shù)小時的疑似病例基因分析縮短至半小時,大幅縮短確診時間,并能精準檢測出病毒的變異情況。
達摩院算法專家顧斐博士在疾控中心基因檢測分析現(xiàn)場
核酸檢測方法的局限性
在這么多天科普知識的瘋狂輸出下,我們可以知道的一點是,新型冠狀病毒感染的肺炎患者的臨床表現(xiàn)與流感的臨床表現(xiàn)差別并不大。
因此,醫(yī)務人員口中所說的“小盒子”——核酸檢測試劑盒的檢測結果對于確診來說非常重要。
在核酸檢測試劑盒開發(fā)過程中,基因組測序是必不可少的步驟,這個過程會耗費數(shù)日。一旦完成,核酸檢測試劑盒的開發(fā)將變得很快。
那么,試劑盒數(shù)量夠了就行了嗎?遠遠不是。
此前,北京大學醫(yī)學部病原生物學系教授,美國伯明翰阿拉巴馬大學醫(yī)學院微生物學系分子病毒學終身教授羅光湘曾表示,核酸檢測試劑盒并不能獨立使用,需要搭配PCR儀器共同進行檢測,而這種儀器只有規(guī)模較大的醫(yī)院才有,社區(qū)醫(yī)院、縣城醫(yī)院或許還未普及,只能送往中心城市的醫(yī)院或疾控中心進行檢測。
所以,一開始,新型冠狀病毒核酸檢測只能在湖北省疾控中心進行,而且核酸檢測試劑盒生產較少,就出現(xiàn)了疑似患者確診困難,得不到及時救治的狀況。
此外,新型冠狀病毒本身也很“難纏”。
公開信息顯示,該病毒是基因組序列最長的病毒之一,全基因組序列全長29847bp,臨床診斷需要將患者樣本與該病毒基因序列進行比對才能確定診斷結果。
達摩院算法專家顧斐博士表示,目前醫(yī)院普遍采用核酸檢測方法,只能檢測到病毒基因的局部。一旦病毒發(fā)生變異,就可能出現(xiàn)漏檢的情況。
在接受雷鋒網采訪時,一位知情人士透露,核酸檢測方法是一種用于放大擴增特定DNA片段的分子生物學技術,能利用聚合酶鏈式反應將微量的DNA大幅擴增,從而檢測出帶有特定基因片段的病毒,也就是說這種方法只能檢測到樣本基因的局部。
(新型冠狀病毒結構)
所以,面對洶涌的疫情,單靠“人肉輸出”來獲得有漏檢風險的結果,目測已經不是一個好辦法了,大量疑似的患者仍然存在。
AI算法成破局利器
嚴峻的抗疫形勢下,AI成為破局的一把利器。
此次研發(fā)的自動化全基因組檢測分析平臺屬于高通量測序,由浙江省疾病預防控制中心、阿里達摩院醫(yī)療AI團隊和杰毅生物技術公司共同研發(fā),突破之處在于大幅縮短了檢測時間。
針對平臺的合作細節(jié)以及未來的應用規(guī)劃,雷鋒網(公眾號:雷鋒網)與阿里達摩院的一位算法專家進行了采訪。
Q:傳統(tǒng)的病毒基因分析過程,主要包含哪些步驟和階段?
A:一般而言整個流程涵蓋:樣本標記、分裝;核酸提??;熒光定量PCR體系配制;上機檢測;數(shù)據(jù)報告分析。
Q:這么一套平臺,達摩院這邊投入了多少人力,什么時候開始做,前后花了多長時間?
A:疫情發(fā)生后,達摩院投入十余人研發(fā)這套新平臺,例如針對新冠病毒基因的特征進行了分析,基于PDB等公共數(shù)據(jù)集的數(shù)據(jù)進行算法的優(yōu)化訓練,也有算法專家奔赴浙江省疾控中心前線,與兩個合作方溝通合作,才研發(fā)了這套平臺。
Q:既然是AI算法,就存在準確性的問題,達摩院的AI算法、模型在各個階段應用過程中是否需要考慮準確性的問題?
A:目前,沒有不準確的情況。在檢測過程中,對于算法而言,需要做到100%的準確率。
Q:病毒基因的檢測和分析是兩種不同的工作,你們是如何合作的?
A:杰毅生物開發(fā)了全自動高通量測序建庫儀,把整體常規(guī)人工需要12小時的工作縮短到2個小時。簡單一點理解,就是檢測的結果進行“數(shù)據(jù)化”,然后交由達摩院開發(fā)的算法進行分析。每次測序過程會產生海量的數(shù)據(jù),基于一系列優(yōu)化的算法,可以加快樣本病例的檢測速度。在這個環(huán)節(jié)里,算力和算法同樣重要。
Q:這樣一個幫助醫(yī)務人員在減負和提效之間保持平衡的平臺,未來的應用方法和合作途徑如何?
A:接下來,全基因組檢測分析平臺會在全省大規(guī)模應用。達摩院會與合作伙伴共同將這套技術推廣至全國。對于是否有其他省市醫(yī)院尋求使用,暫時不好透露。
點睛之筆——分布式設計的算法
值得注意的是,達摩院這次的分布式設計算法是整個平臺的“點睛之筆”。
在序列比對過程中,達摩院對算法增加了分布式設計,提升了比對效率;樣本基因分析的速度由數(shù)小時縮短到半小時;在病毒序列拼接階段,達摩院使用分布式設計的de Bruijn圖算法,變異病毒也能精準檢測,病毒拼接的速度由30分鐘-1小時縮短到15-30分鐘。
除此之外,不同于傳統(tǒng)核酸檢測方法,這一平臺還可以檢測到病毒的全貌,對疑似病例的病毒樣本進行全基因組序列分析比對,避免因為病毒變異造成的漏檢情況。
本次分析病毒檢測和病毒變異部分主要基于開源算法,設計分布式算法以加速分析流程。病毒序列拼接完成后,通過設計BiLSTM+DNN的方式訓練模型預測病毒蛋白二級結構。
與此同時,達摩院還在研究基于序列的蛋白質三維結構預測模型以及藥物篩選模型。
浙江省疾控中心基因測序負責人孫逸博士表示:“該平臺基于阿里云的強大算力與達摩院新算法可以為病毒的解析提供支撐,基于該平臺,未來還可以在短時間內將檢測范圍覆蓋整個確診病例,也為后續(xù)疫苗與藥物研發(fā)打下了堅實基礎?!?/p>
一場關乎全民的技術戰(zhàn)
為了抗疫這場關乎全民的戰(zhàn)役,國內的科技巨頭第一時間站了出來。
為了幫助加速新藥和疫苗研發(fā),此前,阿里云宣布將向全球公共科研機構免費開放一切AI算力。
目前,中國疾控中心已成功分離病毒,但在新藥和疫苗研發(fā)期間,需要進行大量的數(shù)據(jù)分析、大規(guī)模文獻篩選和科學超算工作。阿里云的AI算力,可以支持病毒基因測序、新藥研發(fā)、蛋白篩選等工作,幫助科研機構縮短研發(fā)周期。
而且,除了這次的全基因組檢測分析平臺,達摩院還在春節(jié)期間,用五天時間推出了“智能疫情機器人”,目前正在為浙江省新型肺炎公共服務與管理平臺提供服務。
今天(2月2日),“7000人鏖戰(zhàn),9天建成”的武漢火神山醫(yī)院正式交付??梢韵嘈诺氖?,在防疫戰(zhàn)役越來越深入的情況下,全基因組檢測分析平臺會像火神山醫(yī)院一樣,用AI的力量為民眾和醫(yī)務工作者帶來更多的信心。
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
評論