華南理工團隊建立眼科專用AI數據集,累計涵蓋30多種眼疾,推動病理性近視自動篩查工具的面世
“我們研發(fā)出一種智能眼病篩查系統(tǒng),它集成了基于數據集訓練的 AI 模型和眼底照相機等系列硬件設備,能在完成眼底彩照拍攝后 15 秒內,針對 30 多種疾病給出診斷建議,而這些都基于高質量的訓練數據?!比A南理工大學許言午教授表示。
圖 | 許言午(來源:許言午)?
數據,也是許言午近年來打交道最多的對象。在眼科 AI 領域,糖尿病視網膜和青光眼一直是學者們關注的熱門病種。關于這兩個病種的自動篩查和診斷,此前已經取得了顯著發(fā)展,也有不少醫(yī)用設備落地。
但是,鮮少有人研究病理性近視眼的自動篩查診斷,該疾病是一種不可逆性致盲性眼病[1]。在 40 歲以上的中國人群中,病理性近視眼的患病率大約為 3.1%,年發(fā)病率約為 0.05%。
病種公開數據的匱乏,是該疾病未得到充分研究的重要原因。同時,數據也是醫(yī)療 AI 在發(fā)展中面臨的一大挑戰(zhàn)。醫(yī)療數據的獲取,通常面對隱私、倫理等方面的限制。
不同于其他的 AI 細分領域,由于對專業(yè)知識和對經驗的要求,醫(yī)療數據的標注通常要由專職醫(yī)生完成。
這更加拉高了數據的獲取成本和獲取難度。眼科 AI 領域的研究也是如此,數據缺失成為前行路上最大的一只“攔路虎”。
建立 iChallenge 數據集,讓模型訓練“彈藥”更豐富
幾年前,許言午開始研究眼科 AI,當時眼科圖像分析尚未成為熱門方向,研究者少、論文也少。不過,他有幸獲得一些數據資源,相關成果也獲得了不錯的影響力。
這讓他深刻認識到,如果想推動這個領域的發(fā)展和壯大,必須讓公開數據集更加豐富,只有這樣才能為研究者們提供模型訓練的“彈藥”。而這也正是許言午投身數據集建設的初衷。
后來,他的這個想法得到了中山大學張秀蘭教授這位一線臨床專家的支持。她非常愿意貢獻所在醫(yī)院收集到的數據,和許言午共同推動國內眼科圖像分析領域的發(fā)展。
隨后,許言午和張秀蘭教授一同建立了名為 iChallenge 的數據集,在遵循數據隱私和倫理規(guī)范的前提下,許言午等人每年都會針對眼科圖像數據進行收集、標注和公開。
該團隊為醫(yī)生群體搭建了完善的標注框架和標注流程,同時也為他們提供標注工具,讓醫(yī)生可以在標注工作中充分發(fā)揮專業(yè)知識。
而為了推動病理性近視自動篩查診斷領域的發(fā)展,課題組在 iChallenge 中發(fā)布了 PALM 數據集。
當下,全球范圍內的病理性近視患病率正在不斷增長,在眼疾 AI 自動診斷工具日漸普及的背景下,PALM 數據集的公開非常及時。PALM 數據集累計包含 1200 張和病理性近視相關的眼底彩照。
以往的公開眼科數據集通常只提供患病與否的標簽。而 PALM 數據集除了提供患病與否的標簽之外,還提供了解剖結構和相關病變的標注,具體包括視盤分割、中央凹定位、斑片狀視網膜萎縮和視網膜脫離這兩種病變區(qū)域的分割標注。
這些標注能提供更加豐富的細節(jié)信息,借此提升模型效果,進而更全面地分析疾病模式,最終提供更準確的病理性近視診斷建議。
據了解,所有標注工作均由中山大學中山眼科中心的 7 名眼科醫(yī)生完成,這是一群平均年資在 8 年以上的醫(yī)生群體。另外,一名年資超過 10 年的眼科醫(yī)生負責把控標注質量。
2018 年,iChallenge 數據集發(fā)布了第一個子數據集 REFUGE——1200 張分析青光眼的眼底彩照數據集。
后來,該團隊在醫(yī)學影像頂級期刊 Medical Image Analysis(2022 年 IF 為 10.9)上發(fā)表了關于 REFUGE 的綜述論文,論文題為《REFUGE 挑戰(zhàn):基于眼底彩照自動分析青光眼方法的統(tǒng)一評估框架》(REFUGE Challenge: A unified framework for evaluating automated methods for glaucoma assessment from fundus photographs),許言午和張秀蘭擔任通訊作者。
這篇綜述論文獲得了出乎意料的影響力,此后 Medical Image Analysis 期刊的投稿類別中新增了“Challenge Report”選項,專門用于接受此類算法挑戰(zhàn)比賽的相關論文。
截至目前,這篇論文已入選《基本科學指標》近十年高被引論文。在谷歌學術上的引用次數也已經達到 502 次。
圖 | 相關論文(來源:Medical Image Analysis)
讓數據集“物盡其用”,連續(xù)舉辦八屆比賽引入創(chuàng)新活水
數據集的建設耗時耗力,為了讓數據集真正實現“物盡其用”,許言午開始舉辦 iChallenge 算法挑戰(zhàn)賽,希望通過比賽的形式、競爭的性質,激發(fā)學界和業(yè)界的創(chuàng)新熱情。
同時,他充分利用自己的另外一個身份——醫(yī)學圖像頂級會議 MICCAI(Medical Image Computing and Computer Assisted Intervention Society)OMIA 國際眼科研討會創(chuàng)始主席的“便利”,將數據集的公開、挑戰(zhàn)賽的舉行、以及 OMIA 研討會三者相結合,把數據集和挑戰(zhàn)賽主動帶到眼科 AI 研究者們面前。
事實證明,這兩種數據集的推介方式非常有效。截至 2023 年,這一賽事已經連續(xù)舉辦 8 次,累計超過 5000 支隊伍參加過挑戰(zhàn)賽。參賽者們利用數據集訓練他們的 AI 模型,提出了很多創(chuàng)新解決方案。
在 2021 年舉辦的 GAMMA 挑戰(zhàn)賽中,曾經有一個由醫(yī)學生組成的參賽隊伍,獲得單任務前三名的好成績。醫(yī)學生普遍被認為沒有太多計算機基礎,在算法設計和模型訓練環(huán)節(jié)上似乎不占優(yōu)勢。
但是這組隊伍卻在一眾圖像分析專業(yè)選手中脫穎而出,這讓作為賽事舉辦者的許言午感到非常驚喜,也深深感受到 AI 的普及程度。
他說:“如果人人都能像這些學生一樣,將 AI 和個人專業(yè)領域的知識經驗相結合,必將給個人和團隊帶來額外的競爭優(yōu)勢?!?/span>
在 2023 年舉行的 STAGE 挑戰(zhàn)賽中,有兩支企業(yè)參賽隊伍沖進前三名。STAGE 挑戰(zhàn)賽的難度很高,作為主辦方的許言午等人預計只有具備良好臨床背景的參賽者,才能設計出更具針對性的高性能算法。
出乎意料的是,來自蕪湖明瞳數科公司的兩人團隊 AIFuture Lab、和來自唯智醫(yī)療科技(佛山)有限公司的三人團隊 VisionWise,分別獲得冠軍和季軍。這也是 iChallenge 算法挑戰(zhàn)賽中第一次出現 2 支企業(yè)隊伍獲獎的情況。
這讓許言午感受到企業(yè)愈發(fā)重視產研結合的趨勢。目前,iChallenge 數據集已經成為全球最大的精準標注眼科數據集,截至 2023 年,iChallenge 數據集支撐了 750 余篇學術論文的發(fā)表。一系列挑戰(zhàn)賽也成為全球眼科 AI 研究者們探索、創(chuàng)變和交流的舞臺。
病理性近視自動篩查診斷設備或將面世
總的來說,基于 PALM(iChallenge)數據集訓練的病理性近視自動篩查診斷算法,有望落地一款病理性近視自動篩查診斷設備。
同時,自動篩查診斷設備可以輔助醫(yī)生進行疾病診斷,提升診療效率,實現醫(yī)療資源普惠。
隨著老齡化進程的加速,再加上患者呈現出低齡化趨勢,眼病患者數量正在日漸增長。
其中,許多眼病存在較高的致盲風險,發(fā)現得越晚風險就越大,治療支出也就越高。因此,早期篩查和早期診療具有重要意義。
然而,在基層以及大部分偏遠落后地區(qū),醫(yī)生患者數量的不匹配,導致無法開展大規(guī)模人群的定時篩查,同時也存在醫(yī)生缺少專業(yè)能力的情況。而引入 AI 自動篩查診斷設備則有望改善這一難題。
已有研究表明[2],相比人工篩查和非 AI 輔助遠程篩查,AI 輔助遠程篩查眼病的經濟效益最高,有助于更多早期眼病患者的檢出和及時轉診。
通過 AI 自動篩查診斷設備,能夠實現致盲眼病的“早期發(fā)現、早期診斷、早期治療”,從而為患者帶來更多福祉。
隨著人口老齡化程度的增加、以及人們對于眼健康關注度的提升,背后蘊藏著多種眼疾自動篩查診斷的巨大需求。
醫(yī)療數據共享未來方向:多模態(tài)、多地區(qū)、多科室
過去,該課題組公開的數據集以眼結構數據為主,主要涵蓋眼底彩照、AS-OCT 圖像等,這些數據集為眼部結構相關分析提供了基礎。
2023 年 10 月,iChallenge 公開了 400 套分析青光眼的 3D 光學相干斷層成像檢查和視野檢查關鍵指標數據。
其中,視野檢查是眼科檢查的一種,關鍵指標主要包括視野靈敏度、視野平均偏差、視野模式偏差等。
在一些疾病中,比如青光眼、視神經疾患、腦部疾病,患者會出現視野缺損或缺失的情況。
視野檢查數據,則能呈現被檢查者的眼部功能狀態(tài)。結合分析眼結構數據和眼功能相關的數據,人們將能更全面地學習和理解眼部疾病的特征,更深入地挖掘眼部疾病與視野異常的潛在關聯,從而進行更全面、多角度的眼健康評估,也為醫(yī)生提供更為完整的診斷依據。
2023 年公開的視野檢查數據是團隊在開放更多模態(tài)數據方面邁出的第一步。而在 2024 年,iChallenge 數據集會繼續(xù)增加新的子數據集,以及涵蓋更多模態(tài)的數據,同時算法挑戰(zhàn)賽也會隨數據集公開舉行。
眾所周知,醫(yī)療數據在不同地區(qū)呈現明顯的差異。如果想要獲得更加全面的研究成果,從訓練數據開始就需要囊括各個地區(qū)的數據。
因此,未來他們也將嘗試與在東南亞地區(qū)的合作伙伴一起,共同建立該地區(qū)的眼科數據集,為該地區(qū)的研究者填補數據的空白,也希望能借此促進不同地區(qū)間的數據共享與合作,進一步推動全球范圍內眼科醫(yī)學的發(fā)展。
此外,主動健康是現在備受關注的一個方向。許言午將攜手合作者建立更多科室的公開數據集,例如體檢科、心血管科、腎臟科等,希望能復制他們在眼科 AI 領域的數據集建設經驗,通過數據集開放、舉辦挑戰(zhàn)賽和發(fā)表綜述論文等方式,為主動健康領域的發(fā)展和創(chuàng)新貢獻一份力量,最終實現成果的落地和轉化。
參考資料:
1.中華眼科雜志, 2021, 57(6) : 401-405.
****:https://rs.yiigle.com/CN112142202106/1323618.htm
2.Hanruo Liu, Ruyue Li, Yue Zhang, Kaiwen Zhang, Mayinuer Yusufu, Yanting Liu, et al. Economic evaluation of combined population-based screening for multiple blindness-causing eye diseases in China: a cost-effectiveness analysis. The Lancet Global Health 2023, 11(4): 456-465
運營/排版:何晨龍
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。