建立中游知識圖來支撐企業(yè)主權式AI
1 前言
在上一期里,介紹了<三層KG架構>的設計流程。在本文里,將介紹這種新潮KG(Knowledge Graph)架構的重要用途之一,就是:基于本地行業(yè)自主性KG數據,展開訓練中游GNN模型,來支持下游企業(yè)建立可信、可控、可更新的主權式AI系統(tǒng)。
大家都知道,如今,GenAI逐漸變成知識整合與創(chuàng)新推理的工具,而非黑箱結果輸出的機器而已。于是,我們可以透過 <KG+GNN+CF+LLM>的整合架構設計,推導出高效的主權AI實踐流程。其包含大語言模型(LLM)協(xié)助構建KG、并訓練GNN推理潛在知識與反事實鏈接(Counterfactual Link, 簡稱:CF_Link), 經由人類進行創(chuàng)新決策后回饋知識圖,最終結合RAG與LLM完成可信、可控、可更新的主權AI系統(tǒng)。
2 復習:三層KG架構設計
由于LLM非萬能,而企業(yè)KG卻是可信知識核心。采用<低監(jiān)督/少標注/高彈性>的實踐策略,其可擴展性與低成本優(yōu)勢,非常契合主權AI的自主性與本地性目標。在主權AI的知識圖譜(KG)建構過程中,專家知識不是輔助,而是設計師。他們決定哪些知識能形成語意路徑,哪些節(jié)點之間存在潛在可推理的因果鏈。例如,三層KG架構的特質如下:
● KG分為<上游-中游-下游>三階段金字塔結構,彼此分工清晰又互補,為LLM、GNN與人類決策提供堅實的知識支撐。
● 上游通用性KG:善用開源的行業(yè)性知識,避免從零建構,減少80%中下游KG開發(fā)成本。
● 中游特定領域性KG:結合企業(yè)內部數據,融合文化、地區(qū)與組織習慣的知識模式。捕捉真實商業(yè)語境,為GNN提供語意嵌入訓練基礎。
● 下游任務型應用KG:支持多樣化AI應用任務(推薦、風險評估),增加營收(交叉推薦)、降低決策風險。
3 建立行業(yè)中游KG:以乳癌領域為例
3.1 選擇上游通用性大KG
本案例的緣由是:因為在醫(yī)療領域的開源、開放DRKG( Drug repurposing knowledge graph, 中文譯:藥物再利用知識圖譜),其支持下游的精準醫(yī)療AI任務上,表現非常亮麗。
同時,人們也從生物知識庫中整合了以疾病和基因為中心的多種關系,開發(fā)了一個使用交互張量分解來識別疾病基因關聯的通用性大KG完成模型,稱為:KDGene。其透過感知相關知識,模型能夠學習到不同關系的內涵,賦予生物實體和關系更全面、更精確的表示,有利于疾病基因預測。如下圖1所示:
圖1 選擇適當的上游大KG
這些上游大KG的預訓練知識,能有效節(jié)省中、下游模型的訓練速度和成本。
3.2 建立中游領域性KG
本案例是針對<乳腺癌癥>領域,使用神櫻AI團隊自己開發(fā)的SAK-Builer工具,建立了中游領域性KG,取名為:MutationKG。其架構如下圖2所示:
圖2 建立中游KG
3.3 訓練<主權式>中游領域性GNN模型
在訓練時,首先從上游DRKG里讀取藥物實體的嵌入向量(Embeddings), 成為這中游MutationKG的< 藥物> 節(jié)點的起始特征(Initial Features)。同時,也從上游KDGene里讀取基因實體的嵌入向量(Embeddings),成為這中游MutationKG的< 基因>節(jié)點的起始特征。然后,搭配本地機構自主性癌癥及其類型數據,展開訓練中游GNN模型,如下圖3所示:
圖3 訓練出自主的中游KG
此時,訓練1000回合之后,繼續(xù)加碼訓練25 回合,就完成了。
于是,已成功訓練出一個能夠把突變數據轉換成嵌入向量的GNN模型,而且嵌入已儲存于mutation_embeddings_gin.csv檔案里,可供后續(xù)下游任務使用(如分類、群聚、可視化、或與影像特征融合等)。
3.4 支撐<主權式>下游應用型<KG+GNN>模型
這項下游任務結合了醫(yī)學影像特征(Ultrasound/MRI)進行多模態(tài)推論,也將GNN輸出的嵌入與CNN影像特征進行融合,提供AI輔助診斷(如預測、分類等)。
如下圖4所示:
圖4 支撐下游主權AI開發(fā)
關于超音波影像中的疑似的腫瘤評估,定義于美國放射學會所制定BI-RADS的描述項目及描述特征。BIRADS是指美國放射學會(ACR)的乳腺影像報告和數據系統(tǒng)(Breast Imaging Reporting and Data System) 的縮寫。BI-RADS分級標準被廣泛應用于乳腺的各種影像學檢查,如乳腺鉬靶X線攝影、彩超、核磁共振,是用來評價乳腺病變良惡性程度的一種評估分類法。
4 邁向決策式主權AI
反事實推理(Counterfactual Inference)與KG的結合愈來愈重要?;贙G+GNN的應用:包括社交網絡分析、醫(yī)療知識圖譜、推薦系統(tǒng)等,反事實推理能夠幫助人們理解和分析圖結構中的因果關系。例如,本案例的決策式AI可以提供治療建議:「如果采用另一種治療方案,病情可能會如何發(fā)展?」。利用反事實分析來理解不同治療方案的潛在效果,進行個性化的治療決策支持。
在這三層KG體系的支持下,決策式AI發(fā)揮反事實推理能力。例如思考:如果刪除一個可能的疾病節(jié)點,診斷預測結果會如何變化?使用反事實分析來進行因果推理,找出可能的誤診或未被考慮的疾病。本文提出一套融合大型語言模型(LLM)與知識圖譜(KG)的實踐方案,作為企業(yè)或產業(yè)建立主權AI 核心的關鍵基礎架構。
5 結語
企業(yè)要打造可信、可控、可更新的主權AI,不靠黑箱,而是靠自己建構知識圖譜(KG),結合圖神經網絡(GNN)與大型語言模型(LLM)。透過三層KG架構(上游、中游、下游),企業(yè)能融合內部數據與行業(yè)知識,推動智能推理與反事實分析,建立真正屬于自己的主權式AI系統(tǒng)。
(本文來源于《EEPW》202505)
評論