MIT 最新研究:AlphaFold 蛋白質預測能力太差,目前利用價值還很低
大數據文摘授權轉載自AI科技評論
作者 | 李梅、黃楠
編輯 | 陳彩嫻
2018 年,Deepmind 首次發(fā)布基于深度神經網絡的蛋白質結構預測數據庫 AlphaFold,在蛋白質預測中實現了最先進的性能;去年,AlphaFold 2 獲得了 98.5% 的蛋白質預測率;前段時間,Deepmind 又重磅發(fā)布了數據集更新,稱目前的 AlphaFold 已經預測了幾乎所有已知的蛋白質。
如何有效識別****物作用機制在今天仍然是一個巨大挑戰(zhàn),計算對接的方法已被廣泛用于預測****物結合靶點。有了大規(guī)模蛋白質結構預測技術,****物發(fā)現將變得更容易。所以,自 AlphaFold 問世以來,稱其將引發(fā)一場結構生物學的革命、徹底改變****物發(fā)現的聲音就不絕于耳。
本質上,AlphaFold 是一個工具,我們目前真的能利用好這個工具嗎?
近日,來自 MIT 的研究團隊給出了否定的回答。
他們對使用 AlphaFold2 的分子對接模擬的模型性能進行了評估,發(fā)現模型在識別真正的蛋白質-配體相互作用方面的預測能力較弱,并證明需要使用基于機器學習的方法進行建模來提高模型性能,以更好地利用AlphaFold2 進行****物發(fā)現。該論文“Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery”發(fā)表在了Molecular Systems Biology 期刊上。
論文地址:https://www.embopress.org/doi/epdf/10.15252/msb.202211081
使用AlphaFold 2 預測分子對接
所謂化合物的對接計算,是將候選化合物列表中的每一個對接到目標蛋白質中,生成最有可能結合的化合物的粗略排序。這個過程可以在化合物集合上完成,獲得龐大的虛擬庫,這種虛擬篩選已經成為計算化學領域的長期目標。篩選 218 種大腸桿菌活性化合物研究團隊首先篩選了一組化合物,包含大約 39128 種,其中包括已知****物(已知抗生素)、活性天然產物和一系列其他不同結構,并在針對大腸桿菌的篩選中發(fā)現了 218 種化合物培養(yǎng)物。僅僅有 218 個陽性,這個結果是令人驚訝的,但考慮到抗菌****物發(fā)現工作的難度,這個數字也算比較難得了。在 218 種活性化合物中,有大約 80% 是已知抗生素類別中的成員,剩下的部分則是已知細胞毒性化合物和一些新的通配類型的混合。這為實驗的進行提供了一個很好的背景,因為在大多數情況下,我們可以預測從反向對接篩選中獲得什么結果。將活性化合物與預測的蛋白質結構對接接著,團隊研究了這些活性化合物的潛在結合靶標。多年來,在大腸桿菌中進行的大量基因組敲除掃描的共識評分已經得出了 296 項基本蛋白質,所以,可以合理推斷所有真正抑制生長的靶標蛋白質都可能在這些列表當中。作者將 218 種活性化合物中與 AlphaFold 2 預測出的 296 種基本大腸桿菌蛋白質結構進行對接,并通過幾種不同的計算方法,對 218 種化合物與 296 種蛋白質的組合進行計算,預測了 64000 多個蛋白質-配體對的結合位姿與結合親和力預測。
基于 AlphaFold 2 預測結構的模型性能很弱
雖然這項工作預測了包括活性和非活性化合物的化合物與蛋白質混雜性,但問題是,這些預測中有多少是假陽性?將模型預測與已知的抗生素結合目標進行比較為了評估所用模型方法的性能,作者將模型預測與常用抗生素類別的已知相互作用進行比較。作者搜集了先前文獻中的抗生素-蛋白質靶對,組成一個包含 142 種抗生素-蛋白質相互作用的數據集。結果發(fā)現,他們的模型僅僅正確預測了 3 種具有強結合性(即結合親和力閾值為 -7 kcal/mol )的相互作用,以及 43 種具有一般結合性(即結合親和力閾值為 -5 kcal/mol )的相互作用。所以,模型預測的真陽性率分別為 2.1% 和 30.3%。這種比較表明,基于 AlphaFold 2 預測結構的建模平臺性能很弱。測量 12 種基本蛋白質的酶抑制作者接著選取了 12 種基本蛋白質,它們可以用于酶促測定,通過測量 218 種活性化合物對這些蛋白質的酶抑制,作者對模型預測的子集進行進一步的評估。AlphaFold 本身沒錯,用好機器學習方法是關鍵
接下來的問題是,模型的弱性能是由 AlphaFold2 所提供的蛋白質結構質量導致的嗎?問題出自對接方法而非蛋白質結構質量為了驗證這個問題,作者將 218 種活性化合物與八種實驗確定的蛋白質結構中的每一種對接進行了重復的對接模擬,并同樣對模型性能進行了基準測試,結果是 auROC 值在數量上與先前相似,范圍從 0.25 ( glmU ) 到 0.69 ( gyrAB ),平均值為 0.46。auPRC 值也發(fā)現了類似的結果,范圍從 0.03 ( ligA ) 到 0.56 ( gyrAB ),平均值為 0.22。這些發(fā)現表明,使用 AlphaFold2 預測結構的分子對接與使用實驗確定的結構是類似的。這也與之前對 AlphaFold 對實驗確定的蛋白質結構的保真度評估一致,由此可以得出,模型的性能弱是因為對接方法的原因,而不是蛋白質結構的質量差。使用機器學習方法可改進模型性能基于分子對接的弱性能問題,研究團隊探索了可以提高性能的方法。研究中使用了四種不同的基于機器學習的評分函數,分別是 RF-Score 、RF-Score-VS、PLEC score 和 NNScore,以對模型性能進行基準測試和改進。相比于 RF-Score 和 RF-Score-VS - RF-Score 的虛擬篩選適應性--利用隨機森林或決策樹的組合來預測蛋白質與配體的結合親和力,PLEC score 采用了蛋白質-配體對之間的擴展連接指紋,NNScore 是基于神經網絡的集合。作者在研究中采用了評分函數,使用 PDBbind v2016 或有用的誘餌目錄對增強(DUD-E)數據庫進行訓練,以重新評估 AutoDock Vina 預測的對接姿勢。此外,研究使用 DOCK6.9 和應用于 AutoDock Vina 姿勢的每個基于機器學習的評分函數,還預測了每種抗菌化合物與 12 種經驗測試必需蛋白中每一種之間的結合親和力,并對每種方法的性能進行基準測試。測試結果發(fā)現,平均 auROC 值在 0.46 和 0.63 之間(下圖 A)。其中,與 DOCK6.9 對接并使用 PLEC score 對 AutoDock Vina 姿勢進行重新評分平均,導致 auROC 值低于單獨使用 AutoDock Vina 的結果,DOCK6.9 的 auROC 值為為 0.46(范圍為 0.25 至 0.61)和 0.47(范圍 PLEC score 為 0.28 至 0.63)(下圖 A)相比之下,使用 RF-Score、RF-Score-VS 或 NNScore 對 AutoDock Vina 姿勢進行重新評分可提高模型性能,平均 auROC 值分別為 0.62(范圍為 0.53 至 0.69)、0.63(范圍為 0.46 至 0.75)和 0.58(范圍為 0.41 到 0.69)。研究結果也與 auPRC 相似,當使用 RF-Score 重新評分時,其平均值高達 0.24。這些模型性能評估表明,某些基于機器學習的評分函數提高了預測準確性。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。