將人類語言理解能力應用于藥物發(fā)現(xiàn)中以提高活性預測模型的性能
在藥物發(fā)現(xiàn)和材料科學中,活性和性質預測模型是及其重要的工具,但目前采用的模型一般需要根據(jù)新需求在目標數(shù)據(jù)上進行訓練或微調。語言模型可以通過零/少樣本能力處理新的任務,但其活性預測的預測質量較差。為此,作者提出了一種新型活性預測模型,通過理解描述任務的文本信息,能夠在推理時適應新的預測任務。
分子活性和分子性質預測模型是計算藥物發(fā)現(xiàn)中的主要工具,類似于自然語言處理(NLP)中的語言模型和計算機視覺(CV)中的圖像分類模型,并且已經(jīng)發(fā)展了數(shù)年。
分子編碼器從化學結構中提取相關特征,并在生物活性數(shù)據(jù)上進行訓練。由于活性數(shù)據(jù)的標簽來自于濕實驗,標注方式十分繁雜并且昂貴,因此人們對能夠在少量數(shù)據(jù)點上高效訓練活性預測模型的方法非常感興趣。最近提出的基準數(shù)據(jù)集FS-Mol為活性預測任務提供了僅四個標記分子,因此模型必須能夠有效地從其他任務中轉移知識,這顯然不試用于如上圖a部分所示的模型構建形式。同時,濕實驗中有關活性預測任務的文本描述中可能也有大量信息,但目前的活性預測模型(以上圖a部分所示模型為代表)無法利用這些信息。
對于語言模型而言(上圖b部分所示),雖然其結合了自然語言和化學結構的信息,但它們在活性預測方面仍表現(xiàn)不佳,其效果受限于隱式分子編碼器和訓練數(shù)據(jù)量等因素。作者認為,選擇有效的分子編碼器并利用帶自然語言的化學數(shù)據(jù)庫作為訓練或預訓練數(shù)據(jù),可以改進上述兩種模型的缺點,以提高活性預測的性能。為此,作者出了一種具有兩個獨立模塊的模型結構(CLMAP)。第一個模塊是分子編碼器,第二個模塊是文本編碼器,兩者在這兩種數(shù)據(jù)模態(tài)之間進行基于對比學習的預訓練,如上圖c部分所示。值得注意的是,目前流行的對比學習框架(沒有標簽的成對數(shù)據(jù)),將匹配數(shù)據(jù)對與生成的不匹配數(shù)據(jù)對進行對比,而作者在這里采用的是依據(jù)數(shù)據(jù)集已有的標簽來構建文本和分子的數(shù)據(jù)對(即分子對文本描述的任務有活性時,設置為匹配的數(shù)據(jù)對,無活性時,為不匹配對)。
實驗結果
零樣本遷移學習:作者在FS-Mol和PubChem這里兩個數(shù)據(jù)集上對CLAMP的能力與其他方法做了對比??梢钥吹?,基于純自然語言的模型GAL和KV-PLM并不能很好的做好零樣本下的遷移學習。值得注意的是,F(xiàn)H是目前最好的方法,CLAMP仍能夠在各種數(shù)據(jù)集劃分的方式下打敗它。
模型表示能力:為了檢查模型學習到的分子表示是否可轉移到其他任務上,文章選取MoleculeNet作為基準數(shù)據(jù)集,將CLAMP與其他方法進行對比。通過在分子表示層特征進行線性調整之后,CLAMP效果甚佳,在大部分情況遠超已有模型。
結論
作者提出的對比學習方法 CLAMP 在多個大型數(shù)據(jù)集上展現(xiàn)出了最佳的零樣本預測藥物活性的表現(xiàn)。除此之外,CLAMP 的預訓練分子編碼器能夠產(chǎn)生有效的分子編碼,可以遷移到其他分子屬性預測任務上。作者還指出,盡管語言模型原則上可以用于零樣本活性預測,但它們在這個任務上表現(xiàn)不佳,并且計算成本較高。
參考資料
Seidl, P., Vall, A., Hochreiter, S., & Klambauer, G. (2023). Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language. arXiv preprint arXiv:2303.03363.*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。