博客專欄

EEPW首頁 > 博客 > MolReGPT: 利用大型語言模型探索分子發(fā)現(xiàn)——分子與文本描述間相互翻譯(2)

MolReGPT: 利用大型語言模型探索分子發(fā)現(xiàn)——分子與文本描述間相互翻譯(2)

發(fā)布人:數(shù)據(jù)派THU 時間:2023-06-20 來源:工程師 發(fā)布文章

03 結(jié)果


分子描述生成任務(wù)(Mol2Cap)


圖片

表1: 不同模型在ChEBI-20數(shù)據(jù)集上分子描述生成(Mol2Cap)任務(wù)上的性能對比[3,4]。


圖片表3: MolReGPT使用N-shot在分子描述生成(Mol2Cap)任務(wù)上的性能對比。
Mol2Cap任務(wù)的結(jié)果顯示在表1和表3,MolReGPT方法可以獲得與微調(diào)后的MolT5-base[2]相當?shù)腞OUGE分數(shù),同時在其余指標上超過了所有選定的基線模型。
另外,在消融實驗中,主要比較了三種檢索策略的性能,如表3所示:隨機、BM25和Morgan FTS(在MolReGPT中采用)。隨機策略指的是檢索n個隨機例子,而BM25則是對分子的SMILES字符串表示采用字符級的BM25算法。在三種檢索策略中,Morgan FTS在少樣本學習的樣本數(shù)量相同的情況下表現(xiàn)最好,在Text2Mol[1]指標中甚至比BM25高出37%。
此外,與隨機或者BM25檢索策略相比,Morgan FTS取得的ROUGE-L得分幾乎翻了一倍。Morgan FTS檢索策略的使用表明,通過比較獨特的結(jié)構(gòu)特征,如官能團,可以更好地估計分子之間的結(jié)構(gòu)相似性,而這些特征通常在分子的描述中以詳細的描述體現(xiàn)。在這種情況下,通過Morgan FTS檢索相似的分子可以有效地指導LLM學習分子結(jié)構(gòu)和分子描述之間的關(guān)聯(lián),從而獲得更準確和理想的輸出。
圖8列出了分子文字描述生成的例子,以比較不同模型的性能。從給出的例子中,可以注意到MolReGPT可以生成包含輸入分子關(guān)鍵信息的文本描述。更重要的是,生成的標題在語法上更加完善,并且易于人類理解。
圖片圖8: 不同模型生成的分子描述的例子(其中SMILES字符串被轉(zhuǎn)換成分子圖,以方便更好地展示)。
基于文本的分子生成任務(wù)(Cap2Mol)
圖片表2: 不同模型在ChEBI-20數(shù)據(jù)集上基于文本的分子生成(Cap2Mol)任務(wù)上的性能對比。
圖片表4: MolReGPT使用N-shot在基于文本的分子生成(Mol2Cap)任務(wù)上的性能對比。
給定一個分子文本描述(包含結(jié)構(gòu)和屬性),Cap2Mol的目標是生成相應(yīng)的分子(即SMILES字符串)用于分子發(fā)現(xiàn)。具體的結(jié)果列于表2和表4。比較所有的基線模型,可以發(fā)現(xiàn)10-shot MolReGPT明顯增強了GPT-3.5-turbo的能力,達到了最佳的整體性能。在MACCS FTS、RDK FTS和Morgan FTS等分子評估指標中,MolReGPT與MolT5-base相比,在Text2Mol指標上取得了15%的大幅提升??紤]分子指紋得分,10-shot MolReGPT與MolT5-base相比也獲得了平均18%的改進。此外,MolReGPT還獲得了最高的精確匹配分數(shù),有13.9%的例子與ground truth完全一致。值得注意的是,以上所有令人印象深刻的結(jié)果都是在沒有額外訓練或微調(diào)的情況下實現(xiàn)的。
圖9列出了基于文本的分子生成結(jié)果的例子,以比較不同模型之間的性能。從給定的例子中可以看出, MolReGPT能夠生成與ground truth更相似的結(jié)構(gòu)。
圖片圖9: 不同模型生成的分子的例子(其中SMILES字符串被轉(zhuǎn)換成分子圖,以方便更好地展示)。
04 討論
圖片圖10: 給定輸入,MolT5和MolReGPT生成分子的對比。
該論文還針對基于定制化文本的分子生成任務(wù)做了進一步的探索。如圖10所示,例1中的輸入強調(diào)了結(jié)構(gòu)中的五個苯環(huán)和疏水基團。然而MolT5的結(jié)果產(chǎn)生了不正確的苯環(huán)數(shù)量,并且生成的結(jié)構(gòu)含有一些親水基團。相比之下,MolReGPT則給出了與輸入相對應(yīng)的正確結(jié)構(gòu)。在例2中,MolT5和MolReGPT都生成了正確的苯環(huán)數(shù)量,而MolReGPT生成了更多的親水基團,更符合我們給定的輸入。
05 結(jié)論
這篇文章提出了MolReGPT,一種通用的基于檢索的上下文小樣本分子學習的提示范式,賦予大語言模型(如ChatGPT)分子發(fā)現(xiàn)的能力。MolReGPT利用分子相似性原理從本地數(shù)據(jù)庫中檢索分子-分子文本描述對作為上下文學習中的示例,指導大語言模型生成分子的SMILES字符串,從而無需對大語言模型進行微調(diào)。
這篇工作的方法專注于分子-文本描述間相互翻譯任務(wù),包括分子文本描述生成(Mol2Cap)和基于文本的分子生成(Cap2Mol),并在該任務(wù)上對大語言模型的能力進行了評估。實驗結(jié)果表明,MolReGPT可以使ChatGPT在分子描述生成和分子生成方面分別達到0.560和0.571的Text2Mol分數(shù)。從分子理解和基于文本的分子生成角度來看,其性能都超過了MolT5-base這樣的微調(diào)模型,甚至可以與微調(diào)的MolT5-large相媲美??偠灾?,MolReGPT提供了一個新穎的、多功能集成的范式,通過上下文學習在分子發(fā)現(xiàn)中部署大型語言模型,這大大降低了領(lǐng)域轉(zhuǎn)移的成本,探索了大型語言模型在分子發(fā)現(xiàn)中的潛力。
參考文獻

[1] Edwards, C., Zhai, C., and Ji, H. Text2mol: Cross-modal molecule retrieval with natural language queries. In Pro- ceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 595–607, 2021.

[2] Edwards, C., Lai, T., Ros, K., Honke, G., Cho, K., and Ji, H. Translation between molecules and natural language. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 375–413, Abu Dhabi, United Arab Emirates, December 2022. As- sociation for Computational Linguistics.

[3] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, ?., and Polosukhin, I. At- tention is all you need. Advances in neural information processing systems, 30, 2017.

[4] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1):5485–5551, 2020.

[5] Li, J., Liu, Y., Fan, W., Wei, X. Y., Liu, H., Tang, J., & Li, Q. (2023). Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective. arXiv preprint arXiv:2306.06615.


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉