MolReGPT: 利用大型語言模型探索分子發(fā)現(xiàn)——分子與文本描述間相互翻譯（1）

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2023-06-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

論文題目：Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective論文鏈接：https://arxiv.org/abs/2306.06615項(xiàng)目鏈接：https://github.com/phenixace/MolReGPT

01 介紹

圖1. 分子發(fā)現(xiàn)中分子(molecule)和分子文本描述(molecule caption)之間相互翻譯的說明。(a) 分子可以用化學(xué)式、SMILES字符串和二維分子圖來表示。(b)分子文本描述生成(Molecule Captioning)的目的是生成一段文本去描述一個(gè)分子的結(jié)構(gòu)、特性及功能，以便人類更好地理解。(c) 給定一段分子的文本描述，基于文本的分子生成旨在生成一個(gè)相應(yīng)的分子 (Text-based Molecule Generation)。(d) 大型語言模型（如ChatGPT）可以通過相應(yīng)的精心設(shè)計(jì)的提示(Prompt)實(shí)現(xiàn)分子文本描述生成(Mol2Cap)和基于文本的分子生成任務(wù)(Cap2Mol)。

分子是物質(zhì)的基本組成，構(gòu)成了周圍世界的復(fù)雜系統(tǒng)。分子由多個(gè)原子組成，以獨(dú)特的化學(xué)方式（例如化學(xué)鍵）結(jié)合在一起，并保留了由其特定結(jié)構(gòu)決定的獨(dú)特的化學(xué)特性。有了對(duì)分子的全面了解，科學(xué)家可以有效地設(shè)計(jì)出具有不同特性和功能的材料、藥物和產(chǎn)品。

然而，傳統(tǒng)的分子發(fā)現(xiàn)有著漫長(zhǎng)、昂貴和容易失敗的過程，在可擴(kuò)展性、精確性和數(shù)據(jù)管理方面都存在限制。為了克服這些挑戰(zhàn)，人工智能（AI）等計(jì)算技術(shù)已經(jīng)成為加速發(fā)現(xiàn)新分子的有力工具。

具體來說，分子可以被表示為一種簡(jiǎn)化的分子字符串（SMILES字符串）。如圖1(a)所示，苯酚的結(jié)構(gòu)可以用SMILES字符串表示，它是由一個(gè)苯環(huán)和一個(gè)羥基組成。為了生成并更好地理解分子，Text2Mol[1]和MolT5[2]提出一項(xiàng)在分子和自然語言之間進(jìn)行翻譯的新任務(wù)，即分子-文本描述間相互翻譯任務(wù)。

它由兩個(gè)子任務(wù)組成：分子文本描述生成（Mol2Cap）和基于文本的分子生成（Cap2Mol）。如圖1(b-c)所示，分子文本描述生成的目標(biāo)是生成一個(gè)文本來描述分子的SMILES字符串，以便為人們提供一個(gè)更好的分子理解；而基于文本的分子生成旨在根據(jù)給定的自然語言描述（如屬性和功能團(tuán)）生成相應(yīng)的分子（即SMILES字符串）。

設(shè)想一下這樣的場(chǎng)景：

? 【分子翻譯成文本描述/分子文本描述生成任務(wù)Molecule Captioning（ Mol2Cap）】一位醫(yī)生想知道藥物的性質(zhì)，便將藥物分子和自己的問題一起交給大語言模型，模型便對(duì)分子的特性進(jìn)行分析和預(yù)測(cè)，從而幫助醫(yī)生更好地對(duì)癥下藥。如圖1-b；

? 【文本描述翻譯成分子/基于文本的分子生成任務(wù)Text-based Molecule Generation（Mol2Cap）】一位化學(xué)家將自己的需求直接陳述給大語言模型，模型便幫助他生成了一個(gè)或多個(gè)候選分子，通過對(duì)候選分子的進(jìn)一步實(shí)驗(yàn)，就可以極大地簡(jiǎn)化分子或藥物發(fā)現(xiàn)的流程。如圖1-c。

盡管現(xiàn)有的大多數(shù)工作在分子-文本描述間相互翻譯任務(wù)中取得了令人滿意的進(jìn)展，但它們都存在幾個(gè)局限性。首先，分子-文本描述間相互翻譯任務(wù)中的模型架構(gòu)的設(shè)計(jì)嚴(yán)重依賴領(lǐng)域?qū)＜?，這大大限制了人工智能驅(qū)動(dòng)分子發(fā)現(xiàn)的發(fā)展。第二，大多數(shù)現(xiàn)有方法遵循“預(yù)訓(xùn)練&微調(diào)”的模型進(jìn)行，這需要過多的計(jì)算成本。第三，現(xiàn)有的方法，如Text2Mol[1]和MolT5[2]，不能對(duì)復(fù)雜的任務(wù)進(jìn)行推理，也不能對(duì)未曾見過的樣本進(jìn)行歸納。

最近，大語言模型（LLMs）在自然語言處理（NLP）領(lǐng)域取得了巨大的成就。LLMs除了在自然語言理解和生成方面具有令人印象深刻的能力外，還展示了強(qiáng)大的泛化和推理能力。它可以通過上下文學(xué)習(xí)（In-Context Learning，ICL）泛化到其他未見過的任務(wù)，而無需進(jìn)行微調(diào)，在很大程度上降低計(jì)算成本。因此，LLMs在推進(jìn)分子發(fā)現(xiàn)方面具有前所未有的潛力，特別是在分子-文本描述間相互翻譯任務(wù)方面。

盡管在分子發(fā)現(xiàn)中構(gòu)建特定的LLMs對(duì)于推動(dòng)科學(xué)研究有著巨大的潛力，但也面臨著巨大的挑戰(zhàn)。首先，由于隱私和安全問題，許多先進(jìn)的大型語言模型（如ChatGPT和GPT4.0）是不公開的，也就是說， LLMs的架構(gòu)和參數(shù)不公開發(fā)布，不可以在下游任務(wù)進(jìn)行微調(diào)。其次，由于其復(fù)雜的架構(gòu)和所需的大量數(shù)據(jù)，訓(xùn)練先進(jìn)的LLMs需要大量的計(jì)算資源。因此，重新設(shè)計(jì)自己的LLMs，并進(jìn)行預(yù)訓(xùn)練和微調(diào)是非常具有挑戰(zhàn)性的。最后，設(shè)計(jì)適當(dāng)?shù)臏?zhǔn)則或提示，并配以少量高質(zhì)量的示例，對(duì)于提高LLMs對(duì)分子發(fā)現(xiàn)的理解和推理能力是至關(guān)重要的。

為了解決這些問題，來自香港理工大學(xué)和密歇根州立大學(xué)的研究人員在分子發(fā)現(xiàn)領(lǐng)域利用LLMs的強(qiáng)大功能進(jìn)行了探索嘗試。他們提出了一個(gè)新穎的解決方案，使用提示來指導(dǎo)LLMs在分子和分子文本描述之間進(jìn)行翻譯，如圖1（d）所示。具體來說，受最新的ChatGPT啟發(fā)，他們開發(fā)了一個(gè)基于檢索的提示范式MolReGPT[5]，通過基于分子摩根指紋的相似性檢索/基于BM25的分子文本描述檢索和上下文學(xué)習(xí)（ICL）且不進(jìn)行微調(diào)來進(jìn)行兩個(gè)子任務(wù)（即通分子文本描述生成和基于文本的分子生成）。實(shí)驗(yàn)表明，MolReGPT在Mol2Cap生成中可以達(dá)到0.560，在Cap2Mol生成中可以達(dá)到0.571，在分子-描述間相互翻譯的兩個(gè)子任務(wù)中都超過了微調(diào)的MolT5-base。MolReGPT在基于文本的分子生成方面甚至超過了MolT5，使Text2Mol的指標(biāo)提高了3%。值得注意的是，MolReGPT在任務(wù)上的所有提升都是在沒有任何微調(diào)步驟的情況下實(shí)現(xiàn)的。

02 方法

圖2: MolReGPT的總體流程框架。

由于巨大的計(jì)算成本，在分子發(fā)現(xiàn)領(lǐng)域的特定語料庫上進(jìn)行訓(xùn)練和微調(diào)LLMs在實(shí)踐中往往是不可行的。為了解決這些限制，研究人員在不改變LLMs的情況下利用LLMs的強(qiáng)大能力，提出了一個(gè)創(chuàng)新性的框架MolReGPT，使ChatGPT具有分子-文本描述間相互翻譯的能力。具體來說，為了提高指導(dǎo)/提示的質(zhì)量，他們引入了一個(gè)基于檢索的提示范式，在上下文學(xué)習(xí)下指導(dǎo)ChatGPT進(jìn)行兩個(gè)與分子相關(guān)的任務(wù)：分子文本描述生成（MolCap）和基于文本的分子生成（Cap2Mol）。MolReGPT的框架如圖 2所示，由四個(gè)主要階段組成：分子-文本描述檢索、Prompt提示管理、上下文小樣本分子學(xué)習(xí)和生成校準(zhǔn)。

1. 分子-文本描述檢索（Molecule-Caption Retrieval）（圖3）:這個(gè)階段，用于從數(shù)據(jù)庫中檢索出n個(gè)與輸入分子或者分子文本描述最相似的分子-分子描述對(duì)（即小樣本學(xué)習(xí)的例子）。這個(gè)過程主要依賴于分子摩根指紋（針對(duì)Mol2Cap）和BM25（針對(duì)Cap2Mol）兩種檢索方法。

圖3: 分子-文本描述檢索（Molecule-Caption Retrieval）。

a. 基于摩根指紋的分子檢索（針對(duì)Mol2Cap）

圖4: 分子摩根指紋和Dice相似性圖示。綠色對(duì)應(yīng)的是對(duì)分子間相似性分?jǐn)?shù)有正貢獻(xiàn)的子結(jié)構(gòu)，紫色部分對(duì)應(yīng)的是對(duì)分子間相似性分?jǐn)?shù)有負(fù)貢獻(xiàn)的或者有差異的子結(jié)構(gòu)。

為了提取摩根指紋，使用rdkit庫將分子的SMILES表示轉(zhuǎn)換為rdkit對(duì)象。隨后應(yīng)用Dice相似度，來衡量輸入分子和本地?cái)?shù)據(jù)庫中的分子之間的相似度，如圖3所示。在數(shù)學(xué)上，可以表示為：

其中，A和B是兩個(gè)分子的摩根指紋。|A|和|B|表示A和B的基數(shù)（例如，子結(jié)構(gòu)數(shù)量）。|A ∩ B|表示A和B共有的子結(jié)構(gòu)的數(shù)量。Dice相似性的范圍是0到1，其中0表示分子之間沒有重疊或相似性，1表示完全重疊。

b. 基本BM25的分子文本生成檢索（針對(duì)Cap2Mol）

BM25是信息檢索中最具代表性的排名方法之一，用于計(jì)算文檔與給定查詢的相關(guān)性。在Cap2Mol任務(wù)中，使用輸入的文字描述作為查詢句子，而本地?cái)?shù)據(jù)庫中的文字描述作為文檔的語料庫，其中每個(gè)文本描述代表一個(gè)文檔。在數(shù)學(xué)上，BM25公式可以定義如下：

其中，D是文本描述語料庫，Q使查詢的文本描述。N是查詢文本描述中查詢?cè)~的數(shù)量，Qi是第i個(gè)查詢?cè)~，IDF(Qi)是Qi的反文檔頻率，f(Qi,D)是Qi在D中的詞頻，k1和b是調(diào)整參數(shù)，|D|是D的長(zhǎng)度，avgdl是語料庫中平均文本描述的長(zhǎng)度。在文本描述檢索中，BM25被用于計(jì)算文本描述之間的相似性分?jǐn)?shù)，這樣可以通過篩選分子-文本描述對(duì)來學(xué)習(xí)文本描述中所對(duì)應(yīng)的相關(guān)分子結(jié)構(gòu)。

2. Prompt提示管理 (Prompt Management) （圖5）：這一階段主要對(duì)ChatGPT的系統(tǒng)提示進(jìn)行管理和構(gòu)建，Prompt提示中主要包括角色識(shí)別（Role Identification）、任務(wù)描述（Task Description）、檢索的示例（Examples）和輸出指示（Output Instruction）這四個(gè)部分。其中，示例將由第一步的檢索過程給出。每一部分都承擔(dān)著對(duì)輸出的特定指導(dǎo)作用。

圖5: Prompt提示管理 (Prompt Management)。

a. 角色識(shí)別（Role Identification）

角色識(shí)別的目的是幫助LLMs認(rèn)知為在化學(xué)和分子發(fā)現(xiàn)領(lǐng)域的專家角色。通過認(rèn)知為這個(gè)角色，鼓勵(lì)LLMs產(chǎn)生與特定領(lǐng)域預(yù)期的專業(yè)知識(shí)相一致的回答。

b. 任務(wù)描述（Task Description）

任務(wù)描述提供了對(duì)任務(wù)內(nèi)容的全面解釋，確保LLM對(duì)他們需要處理的具體任務(wù)有一個(gè)明確的認(rèn)識(shí)。它還包括關(guān)鍵的定義，以澄清分子-文本描述間相互翻譯任務(wù)中的專業(yè)術(shù)語或概念。

c. 檢索的示例（Examples）

將檢索的示例作為用戶輸入提示，使LLMs能夠利用小樣本學(xué)習(xí)示例中包含的信息作出更好的回應(yīng)。

d. 輸出指示（Output Instruction）

輸出指示規(guī)定了響應(yīng)的格式。這里，研究人員將輸出限制為JSON格式。選擇JSON格式可以快速有效地驗(yàn)證LLMs的回答，確保它符合預(yù)期的結(jié)果，便于進(jìn)一步處理和分析。

3. 上下文小樣本分子學(xué)習(xí)（In-Context Few-Shot Moleule Learning）（圖6）: 在這個(gè)階段，系統(tǒng)提示和用戶輸入提示將會(huì)一起提供給ChatGPT進(jìn)行上下文小樣本分子學(xué)習(xí)。這個(gè)過程基于大語言模型的上下文學(xué)習(xí)能力，僅僅依靠少量相似的樣本，就可以捕獲到分子的結(jié)構(gòu)所對(duì)應(yīng)的特性，來進(jìn)行分子-文本描述間相互翻譯任務(wù)，而不需要對(duì)大語言模型進(jìn)行微調(diào)。

系統(tǒng)提示和用戶輸入提示的結(jié)合通過上下文學(xué)習(xí)為ChatGPT提供了清晰的指引，系統(tǒng)提示建立了分子-文本描述間相互翻譯和分子領(lǐng)域?qū)I(yè)知識(shí)的任務(wù)框架，而用戶提示則縮小了范圍，將模型的注意力引導(dǎo)到具體的用戶輸入上。

圖6: 上下文小樣本分子學(xué)習(xí)（In-Context Few-Shot Moleule Learning）。

4. 生成校準(zhǔn)（Generation Calibration）（圖7）: 在這個(gè)階段，系統(tǒng)會(huì)對(duì)ChatGPT的輸出進(jìn)行校準(zhǔn)，以確保其符合預(yù)期的格式和要求。如果輸出不符合預(yù)期，系統(tǒng)會(huì)重新交給ChatGPT進(jìn)行生成，直到達(dá)到最大允許的錯(cuò)誤次數(shù)。

盡管指定了所需的輸出格式，LLM（例如ChatGPT）偶爾也會(huì)產(chǎn)生意外的響應(yīng)，包括不正確的輸出格式和拒絕回答。為了解決這些問題，研究人員引入了一個(gè)生成校準(zhǔn)機(jī)制來驗(yàn)證ChatGPT的響應(yīng)。在生成校準(zhǔn)中，他們首先通過將原始響應(yīng)解析為JSON對(duì)象來檢查其格式。如果解析過程失敗，表明偏離了預(yù)期的格式，就會(huì)引入幾個(gè)預(yù)定義的格式校正策略，如正則匹配，以校正格式并從響應(yīng)中提取所需的結(jié)果。如果原始回答成功地通過了格式檢查，或者可以使用格式校正策略進(jìn)行校準(zhǔn)，那么它就被認(rèn)為是有效的并被接受為最終回答。然而，如果原始響應(yīng)沒有通過格式檢查，并且不能在預(yù)定的策略中進(jìn)行校正，我們就會(huì)啟動(dòng)重新查詢。值得注意的是，重新查詢有一個(gè)特殊情況。當(dāng)原始響應(yīng)報(bào)告 "超出最大輸入長(zhǎng)度限制 "錯(cuò)誤時(shí)，將在重新查詢階段刪除最長(zhǎng)的例子，直到查詢長(zhǎng)度滿足長(zhǎng)度限制。重新查詢過程包括對(duì)LLM進(jìn)行額外的查詢，直到獲得一個(gè)有效的響應(yīng)或達(dá)到最大的錯(cuò)誤允許值為止。這個(gè)最大誤差允許值的設(shè)置是為了確保系統(tǒng)不會(huì)陷入無休止的循環(huán)，而是在可接受的范圍內(nèi)向用戶提供一個(gè)合適的響應(yīng)。

通過采用生成校準(zhǔn)階段，可以減少與所需輸出格式的意外偏差，并確保最終的響應(yīng)與預(yù)期的格式和要求一致。

圖7: 生成校準(zhǔn)（Generation Calibration）。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

MolReGPT: 利用大型語言模型探索分子發(fā)現(xiàn)——分子與文本描述間相互翻譯（1）

相關(guān)推薦

技術(shù)專區(qū)