清華系面壁智能開源中文多模態(tài)大模型VisCPM ：支持對(duì)話文圖雙向生成，吟詩作畫能力驚艷

發(fā)布人：機(jī)器之心時(shí)間：2023-07-03 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

再現(xiàn)破壁式成就，VisCPM強(qiáng)勢(shì)來襲！

2020 年 12 月發(fā)布的 CPM-1 是國(guó)內(nèi)首個(gè)中文大模型；2022 年 9 月發(fā)布的 CPM-Ant 僅微調(diào) 0.06% 參數(shù)就能超越全參數(shù)微調(diào)效果；2023 年 5 月發(fā)布的 WebCPM 是中文首個(gè)基于搜索的問答開源模型。CPM-Bee 百億大模型是團(tuán)隊(duì)最新發(fā)布的基座模型，中文能力登頂權(quán)威榜單 ZeroCLUE，英文能力打平 LLaMA。

屢屢作出破壁性成就，CPM 系列大模型一直在引領(lǐng)國(guó)產(chǎn)大模型攀登高峰，最近發(fā)布的 VisCPM 是又一次證明！VisCPM 是由面壁智能、清華大學(xué) NLP 實(shí)驗(yàn)室和知乎聯(lián)合開源在 OpenBMB 的多模態(tài)大模型系列，其中 VisCPM-Chat 模型支持中英雙語的多模態(tài)對(duì)話能力，VisCPM-Paint 模型支持文到圖生成能力，評(píng)測(cè)顯示 VisCPM 在中文多模態(tài)開源模型中達(dá)到最佳水平。

VisCPM 基于百億參數(shù)基座模型 CPM-Bee 訓(xùn)練，融合視覺編碼器（Q-Former 和視覺****（Diffusion-UNet）以支持視覺信號(hào)的輸入和輸出。得益于 CPM-Bee 底座優(yōu)秀的雙語能力，VisCPM 可以僅通過英文多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練，泛化實(shí)現(xiàn)優(yōu)秀的中文多模態(tài)能力。

VisCPM簡(jiǎn)易架構(gòu)圖

我們來詳細(xì)看看 VisCPM-Chat 和 VisCPM-Paint 到底牛在哪里。

VisCPM 鏈接：https://github.com/OpenBMB/VisCPM

VisCPM-Chat 支持面向圖像進(jìn)行中英雙語多模態(tài)對(duì)話。該模型使用 Q-Former 作為視覺編碼器，使用 CPM-Bee（10B）作為語言交互基底模型，并通過語言建模訓(xùn)練目標(biāo)融合視覺和語言模型。模型訓(xùn)練包括預(yù)訓(xùn)練和指令精調(diào)兩階段。

團(tuán)隊(duì)使用約 100M 高質(zhì)量英文圖文對(duì)數(shù)據(jù) 對(duì) VisCPM-Chat 進(jìn)行了預(yù)訓(xùn)練，數(shù)據(jù)包括 CC3M、CC12M、COCO、Visual Genome、Laion 等。在預(yù)訓(xùn)練階段，語言模型參數(shù)保持固定，僅更新 Q-Former 部分參數(shù)，以支持大規(guī)模視覺 - 語言表示的高效對(duì)齊。

之后團(tuán)隊(duì)對(duì) VisCPM-Chat 進(jìn)行了指令精調(diào)，采用 LLaVA-150K 英文指令精調(diào)數(shù)據(jù)，并混合相應(yīng)翻譯后的中文數(shù)據(jù)對(duì)模型進(jìn)行指令精調(diào)，以對(duì)齊模型多模態(tài)基礎(chǔ)能力和用戶使用意圖。在指令精調(diào)階段，他們更新了全部模型參數(shù)，以提升指令精調(diào)數(shù)據(jù)的利用效率。

有趣的是，團(tuán)隊(duì)發(fā)現(xiàn)即使僅采用英文指令數(shù)據(jù)進(jìn)行指令精調(diào)，模型也可以理解中文問題，但僅能用英文回答。這表明模型的多語言多模態(tài)能力已經(jīng)得到良好的泛化。在指令精調(diào)階段進(jìn)一步加入少量中文翻譯數(shù)據(jù)，就可以將模型回復(fù)語言和用戶問題語言對(duì)齊。

團(tuán)隊(duì)在 LLaVA 英文測(cè)試集和翻譯的中文測(cè)試集對(duì)模型進(jìn)行了評(píng)測(cè)，該評(píng)測(cè)基準(zhǔn)考察模型在開放域?qū)υ?、圖像細(xì)節(jié)描述、復(fù)雜推理方面的表現(xiàn)，并使用 GPT-4 進(jìn)行打分。可以觀察到，VisCPM-Chat 在中文多模態(tài)能力方面取得了最佳的平均性能，在通用域?qū)υ捄蛷?fù)雜推理上表現(xiàn)出色，同時(shí)也表現(xiàn)出了不錯(cuò)的英文多模態(tài)能力。

VisCPM-Chat 提供了兩個(gè)模型版本，分別為 VisCPM-Chat-balance 和 VisCPM-Chat-zhplus，前者在英文和中文兩種語言上的能力較為平衡，后者在中文能力上更加突出。兩個(gè)模型在指令精調(diào)階段使用的數(shù)據(jù)相同，VisCPM-Chat-zhplus 在預(yù)訓(xùn)練階段額外加入了 20M 清洗后的原生中文圖文對(duì)數(shù)據(jù)和 120M 翻譯到中文的圖文對(duì)數(shù)據(jù)。

下面是 VisCPM-Chat 的多模態(tài)對(duì)話能力展示，不僅能識(shí)別具體地區(qū)的地圖，還能讀懂涂鴉畫和電影海報(bào)，甚至認(rèn)識(shí)星巴克的 logo。而且，中英文雙語都很溜！

再來看 VisCPM-Paint ，它支持中英雙語的文到圖生成。該模型使用 CPM-Bee（10B）作為文本編碼器，使用 UNet 作為圖像****，并通過擴(kuò)散模型訓(xùn)練目標(biāo)融合語言和視覺模型。

在訓(xùn)練過程中，語言模型參數(shù)始終保持固定。使用 Stable Diffusion 2.1 的 UNet 參數(shù)初始化視覺****，并通過逐步解凍其中關(guān)鍵的橋接參數(shù)將其與語言模型融合：首先訓(xùn)練文本表示映射到視覺模型的線性層，然后進(jìn)一步解凍 UNet 的交叉注意力層。該模型在 Laion 2B 英文圖文對(duì)數(shù)據(jù)上進(jìn)行了訓(xùn)練。

與 VisCPM-Paint 類似，得益于基座模型 CPM-Bee 的雙語能力，VisCPM-Paint 可以僅通過英文圖文對(duì)訓(xùn)練，泛化實(shí)現(xiàn)良好的中文文到圖生成能力，達(dá)到中文開源模型的最佳效果。通過進(jìn)一步加入 20M 清洗后的原生中文圖文對(duì)數(shù)據(jù)，以及 120M 翻譯到中文的圖文對(duì)數(shù)據(jù)，模型的中文文到圖生成能力獲得進(jìn)一步提升。同樣，VisCPM-Paint 有 balance 和 zhplus 兩個(gè)不同的版本。他們?cè)跇?biāo)準(zhǔn)圖像生成測(cè)試集 MSCOCO 上采樣了 3 萬張圖片，計(jì)算了常用評(píng)估圖像生成指標(biāo) FID (Fréchet Inception Distance) 評(píng)估生成圖片的質(zhì)量。

VisCPM-Paint 模型中分別輸入 “海上生明月，天涯共此時(shí)，唯美風(fēng)格，抽象風(fēng)格”“人閑桂花落，月靜春山空” 兩條 prompts，生成了以下兩張圖片：

（生成效果穩(wěn)定性仍有提升空間）

相當(dāng)驚艷，可以說精準(zhǔn)把握了古詩詞的意境，以后讀不懂詩句就直接生成個(gè)圖片來理解！如果應(yīng)用在設(shè)計(jì)上，可以節(jié)省一大筆人力。不僅能 “作畫”，用上 VisCPM-Chat，還能 “吟詩”：用圖片反向檢索詩句。比如能用李白的詩描繪黃河的景象并作解讀，在面對(duì)中秋月夜時(shí)還能用蘇軾的《水調(diào)歌頭》借景抒情。

VisCPM 不僅生成效果好，下載版本設(shè)計(jì)考慮周到，安裝和使用也十分簡(jiǎn)易。

VisCPM提供不同中英文能力的版本

安裝步驟

VisCPM 提供不同中英文能力的模型版本供大家下載選擇，安裝步驟簡(jiǎn)單，在使用中可以通過幾行代碼實(shí)現(xiàn)多模態(tài)對(duì)話，還在代碼中默認(rèn)開啟了對(duì)輸入文本和輸出圖片的安全檢查。（具體教程詳見 README）未來團(tuán)隊(duì)還會(huì)將 VisCPM 整合到 huggingface 代碼框架中，并且會(huì)陸續(xù)完善安全模型、支持快速網(wǎng)頁部署、支持模型量化功能、支持模型微調(diào)等功能，坐等更新！

值得一提的是，VisCPM 系列模型非常歡迎個(gè)人使用和研究用途。如需將模型用于商業(yè)用途，還可以聯(lián)系 cpm@modelbest.cn 洽談商業(yè)授權(quán)事宜。

傳統(tǒng)模型專注處理單一模態(tài)數(shù)據(jù)，現(xiàn)實(shí)世界中的信息往往是多模態(tài)的，多模態(tài)大模型提升了人工智能系統(tǒng)的感知交互能力，為 AI 解決現(xiàn)實(shí)世界中復(fù)雜的感知和理解任務(wù)帶來了新的機(jī)遇。不得不說，清華系大模型公司面壁智能研發(fā)能力強(qiáng)大，聯(lián)合發(fā)布的多模態(tài)大模型 VisCPM 實(shí)力強(qiáng)大、表現(xiàn)驚艷，期待他們后續(xù)的成果發(fā)布！

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

清華系面壁智能開源中文多模態(tài)大模型VisCPM ：支持對(duì)話文圖雙向生成，吟詩作畫能力驚艷

相關(guān)推薦

技術(shù)專區(qū)