一句話(huà)生成“DC 神奇女俠”,精通中文的國(guó)產(chǎn)AIGC神器來(lái)襲
近來(lái),生成式AI(AIGC)正如火如荼地展開(kāi)。擴(kuò)散模型在圖像的生成上正在超越GANs,成為文本生成最先進(jìn)的模型。通過(guò)該模型,文本在生成圖片、視頻、音頻,以及分子設(shè)計(jì)等“一鍵生成”的技術(shù)上都開(kāi)始應(yīng)用。
在國(guó)外,OpenAI、Meta和谷歌等廠商正在不斷發(fā)布最新研發(fā)成果。國(guó)內(nèi)科技公司華為、阿里、商湯等也紛紛涌入這一領(lǐng)域。
對(duì)于中文世界的創(chuàng)作者來(lái)說(shuō),如果應(yīng)用Dall·E 2等國(guó)外工具,將會(huì)面臨的難題是:思考英文Prompts準(zhǔn)確表達(dá)的絞盡腦汁,翻譯軟件詞不達(dá)意的尷尬,精細(xì)構(gòu)思的 Prompts 在畫(huà)面生成中找不到一絲痕跡,亦或面對(duì)文化誤解中的“中國(guó)風(fēng)”哭笑不得……
日前,智源研究院大模型研究團(tuán)隊(duì)開(kāi)源最新雙語(yǔ)AltDiffusion模型,為中文世界帶來(lái)專(zhuān)業(yè)級(jí)AI文圖創(chuàng)作的強(qiáng)勁動(dòng)力:支持精細(xì)長(zhǎng)中文 Prompts 高級(jí)創(chuàng)作;無(wú)需文化轉(zhuǎn)譯,從原汁原味中國(guó)話(huà)直達(dá)形神兼?zhèn)渲袊?guó)畫(huà);且在繪畫(huà)水平上達(dá)到低門(mén)檻中英對(duì)齊原版 Stable Diffusion 級(jí)震撼視效,可以說(shuō)是講中文的世界級(jí) AI 繪畫(huà)高手。
創(chuàng)新模型 AltCLIP 為這一工作的基石,為原 CLIP 模型補(bǔ)齊更強(qiáng)的跨語(yǔ)言三大能力。AltDiffusion 和 AltCLIP 模型均為多語(yǔ)言模型,中英雙語(yǔ)為第一階段工作,代碼與模型已開(kāi)源。
AltDiffusion
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltDiffusion
AltCLIP
https://github.com/FlagAI-Open/FlagAI/examples/AltCLIP
HuggingFace space試玩地址:
https://huggingface.co/spaces/BAAI/bilingual_stable_diffusion
技術(shù)報(bào)告
AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities
https://arxiv.org/abs/2211.06679
長(zhǎng)Prompt精細(xì)繪畫(huà) + 原生中國(guó)風(fēng),滿(mǎn)足中文AI創(chuàng)作高手的高需求
得益于以 AltCLIP 為基礎(chǔ)的強(qiáng)大中英雙語(yǔ)言對(duì)齊能力,AltDiffusion 達(dá)到近似于 Stable Diffusion 程度的視效水平,尤其具備更懂中國(guó)話(huà)、更善中國(guó)畫(huà)的獨(dú)特優(yōu)勢(shì),非常值得專(zhuān)業(yè)級(jí)中文AI文圖創(chuàng)作者期待。
長(zhǎng)Prompt生成,畫(huà)面效果毫不遜色
Prompt長(zhǎng)短是檢驗(yàn)?zāi)P臀膱D生成能力的分水嶺,越長(zhǎng)的Prompt,越考驗(yàn)語(yǔ)言理解、圖文對(duì)齊和跨語(yǔ)言這三大能力。
在同樣的中英文長(zhǎng) Prompt 輸入調(diào)校下,AltDiffusion 在不少圖片生成案例中表現(xiàn)力甚至更勝一籌:元素構(gòu)成豐富精彩、細(xì)節(jié)描摹細(xì)膩精準(zhǔn)。主流模型同主題創(chuàng)作效果如下:
飽覽旖旎國(guó)風(fēng)美
在特定風(fēng)格的生成中,會(huì)原生以中文文化語(yǔ)境為身份主體,進(jìn)行風(fēng)格創(chuàng)作,例如對(duì)于下面帶有"古建筑"的prompt,會(huì)默認(rèn)生成中國(guó)古代建筑。在創(chuàng)作風(fēng)格上更加貼合中文創(chuàng)作者身份。
AltDiffusion基于Stable Diffusion,通過(guò)將原來(lái)Stable Diffusion中的CLIP替換成AltCLIP,并且用中英文圖文對(duì)對(duì)模型進(jìn)行進(jìn)一步的訓(xùn)練得到。得益于 AltCLIP 強(qiáng)大的語(yǔ)言對(duì)齊能力,AltDiffusion 的生成效果在英文上與 Stable Diffusion 很接近,在中英文雙語(yǔ)的表現(xiàn)上也體現(xiàn)了一致性。如“戴帽子小狗”的同義中英文Prompts 輸入AltDiffusion后,生成畫(huà)面效果基本對(duì)齊,一致性極高:在對(duì)“男孩”的畫(huà)面增加描述詞為“中國(guó)男孩“之后,在原小男孩形象基礎(chǔ)上,精準(zhǔn)調(diào)整成典型“中國(guó)”孩子,在語(yǔ)言控制生成中展現(xiàn)出極佳語(yǔ)言理解能力和精準(zhǔn)的生成表達(dá)結(jié)果。
豐富生態(tài)工具與PromptsBook應(yīng)用,可玩性極佳
特別值得一提的是 AltDiffusion 的生態(tài)打通能力:所有支持Stable Diffusion的工具如Stable Diffusion WebUI,DreamBooth等都可應(yīng)用在我們的中英雙語(yǔ) Diffusion 模型上,為中文AI創(chuàng)作提供了豐富選擇。
Stable Diffusion WebUI 一個(gè)優(yōu)秀的文圖生成、文圖編輯的網(wǎng)頁(yè)工具;當(dāng)我們把北大夜景圖霍格沃茨(prompt: Hogwarts)化,瞬間即可呈現(xiàn)夢(mèng)幻的魔法世界。直通霍格沃茨
DreamBooth通過(guò)少量樣本對(duì)模型進(jìn)行調(diào)試以生成特定的風(fēng)格的工具;通過(guò)這一工具,在AltDiffusion上利用少量中文圖片即可生成特定風(fēng)格,比如“大鬧天宮”風(fēng)格。充分利用社區(qū)Stable Prompts BookPrompts 對(duì)于生成模型非常重要,社區(qū)用戶(hù)通過(guò)大量 prompts 嘗試,積累出豐富的生成效果案例。這些寶貴的 prompts 經(jīng)驗(yàn),對(duì)于 AltDiffusion 用戶(hù)幾乎全都適用!此外,還可以通過(guò)混合中英文方式去搭配一些神奇的風(fēng)格和元素,或繼續(xù)挖掘?qū)ltDiffusion適用的中文Prompts。方便中文創(chuàng)作者微調(diào)開(kāi)源的AltDiffusion提供了中文生成模型的一個(gè)基礎(chǔ),大家可以在這個(gè)基礎(chǔ)上用更多特定領(lǐng)域的中文數(shù)據(jù)進(jìn)行模型微調(diào),方便中文創(chuàng)作者表達(dá)。
以首個(gè)雙語(yǔ) AltCLIP 為基石
值得一提的是,這種對(duì)齊方法對(duì)訓(xùn)練多語(yǔ)言多模態(tài)表征模型的門(mén)檻大大降低,相對(duì)于重新去做中文或者英文的圖文對(duì)預(yù)訓(xùn)練,只需約 1% 的計(jì)算資源與圖文對(duì)數(shù)據(jù)。
在全面CLIP benchmark中取得了和英文原版一致效果,在一些檢索類(lèi)數(shù)據(jù)集上如Flicker-30K上超過(guò)了原版。
Flicker-30K上表現(xiàn)效果超過(guò)原版CLIP。
中文ImageNet上zero-shot結(jié)果最優(yōu)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。