博客專欄

EEPW首頁(yè) > 博客 > 文生圖關(guān)鍵問(wèn)題探索:個(gè)性化定制和效果評(píng)價(jià)(2)

文生圖關(guān)鍵問(wèn)題探索:個(gè)性化定制和效果評(píng)價(jià)(2)

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2023-05-22 來(lái)源:工程師 發(fā)布文章
可控生成

從上述論文對(duì)文生圖的評(píng)價(jià)結(jié)果可以看出來(lái),達(dá)到可控生成任重而道遠(yuǎn),其中最關(guān)鍵的一點(diǎn)是alignment,還有很大的提升空間。因此,我們可以得到文生圖的第二個(gè)關(guān)鍵問(wèn)題——可控生成。通過(guò)一句prompts輸入來(lái)生成圖片時(shí),生成的圖片和文字之間的alignment會(huì)比較弱,比如:

  • 同時(shí)輸入多個(gè)實(shí)體不能實(shí)現(xiàn)完全生成;
  • 實(shí)體之間的關(guān)系不能體現(xiàn);
  • 顏色和數(shù)量不能體現(xiàn);
  • 文字顯示不出來(lái)。

在現(xiàn)行的一些研究中,研究者也提出引入對(duì)文本理解更好的模型來(lái)解決可控問(wèn)題,比如EDiff-I[8]。這篇文章延續(xù)了Imagen的思路,既然T5文本理解對(duì)于可控生成有幫助,那就把它集成進(jìn)來(lái),發(fā)揮出1+1>2的效果。但是,從文本模型角度來(lái)改進(jìn)可控生成所需資源比較多,首先需要一個(gè)更強(qiáng)的文本模型,然后才能訓(xùn)練得到更好的文生圖模型。因此,有一些研究便從可控編輯的角度來(lái)解決這個(gè)問(wèn)題,比如一項(xiàng)名為P2P (Prompt-to-Prompt Image Editing with cross attention control[9]) 的研究便期望通過(guò)微調(diào)prompt達(dá)到可控生成的目標(biāo)(見(jiàn)圖3)。圖片圖3 通過(guò)微調(diào)prompt達(dá)到可控生成的目標(biāo)InstructPix2Pix [10]這篇文章的思路跟P2P思路很像,也是通過(guò)圖像編輯來(lái)實(shí)現(xiàn)可控生成。不一樣的是,這篇文章用GPT-3來(lái)做prompt微調(diào)。從圖片編輯這條線上進(jìn)行研究效果的確很驚艷,但是評(píng)價(jià)偏弱,沒(méi)有一個(gè)很好的評(píng)價(jià)標(biāo)準(zhǔn)和體系,還是很難繼續(xù)推進(jìn)。圖像編輯算法Paint by Example提出了另外一種思路:將可控生成的難度降低,提供一個(gè)樣本圖片,結(jié)合圖像修復(fù)技術(shù)來(lái)達(dá)到局部可控生成。其技術(shù)思路很直觀,同時(shí)提供機(jī)器評(píng)價(jià)和人工評(píng)價(jià)的結(jié)果。總得來(lái)說(shuō),這個(gè)方向的改進(jìn)可能會(huì)引發(fā)下一波文生圖應(yīng)用熱潮,但是因?yàn)樵u(píng)價(jià)方法的缺失,導(dǎo)致進(jìn)展比較難以衡量。圖片個(gè)性化模型

本文首先從評(píng)測(cè)的角度探討了文生圖模型的關(guān)鍵問(wèn)題:可控生成。接著從應(yīng)用的角度出發(fā),重點(diǎn)研究如何定制一個(gè)文生圖模型,這是落地各行業(yè)應(yīng)用的關(guān)鍵所在。在影視、動(dòng)漫、漫畫(huà)、游戲、媒體、廣告、出版、時(shí)尚等行業(yè)使用文生圖模型時(shí),常常會(huì)遇到新概念、風(fēng)格、人物缺失的問(wèn)題。例如,若需要生成某位明星A的中國(guó)風(fēng)肖像,但該模型并未見(jiàn)過(guò)此明星的肖像,也無(wú)法識(shí)別中國(guó)風(fēng),這將嚴(yán)重限制文生圖模型的應(yīng)用場(chǎng)景。因此,如何快速新增概念和風(fēng)格,成為當(dāng)前研究的重要方向之一。說(shuō)到這里,大家第一時(shí)間想到的肯定就是DreamBooth[11]、Textual Inversion[12]和美學(xué)梯度[13]。DreamBooth本身是為Imagen設(shè)計(jì)的,通過(guò)三張圖就能夠快速學(xué)習(xí)到新概念/風(fēng)格/人物,但是現(xiàn)在已經(jīng)遷移到了Stable Diffusion。這個(gè)技術(shù)有很多個(gè)不同的版本,其核心思想是在小樣本上微調(diào)的同時(shí)盡量減少過(guò)擬合。Textual Inversion是從文本編碼器的角度來(lái)解決新概念引入的問(wèn)題,其提出新風(fēng)格和概念的引入需要從文本理解開(kāi)始,新的風(fēng)格和概念如果是OOV(Out Of Vocaburary,未登錄)的詞匯,那我們就在文本編碼器上增加這個(gè)詞匯來(lái)解決概念引入的問(wèn)題。其思路是整個(gè)模型的所有參數(shù)都不需要調(diào)整,只需要增加一個(gè)額外的token以及其對(duì)應(yīng)的embedding就可以,即插即用。美學(xué)梯度方法跟之前inpainting的可控生成思路很類似,針對(duì)新的風(fēng)格,我們先降低難度,給出一些新風(fēng)格的樣例(這里是embedding),然后讓生成朝著與這個(gè)樣例更接近的方向展開(kāi)。總而言之,這條線上的研究現(xiàn)在也沒(méi)有什么評(píng)價(jià)標(biāo)準(zhǔn)和體系,處于方興未艾的階段,離落地也很近,基本出來(lái)效果就可以直接創(chuàng)業(yè)。圖片

高質(zhì)量數(shù)據(jù)集

數(shù)據(jù)的重要性不言而喻,大量高質(zhì)量的文圖數(shù)據(jù)是文生圖發(fā)展的血液,沒(méi)有數(shù)據(jù)再好的算法也發(fā)揮不了作用。數(shù)據(jù)集不是開(kāi)源一堆url提供下載就完了,其中包括了水印識(shí)別、NSFW(Not Suitable For Work)圖片識(shí)別、文圖匹配過(guò)濾等多種預(yù)處理操作,甚至包括說(shuō)明文字的生成、改寫(xiě)和優(yōu)化等操作。這個(gè)方向國(guó)外的LAION團(tuán)隊(duì)做的非常的扎實(shí),國(guó)內(nèi)也有一些公司開(kāi)源了數(shù)據(jù)集。下表2列出,僅供參考。圖片表2:國(guó)內(nèi)外開(kāi)源文圖數(shù)據(jù)集綜上,文圖數(shù)據(jù)現(xiàn)在是英文的數(shù)據(jù)在數(shù)量和質(zhì)量上都比中文和其他語(yǔ)言高了一截,希望未來(lái)有十億級(jí)別的高質(zhì)量中文數(shù)據(jù)集出現(xiàn)。圖片結(jié)語(yǔ)文生圖模型是當(dāng)前人工智能領(lǐng)域最具潛力和前景的研究方向之一。未來(lái),隨著計(jì)算能力的提高和技術(shù)的進(jìn)一步發(fā)展,文生圖模型的應(yīng)用前景將會(huì)更加廣泛和深遠(yuǎn)。然而,針對(duì)其應(yīng)用過(guò)程中存在的一些問(wèn)題,如模型評(píng)價(jià)缺乏一致性、控制生成過(guò)程效率低下、定制個(gè)性化模型困難以及高質(zhì)量文圖數(shù)據(jù)集缺乏等,需要我們進(jìn)一步研究探索解決方案。隨著文生圖模型的不斷發(fā)展和完善,我們可以預(yù)見(jiàn)到未來(lái)人機(jī)交互方式的改變。在智能化時(shí)代的到來(lái)中,文生圖模型的應(yīng)用將會(huì)極大地改變?nèi)藗兣c計(jì)算機(jī)交互的方式,讓計(jì)算機(jī)更加“懂人”,進(jìn)一步提升人機(jī)交互的效率和質(zhì)量,也有望成為人工智能走向真正“人性化”的關(guān)鍵一步。總之,文生圖模型作為一項(xiàng)研究熱點(diǎn),具有極其廣泛的應(yīng)用前景,未來(lái)也將在技術(shù)創(chuàng)新和產(chǎn)業(yè)應(yīng)用中扮演越來(lái)越重要的角色。參考鏈接[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning.PMLR, 202[2] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.[4] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794.[5] Petsiuk, Vitali, et al. "Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark." arXiv preprint arXiv:2211.12112 (2022).[6] Saharia, Chitwan, et al. "Photorealistic text-to-image diffusion models with deep language understanding." Advances in Neural Information Processing Systems 35 (2022): 36479-36494.[7] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.[8] Balaji, Yogesh, et al. "ediffi: Text-to-image diffusion models with an ensemble of expert denoisers." arXiv preprint arXiv:2211.01324 (2022).[9] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022).[10] Brooks, Tim, Aleksander Holynski, and Alexei A. Efros. "Instructpix2pix: Learning to follow image editing instructions." arXiv preprint arXiv:2211.09800 (2022).[11] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022).[12] Gal, Rinon, et al. "An image is worth one word: Personalizing text-to-image generation using textual inversion." arXiv preprint arXiv:2208.01618 (2022).[13] Gallego, Victor. "Personalizing Text-to-Image Generation via Aesthetic Gradients." arXiv preprint arXiv:2209.12330 (2022).


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉