Visual ChatGPT：Microsoft ChatGPT 和 VFM 相結(jié)合

發(fā)布人：ygtu 時(shí)間：2023-08-06 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

推薦：使用NSDT場(chǎng)景編輯器助你快速搭建可二次編輯的3D應(yīng)用場(chǎng)景

什么是Visual ChatGPT？

Visual ChatGPT 是一個(gè)包含 Visual Foundation 模型（VFM）的系統(tǒng)，可幫助 ChatGPT 更好地理解、生成和編輯視覺(jué)信息。VFM 能夠指定輸入輸出格式，將視覺(jué)信息轉(zhuǎn)換為語(yǔ)言格式，并處理 VFM 歷史記錄、優(yōu)先級(jí)和沖突。

因此，Visual ChatGPT 是一種 AI 模型，它充當(dāng)了 ChatGPT 限制與允許用戶通過(guò)聊天進(jìn)行交流并生成視覺(jué)效果之間的橋梁。

ChatGPT 的局限性

在過(guò)去的幾周和幾個(gè)月里，ChatGPT 一直是大多數(shù)人的對(duì)話。但是，由于其語(yǔ)言訓(xùn)練功能，它不允許處理和生成圖像。

而你有視覺(jué)基礎(chǔ)模型，如視覺(jué)變壓器和穩(wěn)定擴(kuò)散，它們具有驚人的視覺(jué)功能。這就是語(yǔ)言和圖像模型的組合創(chuàng)造了Visual ChatGPT的地方。

什么是可視化基礎(chǔ)模型？

視覺(jué)基礎(chǔ)模型用于對(duì)計(jì)算機(jī)視覺(jué)中使用的基本算法進(jìn)行分組。他們采用標(biāo)準(zhǔn)的計(jì)算機(jī)視覺(jué)技能并將其轉(zhuǎn)移到AI應(yīng)用程序上，以處理更復(fù)雜的任務(wù)。

Visual ChatGPT 中的提示管理器由 22 個(gè) VFM 組成，其中包括文本到圖像、控制網(wǎng)、邊緣到圖像等。這有助于 ChatGPT 將圖像的所有視覺(jué)信號(hào)轉(zhuǎn)換為語(yǔ)言，以便 ChatGPT 更好地理解。那么Visual ChatGPT是如何工作的呢？

Visual ChatGPT 如何工作？

Visual ChatGPT 由不同的組件組成，以幫助大型語(yǔ)言模型 ChatGPT 理解視覺(jué)對(duì)象。

Visual ChatGPT 的架構(gòu)組件

用戶查詢：這是用戶提交查詢的位置
提示管理器：這會(huì)將用戶的視覺(jué)查詢轉(zhuǎn)換為語(yǔ)言格式，以便 ChatGPT 模型可以理解。
Visual Foundation Models：它結(jié)合了各種VFM，例如BLIP（Bootstrapping Language-Image Pre-training），Stable Diffusion，ControlNet，Pix2Pix等。
系統(tǒng)原理：這提供了可視化聊天GPT的基本規(guī)則和要求。
對(duì)話歷史：這是系統(tǒng)與用戶進(jìn)行交互和對(duì)話的第一個(gè)點(diǎn)。
推理的歷史：這使用不同VFM過(guò)去具有的先前推理來(lái)解決復(fù)雜的查詢。
中間答案：通過(guò)使用 VFM，模型將嘗試輸出幾個(gè)邏輯上低估的中間答案。

Microsoft GitHub

有關(guān)提示管理器的更多信息

你們中的一些人可能認(rèn)為這是 ChatGPT 處理視覺(jué)效果的強(qiáng)制解決方法，因?yàn)樗匀粚D像的所有視覺(jué)信號(hào)轉(zhuǎn)換為語(yǔ)言。上傳圖像時(shí)，提示管理器會(huì)合成包含文件名等信息的內(nèi)部聊天歷史記錄，以便 ChatGPT 可以更好地了解查詢所指的內(nèi)容。

例如，用戶輸入的圖像的名稱將充當(dāng)操作歷史記錄，然后提示管理器將協(xié)助模型通過(guò)“推理格式”來(lái)確定需要對(duì)圖像執(zhí)行的操作。在 ChatGPT 選擇正確的 VFM 操作之前，您可以將此視為模型的內(nèi)部想法。

在下圖中，您可以看到提示管理器如何啟動(dòng)可視 ChatGPT 的規(guī)則：

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

開(kāi)始使用可視化聊天GPT

要開(kāi)始您的 Visual ChatGPT 之旅，您需要先運(yùn)行 Visual ChatGPT 演示：

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py

您還可以在Microsoft的Visual ChatGPT GitHub上了解更多信息。確保查看每個(gè)視覺(jué)基礎(chǔ)模型上的 GPU 內(nèi)存使用情況。

可視化聊天GPT的用例

那么Visual ChatGPT能做什么呢？

圖像生成

您可以要求Visual ChatGPT從頭開(kāi)始創(chuàng)建圖像，并提供描述。您的圖像將在幾秒鐘內(nèi)生成，具體取決于可用的計(jì)算能力。其使用文本數(shù)據(jù)的合成圖像生成基于穩(wěn)定擴(kuò)散。

更改圖像背景

同樣，使用穩(wěn)定的擴(kuò)散，Visual ChatGPT可以改變您輸入的圖像的背景。用戶可以向助手提供他們希望將背景更改為什么的任何描述，穩(wěn)定的擴(kuò)散模型將繪制圖像的背景。

更改彩色圖像和其他效果

您還可以根據(jù)為應(yīng)用程序提供描述來(lái)更改圖像的顏色并應(yīng)用效果。Visual ChatGPT將使用各種預(yù)訓(xùn)練模型和OpenCV來(lái)更改圖像顏色，突出顯示圖像邊緣等。

對(duì)圖像進(jìn)行更改

Visual ChatGPT 允許您通過(guò)編輯和修改圖像中的對(duì)象來(lái)刪除或替換圖像的各個(gè)方面，并向應(yīng)用程序提供定向文本描述。但是，需要注意的是，此功能需要更多的計(jì)算能力。

Visual ChatGPT 的局限性

眾所周知，組織總需要努力解決某種形式的缺陷來(lái)改善其服務(wù)。

計(jì)算機(jī)視覺(jué)和大型語(yǔ)言模型的結(jié)合

Visual ChatGPT 嚴(yán)重依賴 ChatGPT 和 VFM，因此，這些各個(gè)方面的準(zhǔn)確性和可靠性會(huì)影響 Visual ChatGPT 的性能。使用大型語(yǔ)言模型和計(jì)算機(jī)視覺(jué)的組合需要大量的提示工程，并且可能難以實(shí)現(xiàn)熟練的性能。

隱私和安全

Visual ChatGPT能夠輕松插入和拔出VFM，這可能是一些用戶對(duì)安全和隱私問(wèn)題的擔(dān)憂。Microsoft需要更多地研究敏感數(shù)據(jù)如何不被泄露。

自我校正模塊

Visual ChatGPT的研究人員遇到的限制之一是由于VFM的失敗和提示的多樣性而導(dǎo)致的生成結(jié)果不一致。因此，他們得出結(jié)論，他們需要研究一個(gè)自我更正模塊，以確保生成的輸出符合用戶的要求，并能夠進(jìn)行必要的更正。

需要大量 GPU

為了從Visual ChatGPT中受益并利用22個(gè)VFM，您將需要大量的GPU RAM，例如A100。根據(jù)手頭的任務(wù)，確保您了解有效完成任務(wù)所需的 GPU 量。

總結(jié)

Visual ChatGPT仍有其局限性，但這是同時(shí)使用大語(yǔ)言模型和計(jì)算機(jī)視覺(jué)的重大突破。如果您想了解有關(guān)Visual ChatGPT的更多信息，請(qǐng)閱讀本文：Visual ChatGPT：使用Visual Foundation Models進(jìn)行對(duì)話，繪圖和編輯

Visual ChatGPT 與 ChatGPT4 相似嗎？如果你嘗試過(guò)這兩種方法，你有什么看法？在下面發(fā)表評(píng)論！

原文鏈接：Visual ChatGPT：Microsoft ChatGPT 和 VFM 相結(jié)合 (mvrlink.com)

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

Visual ChatGPT：Microsoft ChatGPT 和 VFM 相結(jié)合

相關(guān)推薦

技術(shù)專區(qū)