新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 領會AI圖像的生成過程:去蕪存菁

領會AI圖像的生成過程:去蕪存菁

作者:高煥堂 時間:2025-04-07 來源:EEPW 收藏


本文引用地址:http://2s4d.com/article/202504/469077.htm

1   巔峰的美學思維:去蕪存菁

當今典型的AI 圖像生成過程是:去蕪存菁。例如,SD(Stable Diffusion) 訓練模型去萃取噪聲(Noise),然后把它刪去。就如同偉大的雕塑家羅丹(Auguste Rodin)曾說過:“我只是把多余的石頭刪去而已”。這是培養(yǎng)創(chuàng)意的非常有效的學習途徑。

1743993033781852.png

圖1 羅丹的雕塑作品:沉思者

綜觀AIGC 領域里,最近幾個很紅的圖像模型,例如:DALLE、SD 和Sora 等,它們都是基于一種機制:擴散(Diffusion)。并且將其擴散模型轉化為隱藏擴散模型(LDM,Latent diffusion models)。它有三項特點:

1)經(jīng)由模型訓練(Training),操作隱藏空間向量,加上隨機輸入中合成新的向量數(shù)據(jù),呈現(xiàn)出令人驚奇的組合創(chuàng)新,大大提升了AI 繪畫的創(chuàng)作能力。

2)經(jīng)由空間對映(Space-mapping),把模型從從可觀察空間,降維對映到低維的隱藏空間里。于是提高了模型的運算效率,這項創(chuàng)新的隱藏空間圖像生成,就推動了AIGC 技術的突飛猛進。

3)當運算效能提高了,就直接支持巔峰的美學思維:去蕪存菁。

于是,AIGC繪畫就基于隱藏空間( 簡稱:隱空間)來進行探索、操作及創(chuàng)新組合;進而能夠幫助大眾繪出各種天馬行空的畫作。例如,Sora應用于生成動畫時,可以對隱藏空間中的一個點進行采樣并逐步改變潛在向量表示。其中每個采樣點都被轉交給譯碼器(Decoder)生成組合的幀(Frames) 存儲在最終動畫或視頻中。最后,這些高質量的幀連續(xù)播放出來,就成為很連貫的動畫視頻了。

2   機器學習(ML)的新典范

傳統(tǒng)的機器學習是讓AI模型(如GAN),好好畫鯉魚、烏龜、青蛙等。然而,新潮的AI 模型( 如SD、Sora等 ) 已經(jīng)用心訓練自己認識水、雜草、灰塵等不必要的多余部分,然后刪掉它們。就如同一個池塘,AI學習把池塘中的水、草、垃圾等雜質刪去,各種魚就皆躍然于眼中了。

在傳統(tǒng)分辨式AI 時代,人們大多關注于AI 模型的輸出結果,而把中間隱藏層( 即隱空間) 視為黑箱(Black-box),而不特別去關注它。如今到了新潮的生成式AI時代,大家就非常關注這黑箱( 隱空間) 的內涵,而用心觀察它、操作它、拿它來分析,成為主導創(chuàng)新、生成內容的源頭。

由于擴散(Diffusion) 是一項物理學的原理,不是人為的模擬算法,所以它可能會很持久,并深深影響AI繪圖、影視、游戲的生成過程。此外,基于擴散 的機器學習(ML) 范式(Paradigm) 正表達了人類藝術創(chuàng)作潛能發(fā)揮的極致完美境界。它是一項逼近人類藝術創(chuàng)作巔峰的美學思維:去蕪存菁。也就是羅丹所說的:把不必要的部分刪掉。

上述機器學習的隱空間(Latent space) 是源自于模仿棋士心中的:無招世界。一般而言,大數(shù)據(jù)( 如Picasso畫作) 都是看得見的有招世界,而人或電腦從有招世界的大數(shù)據(jù)中學習( 歸納、抽象),而沉淀于內心深處( 即隱空間) 即是:無招世界。這項人們心中的無招世界確實存在的。如今計算機如何仿真它,其技術仍在日新月異演進之中。

于是,我們可以從無招世界來領會為什么AI 會創(chuàng)作呢?當今AI 是基于機器學習,它會學習人類的做事、創(chuàng)物的經(jīng)驗直覺。然而,人類經(jīng)驗直覺的邏輯是不清晰的,通常無法經(jīng)由程序語言來寫成代碼。那我們該如何把人類的直覺智慧弄進去機器(AI) 呢?

答案是:從人類的作品( 如繪畫、音樂、文學作品、食譜、游戲、對話、網(wǎng)絡文章) 中學習作品的形式、風格、情緒等。這些作品放到網(wǎng)絡上,皆成為大數(shù)據(jù)(Big Data)。于是,我們就拿這些大數(shù)據(jù)來給AI 學習,謂之:訓練。

AI 從人類作品中學習到人類專家( 創(chuàng)作者) 的招式(Patterns ) 和風格(Style )。如同金庸武俠中的楊過、小龍女向大俠們學習了許多武功招式。經(jīng)年累月,楊過和小龍女,學而時習之,逐漸地在內心深處沉淀出招式背后的精華神韻,謂之:無招秘境。一樣地,AI 經(jīng)過幾十天( 上億回合) 的學習大量作品的創(chuàng)作招式和風格,逐漸地在AI 模型內部的秘境中沉淀出招式背后的精華神韻,這個AI 中的無招秘境( 即隱空間)。

武俠中上說:無中生有,從無招中生出千變萬化,無招勝有招。 一樣地,AI 也能從其無招秘境中的精華神韻,生出千變萬化的新招式,也就是新作品、新內容(Content )。這種新創(chuàng)作新內容,就謂之:生成式AI(AIGC)。

生成式AI 模型,是基于模型的隱空間變量(Latent variable ) 的機率分布而抽樣(Sampling)來生成。俗語說:從有招到無招,無招勝有招。上述的可觀察空間即是有招空間,人類可以理解該空間里的數(shù)據(jù)涵意。而相對地,上述的隱空間就是無招空間,它是AI 創(chuàng)造出來的低維向量空間,人類通常無法理解其數(shù)據(jù)的涵意,所以稱為:隱空間。它是千變萬化AIGC 創(chuàng)作魅力的源頭。

3   以SD(Stable Diffusion)為例

在AI 潮流中,SD 是AIGC 圖像生成發(fā)展歷程中的一個里程碑,提供了高性能模型,能快速生成創(chuàng)意十足的圖像。在SD 的隱空間里,它使用了一個UNet 模型,并搭配一個時間調度(Scheduling) 器,來擔任圖像生成的核心任務。而擴散一詞則描述了SD 潛在空間里進行的圖像生成情形,整個過程都是在隱空間里逐步推進。SD 的基本架構是:

1)SD 的基礎模型是AE(Autoencoder),我們輸入圖像給AE,并訓練它生成幾乎一樣的圖片;

2)從AE 衍生出UNet,對圖像如上噪音,使圖像變得模糊,再輸入給UNet,訓練它有能力預測噪音,然后去除噪音,生成與原圖幾乎一樣的圖像;

3)上述的”對圖像如上噪音,使圖像變得模糊”的擴散工作是很關鍵的,把這項添加噪音( 即擴大)的工作也交給AI去做, 就成為擴散模型(Diffusion model) 了。

上述的擴散架構可以原生支持圖像到文字、圖像變化、文字到圖像和文字變化,并且可以延伸到其他應用領域,例如圖像文字雙重引導生成、潛在圖像到文字到圖像的編輯等等。并且將支持更多應用模式,例如語音、音樂、視訊和3D視頻等。隱空間的內容是從可觀察數(shù)據(jù)空間歸納萃取而得到的精華,相當于閱歷豐富的領域專家內心所領悟沉淀出來的經(jīng)驗直覺。它具有穩(wěn)定性( 不變性) 和共享性。

4   領會去蕪存菁(一):小琪腦海中的霓虹燈

茲以“小琪腦海中的霓虹燈”為例,來比喻“去蕪存菁”。例如香港的市區(qū)非常繁華,每天天黑之后,處處霓虹燈閃爍,燦爛奪目,幾乎看不到行人、道路、橋梁或建筑物。小琪來到了西門町工作,白天擔任市區(qū)導游,清晰看到行人、道路、橋梁或建筑物、天空等。晚上她常常在市區(qū)里逛街購物,處處充滿霓虹燈閃爍的光芒,幾乎看不到燦爛光芒下的人或物。如今已經(jīng)整整住半年(100 多天) 了。

有一天晚上,小琪搭飛機來到東京( 大約晚上10點鐘),她也立即到東京市區(qū)里逛街購物,也看到處處充滿霓虹燈閃爍的光芒,幾乎看不到燦爛光芒下的行人、道路、河流、橋梁或高樓大廈等。逛了一個鐘頭之后,返回到她住的旅館內,看到窗外市區(qū)景色,也只看到處處霓虹燈的光芒閃爍、燦爛四射,令人眼花撩亂。于是,她拿起了畫筆,在畫紙上畫下了她眼中的東京景色。請問:小琪在圖紙上畫出什么東西呢? 仔細觀之,她畫出了清晰的東京市區(qū)行人、道路、河流、橋梁和建筑物等圖案。

隔天,小琪又搭飛機來到紐約( 也是大約晚上10點鐘),她也立即到紐約市區(qū)里逛街購物,也看到處處充滿霓虹燈閃爍的光芒,幾乎看不到燦爛光芒下的行人、道路、河流、橋梁或高樓大廈等。逛了一個鐘頭之后,返回到她住的旅館內,看到窗外市區(qū)景色,也只看到處處霓虹燈的光芒閃爍、燦爛四射,令人眼花撩亂。于是,她拿起了畫筆,在畫紙上畫下了她眼中的紐約景色。請問:小琪在圖紙上畫出什么東西呢? 仔細觀之,她畫出了清晰的紐約市區(qū)行人、道路、河流、橋梁和建筑物等圖案。

再隔一天,小琪又搭飛機來到巴黎( 也是大約晚上10 點鐘),這天她立即住進旅館內,向窗外看到市區(qū)景色,也只看到處處霓虹燈的光芒閃爍、燦爛四射,令人眼花撩亂。于是,她拿起了畫筆,在畫紙上畫下了她眼中的巴黎景色。請問:小琪在圖紙上畫出什么東西呢?

5   領會去蕪存菁(二):如何訓練“啄木鳥”

如果把SD里的UNet模型比喻為啄木鳥,則訓練一個UNet模型就相當于訓練一只啄木鳥了。茲想一想,為什么2020年之后,SD等模型涌現(xiàn)出了強大的”生成”能力呢? 理由是:訓練AI( 如啄木鳥) 的途徑改變了。對啄木鳥而言,蟲是它想要的東西,而木材則是它不要的東西。反之,對人們而言,蟲是他不要的東西,而木材則是他想要的東西。因之,人們就來訓練啄木鳥去關注“蟲”、進而預測“蟲”。換句話說,人們就來訓練啄木鳥去關注“蕪”、進而預測“蕪”。

一旦訓練完成了,啄木鳥( 即UNet 模型) 就很熟悉“蟲”( 即蕪) 了,也能很精準地預測“蟲”( 即蕪) 了。此時,啄木鳥( 即UNet 模型) 就能很精準地吃掉“蟲”,也就留下好木材( 即菁) 了。這就是啄木鳥的“去蕪存菁”過程了。也就是剛才提到羅丹的雕刻技藝:把多余的部分( 蕪) 去掉。

所以,拿來一根生滿蟲子的木頭,并叫一只訓練有素的啄木鳥(AI 模型) 來找出“蟲”,并且把蟲吃掉。于是,這只啄木鳥就如同羅丹一樣,很快生成一座雕刻作品。這即是當今的生成式AI了。

6   領會去蕪存菁(三):“掀開棉被”的故事

例如,有三個房間,各都有一張床和一件棉被。床和棉被都是一致的外觀。小琪進入到第1 房間,隱約看到棉被里有幾只小動物;然后她掀開棉被,看到幾只小貓咪。接著,小琪進入到第2 個房間,隱約看到棉被里有幾只小動物;然后她掀開棉被,看到幾只烏亀。

然后,小琪進入到第3 個房間,隱約看到棉被里有幾只小動物;她并沒有掀開棉被,就拿起畫筆來畫出她腦海中所想象( 呈現(xiàn)) 的棉被內景像。于是,小琪畫出了第3 間房間的棉被里的小動物景像。請試想,小琪的畫作中,會畫出什么( 貓或烏亀或其它) 呢?又請試想,小琪進入到第3 個房間的瞬間,其腦海里做了什么動作呢? 其可能答案是:

1)觀察眼前( 第3 房間) 的景象。

2)找出心中似曾相似的記憶景象。

3)識別出”棉被”對象。

4)把腦海中的”棉被”掀掉。

以上故事,可引導您更多領悟Diffusion的繪畫生成原理。

7   領會去蕪存菁(四):以拿鐵咖啡為例

首先準備一張咖啡圖像,以及一張棉花糖圖像,如下:

image.png image.png image.png

圖2

現(xiàn)在,把這張coffee圖像與mar_aa圖像相加起來( 如同把黑咖啡倒入到棉花糖mar_aa杯子里)。并且也把這張coffee圖像與mar_bb圖像相加起來( 如同把黑咖啡倒入到棉花糖mar_bb杯子里)。于是得到兩杯拿鐵咖啡,如下圖:

image.png   image.png  image.png

圖3

接著,就來訓練一個UNet 模型,讓它從latte_aa拿鐵里,把coffee( 即蕪) 分離出來。同時,也訓練它從latte_bb拿鐵里,把coffee( 即蕪) 分離出來。換句話說,就是輸入latte_aa圖像,讓他預測出coffee( 即蕪);同時,也輸入latte_bb圖像,讓他預測出coffee( 即蕪)。實機訓練1500 回合之后,輸出:

1743993849524835.png

并且匯出latte_unet.pt模型文件。接著,就拿另一杯latte_cc拿鐵咖啡來檢測看看這個訓練好的UNet 模型;亦即把這張latte_cc 圖像輸入UNet 模型:

image.png

圖4

于是,UNet 模型就預測出“蕪”( 即pred_coffee_cc圖像)。

image.png image.png

圖5

最后,拿latte_cc 拿鐵圖像,減去pred_coffee_cc圖像,而留下了results_mar_cc 圖像。于是,完成了“去蕪存菁”的示范動作。

8   結束語

為什么擴散(Diffusion) 在2022-23 將AI繪圖大幅推展到一個新里程呢?而且看來未來仍將引領風潮10年。其關鍵在于過去數(shù)十年來,人們都是給計算機正確的邏輯( 類似于人類教育的”傳道”),其訓練AI 去認識正確的事物或現(xiàn)象。而擴散則采取反向做法,致力于訓練計算機(AI)去認識不正確的事物( 蕪),然后學習完美的“去蕪存菁”技能。由此而觀之,在AI 時代最關鍵的教育新典范是:引導人們(或AI)深刻領會“什么是多余的”,然后決定“放棄什么”,即是:去“蕪存菁”。

(本文來源于《EEPW》



關鍵詞: 202408 AI圖像

評論


技術專區(qū)

關閉