博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 在花了兩小時(shí)體驗(yàn)英偉達(dá)升級(jí)版“神奇畫(huà)布”后,整個(gè)人都凌亂了

在花了兩小時(shí)體驗(yàn)英偉達(dá)升級(jí)版“神奇畫(huà)布”后,整個(gè)人都凌亂了

發(fā)布人:硅星人 時(shí)間:2021-12-01 來(lái)源:工程師 發(fā)布文章

一次嘗試用AI變藝術(shù)家的翻車(chē)記。

——

文|Juny   編輯|Lianzi


猶記得兩年前,英偉達(dá)首次推出了旗下全新的交互應(yīng)用GauGAN,能夠通過(guò)人工智能技術(shù)把小學(xué)生水平的簡(jiǎn)筆畫(huà)瞬間轉(zhuǎn)換成絕美風(fēng)景圖。 比如用幾堆色塊,一條豎杠就能生成疑是銀河落九天的美景。隨手畫(huà)個(gè)圈,就能實(shí)時(shí)生成一汪水潭,倒映出綠樹(shù)和天空四時(shí)不同的顏色。 
 GauGAN1.0 的簡(jiǎn)筆畫(huà)轉(zhuǎn)換效果,圖片來(lái)自英偉達(dá)官網(wǎng) 一時(shí)間,GauGAN名聲大噪,大家都對(duì)這種神奇的技術(shù)嘖嘖稱(chēng)奇,稱(chēng)GauGAN為當(dāng)代“神筆馬良”之筆,感嘆著只有小學(xué)生繪畫(huà)水平的自己終于也可以做藝術(shù)家了。 就在幾天前,英偉達(dá)宣布更新GauGAN的2.0版本,在此前涂鴉畫(huà)的基礎(chǔ)上,增加了文本識(shí)別功能。簡(jiǎn)單來(lái)說(shuō),就是現(xiàn)在你連畫(huà)都不用畫(huà)了,直接把你腦海中想象的畫(huà)面用文字輸入,系統(tǒng)就能為你立馬生成圖像,幫把你模糊的設(shè)想變成現(xiàn)實(shí)。 硅星人一聽(tīng),立馬就來(lái)了興趣。這牛啊,這不意味著人工智能學(xué)會(huì)了讀心術(shù),讓你腦子里的奇思妙想一秒變成藝術(shù)大作嗎?于是,趁著感恩節(jié)假期,硅星人決定親自上手這個(gè)“神奇畫(huà)布”,看看究竟能跟AI合作出什么作品出來(lái)。 經(jīng)過(guò)2個(gè)小時(shí)的倒騰之后,此次硅星人體驗(yàn)的心路歷程可以用“哇!-咦?-呃……-哦”來(lái)形容。那么,究竟是怎么回事呢? |只需一句話,還你一幅大作 GauGAN是一款比較類(lèi)似于Photoshop的圖片類(lèi)軟件。它的特點(diǎn)是基于生成對(duì)抗網(wǎng)絡(luò) (GAN)技術(shù)而開(kāi)發(fā),能夠根據(jù)用戶需求自動(dòng)生成個(gè)性化的高質(zhì)量圖片。 英偉達(dá)開(kāi)發(fā)GauGAN的目的,是想為未來(lái)的設(shè)計(jì)師、游戲開(kāi)發(fā)者等各類(lèi)型群體提供創(chuàng)建虛擬世界的強(qiáng)大工具,讓人們能很快地將自己的靈感轉(zhuǎn)化為原型并能便捷的修改它。此前,GauGAN 1.0 實(shí)現(xiàn)了讓簡(jiǎn)筆涂鴉秒變大片,而這次GauGAN 2.0則能讓文本一秒變大片。 那么,此次的GauGAN 2.0的文本轉(zhuǎn)化功能有多強(qiáng)大呢?舉個(gè)例子,當(dāng)你輸入“海浪打在巖石上”這句話時(shí),畫(huà)布上的圖片會(huì)隨著你輸入的文本而實(shí)時(shí)變動(dòng),先出現(xiàn)平靜的海,再出現(xiàn)巖石,最后精準(zhǔn)呈現(xiàn)海浪拍巖石的畫(huà)面。 
當(dāng)你輸入“Sunshine in a tall tree forest”,系統(tǒng)會(huì)根據(jù)你逐漸細(xì)化的形容來(lái)實(shí)時(shí)更改圖片,最后呈現(xiàn)一幅陽(yáng)光透過(guò)森林的圖片。
 


當(dāng)然,除了通過(guò)文本生成之外,GauGAN 2.0同樣也支持1.0版本的使用涂鴉、和導(dǎo)入圖片生成的方式,而且還支持幾種方式的混合使用。
 在通過(guò)文字生成了圖片之后,你可以進(jìn)一步使用涂鴉功能對(duì)細(xì)節(jié)進(jìn)行調(diào)整。比如你先用文本生成了一張沙漠里的太陽(yáng)的圖片,你想將其衍生呈現(xiàn)出《星球大戰(zhàn)》里沙漠里升起兩個(gè)太陽(yáng)的場(chǎng)景,那么,你只需要在已生成圖片的基礎(chǔ)上再畫(huà)一個(gè)小圓圈,圖片里就會(huì)升起兩個(gè)太陽(yáng)。 
再比如,你先導(dǎo)入一張海邊風(fēng)景的圖片,然后使用快速擦除的功能擦去不想要的部分。接著,你再輸入文本“極光”,AI就會(huì)自動(dòng)給你加上特效,一張由你創(chuàng)作的極光大片就此產(chǎn)生。
 英偉達(dá)表示,GauGAN 2.0背后的AI模型使用了NVIDIA Selene 超級(jí)計(jì)算機(jī)對(duì)超過(guò)1000萬(wàn)張高質(zhì)量風(fēng)景圖像進(jìn)行了訓(xùn)練,從而讓AI理解單詞以及單詞之間的聯(lián)系,并進(jìn)一步將自然語(yǔ)言描述成風(fēng)景圖像。
 同時(shí)GauGAN還是是多模式軟件,也就是說(shuō),即便是你和別人輸入了同樣的涂鴉或文本,軟件中內(nèi)置的隨機(jī)數(shù)也能確保你們最終的生成的作品是不同的。因此,每個(gè)人所產(chǎn)出的圖片都是獨(dú)一無(wú)二的。 |GauGAN 2 “魔法”之初體驗(yàn) 雖然英偉達(dá)把GauGAN 2的能力宣傳得如此神奇,但本著對(duì)科學(xué)負(fù)責(zé)任的態(tài)度,硅星人還是決定要親自上手“驗(yàn)驗(yàn)貨”。 此次英偉達(dá)免費(fèi)為大眾開(kāi)放了一個(gè)GauGAN 2的體驗(yàn)平臺(tái)。整個(gè)平臺(tái)的構(gòu)成很簡(jiǎn)單:左邊是繪畫(huà)區(qū),右邊是圖片生成區(qū),上方是文本輸入欄和繪畫(huà)工具欄。打開(kāi)該平臺(tái)后,會(huì)有一個(gè)簡(jiǎn)單的使用指南,教你如何使用文本和繪畫(huà)工具生成和修飾圖片。 
一開(kāi)始,硅星人的體驗(yàn)還是非常順利的,一度為AI創(chuàng)作出來(lái)的效果而驚嘆。 硅星人首先嘗試使用了簡(jiǎn)筆涂鴉轉(zhuǎn)換圖片的功能。目前GauGAN系統(tǒng)內(nèi)提供了建筑、土地、景觀和植物四大類(lèi)別的涂鴉選擇,每個(gè)大類(lèi)下設(shè)置了一些子類(lèi)。 硅星人以先“海山礁石”為主題來(lái)做了一幅畫(huà),分別選擇了“?!?、“石頭”的選項(xiàng),然后在畫(huà)布上涂鴉畫(huà)了一通。 點(diǎn)擊生成后,左側(cè)就立馬出現(xiàn)了一幅跟畫(huà)布上格局一樣的風(fēng)景畫(huà),同時(shí)還生成了落日、星空等不同種類(lèi)的天空背景選項(xiàng)。接著,硅星人在天上畫(huà)了一塊云,在海上畫(huà)了一顆樹(shù)。左側(cè)就立馬生成了令人驚嘆的云彩效果和一顆棕櫚樹(shù)。  接著,硅星人嘗試在文本區(qū)域分別嘗試輸入了Rainy的天氣描述,令人驚喜的是,整個(gè)畫(huà)面也會(huì)瞬間變成陰雨天。  在體驗(yàn)了涂鴉功能后,硅星人也單獨(dú)嘗試了此次重點(diǎn)更新的文本輸入功能。 在輸入“Endless tall mountains in a sunny day(晴天下連綿的高山)”之后,左側(cè)立刻就生成了符合文本描述的景象。

自此,硅星人的整個(gè)體驗(yàn)都處于“哇”的狀態(tài)。但就在硅星人準(zhǔn)備將GauGAN稱(chēng)之為魔法之時(shí),隨著更多的嘗試,畫(huà)風(fēng)開(kāi)始逐漸走偏。 |AI也有翻車(chē)的時(shí)候 在按照英偉達(dá)給出的范例、測(cè)試了最簡(jiǎn)單的轉(zhuǎn)換之后,硅星人嘗試按照自己的想法,輸入比描述性短句更加復(fù)雜的文本。而這時(shí),返回的作品就開(kāi)始凌亂了。 當(dāng)硅星人在文本框輸入“一座坐落在寧?kù)o湖邊的房子(A house near the peaceful lake)”時(shí),系統(tǒng)并沒(méi)有返回正常的湖泊或者房子的圖像,而是呈現(xiàn)了一些非常抽象的圖。這是啥?黑暗城堡、長(zhǎng)在天上的樹(shù),還是云端的戰(zhàn)艦?怎么看都跟湖邊小屋沒(méi)啥關(guān)系。 此外,硅星人還發(fā)現(xiàn),目前GauGAN 2的文本識(shí)別好像是只局限在建筑、土地、景觀和植物這四大類(lèi)之中。比如,當(dāng)我們輸入“一頓感恩節(jié)火雞大餐(A thanksgiving turkey dinner)”時(shí),系統(tǒng)返回的圖像仿佛是什么外星來(lái)物,跟火雞、甚至晚餐根本都不沾邊。
 
輸入單詞“沙發(fā)(Sofa)”時(shí),返回來(lái)的圖是這樣的。如果有人看懂了這跟沙發(fā)之間的關(guān)系,麻煩留言解釋一下。
 
輸入單詞“圣誕樹(shù)(Christmas  tree)”時(shí),返回的圖片是這樣的。感覺(jué)不像是圣誕樹(shù),倒有點(diǎn)中國(guó)春節(jié)燈會(huì)的感覺(jué)。
 
而除了文本轉(zhuǎn)換,涂鴉模式也在接下來(lái)的體驗(yàn)中屢屢翻車(chē)。比如硅星人想畫(huà)一個(gè)“小河邊一座房子,房旁立著一顆樹(shù)”的情景,在使用各種類(lèi)別的畫(huà)筆在畫(huà)布上畫(huà)出布局之后,生成的圖像里就沒(méi)有小河,畫(huà)風(fēng)也非常詭異,完全跟想要呈現(xiàn)的寧?kù)o畫(huà)面大相徑庭。 
想畫(huà)“兩山之間一座橋”的情景,返回的畫(huà)風(fēng)也是十分灰暗。雖然硅星人也承認(rèn)自己是靈魂畫(huà)手,但也沒(méi)有必要這么“靈魂”吧?  而在多次嘗試和摸索后,硅星人終于總結(jié)出了一個(gè)用GauGAN 2返回正常畫(huà)作的規(guī)律。
首先,在文本生成部分,輸入的文本最好都跟自然景觀相關(guān),且形容詞越簡(jiǎn)單越好,像大海、湖泊、山、巖石、樹(shù)這些關(guān)鍵詞都能比較準(zhǔn)確返回結(jié)果。
在涂鴉部分,盡量不要給畫(huà)布留白,比如在畫(huà)河流或湖泊時(shí),周邊也要畫(huà)上土地或者草地,在涂鴉時(shí)也要盡量精細(xì),這樣系統(tǒng)會(huì)更容易理解你想要的感覺(jué)。 這背后的原因則是因?yàn)槟壳坝糜谟?xùn)練GauGAN 2的圖像大部分都是風(fēng)景類(lèi)的,導(dǎo)致模型結(jié)果存在偏差。此前,英偉達(dá)也公開(kāi)表示,GauGAN 2模型有超過(guò) 1 億的參數(shù),但目前訓(xùn)練時(shí)間還處于初始階段。訓(xùn)練圖像幾乎都來(lái)自專(zhuān)有的風(fēng)景圖像數(shù)據(jù)集,因此系統(tǒng)識(shí)別目前也只專(zhuān)注于風(fēng)景。 雖然GauGAN 2仍然還在Demo階段,硅星人自己的作品也都大部分翻車(chē)了。但硅星人也發(fā)現(xiàn)很多大神已經(jīng)使用GauGAN 2創(chuàng)作出了很多有趣的作品。 


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

pwm相關(guān)文章:pwm原理




關(guān)鍵詞: 英偉達(dá)

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉