GAN重出江湖！中國團隊搶先開源“復刻版”DragGAN，AI一鍵實現(xiàn)“大象轉身”

發(fā)布人：硅星人時間：2023-06-07 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發(fā)布文章

李白實驗室搶先開源「復刻」版DragGAN

文|硅星人編輯| VickyXiao

在大家沉迷于Midjourney、Stable Diffusion 技術中無法自拔時，一時被人遺忘的GAN又帶著新技術重出江湖了。現(xiàn)在P圖，你只需要“輕輕點兩下”，AI就能迅速理解你的想法，秒速生成結果圖。

DragGAN是由Max Planck研究所開發(fā)的一種新的人工智能工具，它允許用戶通過幾個點擊和拖動來真實地修改照片，目前還未對外開源。但王道控股旗下的“李白實驗室”算法團隊搶先重現(xiàn)了DragGAN的效果。

目前，可直接使用的模型能夠讓你輕松掌控圖片中的人物和動物，通過拖拽控制點和目標點來調整他們的位置、形狀、姿勢等等。現(xiàn)在已經(jīng)可以在 Hugging Face 上直接使用了。

體驗入口：

https://huggingface.co/spaces/wuutiing2/DragGAN_pytorch

幾個點擊，輕松生成結果圖

修改微笑弧度，讓一張嚴肅的照片變成露牙甜美笑

放大圖片中小哥哥的眼睛

拍照臉型不好看，一鍵瘦臉，毫無PS痕跡

覺得貓咪太瘦不夠可愛，可以給它拉大臉龐，增加可愛度。

發(fā)際線拯救神器，這簡直就是禿頭星人的救命工具

輕輕一拖，在不影響美觀的情況下，可以讓貓咪的耳朵縮小

讓獅子向右側方向移動，是不是和“大象轉身”的操作很接近

可以隨意改變模特的發(fā)型，短發(fā)變長發(fā)；本來雙腳分開站立的模特，可以瞬間把腿拉至并攏

原理揭秘：基于GAN的圖像編輯方法

雖然上述的效果展示很多，但是其實DragGAN也就兩個技術原理：

1、基于特征的運動監(jiān)督，驅動手柄點向目標位置移動；

2、一個新的點追蹤方法，利用鑒別性的發(fā)生器特征，不斷定位手柄點的位置。

DragGAN是一種基于GAN的圖像編輯方法，可以實現(xiàn)運動監(jiān)督和精確點跟蹤。任何人都可以通過DragGAN對像素進行精確的控制，進而編輯如動物、汽車、人類、風景等多種類別的姿態(tài)、形狀、表情和布局。

DragGAN還允許用戶選擇感興趣的區(qū)域以執(zhí)行特定于區(qū)域的編輯，而不需要依賴其他網(wǎng)絡。李白實驗室復現(xiàn)的“DragGAN”只需要幾秒就能完成效果，你可以選擇不同的迭代步數(shù)，步數(shù)越多效果越夸張，其生成時間就越慢。

此外，DragGAN的無損優(yōu)化功能可以讓用戶輸入二進制掩碼，指示圖像中的可移動區(qū)域，從而實現(xiàn)更細致的控制，避免損壞圖片的原屬性。

與傳統(tǒng)PS的液化功能相比，DragGAN在編輯圖片時可以更好地保持圖片的原始屬性，并且具有更廣泛的應用范圍。例如，可以使用DragGAN來改變圖片中車輛的位置、大小和輪胎的形狀等。這種方法可以在幾次鼠標拖動的時間內完成，非常方便快捷。

聚焦圖像處理：從大項目到“小”工具

此次復現(xiàn)了DragGAN的“李白實驗室”是一個年輕的人工智能技術團隊，其中主創(chuàng)始人唐勇博士，畢業(yè)于美國賓夕法尼亞州立大學，在美國知名500強企業(yè)擔任技術學科專家，高級工程師等。其他成員均畢業(yè)于國內外知名高校，清華、北大、浙大、英國皇家理工和美國常青藤范圍等。

在開啟創(chuàng)業(yè)之路之前，唐勇曾在美國的知名研究機構以及世界五百強企業(yè)工作。他主導并參與了眾多社會、環(huán)境和能源的相關項目，這些項目的合作伙伴包括美國環(huán)保署，美國國家海洋和大氣管理局以及全球頂尖能源公司。他專注于運用數(shù)學物理模型、高性能計算、多目標優(yōu)化以及人工智能技術，解答現(xiàn)實世界中大尺度、多模態(tài)、多變量的復雜難題，這其中包括洪水預報、氣候變化、能源管道設備優(yōu)化設計以及系統(tǒng)安全等一系列棘手問題。

然而，現(xiàn)實世界的問題千絲萬縷，影響因子五花八門，充滿了無法預料的不確定性，完全理解其數(shù)學物理機理似乎是一項幾乎無法完成的挑戰(zhàn)。因此，在找到合伙人并得到杭州王道創(chuàng)投基金的支持后，唐勇還是成立了名為“李白”的人工智能實驗室，投入大量精力研發(fā)計算機視覺、語音以及自然語言處理等前沿技術，希望通過人工智能技術提升模型的泛化能力，從而更有效地解決現(xiàn)實世界的復雜問題。

郭銘濤作為主創(chuàng)人員，也和在團隊一起攻堅克難后，終于復現(xiàn)了DragGAN。郭銘濤來自四川大學圖像所，目前在讀博士一年級，主要研究方向就是深度生成模型，此前他還獲得了CVPR 2023 工業(yè)圖像缺陷生成競賽冠軍。

“李白實驗室”在智能圖像生成方面已經(jīng)有不少積累。他們基于GAN技術實現(xiàn)了圖像分割、圖像修復增強、視頻處理等實用性功能，其中圖像背景分割算法模型在全球圖像分割alphamatting.com的模型評比中斬獲全球第一，獲得國內外近30項學術和研究成果專利，80%為發(fā)明專利。

他們還在2019年創(chuàng)辦了“PicUP.Ai皮卡智能”項目，海外同步上線“cutout.pro”項目，海外月活超千萬用戶，海外站更是躋身圖像編輯工具分類排名前十。