Pika 1.0首測秒殺Gen-2！網(wǎng)友搶先體驗電影級炸裂效果，背后技術(shù)細(xì)節(jié)首公開

發(fā)布人：傳感器技術(shù) 時間：2023-12-11 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編輯：桃子

【導(dǎo)讀】Pika 1.0首測開啟了！網(wǎng)友搶先體驗，每個視頻都是經(jīng)典。
Pika 1.0正式上線后，拿到內(nèi)測資格的網(wǎng)友們已經(jīng)玩瘋了！
有人用它生成了一個姜黃色頭發(fā)女孩和她的姜黃色貓的短片。以往，因為一致性的難題，用AI視頻很難做出優(yōu)秀的動漫作品。但是Pika 1.0，實在是太給人驚喜了！更令人震驚的是，作者表示，這是100%用文本到視頻生成的。還記得半個月前，這家有斯坦福AI Lab博士創(chuàng)辦的初創(chuàng)公司Pika，發(fā)布的第一個產(chǎn)品瞬間成為頂流。不僅能夠生成3D動畫、動漫、卡通和電影，甚至可以實現(xiàn)風(fēng)格轉(zhuǎn)換、幕布擴(kuò)展等重磅能力。如今，許多網(wǎng)友到手體驗后，紛紛覺得太哇塞了。與此同時，Pika官方賬號公布了自家的最新研究。這是Pika 1.0發(fā)布產(chǎn)品以來，這家公司首次對外披露技術(shù)細(xì)節(jié)。最新研究中，提出了一種DreamPropeller方法，能夠?qū)⑽谋镜?D的生成速度提升4.7倍。

網(wǎng)友實測，皆為經(jīng)典

接下來，先來一起看看，廣大網(wǎng)友們的創(chuàng)意。比起Runway的Gen-2，Pika 1.0在讓人物動起來時的一致性非常穩(wěn)定。

電影級效果，堪稱動漫界的「宮崎駿」

Pika 1.0非常擅長動漫風(fēng)格的動物，看看這些不同場景中的老鷹就知道了。看得出，宮崎駿畫風(fēng)非常濃郁。還有這種漫威風(fēng)格的小人模型，讓他們動起來真的像是「復(fù)仇者聯(lián)盟」。?還有形單影只的白天鵝，在波光粼粼的湖中嬉戲，再游到岸邊，好像在找回家的路。就連美版「機(jī)器人總動員」動畫的科幻風(fēng)，呈現(xiàn)的也是淋漓盡致。一朵含苞待放的花朵。?如下這個例子是Pika自己做的叢林中兔子士兵的電影級效果，并給出了提示（拿到內(nèi)測資格的網(wǎng)友可試）1. Cinematic, extreme close-up of a bunny soldier in a jungle, 3D rendering2. Cinematic, back-view long shot of a bunny soldier exploring a giant carrot in the jungle, 3D rendering?瘋狂動物城、獅子王、熊大熊二混版動畫。網(wǎng)友做了一個電影預(yù)告片，就連名字都想好了「金剛哥斯拉：新帝國」。愛因斯坦和他的實驗。

真人變身，泰坦尼克號被惡搞

還有一位自稱「AI級導(dǎo)演」做出的真人演示效果，簡直絕絕子。戴上帽子，穿上羽絨服，服飾的搭配與人的身體契合度，毫無違和感。還可以把周邊的物體變成松柏，還能把自己變成北極熊，簡直可愛到爆。還有「泰坦尼克號」重制版，女主Rose直接變成熊貓，和男主Jack在一起牽手的畫風(fēng)，你細(xì)品...

，時長01:16

??再來看個真人變身的效果，還有二次元小姐姐。

AI魔法棒，一鍵替換

用AI「修改區(qū)域」，能夠把所有背景，甚至包括主體的衣服能夠換成一致的圣誕的風(fēng)格。還有網(wǎng)友嘗試了這一替換功能，把海邊的啤酒，瞬間變成了可樂。具體實現(xiàn)效果，Chase Lean給出了一個教程，只需要3步過程。首先需要生成一個視頻，先讓Midjourney生成一張海邊Corona啤酒的圖片，然后將其做成視頻。第二步：單擊「編輯」，然后單擊「修改區(qū)域」。第三步，告訴Pika你想用什么來代替它，比如可口可樂。

畫布擴(kuò)展，超凡腦洞

圖像畫布擴(kuò)展能力，其實我們也見到了許多像MidjourneyAI圖像生成工具已經(jīng)實現(xiàn)了。而Pika 1.0不僅能開出腦洞，還能讓畫面動起來。就看這雅典帕特農(nóng)神廟，外畫出的景色更加凸顯這座建筑的壯觀。還有橄欖樹、游覽古建筑都能暗藏各種驚喜。你可以錄一段視頻，Pika能夠直接想象出背景。下面這個網(wǎng)友使用文本提示創(chuàng)建了第一個視頻，然后擴(kuò)展畫布幾次，獲得了第二個視頻。初始提示是：A beautiful princess, standing on the castle wall, 3d animation還有網(wǎng)友做出了，演唱會級的音樂視頻，不過不得不承認(rèn)，還有些不足的地方。

，時長01:28

Pika 1.0背后技術(shù)

看到這么多驚艷的效果，或許許多人更想了解一些關(guān)于Pika 1.0生成的技術(shù)細(xì)節(jié)。
這不，官方剛剛公布了一篇論文，是由斯坦福大學(xué)和Pika Labs聯(lián)手共創(chuàng)。以往，通過分?jǐn)?shù)蒸餾，比如DreamFusion、ProlificDreamer等模型，進(jìn)行文本到3D的生成質(zhì)量雖高，但運(yùn)行時間可能長達(dá)10個小時。最新論文中，研究人員提出了一種基于分?jǐn)?shù)蒸餾的加速方法——DreamPropeller，能夠?qū)F(xiàn)有方法的速度提高4.7倍。

論文地址：https://arxiv.org/pdf/2311.17082.pdfDreamPropeller整體架構(gòu)如下圖所示。在每次迭代（k次）的開始，初始化一個由3D形狀（用綠色表示）組成的窗口，然后，這些形狀被分發(fā)到p個GPU上進(jìn)行并行計算，在GPU上并行計算形狀的SDS/VSD梯度。然后根據(jù)公式 (9) 中的規(guī)則收集這些梯度，并使用這些梯度對形狀進(jìn)行更新。窗口向前滑動，直到該時間步的誤差不小于閾值e，閾值e根據(jù)窗口的平均/中值誤差進(jìn)行自適應(yīng)更新。另外，在VSD的情況下，研究人員會在所有GPU上保留LoRA擴(kuò)散的獨(dú)立副本，這些副本會獨(dú)立更新，無需額外通信。如下是應(yīng)用DreamPropeller的代表性示例。最新框架以并行計算換取速度，在保持生成質(zhì)量的前提下，應(yīng)用于DreamGaussian和ProlificDreamer時，速度提高了 4 倍以上。在DreamPropeller完成時，基線版本的外觀和幾何效果明顯較差。如下是與其他模型的可視化比較。使用DreamPropeller的方法能以更短的運(yùn)行時間實現(xiàn)同樣高質(zhì)量的生成。對DreamFusion圖庫中的30個提示進(jìn)行量化評估。運(yùn)行時間以秒為單位。最新研究的方法達(dá)到了具有競爭力的質(zhì)量，同時速度提高了4倍以上。

下一個視頻生成頂流

對于Pika 1.0的誕生，讓全網(wǎng)熱血沸騰，而它或許成為下一個視頻生成的頂流。有人統(tǒng)計了Discord上最大的人工智能產(chǎn)品，以及它們在平臺范圍內(nèi)的規(guī)模。如下是按邀請頁面流量排序的十大人工智能應(yīng)用程序，Midjourney位列第一，Pika排在第二。在排名前十的應(yīng)用程序中，有4個是圖片生成應(yīng)用程序，3個是語音/歌曲生成應(yīng)用程序，2個是視頻生成應(yīng)用程序。按流量計算，圖片占了前10名流量的74%，其次是視頻8%，語音/音樂6%。
來源：新智元