Pika 1.0首測秒殺Gen-2!網(wǎng)友搶先體驗電影級炸裂效果,背后技術(shù)細節(jié)首公開
編輯:桃子
【導(dǎo)讀】Pika 1.0首測開啟了!網(wǎng)友搶先體驗,每個視頻都是經(jīng)典。
Pika 1.0正式上線后,拿到內(nèi)測資格的網(wǎng)友們已經(jīng)玩瘋了!
有人用它生成了一個姜黃色頭發(fā)女孩和她的姜黃色貓的短片。以往,因為一致性的難題,用AI視頻很難做出優(yōu)秀的動漫作品。但是Pika 1.0,實在是太給人驚喜了!更令人震驚的是,作者表示,這是100%用文本到視頻生成的。還記得半個月前,這家有斯坦福AI Lab博士創(chuàng)辦的初創(chuàng)公司Pika,發(fā)布的第一個產(chǎn)品瞬間成為頂流。不僅能夠生成3D動畫、動漫、卡通和電影,甚至可以實現(xiàn)風(fēng)格轉(zhuǎn)換、幕布擴展等重磅能力。如今,許多網(wǎng)友到手體驗后,紛紛覺得太哇塞了。與此同時,Pika官方賬號公布了自家的最新研究。這是Pika 1.0發(fā)布產(chǎn)品以來,這家公司首次對外披露技術(shù)細節(jié)。最新研究中,提出了一種DreamPropeller方法,能夠?qū)⑽谋镜?D的生成速度提升4.7倍。
網(wǎng)友實測,皆為經(jīng)典
接下來,先來一起看看,廣大網(wǎng)友們的創(chuàng)意。比起Runway的Gen-2,Pika 1.0在讓人物動起來時的一致性非常穩(wěn)定。
電影級效果,堪稱動漫界的「宮崎駿」
Pika 1.0非常擅長動漫風(fēng)格的動物,看看這些不同場景中的老鷹就知道了。看得出,宮崎駿畫風(fēng)非常濃郁。還有這種漫威風(fēng)格的小人模型,讓他們動起來真的像是「復(fù)仇者聯(lián)盟」。?還有形單影只的白天鵝,在波光粼粼的湖中嬉戲,再游到岸邊,好像在找回家的路。就連美版「機器人總動員」動畫的科幻風(fēng),呈現(xiàn)的也是淋漓盡致。一朵含苞待放的花朵。?如下這個例子是Pika自己做的叢林中兔子士兵的電影級效果,并給出了提示(拿到內(nèi)測資格的網(wǎng)友可試)1. Cinematic, extreme close-up of a bunny soldier in a jungle, 3D rendering2. Cinematic, back-view long shot of a bunny soldier exploring a giant carrot in the jungle, 3D rendering?瘋狂動物城、獅子王、熊大熊二混版動畫。網(wǎng)友做了一個電影預(yù)告片,就連名字都想好了「金剛哥斯拉:新帝國」。愛因斯坦和他的實驗。
還有一位自稱「AI級導(dǎo)演」做出的真人演示效果,簡直絕絕子。戴上帽子,穿上羽絨服,服飾的搭配與人的身體契合度,毫無違和感。還可以把周邊的物體變成松柏,還能把自己變成北極熊,簡直可愛到爆。還有「泰坦尼克號」重制版,女主Rose直接變成熊貓,和男主Jack在一起牽手的畫風(fēng),你細品...
用AI「修改區(qū)域」,能夠把所有背景,甚至包括主體的衣服能夠換成一致的圣誕的風(fēng)格。還有網(wǎng)友嘗試了這一替換功能,把海邊的啤酒,瞬間變成了可樂。具體實現(xiàn)效果,Chase Lean給出了一個教程,只需要3步過程。首先需要生成一個視頻,先讓Midjourney生成一張海邊Corona啤酒的圖片,然后將其做成視頻。第二步:單擊「編輯」,然后單擊「修改區(qū)域」。第三步,告訴Pika你想用什么來代替它,比如可口可樂。
圖像畫布擴展能力,其實我們也見到了許多像MidjourneyAI圖像生成工具已經(jīng)實現(xiàn)了。而Pika 1.0不僅能開出腦洞,還能讓畫面動起來。就看這雅典帕特農(nóng)神廟,外畫出的景色更加凸顯這座建筑的壯觀。還有橄欖樹、游覽古建筑都能暗藏各種驚喜。你可以錄一段視頻,Pika能夠直接想象出背景。下面這個網(wǎng)友使用文本提示創(chuàng)建了第一個視頻,然后擴展畫布幾次,獲得了第二個視頻。初始提示是:A beautiful princess, standing on the castle wall, 3d animation還有網(wǎng)友做出了,演唱會級的音樂視頻,不過不得不承認,還有些不足的地方。
Pika 1.0背后技術(shù)
看到這么多驚艷的效果,或許許多人更想了解一些關(guān)于Pika 1.0生成的技術(shù)細節(jié)。
這不,官方剛剛公布了一篇論文,是由斯坦福大學(xué)和Pika Labs聯(lián)手共創(chuàng)。以往,通過分數(shù)蒸餾,比如DreamFusion、ProlificDreamer等模型,進行文本到3D的生成質(zhì)量雖高,但運行時間可能長達10個小時。最新論文中,研究人員提出了一種基于分數(shù)蒸餾的加速方法——DreamPropeller,能夠?qū)F(xiàn)有方法的速度提高4.7倍。
論文地址:https://arxiv.org/pdf/2311.17082.pdfDreamPropeller整體架構(gòu)如下圖所示。在每次迭代(k次)的開始,初始化一個由3D形狀(用綠色表示)組成的窗口,然后,這些形狀被分發(fā)到p個GPU上進行并行計算,在GPU上并行計算形狀的SDS/VSD梯度。然后根據(jù)公式 (9) 中的規(guī)則收集這些梯度,并使用這些梯度對形狀進行更新。窗口向前滑動,直到該時間步的誤差不小于閾值e,閾值e根據(jù)窗口的平均/中值誤差進行自適應(yīng)更新。另外,在VSD的情況下,研究人員會在所有GPU上保留LoRA擴散的獨立副本,這些副本會獨立更新,無需額外通信。如下是應(yīng)用DreamPropeller的代表性示例。最新框架以并行計算換取速度,在保持生成質(zhì)量的前提下,應(yīng)用于DreamGaussian和ProlificDreamer時,速度提高了 4 倍以上。在DreamPropeller完成時,基線版本的外觀和幾何效果明顯較差。如下是與其他模型的可視化比較。使用DreamPropeller的方法能以更短的運行時間實現(xiàn)同樣高質(zhì)量的生成。對DreamFusion圖庫中的30個提示進行量化評估。運行時間以秒為單位。最新研究的方法達到了具有競爭力的質(zhì)量,同時速度提高了4倍以上。
下一個視頻生成頂流
對于Pika 1.0的誕生,讓全網(wǎng)熱血沸騰,而它或許成為下一個視頻生成的頂流。有人統(tǒng)計了Discord上最大的人工智能產(chǎn)品,以及它們在平臺范圍內(nèi)的規(guī)模。如下是按邀請頁面流量排序的十大人工智能應(yīng)用程序,Midjourney位列第一,Pika排在第二。在排名前十的應(yīng)用程序中,有4個是圖片生成應(yīng)用程序,3個是語音/歌曲生成應(yīng)用程序,2個是視頻生成應(yīng)用程序。按流量計算,圖片占了前10名流量的74%,其次是視頻8%,語音/音樂6%。
來源:新智元
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。