研究人員嘗試用穩(wěn)定擴(kuò)散方法壓縮圖像結(jié)果竟然優(yōu)于JPEG

作者：時(shí)間：2022-09-29 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

上周，瑞士軟件工程師Matthias Bühlmann發(fā)現(xiàn) —— 流行的圖像合成模型“Stable Diffusion”，可實(shí)現(xiàn)較現(xiàn)有的JPEG或WebP格式更高的位圖圖像壓縮比、且視覺(jué)偽影也更少。

本文引用地址：http://2s4d.com/article/202209/438702.htm

即便如此，Stable Diffusion也不是那么完美。作為一種AI圖像合成模型，其通常根據(jù)文本描述（所謂的“提示”）而生成圖像。

用鋸齒彩塊來(lái)描繪的圖像壓縮概念

AI模型通過(guò)研究從互聯(lián)網(wǎng)上提取的數(shù)百萬(wàn)張圖像來(lái)學(xué)習(xí)這種能力，在訓(xùn)練過(guò)程中，模型在圖像和相關(guān)詞之間建立了統(tǒng)計(jì)關(guān)聯(lián)。然后對(duì)每張圖像的關(guān)鍵信息添加更小的“表示”和賦予“權(quán)重”，后者代表了AI圖像模型所掌握的數(shù)學(xué)值。

當(dāng)穩(wěn)定擴(kuò)散分析、并將圖像“壓縮”為權(quán)重形式時(shí)，它們就處在了所謂的“潛在空間”中：它們以一種模糊潛力的形式存在，且能夠在解碼時(shí)于圖像中復(fù)現(xiàn)。

這項(xiàng)研究中用到的Stable Diffusion 1.4，其權(quán)重文件大小約為4GB —— 代表了該AI模型掌握的數(shù)億張圖像的知識(shí)。

使用穩(wěn)定擴(kuò)散壓縮圖像的示例

盡管大多數(shù)人使用了帶文本提示的穩(wěn)定擴(kuò)散，但Bühlmann還是斬?cái)嗔宋谋揪幋a器、而是強(qiáng)制通過(guò)穩(wěn)定擴(kuò)散圖像編碼器來(lái)處理。

該過(guò)程將低精度的512×512圖像、轉(zhuǎn)換為更高精度的64×64潛在圖像空間表示。此時(shí)圖像存在的數(shù)據(jù)量較原始文件小得多，但仍可將之解碼擴(kuò)展回512×512圖像、并獲得相當(dāng)良好的結(jié)果。

測(cè)試期間，Bühlmann發(fā)現(xiàn)使用穩(wěn)定擴(kuò)散壓縮的新圖像，可在更高的壓縮比（更小的文件大?。┫?，主觀上看起來(lái)較JPEG或WebP更佳。

以這張美洲鴕的照片為例，其原始文件大小為768KB 。盡管JPEG/WebP格式分別可壓縮到5.68和5.71KB，但穩(wěn)定擴(kuò)散方法可進(jìn)一步壓縮到4.98KB 。

與對(duì)照的圖像壓縮格式相比，穩(wěn)定擴(kuò)散似乎具有更多可分辨的細(xì)節(jié)、以及明顯更少的壓縮偽影。

不過(guò)Bühlmann也指出了現(xiàn)階段的一個(gè)很大局限性：它不太適合面容或文本，且在某些情況下會(huì)讓解碼圖像中的細(xì)節(jié)特征產(chǎn)生“幻象”。

這些特征可能在源圖像中并不存在，更別提解碼需要?jiǎng)佑酶哌_(dá)4GB的穩(wěn)定擴(kuò)散權(quán)重文件、以及額外的解碼時(shí)間。

即便如此，這種非常規(guī)穩(wěn)定擴(kuò)散用例，還是較實(shí)際的解決方案更加有趣，甚至有望開(kāi)辟圖像合成模型的未來(lái)新用途。

新聞中心

研究人員嘗試用穩(wěn)定擴(kuò)散方法壓縮圖像結(jié)果竟然優(yōu)于JPEG

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

研究人員嘗試用穩(wěn)定擴(kuò)散方法壓縮圖像 結(jié)果竟然優(yōu)于JPEG

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

研究人員嘗試用穩(wěn)定擴(kuò)散方法壓縮圖像結(jié)果竟然優(yōu)于JPEG