數(shù)字人包含哪些生成式AI技術(shù)？上交最新「基于神經(jīng)網(wǎng)絡(luò)的生成式三維數(shù)字人研究綜述：表示、渲染與學(xué)習(xí)」

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2023-05-22 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

隨著人工智能技術(shù)的高速發(fā)展, 計(jì)算機(jī)視覺(jué)與圖形學(xué)等相關(guān)學(xué)科的交叉融合掀起了一場(chǎng)數(shù)字人生成技術(shù)的新革命, 人類進(jìn)入 “元宇宙” 等數(shù)字空間的夢(mèng)想正逐漸變?yōu)楝F(xiàn)實(shí)。面對(duì)大規(guī)模三維數(shù)字人的生產(chǎn)需求, 基于傳統(tǒng)圖形學(xué)的建模過(guò)程繁瑣, 周期冗長(zhǎng), 阻礙了虛擬數(shù)字人的普及和應(yīng)用, 而利用生成式人工智能技術(shù)產(chǎn)生高擬真, 規(guī)?；奶摂M數(shù)字人正逐漸成為研究熱點(diǎn)。為了深入了解三維數(shù)字人技術(shù)的研究現(xiàn)狀與挑戰(zhàn), 本文從生成式模型的視角對(duì)數(shù)字人技術(shù)進(jìn)行了系統(tǒng)性梳理, 并總結(jié)了其中的三個(gè)關(guān)鍵步驟：表示, 渲染與學(xué)習(xí)。隨后, 對(duì)顯式及隱式的表示方法進(jìn)行總結(jié), 對(duì)傳統(tǒng)渲染與神經(jīng)網(wǎng)絡(luò)渲染的成像方式進(jìn)行歸納, 并概括了相應(yīng)的模型學(xué)習(xí)方法。最后, 本文對(duì)三維數(shù)字人的典型應(yīng)用進(jìn)行分析, 并對(duì)當(dāng)前挑戰(zhàn)與未來(lái)發(fā)展方向進(jìn)行總結(jié)和展望。

https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0319;JSESSIONID=af939365-8f15-4f4d-8515-90c44941e4a6

1. 引言

元宇宙” 的概念起源于 1992 年的科幻小說(shuō)雪崩, 在這部小說(shuō)中, 人類可以通過(guò)虛擬化身進(jìn)入數(shù)字空間, 并相互交流。30 年之后的今天, 隨著計(jì)算機(jī)視覺(jué)與圖形學(xué)技術(shù)的發(fā)展, “元宇宙” 已經(jīng)走到了互聯(lián)網(wǎng)數(shù)字經(jīng)濟(jì)發(fā)展的最前沿, 不再是小說(shuō)中遙不可及的夢(mèng)想. 虛擬數(shù)字人作為 “元宇宙” 的 “原住民”, 是 “元宇宙” 技術(shù)的核心與基石。為了在 “元宇宙” 中產(chǎn)生沉浸式的體驗(yàn), 虛擬數(shù)字人不僅要有逼真的外觀, 也要實(shí)現(xiàn)肢體動(dòng)作和語(yǔ)言表達(dá)的流暢自然. 同時(shí), 由于人類天然擁有社會(huì)屬性, 交互能力將是數(shù)字人在 “元宇宙” 中的重要屬性。因此, 大規(guī)模生成高質(zhì)量虛擬數(shù)字人化身, 既是人類進(jìn)入 “元宇宙” 等虛擬世界的基礎(chǔ), 也是人類進(jìn)一步探索更廣闊的數(shù)字空間的迫切需求。

數(shù)字人的概念起源于醫(yī)學(xué)領(lǐng)域, 可追溯到 1989 年美國(guó)國(guó)家醫(yī)學(xué)圖書館的 “可視人體” 計(jì)劃 1) , 旨在實(shí)現(xiàn)人體的解剖結(jié)構(gòu)的三維顯示。本文所討論的數(shù)字人技術(shù)則更為寬泛, 指代運(yùn)用數(shù)字技術(shù)創(chuàng)造的, 擁有數(shù)字化表現(xiàn)形式的虛擬人物。數(shù)字人可以以二維或者三維形式呈現(xiàn)。早期的虛擬數(shù)字人形象以平面動(dòng)漫偶像為主, 并不涉及三維建模等復(fù)雜流程, 因此形象的立體感與真實(shí)度受到限制。隨著計(jì)算機(jī)圖形學(xué)技術(shù)的發(fā)展, 三維建模與渲染技術(shù)快速進(jìn)步, 引領(lǐng)了數(shù)字人的研究趨勢(shì)。一些頂尖的科研機(jī)構(gòu)和商業(yè)團(tuán)隊(duì)已經(jīng)能夠生產(chǎn)高擬真的虛擬數(shù)字人, 并成功應(yīng)用于虛擬偶像生成 2) , 影視角色制作 3) , 真人化身重建 4)中, 如圖 1所示。但是, 基于傳統(tǒng)圖形學(xué)的三維數(shù)字人的建模過(guò)程包括形象采集, 模型制作, 紋理貼圖, 動(dòng)作采集與驅(qū)動(dòng)等復(fù)雜流程, 依賴于專業(yè)的感知設(shè)備和精細(xì)的人力工作, 周期冗長(zhǎng)且只能定制化生產(chǎn), 無(wú)法滿足大規(guī)模數(shù)字人的生產(chǎn)需求, 這些限制阻礙了數(shù)字人的普及和應(yīng)用。近年來(lái), 隨著人工智能和神經(jīng)網(wǎng)絡(luò)的發(fā)展, 生成式人工智能在圖像生成, 語(yǔ)言交互等方面取得了巨大進(jìn)展 [2,3] 。生成式數(shù)字人指使用生成式人工智能技術(shù)創(chuàng)造數(shù)字人的方法, 主要是以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)真實(shí)的數(shù)據(jù)分布, 對(duì)數(shù)據(jù)分布進(jìn)行采樣以生成新的樣本表示, 并對(duì)數(shù)據(jù)表示進(jìn)行渲染從而呈現(xiàn)出高度真實(shí)的三維數(shù)字人。生成式人工智能技術(shù)極大簡(jiǎn)化了三維數(shù)字人建模流程, 提升了模型的真實(shí)感, 因此展現(xiàn)出了巨大的發(fā)展?jié)摿Α?/span>

本文從生成式模型的視角對(duì)三維數(shù)字人技術(shù)進(jìn)行梳理, 首先整體介紹生成式三維數(shù)字人的建模流程, 分解出其中的三個(gè)主要步驟 (第 2 節(jié)). 然后分別介紹數(shù)字人表示方法 (第 3 節(jié)), 數(shù)字人渲染方法 (第 4 節(jié)), 以及模型的學(xué)習(xí)方式 (第 5 節(jié)). 之后列舉了數(shù)字人的一些典型應(yīng)用 (第 6 節(jié)), 最后指出現(xiàn)有挑戰(zhàn)并對(duì)未來(lái)進(jìn)行展望 (第 7 節(jié)). 已有一些綜述論文對(duì)數(shù)字人的某類建模或渲染方法進(jìn)行總結(jié), 如 3DMM 模型 [4] , 人臉重建 [5] , 人體重建 [6,7] , 三維渲染 [8,9] 等, 與這些論文不同, 本文旨在從生成式模型的視角對(duì)三維數(shù)字人 (人臉及人體) 技術(shù)進(jìn)行全面回顧, 重點(diǎn)介紹基于神經(jīng)網(wǎng)絡(luò)的數(shù)字人研究方法, 梳理其技術(shù)發(fā)展趨勢(shì)及典型應(yīng)用場(chǎng)景, 讓讀者能夠較為全面地了解數(shù)字人的生成技術(shù)。值得注意的是, 除了人臉與人體之外, 頭發(fā), 手, 服飾, 骨架等模型同樣也屬于數(shù)字人的研究范疇, 但并非本文的主要關(guān)注對(duì)象, 相關(guān)內(nèi)容將在 7.1 節(jié)和 7.2 節(jié)予以討論。

2. 生成式三維數(shù)字人建模流程

構(gòu)建一個(gè)完整的生成式三維數(shù)字人模型主要包括三個(gè)步驟, 分別為模型表示, 渲染與學(xué)習(xí), 如圖 2 所示, 本文后續(xù)章節(jié)使用 “建模” 一詞來(lái)特指這一過(guò)程. 首先, 需要確定三維數(shù)字人模型的表示方式, 常見(jiàn)的表示方式可以分為顯式表示和隱式表示兩種形式. 其中, 顯式表示一般直接給出滿足條件的所有元素的集合, 如點(diǎn)云包含三維空間中點(diǎn)的位置, 而多邊形網(wǎng)格則包含頂點(diǎn)位置及其連接關(guān)系等信息. 由于傳統(tǒng)的渲染管線已經(jīng)能夠成熟地對(duì)數(shù)字人的顯式表示 (尤其是基于多邊形網(wǎng)格的表示) 進(jìn)行高效處理, 因此, 在游戲, 影視制作等工業(yè)應(yīng)用中, 主要使用顯式表示模型. 然而, 顯式表示的精細(xì)程度會(huì)受到模型分辨率的限制, 為了產(chǎn)生高擬真的數(shù)字人, 需要大量元素來(lái)逼近模型的細(xì)節(jié), 從而造成模型復(fù)雜度的上升. 而與此對(duì)應(yīng)的隱式表示僅需給出對(duì)于三維空間的某種約束, 如符號(hào)距離函數(shù), 水平集等. 隨著深度學(xué)習(xí)的發(fā)展, 越來(lái)越多的方法使用神經(jīng)網(wǎng)絡(luò)來(lái)逼近隱式函數(shù), 如深度符號(hào)距離函數(shù) [10] , 神經(jīng)輻射場(chǎng) [11] 等, 并由此恢復(fù)出數(shù)字人的精細(xì)幾何與紋理. 隱式表示作為一種更加靈活的表示方式, 使得數(shù)字人模型能夠突破空間分辨率的限制, 因此, 隱式表示正逐漸成為數(shù)字人研究的熱點(diǎn).

第二個(gè)重要步驟是渲染, 表示從三維數(shù)字人模型到二維圖像的映射過(guò)程, 該步驟直接決定了數(shù) 字人呈現(xiàn)的視覺(jué)效果。在真實(shí)世界中, 光線在物體表面發(fā)生反射進(jìn)入人眼, 形成肉眼觀察到的圖像。由于真實(shí)世界的復(fù)雜性, 難以對(duì)每一條光線進(jìn)行精確追蹤, 因此, 圖形學(xué)中的渲染過(guò)程一般是對(duì)物理世界成像原理的模擬和簡(jiǎn)化. 以人臉為例, 一種經(jīng)典的處理方式是將人臉?lè)纸鉃楸旧珗D (albedo) 和反射圖. 其中本色圖代表皮膚表面的顏色材質(zhì), 反射圖代表光線在人臉表面反射之后造成的效果, 由人臉表面法向方向與光照共同決定, 這種簡(jiǎn)化被稱為朗伯反射模型 (Lambertian Reflectance Model)[12,13] 。后續(xù)一些方法在此基礎(chǔ)上加入了粗糙度 (roughness) 與高光 (specular) 分量, 提升了渲染結(jié)果的質(zhì)量。圖形學(xué)中渲染過(guò)程的簡(jiǎn)化雖然降低了計(jì)算復(fù)雜度, 但是同時(shí)也造成了渲染質(zhì)量的下降, 使其難以生成高擬真的數(shù)字人形象. 而與此對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)渲染技術(shù)將數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)與物理規(guī)律約束的渲染管線相結(jié)合, 極大的提升了渲染的真實(shí)感。近年來(lái), 神經(jīng)網(wǎng)絡(luò)渲染技術(shù)已經(jīng)成功應(yīng)用到數(shù)字人生成流程中, 使生成高度擬真的三維數(shù)字人成為可能.

最后, 生成式三維數(shù)字人模型需要對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí), 不同的數(shù)據(jù)類型會(huì)造成學(xué)習(xí)方式的差異。如使用三維掃描數(shù)據(jù), 對(duì)于網(wǎng)格等顯式表示模型, 一般需要先將掃描數(shù)據(jù)與模型進(jìn)行配準(zhǔn), 生成一致的拓?fù)浣Y(jié)構(gòu), 然后進(jìn)行學(xué)習(xí)。而對(duì)于隱式表示模型, 則一般可以直接從原始掃描數(shù)據(jù)進(jìn)行學(xué)習(xí)。由于三維掃描依賴專業(yè)的采集設(shè)備, 同時(shí)采集成本高昂, 因此難以構(gòu)建大規(guī)模的掃描數(shù)據(jù)集, 覆蓋不同人種, 年齡, 性別, 表情, 姿態(tài)的變化。因此, 從有限小規(guī)模掃描數(shù)據(jù)中學(xué)習(xí)到的數(shù)字人模型難以精確泛化到現(xiàn)實(shí)世界中復(fù)雜多變的真人數(shù)據(jù)。而與此對(duì)應(yīng)的二維圖像數(shù)據(jù)采集更為方便, 同時(shí)能夠保證數(shù)據(jù)規(guī)模與多樣性。因此, 如何從二維圖像數(shù)據(jù)中學(xué)習(xí)三維數(shù)字人模型也是一個(gè)重要研究方向。為了解決二維圖像缺乏三維幾何信息的局限性, 現(xiàn)有方法主要從多視角學(xué)習(xí), 結(jié)合三維幾何先驗(yàn), 自監(jiān)督學(xué)習(xí)等方式為二維圖像添加三維幾何或語(yǔ)義約束, 并使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)字人的生成模型。

3. 生成式三維數(shù)字人模型表示

數(shù)字人可以視為現(xiàn)實(shí)人類在 “元宇宙” 中的投射, 它不僅需要對(duì)人類外觀進(jìn)行真實(shí)的模擬, 也需要逼近真人的行為動(dòng)作以及表情神態(tài)。為此, 作為數(shù)字人的基礎(chǔ), 三維數(shù)字人模型利用顯式或隱式表示, 盡可能貼近真人的外觀, 并且建立多種多樣符合人類行為的物理屬性。本章討論三維數(shù)字人模型的表示方法, 首先介紹基于顯式表示的數(shù)字人模型, 包含人臉和人體的表示方法；然后介紹基于隱式表示的數(shù)字人模型。

3.1 基于顯式表示的數(shù)字人模型

顯式表示是三維物體的一類常見(jiàn)表示方法, 即物體的三維結(jié)構(gòu)被直接給出或通過(guò)參數(shù)映射的方式給出, 具體表現(xiàn)形式包括點(diǎn)云, 多邊形網(wǎng)格, 參數(shù)曲面函數(shù)等. 基于顯式表示的數(shù)字人模型通常使用多邊形網(wǎng)格進(jìn)行表示, 利用大量掃描數(shù)據(jù)通過(guò)統(tǒng)計(jì)學(xué)或深度學(xué)習(xí)的方法得到先驗(yàn)?zāi)Ｐ? 從而通過(guò)低維變量控制復(fù)雜的三維數(shù)字人, 這為高效, 規(guī)?；厣扇S數(shù)字人奠定了基礎(chǔ), 如圖 3 所示。人臉和人體模型是數(shù)字人領(lǐng)域的兩大主流研究方向, 由于人臉和人體具備不同的空間結(jié)構(gòu)以及形變方式, 因此本節(jié)將分別介紹這兩種顯式表示方法。

3.2 基于隱式表示的數(shù)字人模型

顯式表示使用一系列的離散單元來(lái)逼近三維物體, 然而, 在真實(shí)世界中, 數(shù)據(jù)是 (近似) 連續(xù)的, 為了盡可能地逼近真實(shí)數(shù)據(jù), 需要不斷增大顯式模型的分辨率, 這將造成巨大的計(jì)算開銷. 而與此對(duì)應(yīng)的隱式表示使用一個(gè)連續(xù)函數(shù)來(lái)表示數(shù)據(jù), 因此隱式表示的復(fù)雜度不再取決于數(shù)據(jù)的空間分辨率, 這為三維物體提供了一種靈活輕便的表示形式. 然而物體是復(fù)雜多樣的, 通常難以用明確的函數(shù) 對(duì)其進(jìn)行準(zhǔn)確的表征, 因而研究者們常采用深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近該復(fù)雜函數(shù), 這類表示方法也被稱作 “隱式神經(jīng)表示”。在隱式神經(jīng)表示中, 隱式的連續(xù)函數(shù)通常采用多層感知機(jī) (MLP) 進(jìn)行參數(shù)化逼近, 以空間三維坐標(biāo) p = (x, y, z) ∈ R 3 作為輸入, 輸出 p 點(diǎn)具有物理意義的屬性 fim(p), 形成了空間中的隱式場(chǎng)：F : p 7?→ fim(p), (4) 其中, fim(p) 通常表示三維空間點(diǎn)的幾何或紋理屬性, 例如 DeepSDF[10] 采用的符號(hào)距離函數(shù) (Signed Distance Function, SDF), OccNet [58] 采用的的占據(jù)場(chǎng) (Occupancy Field) 以及 NeRF [11] 提出的神經(jīng)輻射場(chǎng) (體密度值和顏色值的表示) 等. 此后的一些工作將隱式表示引入了生成模型, 逐步建立了具有可控性的隱式數(shù)字人生成模型. 通過(guò)隱式表示作為媒介, 生成式數(shù)字人模型學(xué)習(xí)數(shù)字人特征的全局或局部分布, 可以分為兩類, 一類是基于生成對(duì)抗網(wǎng)絡(luò) [59] (Generative Adversarial Network, GAN) 的方法, 另一類是基于可控形變場(chǎng)的方法, 如圖 4 所示。

3.3 顯式表示和隱式表示對(duì)比

基于顯式表示的數(shù)字人模型相對(duì)較為直觀, 常通過(guò)低維參數(shù)對(duì)模型進(jìn)行控制, 這些參數(shù)通常與實(shí) 際的物理意義相對(duì)應(yīng), 能夠便捷, 高效地生成三維數(shù)字人. 此外, 顯式表示的模型較為成熟, 更容易與現(xiàn)有的圖形學(xué)渲染管線兼容, 應(yīng)用更加廣泛。但是顯式表示的模型在精細(xì)度方面受分辨率影響, 當(dāng)模型分辨率提高時(shí), 顯式表示的復(fù)雜度也會(huì)相應(yīng)大幅度增加, 對(duì)內(nèi)存造成極大的負(fù)擔(dān)。相比顯式表示, 隱式表示的數(shù)字人模型最獨(dú)特的優(yōu)點(diǎn)是模型不再與空間分辨率耦合。由于隱式表示是連續(xù)函數(shù), 因而數(shù)字人模型可以以任意空間分辨率進(jìn)行采樣, 即 “無(wú)限分辨率”。隱式模型的方法在面對(duì)復(fù)雜場(chǎng)景時(shí)存在表示不夠精細(xì), 渲染速度慢等缺點(diǎn), 但對(duì)于生成式數(shù)字人的任務(wù)來(lái)說(shuō), 隱式方法面對(duì)的是一個(gè) 具有明確拓?fù)浣Y(jié)構(gòu)的幾何體, 因而利用顯式的拓?fù)浣Y(jié)構(gòu)來(lái)約束和優(yōu)化隱式表示將有望規(guī)避這些缺點(diǎn)。

4. 生成式三維數(shù)字人渲染

渲染是指將三維模型根據(jù)觀察條件 (方向, 距離等) 進(jìn)行采樣計(jì)算并生成二維圖像的過(guò)程, 具體計(jì)算方法由渲染目標(biāo)三維模型的表示, 存儲(chǔ)形式?jīng)Q定, 因此數(shù)字人渲染可根據(jù)其表示形式采用與之對(duì) 應(yīng)的渲染方法。基于第 3 節(jié)的討論, 三維數(shù)字人模型的表示形式主要包括以多邊形網(wǎng)格, 點(diǎn)云, 體素及參數(shù)化表面函數(shù)等顯式格式存儲(chǔ)記錄的三維數(shù)字人, 和以神經(jīng)輻射場(chǎng), 隱式表面函數(shù)為代表的隱式表示存儲(chǔ)的三維數(shù)字人。由于二者的表示形式與性質(zhì)的差異, 其渲染方法也有所不同. 傳統(tǒng)圖形學(xué)渲染方式主要針對(duì)顯式記錄的三維模型, 該類三維模型廣泛應(yīng)用于各類商用軟件以及影視游戲內(nèi)容創(chuàng)作中。而神經(jīng)渲染則主要針對(duì)隱式表示的數(shù)字人, 根據(jù)給定的渲染參數(shù)通過(guò)對(duì)深度神經(jīng)網(wǎng)絡(luò)中記錄的三維數(shù)字人模型進(jìn)行采樣計(jì)算, 將最終結(jié)果以圖像或視頻形式進(jìn)行呈現(xiàn)。本節(jié)將對(duì)這兩類渲染方式進(jìn)行討論。

5. 生成式三維數(shù)字人模型學(xué)習(xí)

本節(jié)討論生成式三維數(shù)字人的模型學(xué)習(xí)方法, 完成生成式三維數(shù)字人的建模流程. 生成式數(shù)字人模型學(xué)習(xí)包括對(duì)第 3 節(jié)表示參數(shù)和第 4 節(jié)渲染參數(shù)的學(xué)習(xí), 這些參數(shù)將定義一個(gè)生成式數(shù)字人模型. 生成式數(shù)字人模型首先從二維或三維數(shù)據(jù)中學(xué)習(xí)三維數(shù)字人的分布規(guī)律, 再通過(guò)采樣或渲染等方式實(shí)現(xiàn)數(shù)字人的生成, 數(shù)據(jù)類型與模型表示方式的不同會(huì)造成學(xué)習(xí)方法的差異。本節(jié)首先討論數(shù) 據(jù)集的獲取與處理方式, 然后分別介紹生成式三維數(shù)字人顯式表示模型與隱式表示模型的學(xué)習(xí)方法, 如圖 7 所示：

6. 生成式三維數(shù)字人的應(yīng)用

經(jīng)過(guò)完整的生成式三維數(shù)字人建模流程之后, 生成模型將學(xué)習(xí)到數(shù)字人的先驗(yàn)信息, 針對(duì)模型進(jìn)行相應(yīng)微調(diào)即可應(yīng)用到下游任務(wù)。在虛擬數(shù)字人的應(yīng)用中, 虛擬數(shù)字人擁有人的形態(tài), 能夠表現(xiàn)人的行為, 并且能與外界環(huán)境進(jìn)行交互是三項(xiàng)極為重要的特征。因此數(shù)字人的重建, 驅(qū)動(dòng)以及交互是當(dāng)前虛擬數(shù)字人的重要研究方向, 本節(jié)主要介紹這三方面的應(yīng)用。

6.1 數(shù)字人重建

數(shù)字人重建是指從圖像或視頻中恢復(fù)人體和人臉的三維幾何形狀以及對(duì)應(yīng)的外觀信息, 以實(shí)現(xiàn)真人與虛擬數(shù)字人的一對(duì)一的數(shù)字化映射。數(shù)字人重建是連通真實(shí)世界和數(shù)字世界的橋梁, 也是實(shí)現(xiàn)數(shù)字人驅(qū)動(dòng)與交互的基礎(chǔ). 生成式數(shù)字人模型為重建任務(wù)提供了有效的先驗(yàn)約束, 不僅有助于生成合理的重建結(jié)果, 也減少了對(duì)于訓(xùn)練標(biāo)簽的要求, 降低了重建成本。根據(jù)數(shù)字人的不同表示方法, 本小節(jié)對(duì)顯式重建和隱式重建兩類方法進(jìn)行梳理, 如圖 8 所示：

6.2 數(shù)字人驅(qū)動(dòng)

數(shù)字人的重建任務(wù)連接了真實(shí)世界和數(shù)字世界, 實(shí)現(xiàn)了真人向數(shù)字人的靜態(tài)遷移, 但是要將數(shù)字人模型落實(shí)到電影, 游戲等具體的應(yīng)用場(chǎng)景, 則需要根據(jù)真人的行為驅(qū)動(dòng)數(shù)字人模型產(chǎn)生相應(yīng)的變化。數(shù)字人的驅(qū)動(dòng)為數(shù)字世界搭建了從靜態(tài)向動(dòng)態(tài)跨越的階梯, 也為數(shù)字人模型打開了廣闊的應(yīng)用空間. 根據(jù)表示方法的不同, 本文對(duì)顯式和隱式表示模型的驅(qū)動(dòng)方法進(jìn)行梳理

6.3 數(shù)字人交互

人類天然具備社交屬性, 將數(shù)字人作為一個(gè)獨(dú)立的個(gè)體顯然無(wú)法滿足在電影, 游戲以及 “元宇宙” 這類復(fù)雜場(chǎng)景中的應(yīng)用, 因此交互技術(shù)是數(shù)字人研究領(lǐng)域的一個(gè)重要問(wèn)題。本節(jié)從數(shù)字人與環(huán)境的交互以及數(shù)字人之間的交互兩個(gè)方向?qū)ο嚓P(guān)工作進(jìn)行梳理.

7. 現(xiàn)有挑戰(zhàn)總結(jié)與未來(lái)發(fā)展趨勢(shì)展望

7.1 生成式數(shù)字人的基礎(chǔ)理論

7.2 生成式數(shù)字人的細(xì)節(jié)表示

7.3 高效推理與訓(xùn)練

7.4 質(zhì)量評(píng)價(jià)系統(tǒng)

7.5 工程擴(kuò)展

7.6 法律與倫理問(wèn)題

8. 總結(jié)

本文對(duì)生成式數(shù)字人這一研究熱點(diǎn)進(jìn)行了較為全面的總結(jié), 介紹了數(shù)字人建模過(guò)程中的主要步驟, 比較了顯式與隱式表示這兩種主流的模型表示方式, 介紹了傳統(tǒng)渲染與神經(jīng)網(wǎng)絡(luò)渲染的具體流程, 歸納了基于不同數(shù)據(jù)表示形式與渲染方式的學(xué)習(xí)方法。隨后, 細(xì)致地討論了生成式數(shù)字人的三大應(yīng)用, 包括重建, 驅(qū)動(dòng)與交互. 本文最后對(duì)生成式數(shù)字人所面臨的現(xiàn)實(shí)挑戰(zhàn)進(jìn)行了討論, 并對(duì)未來(lái)發(fā) 展趨勢(shì)進(jìn)行了展望?？梢钥闯? 生成式數(shù)字人的表示形式正從顯式表示向隱式表示的方向發(fā)展, 渲染方式正從傳統(tǒng)渲染方法過(guò)渡到神經(jīng)網(wǎng)絡(luò)渲染, 學(xué)習(xí)方法越來(lái)越傾向自監(jiān)督, 對(duì)抗學(xué)習(xí)等弱標(biāo)注場(chǎng)景?，F(xiàn)有數(shù)字人技術(shù)離實(shí)現(xiàn) “元宇宙” 中高度真實(shí), 自然交互的虛擬形象仍存在巨大差距, 本綜述希望能幫助讀者快速梳理生成式數(shù)字人的技術(shù)路徑與發(fā)展趨勢(shì), 并啟發(fā)后續(xù)的研究。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

數(shù)字人包含哪些生成式AI技術(shù)？上交最新「基于神經(jīng)網(wǎng)絡(luò)的生成式三維數(shù)字人研究綜述：表示、渲染與學(xué)習(xí)」

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

數(shù)字人包含哪些生成式AI技術(shù)？上交最新「基于神經(jīng)網(wǎng)絡(luò)的生成式三維數(shù)字人研究綜述：表示、渲染與學(xué)習(xí)」

相關(guān)推薦

技術(shù)專區(qū)

數(shù)字人包含哪些生成式AI技術(shù)？上交最新「基于神經(jīng)網(wǎng)絡(luò)的生成式三維數(shù)字人研究綜述：表示、渲染與學(xué)習(xí)」