英偉達(dá):真正做到虛擬和真實(shí)世界交互需5-10年
日前,因?yàn)?a class="contentlabel" href="http://2s4d.com/news/listbylabel/label/英偉達(dá)">英偉達(dá)CEO黃仁勛在一場(chǎng)演講中用了14秒的“數(shù)字人”視頻引發(fā)了廣泛的關(guān)注,從而把“數(shù)字人”乃至“元宇宙”從專業(yè)人士帶入到大眾視野。
本文引用地址:http://2s4d.com/article/202108/427782.htm澎湃新聞?dòng)浾呷涨皩?duì)話了英偉達(dá)三位技術(shù)專家,英偉達(dá)中國(guó)區(qū)高級(jí)技術(shù)市場(chǎng)經(jīng)理施澄秋、英偉達(dá)高級(jí)解決方案架構(gòu)師宋毅明和英偉達(dá)中國(guó)區(qū)傳媒娛樂(lè)行業(yè)經(jīng)理何展(文中統(tǒng)一用英偉達(dá)技術(shù)專家來(lái)稱呼)來(lái)講述什么是數(shù)字人、什么是元宇宙,元宇宙離我們到底有多遠(yuǎn),元宇宙會(huì)帶來(lái)那些改變?
英偉達(dá)將自己定位為提供基礎(chǔ)底層服務(wù)架構(gòu)的。元宇宙概念平臺(tái)Omniverse像是一個(gè)工具箱,也是一個(gè)技術(shù)平臺(tái)底座,集合了英偉達(dá)過(guò)去二十多年在AI、HPC和圖形各方面的技術(shù)、算法、標(biāo)準(zhǔn)。英偉達(dá)希望搭建一個(gè)技術(shù)平臺(tái),服務(wù)藝術(shù)家、創(chuàng)造者以及一些C端、B端的用戶。
英偉達(dá)技術(shù)專家表示,Omniverse為“數(shù)字人”引入了最接近“人”的表情、語(yǔ)言系統(tǒng),相比此前繁瑣的技術(shù)環(huán)節(jié),現(xiàn)在只需要通過(guò)基于AI深度神經(jīng)網(wǎng)絡(luò)感知能力的英偉達(dá)會(huì)話式人工智能系統(tǒng),把文字變成豐富面部表情,再基于AI實(shí)時(shí)渲染系統(tǒng)疊加到虛擬人上。英偉達(dá)認(rèn)為,當(dāng)可以實(shí)現(xiàn)數(shù)字人和真實(shí)人類之間的溝通交互,實(shí)現(xiàn)真實(shí)和虛擬世界交互時(shí),也就完美契合了元宇宙概念,這個(gè)階段要在五到十年后。
以下與英偉達(dá)技術(shù)專家對(duì)話節(jié)選
澎湃新聞:上周SIGGRAPH2021大會(huì)上播放了一部關(guān)于GTC Keynote演講的紀(jì)錄片,揭示了數(shù)字生成在臺(tái)前幕后的新應(yīng)用,其中有一個(gè)14秒視頻是黃仁勛的“數(shù)字人”虛擬視頻,引發(fā)了廣泛關(guān)注。這里面用到了哪些技術(shù),請(qǐng)介紹一下數(shù)字人的發(fā)展。
英偉達(dá)技術(shù)專家:在演講中黃仁勛有十幾秒的虛擬分身,可以看作一個(gè)數(shù)字人。其實(shí)可以把數(shù)字人概念當(dāng)成卡通人物或虛擬角色,它已經(jīng)存在已久。比如虛擬偶像開演唱會(huì),日本動(dòng)漫行業(yè)也推出了好幾個(gè)虛擬偶像,形象很豐滿。這些和傳統(tǒng)動(dòng)畫片人物的最大分別在于,其不僅利用了3D渲染技術(shù)讓它看起來(lái)更像一個(gè)人,還利用了全息技術(shù)實(shí)現(xiàn)裸眼3D,讓它栩栩如生地站在舞臺(tái)上唱歌,這些都是傳統(tǒng)概念當(dāng)中虛擬人必備的一些元素。
但在NVIDIA看來(lái),虛擬人是虛擬出來(lái)的,應(yīng)該更接近一個(gè)“人”,即數(shù)字人(Digital Human)。人類和虛擬角色、卡通人物最大的區(qū)別是有感情、能夠體會(huì)到喜怒哀樂(lè),且能夠把喜怒哀樂(lè)實(shí)時(shí)地通過(guò)語(yǔ)言、表情等來(lái)體現(xiàn),這也是虛擬人的精髓。也就是說(shuō),虛擬人的外形要栩栩如生,這就要利用英偉達(dá)GPU技術(shù)來(lái)渲染,以實(shí)現(xiàn)皮膚、毛發(fā)、衣物、配飾符合自然界物理定律。如果這個(gè)人物在跳舞的時(shí)候項(xiàng)鏈不動(dòng)、貼在身上,那就不是虛擬人了,而是普通的3D動(dòng)畫。并且如果十年前推出的虛擬角色和二十年后推出的虛擬角色頭發(fā)都一樣,那也不切實(shí)際,年輕人、中年人、老年人的毛發(fā)系統(tǒng)是不同的,皮膚隨著年齡的增長(zhǎng)也是不一樣的。
Omniverse(英偉達(dá)推出的以元宇宙概念為基礎(chǔ)虛擬協(xié)作和模擬平臺(tái))中的OmniSurface系統(tǒng)能夠渲染不同的材質(zhì)和表面,針對(duì)數(shù)字人也有一系列不同的渲染機(jī)制。利用GPU渲染可以讓數(shù)字人更接近真實(shí)的人類,這是數(shù)字人的第一個(gè)方面。
第二個(gè)方面,RTX Render技術(shù),即實(shí)時(shí)光線追蹤技術(shù)。把數(shù)字人放到虛擬環(huán)境中后,環(huán)境有光照系統(tǒng),也有傳統(tǒng)的路徑追蹤系統(tǒng),虛擬人會(huì)和周遭環(huán)境進(jìn)行互動(dòng),虛擬人和環(huán)境的多次光線迭代也會(huì)給整個(gè)環(huán)境全局照明帶來(lái)影響,OmniSurface加上RTX Render可以實(shí)現(xiàn)實(shí)時(shí)的數(shù)字人(Digital Human)渲染,以及材料、POV的渲染,從元宇宙概念來(lái)看整個(gè)虛擬世界,模擬城市、人員、建筑等一系列復(fù)雜的生態(tài)環(huán)境系統(tǒng)都可以通過(guò)Omniverse完成,這是數(shù)字人和環(huán)境的互動(dòng)。
最重要的是,為數(shù)字人引入最接近“人”的喜怒哀樂(lè)——表情、語(yǔ)言系統(tǒng)。Audio2Face只需要一段文字,便能夠通過(guò)基于AI深度神經(jīng)網(wǎng)絡(luò)感知能力的英偉達(dá)會(huì)話式人工智能系統(tǒng),來(lái)感知語(yǔ)言下的情緒,把一段文字變成豐富的面部表情,再自動(dòng)基于AI實(shí)時(shí)渲染系統(tǒng)疊加到虛擬人上。而以前則要進(jìn)行配音、口形適配,并考慮當(dāng)前的語(yǔ)態(tài)、語(yǔ)境,進(jìn)行面部表情分離,重新渲染面部表情,整個(gè)環(huán)節(jié)太繁瑣,時(shí)間、人力、物力成本都過(guò)于巨大。
現(xiàn)在,結(jié)合Audio2Face、OmniSurface和RTX Render能夠?qū)崟r(shí)地把數(shù)字人做得更逼真更詳實(shí),不僅是一個(gè)虛擬內(nèi)容,更注重的是用數(shù)字化的形式呈現(xiàn)“人類”。在Omniverse加持之下,能夠滿足過(guò)去數(shù)十年我們對(duì)虛擬人的設(shè)想,通過(guò)當(dāng)前的軟硬件技術(shù)以及網(wǎng)絡(luò)云原生的Omniverse平臺(tái),以一站式解決方案把數(shù)字人包裝得更逼真、更詳實(shí)、更符合自然界的物理定律,無(wú)論是人本身的皮膚、毛發(fā),還是身上的配飾、衣物,甚至與周遭的環(huán)境、光線的互動(dòng),都能更好地實(shí)現(xiàn)。
隨著每個(gè)數(shù)字人周遭環(huán)境的放大,以及日后GPU算力、Omniverse平臺(tái)能力的不斷提升和版本迭代,我們最終能夠?qū)崿F(xiàn)元宇宙的構(gòu)想。
澎湃新聞:英偉達(dá)數(shù)字人的路線圖是什么?什么時(shí)候能做到假人和真人之間的交互?
英偉達(dá)技術(shù)專家:英偉達(dá)在硅谷有專門的數(shù)字人研究團(tuán)隊(duì),有非常清晰的路線圖。
第一階段,要把它做像了,利用CG(計(jì)算機(jī)動(dòng)畫)技術(shù)和實(shí)時(shí)光線追蹤渲染技術(shù)把它做像了。比如14秒黃仁勛數(shù)字人分身,這一階段已經(jīng)非常成熟到位了,很多平臺(tái)都可以做到,只要有非常懂CG藝術(shù)的專家和設(shè)計(jì)者,將相關(guān)的動(dòng)物采集數(shù)據(jù)、鏡頭,甚至血液流動(dòng)算法等堆疊起來(lái)即可。
第二階段,通過(guò)一些要素驅(qū)動(dòng)數(shù)字虛擬人?,F(xiàn)在國(guó)際上有比較流行的三個(gè)要素可以驅(qū)動(dòng)數(shù)字虛擬人:一類是視頻,類似短視頻,做一些視頻人物的動(dòng)作,通過(guò)視頻驅(qū)動(dòng)第一階段做出來(lái)的很像的數(shù)字虛擬人。另一類是“中之人”,這個(gè)概念來(lái)自日本,現(xiàn)在最貼切的展示方式就是穿動(dòng)捕服的演員,就像大片拍攝中通過(guò)“中之人”驅(qū)動(dòng)數(shù)字虛擬人。還有一類就是語(yǔ)音語(yǔ)義,英偉達(dá)數(shù)字人研究院就選定了語(yǔ)音語(yǔ)義這個(gè)要素作為驅(qū)動(dòng)數(shù)字人的技術(shù)切入點(diǎn),為什么選它呢?這三類中最容易獲得的就是語(yǔ)音語(yǔ)義,而且很方便,通過(guò)一段語(yǔ)音或者一段文字就可以驅(qū)動(dòng)數(shù)字虛擬人。
英偉達(dá)在這里扮演的是什么角色呢?這里介紹剛剛更名的開源平臺(tái)——NVIDIA Riva,是通過(guò)算法優(yōu)化的平臺(tái),其中有一個(gè)功能模塊叫做Audio2Face,可以通過(guò)一段音頻驅(qū)動(dòng)數(shù)字人面部表情的動(dòng)捕,就像正常人說(shuō)話一樣,實(shí)現(xiàn)口音口型和面部表情、細(xì)微動(dòng)作。所以黃仁勛演講中,別看短短14秒,里面包含了很多技術(shù),其中就有一段Audio2Face,所有的數(shù)字通過(guò)動(dòng)捕方式采集好之后,模擬口形、動(dòng)捕演員的驅(qū)動(dòng)都會(huì)涉及到這些要素。
第三階段就比較升華,每個(gè)階段都需要兩到三年,我們認(rèn)為第三階段才是數(shù)字虛擬人真正達(dá)到應(yīng)用級(jí)別產(chǎn)品化的階段,應(yīng)該是在五到十年后。
到了第三階段,我們可以實(shí)現(xiàn)數(shù)字人和真實(shí)人類之間的溝通交互,也可以實(shí)現(xiàn)數(shù)字人和數(shù)字人之間的溝通交互,這個(gè)也叫做真實(shí)和虛擬世界的交互,其實(shí)也完美地契合了元宇宙的概念。
澎湃新聞:真正進(jìn)入虛擬和真人之間的交互的第三階段需要具備哪些條件?
英偉達(dá)技術(shù)專家:第一階段其實(shí)已經(jīng)很成熟了,已經(jīng)有很多平臺(tái)可以做到。第二階段屬于初期,我們某些客戶合作伙伴都已經(jīng)做到了初級(jí)階段,很多算法已經(jīng)交付給了市場(chǎng)。大家可以看到很多語(yǔ)音播報(bào)員背后的邏輯就是第二階段的技術(shù)。我們認(rèn)為這一階段過(guò)兩到三年就會(huì)進(jìn)入成熟期。
再過(guò)兩到三年以后就會(huì)進(jìn)入第三階段初始的發(fā)展期和萌芽期,五年左右的時(shí)間點(diǎn)是一個(gè)非常重要的時(shí)間點(diǎn),那個(gè)時(shí)間段英偉達(dá)GPU平臺(tái)的算力,包括自己各種算法的迭代,到那個(gè)時(shí)候也會(huì)有非常大的改進(jìn)和提高。當(dāng)大家在生態(tài)系統(tǒng)當(dāng)中做數(shù)字虛擬人平臺(tái)和創(chuàng)作者時(shí)候,這三五年一定會(huì)有非常大的訓(xùn)練集驅(qū)動(dòng)走到3.0時(shí)代。五年那個(gè)時(shí)間點(diǎn)才是進(jìn)入3.0時(shí)代真正有可能看到,就是真正能夠用的真實(shí)和物理世界交互的數(shù)字人應(yīng)用出現(xiàn)的時(shí)間點(diǎn)。
舉個(gè)非常有意思的例子,大家知道現(xiàn)在去銀行的網(wǎng)點(diǎn),柜臺(tái)都超不過(guò)五十到一百次,銀行現(xiàn)在正在考慮把所有的網(wǎng)點(diǎn)變成數(shù)字虛擬人,通過(guò)AR技術(shù)替換現(xiàn)在人工窗口的營(yíng)業(yè)員。這些應(yīng)用在各行各業(yè),所有的企業(yè)都已經(jīng)看到了,這就是我們認(rèn)為數(shù)字虛擬人市場(chǎng)需求這么強(qiáng)勁的原因,也是因?yàn)榭蛻艉褪袌?chǎng)驅(qū)動(dòng)我們挑戰(zhàn)新的技術(shù)。
澎湃新聞:剛才講到虛擬數(shù)字人的技術(shù)應(yīng)用,比如銀行、政務(wù)和商務(wù)的場(chǎng)合,這里面有那些場(chǎng)景是你們看到可以率先落地的?
英偉達(dá)技術(shù)專家:有很多職業(yè),可以和大家分享一下英偉達(dá)已經(jīng)做過(guò)的數(shù)字虛擬人案例。比如數(shù)字主持人,就像《飛向月球》第二季,我們重建了央視某紀(jì)錄片頻道的著名主持人。然后還有數(shù)字導(dǎo)購(gòu)員、數(shù)字4S店銷售、數(shù)字導(dǎo)游,包括現(xiàn)在數(shù)字的窗口營(yíng)業(yè)員。還有一類非常有意思,如果大家關(guān)注Instagram這些國(guó)外比較流行的社交媒體網(wǎng)上有數(shù)字明星。去年疫情最嚴(yán)重的時(shí)候,日本曾經(jīng)做過(guò)一個(gè)調(diào)研,日本市場(chǎng)最受歡迎的一個(gè)明星居然是一個(gè)數(shù)字虛擬人,她在Twitter上的粉絲高達(dá)數(shù)百萬(wàn),所以營(yíng)銷IP的公司相當(dāng)于打造了一個(gè)數(shù)字模擬器。包括大家看到電影《雙子殺手》也是一種數(shù)字人的體驗(yàn)形式,還有國(guó)內(nèi)的數(shù)字王國(guó)“鄧麗君”“張國(guó)榮”的數(shù)字IP應(yīng)用,我們看到了很多很多,就像雨后春筍一般出來(lái)。流媒體平臺(tái)上面也是越來(lái)越多。
澎湃新聞:Omniverse是英偉達(dá)推出的全球首個(gè)為元宇宙建立提供基礎(chǔ)的協(xié)作平臺(tái),你們推出Omniverse的初衷和契機(jī)是什么?
英偉達(dá)技術(shù)專家:今年并不是Omniverse的元年,英偉達(dá)在2019年就提出了Omniverse,并且已經(jīng)為這個(gè)平臺(tái)布局了很久。大家都知道Metaverse即元宇宙的概念,其核心技術(shù)要素包括AI、區(qū)塊鏈、VR/AR/MR等XR技術(shù)、可視化的渲染技術(shù)等。這些方面的技術(shù)在最近幾年處于集中爆發(fā)期,并且現(xiàn)在我們進(jìn)入了5G時(shí)代,這為真實(shí)世界和數(shù)字虛擬世界的交互提供了足夠的帶寬以及交互的技術(shù)基礎(chǔ)。這些因素促進(jìn)1992年提出的元宇宙概念如今成為了一個(gè)火熱的話題。英偉達(dá)對(duì)這些技術(shù)都有所涉及,所以在此契機(jī)下提出了英偉達(dá)所理解的元宇宙概念平臺(tái)——Omniverse。我個(gè)人認(rèn)為它像是英偉達(dá)為創(chuàng)建元宇宙數(shù)字化虛擬空間的奇點(diǎn),也可稱之為技術(shù)平臺(tái)底座,集合了英偉達(dá)過(guò)去二十多年在AI、HPC和圖形各方面的技術(shù)、算法、標(biāo)準(zhǔn),又像是一個(gè)工具箱,大家在創(chuàng)造數(shù)字化虛擬空間時(shí),需要螺絲就可以在這里拿一個(gè)螺絲,需要一個(gè)剪刀就拿一個(gè)剪刀。英偉達(dá)希望搭建一個(gè)技術(shù)平臺(tái),服務(wù)藝術(shù)家、創(chuàng)造者以及一些C端、B端的用戶,以實(shí)現(xiàn)元宇宙。
澎湃新聞:Omniverse主要提供哪些產(chǎn)品和服務(wù)?面向的服務(wù)對(duì)象和行業(yè)是什么?
英偉達(dá)技術(shù)專家:Omniverse中有五大核心部件,包括Nucleus、Connect、Kit、RTX Render、Simulation,這些是我們的技術(shù)底座。Nucleus提供了云原生技術(shù)的底座,RTX Render最多可以在云上調(diào)用48個(gè)GPU來(lái)提供同步渲染機(jī)制,這解決了很多行業(yè)的痛點(diǎn),例如,有很多客戶只能調(diào)用自己工作站中的GPU資源,技術(shù)管理仍然基于第三方的傳統(tǒng)工具,無(wú)法跟產(chǎn)品連接起來(lái)。Kit組件將英偉達(dá)的圖形計(jì)算和AI技術(shù)暴露給開發(fā)者,開發(fā)者可以利用KIT打造適合自己的工作流程。這些面向開發(fā)能力較強(qiáng)的用戶。針對(duì)終端用戶即開發(fā)能力較弱的用戶,英偉達(dá)也打造了一些服務(wù),比如面向設(shè)計(jì)師的Create部件。還有針對(duì)AEC建筑行業(yè)的View、方便機(jī)器人仿真結(jié)構(gòu)學(xué)習(xí)的Issac Sim,可以運(yùn)用渲染效果實(shí)現(xiàn)可視化,以及即將推出的無(wú)人駕駛仿真平臺(tái)Drive Sim。這些就是Omniverse所提供的產(chǎn)品和服務(wù),Create、View、Drive Sim、Issac Sim偏向于面向終端用戶的產(chǎn)品,而服務(wù)則包括五大核心中的Nucleus、Kit、RTX Render、Simulation、Connect,其中Connect能夠把第三方DCC(Digital Create Content)工具通過(guò)USD方法整合到Omniverse平臺(tái)進(jìn)行加速。
Omniverse分為to C端及to B端。針對(duì)C端消費(fèi)者的Individual版本面向個(gè)人,全部免費(fèi)提供給用戶,在官方網(wǎng)站、微信公眾號(hào)等渠道都公開了下載鏈接。To B端是將在今年秋季發(fā)布的Omniverse Enterprise,功能會(huì)更加完整、強(qiáng)大,是付費(fèi)版本。
澎湃新聞:對(duì)于英偉達(dá)而言,未來(lái)希望在元宇宙當(dāng)中處于什么位置,或者扮演怎樣的角色?
英偉達(dá)技術(shù)專家:英偉達(dá)的位置應(yīng)該是提供基礎(chǔ)底層服務(wù)架構(gòu)的。Omniverse是一個(gè)工具,通過(guò)這個(gè)工具讓各種各樣的ISV、開發(fā)者和用戶自己打造自己的內(nèi)容。最近幾年非常流行的一個(gè)詞叫做UGC,User-generated Content,就是用戶產(chǎn)生內(nèi)容。我們給用戶工具以后讓用戶自己根據(jù)各式各樣的創(chuàng)造性思維打造逼真的世界和高度還原的東西,英偉達(dá)就是處在底層提供技術(shù)底座和提供工具方面入手。就像之前的加州淘金熱,我們是提供基礎(chǔ)工具鏟子,當(dāng)然這個(gè)技術(shù)鏟子門檻可能比較高,不像淘金那個(gè)時(shí)候相對(duì)來(lái)說(shuō)技術(shù)比較原始,我認(rèn)為是這樣一個(gè)位置。
澎湃新聞:現(xiàn)在要解決算力問(wèn)題的話,全球現(xiàn)在算力可以達(dá)到怎樣的水平?未來(lái)實(shí)現(xiàn)元宇宙的算力大概是多大的?中間有多難或者多長(zhǎng)的距離需要跨越?
英偉達(dá)技術(shù)專家:現(xiàn)在我們從事元宇宙是從一個(gè)小的宇宙,比如模擬一個(gè)屋子再到一個(gè)小的社區(qū),或者是一個(gè)小的區(qū)域來(lái)說(shuō),慢慢地把所有人和事物連接進(jìn)來(lái),整體算力應(yīng)該是很大的,第一步就是能夠調(diào)用多種類型的GPU加速這樣一個(gè)過(guò)程。我們回到Omniverse本身的架構(gòu),可以調(diào)用64個(gè)云上GPU同時(shí)渲染一個(gè)場(chǎng)景,但隨著后面技術(shù)的不斷更迭會(huì)有更多的GPU,成百上千或者上萬(wàn)GPU同時(shí)加速一個(gè)元宇宙的場(chǎng)景,現(xiàn)在我們是調(diào)用64個(gè)GPU加速一個(gè)場(chǎng)景這樣一個(gè)階段。
澎湃新聞:中國(guó)也許多布局元宇宙的公司,你們?nèi)绾慰创钪嬖谥袊?guó)市場(chǎng)的機(jī)會(huì)?
英偉達(dá)技術(shù)專家:實(shí)際上元宇宙不是某一家公司就全都能夠?qū)崿F(xiàn)的,需要一個(gè)整體的、多家的平臺(tái)共同努力。這里有很多玩家,國(guó)際上就是Facebook、微軟、Roblox、英偉達(dá),包括國(guó)內(nèi)在做的騰訊全周期互聯(lián)網(wǎng)就是一個(gè)對(duì)等的平臺(tái),這么多玩家在一起才能實(shí)現(xiàn),國(guó)內(nèi)有很多做數(shù)字孿生的、做數(shù)字資產(chǎn)庫(kù)的這些生態(tài)合作伙伴跟我們合作的也比較多,都在貢獻(xiàn)自己的一些力量,他們也期待借著這個(gè)概念平臺(tái)的興起會(huì)出現(xiàn)新的爆款產(chǎn)品。
借此機(jī)會(huì)也和大家分享一下某客戶發(fā)布的模擬加州大火燃燒蔓延趨勢(shì),為什么英偉達(dá)理解的元宇宙和Omniverse和僅限于游戲世界的元宇宙不一樣,這里就有圖形學(xué)的概念。這些全是假的,就是模擬火勢(shì)燃燒,然后結(jié)合AI技術(shù),當(dāng)?shù)氐娘L(fēng)向、濕度、樹木的分布圖,火焰真正燃燒起來(lái)的蔓延是怎樣的,這些視頻技術(shù)的模擬可以幫助消防管理負(fù)責(zé)人員進(jìn)行快速?zèng)Q策,也是我們真正服務(wù)于現(xiàn)在各種各樣需求的一個(gè)很經(jīng)典的案例。
評(píng)論