全景視頻為VR/AR帶來(lái)技術(shù)挑戰(zhàn)
摘要:VR/AR面臨許多巨大挑戰(zhàn),包括Cameras(相機(jī))、環(huán)境交互以及網(wǎng)絡(luò)等,并且這項(xiàng)技術(shù)需要軟硬件的整體解決方案。
本文引用地址:http://2s4d.com/article/201605/291753.htmVR為何忽然變得有意思?
首先,我們看到有一些東西在今天這個(gè)時(shí)代跨過(guò)了門(mén)檻,諸如人類歷史上第一次可以在一張硬盤(pán)上存儲(chǔ)一輩子所有聽(tīng)過(guò)的音樂(lè),可以存儲(chǔ)這輩子所有拍攝過(guò)的照片,而且成本非常低廉。慢慢地,我們到達(dá)了另一個(gè)門(mén)口,就是存儲(chǔ)這輩子所有看過(guò)的視頻。其次,每一個(gè)人都有一個(gè)攝像機(jī),包括手機(jī)等便攜設(shè)備。第三,未來(lái)越來(lái)越多的人可以無(wú)處不在地上網(wǎng),企業(yè)用戶和老板可以隨時(shí)找到你。
我們來(lái)想象一下,假如這是媒體實(shí)驗(yàn)室在做的事情,它的口號(hào)是:Never Lose a memory。將來(lái)老師給學(xué)生們講課,不需要描述,可以放給他們看。包括我們給年輕人講文革、過(guò)去的時(shí)代,我們可以放給他們看。
VR的三大技術(shù)挑戰(zhàn)
VR有很多技術(shù)的挑戰(zhàn),很多基本技術(shù)問(wèn)題至今沒(méi)有解決。包括幾大核心。第一是Cameras,有大量人做了大量的Camera,但是離我們需要的還有距離。假如你可以控制Camera當(dāng)中每一個(gè)內(nèi)容,你可以想象做什么東西?第二是需要知道什么地方看什么,如何跟周圍環(huán)境去交互,包括如何去實(shí)現(xiàn)這些技術(shù)。當(dāng)然還包括在移動(dòng)設(shè)備上展現(xiàn)和捕捉全景的視頻,即多媒體信息的融合以及多媒體信息的處理和增強(qiáng)。第三是網(wǎng)絡(luò),今天網(wǎng)絡(luò)無(wú)處不在,我們?cè)O(shè)想很多云計(jì)算美麗的場(chǎng)景。不過(guò),很多知名的企業(yè)把基礎(chǔ)設(shè)施放在亞馬遜上,當(dāng)亞馬遜出現(xiàn)問(wèn)題的時(shí)候怎么辦?另外,VR需要大量服務(wù)器,這會(huì)耗費(fèi)大量能源,并且需要高速的網(wǎng)絡(luò)做連接。同時(shí),在VR中做高速的數(shù)據(jù)處理也有很多挑戰(zhàn)。
挑戰(zhàn)之一:Camera
在展會(huì)上可見(jiàn)各種各樣丑八怪的VR原型。假如VR像我們期望的那樣變成現(xiàn)實(shí)、變成娛樂(lè)的主流,VR的主流設(shè)備最后一定不是丑八怪。
VR像素會(huì)是多少?很多人覺(jué)得這不是問(wèn)題,我們今天可以做2000萬(wàn)、6000萬(wàn)像素的相機(jī)。實(shí)際上攝像頭做得越來(lái)越小的時(shí)候,像素感光能力越來(lái)越弱。另外是艱苦的拍攝環(huán)境,比如高動(dòng)態(tài)范圍環(huán)境以及弱光環(huán)境,如何保證高的質(zhì)量?今天我還沒(méi)有看到一個(gè)相機(jī)真正能夠模擬電影膠片的水平。
第二個(gè)問(wèn)題是如何保證全景的相機(jī)?不同的相機(jī)之間或者不同像素以及不同位置如何保持一致性?比如快門(mén)是不是同步,曝光能不能做融合,高速運(yùn)動(dòng)時(shí)是不是會(huì)有一些變形等。
第三是我們的相機(jī)有沒(méi)有景深?喜歡攝影的人知道萊卡相機(jī)的內(nèi)容做出來(lái)很漂亮,我們能不能提供這些給藝術(shù)家?我們認(rèn)為最終需要把最好的軟件和硬件結(jié)合起來(lái),而這恰恰是今天沒(méi)有很多人去做的,我們看到各種各樣的全景相機(jī),但是大部分是垃圾。
例如,圖1是我們今天看到的VR真實(shí)的場(chǎng)景和分辨率。為什么說(shuō)真實(shí)?我們把演員4m以外拍攝的場(chǎng)景放在不同的1K、2K哪怕4K Plus上的分辨率,4m以外看到她的臉和在頭盔上顯示質(zhì)量差距過(guò)大,相信沒(méi)有人愿意付費(fèi)。所以分辨率是非常大的瓶頸。
從技術(shù)角度,要真正支持我們所熟知的娛樂(lè)界的最低門(mén)檻的分辨率。在全景狀態(tài),攝像機(jī)至少要達(dá)到5K×5K,也就是比今天的4K有一個(gè)數(shù)量級(jí)以上的分辨率提高,才可以滿足我們最基本的需求。
挑戰(zhàn)之二:編/解碼
假如我們用今天熟悉的手機(jī)分辨率,實(shí)際上需要有20K×10K的分辨率,要比今天家里4K的顯示器大概有一到兩個(gè)數(shù)量級(jí)的提高。這么高的分辨率下如何編碼和傳輸?這是非常大的挑戰(zhàn)。因?yàn)榻裉焖{(lán)光4K已經(jīng)用非常高的帶寬。
其中一個(gè)問(wèn)題是Encoding(編碼)。做技術(shù)的人總喜歡做美好的預(yù)測(cè),例如今年H.265的編碼會(huì)全面占領(lǐng)市場(chǎng),4K的內(nèi)容會(huì)全面占領(lǐng)家庭,但實(shí)際上沒(méi)有這么快。原因首先是系統(tǒng)很復(fù)雜。第二系統(tǒng)跟二十年前剛開(kāi)始做的時(shí)候是不一樣的。很多人認(rèn)為可能比上一代提高了50%的效率,但是成本非常高,包括步數(shù)、解碼器和專利的成本等,有一些甚至需要付出上億元的成本。即使?jié)M足了這些條件,實(shí)際上離我們真正做到高質(zhì)量VR的要求還是有很大的差距。
另外一個(gè)問(wèn)題:有沒(méi)有什么事情是我們現(xiàn)在可以做的,可以規(guī)避這些問(wèn)題的?答案是有的。我們不是在這里解釋技術(shù)的細(xì)節(jié)。業(yè)界告訴你或者所謂專家告訴你,做高清一定要H.265,其實(shí)不用。用H.264可以達(dá)到一樣的效果??吹娇萍脊竞颓迦A實(shí)驗(yàn)室的編碼器得到了美國(guó)一家大型市場(chǎng)調(diào)查機(jī)構(gòu)編碼器領(lǐng)域的大獎(jiǎng),因?yàn)槲覀冇泻芎玫?a class="contentlabel" href="http://2s4d.com/news/listbylabel/label/H.264">H.264的編碼器。
要把視頻編碼真正用到VR上要應(yīng)用很多場(chǎng)景。比如做360°的視頻,用各種巧妙的辦法拼接成平面的樣子,然后想辦法去降低其動(dòng)態(tài)分辨率和成本,用整體上比較低的碼率去傳輸VR的內(nèi)容。但即使這樣,我們離真正的視頻編碼還有很遠(yuǎn)的距離。以下會(huì)講我們?nèi)绾稳プ鲞@件事情。
主要的思路是:第一我們需要擺脫傳統(tǒng)視頻編碼的做法,過(guò)去我們做一個(gè)標(biāo)準(zhǔn)需要十年,在中間有很多IP來(lái)解決各種各樣的問(wèn)題?,F(xiàn)在我們希望做的標(biāo)準(zhǔn)是一個(gè)通用的標(biāo)準(zhǔn),跟應(yīng)用無(wú)關(guān),但是最終的解決方案一定是需要針對(duì)VR去做很多優(yōu)化的。
第二個(gè)問(wèn)題是網(wǎng)絡(luò)。我們有了內(nèi)容,如何把內(nèi)容傳遞給用戶。我們有3G、4G等高速網(wǎng)絡(luò)。但是除了網(wǎng)絡(luò)基礎(chǔ)以外,還有一個(gè)問(wèn)題是如何使用網(wǎng)絡(luò)。比如90%的是用TCP協(xié)議(如圖2)。視頻當(dāng)中也多用TCP協(xié)議。其實(shí)TCP不是一個(gè)好的做視頻的協(xié)議,因?yàn)門(mén)CP有一個(gè)很大的問(wèn)題:在設(shè)計(jì)的時(shí)候會(huì)認(rèn)為只要你丟包,是因?yàn)槟惆l(fā)得太快,所以會(huì)把發(fā)送的速度降慢。實(shí)際上,在復(fù)雜的無(wú)線網(wǎng)絡(luò)情況下,你用最慢的速度發(fā)一樣可能會(huì)丟包(如圖3)。解決辦法是設(shè)計(jì)更好的算法針對(duì)你應(yīng)用的場(chǎng)景。這里我們提出一個(gè)算法:TCP-FIT,相比其他算法,TCP-FIT最高可以在相同網(wǎng)絡(luò)情況下提高7倍的吞吐率,華為和中興已是我們的客戶。
有很多問(wèn)題是OLDI(Online Data-intensive),比如在淘寶購(gòu)物或者做大量數(shù)據(jù)挖掘工作時(shí),做視頻編碼需要高速的服務(wù)器做連接,各層之間延時(shí)非常小,才能保證流暢的體驗(yàn)。但有時(shí)會(huì)突然發(fā)現(xiàn)整個(gè)網(wǎng)絡(luò)的吞吐率瞬間降到零,這也是需要解決的問(wèn)題。針對(duì)這些問(wèn)題,我們也有在不更換設(shè)備情況下的解決方案。
最后強(qiáng)調(diào)一點(diǎn),網(wǎng)絡(luò)方還需要根據(jù)應(yīng)用對(duì)整個(gè)系統(tǒng)做優(yōu)化。例如網(wǎng)上流媒體觀看,比如愛(ài)奇藝等。通常采用自適應(yīng)技術(shù),通過(guò)帶寬不斷地推碼率,帶寬高的時(shí)候推得高一點(diǎn),帶寬低時(shí)會(huì)推得低一些。但是有一個(gè)問(wèn)題,你觀看的時(shí)候視頻質(zhì)量會(huì)變化,例如圖4,開(kāi)始時(shí)圖4的人臉很清晰,背后突出出現(xiàn)水柱后,會(huì)發(fā)現(xiàn)人臉的清晰度大幅下降。在中國(guó)這種情況不是特別多,因?yàn)樵就频木褪琴|(zhì)量較差的視頻流。如何解決這個(gè)問(wèn)題?你可以鋪更多CND,可以想辦法做編碼。但是今天推流的時(shí)候你會(huì)發(fā)現(xiàn)一個(gè)很有意思的現(xiàn)象,可能視頻是用手機(jī)拍的。每個(gè)用戶手機(jī)的拍攝像素不同,因此視頻質(zhì)量不同;另外帶寬質(zhì)量也不同,我們可以用較低的成本大幅度地提高/增強(qiáng)圖像精細(xì)度。
我們針對(duì)應(yīng)用去重新審視我們系統(tǒng)中的假設(shè)。傳統(tǒng)的假設(shè)是像廣電一樣,解碼器很便宜,編碼器很貴,實(shí)際應(yīng)用中可能解碼器很貴,編碼器很貴。
小結(jié)
VR前景很美好,但現(xiàn)實(shí)很骨感。到美好的全景視頻中間需要解決很多問(wèn)題。此外,還有怎么做有意思的節(jié)目的問(wèn)題。VR終極的節(jié)目是不是游戲?不一定。
技術(shù)上,第一,今天的質(zhì)量原因是你需要容納全景信息。第二,我們需要系統(tǒng)化的解決方案,未來(lái)的VR未必是做很便宜的全景相機(jī)的一幫人,然后把內(nèi)容放到現(xiàn)在大家知道的視頻平臺(tái)上,用標(biāo)準(zhǔn)的模具生產(chǎn)的眼鏡或者其他裝置去觀看。未來(lái)一定有一個(gè)端到端想清楚的解決方案,從拍攝到編碼、傳輸、存儲(chǔ),一定是系統(tǒng)的。第三是我們需要重新審視原來(lái)做各個(gè)技術(shù)的認(rèn)為習(xí)以為常的假設(shè),這些假設(shè)是不是適合我們應(yīng)用的環(huán)境,比如編碼、推送和消費(fèi),只有整體的推進(jìn)才能帶來(lái)數(shù)量級(jí)的性能提升。所以VR的用戶體驗(yàn)是從多維度來(lái)衡量的,比如質(zhì)量、延時(shí)等等,需要軟件和硬件工程師一起來(lái)提出一個(gè)整體的解決方案,硬件和軟件協(xié)同做優(yōu)化。
最后是需要藝術(shù)家和技術(shù)專家更好的融合做事情,在VR這里面會(huì)有一個(gè)非常明顯的展現(xiàn)。(注:改編自“2016全球VR/AR趨勢(shì)論壇”上的講演。此論壇由IDG主辦,2016年4月20日,深圳CE China展覽期間舉行)
本文來(lái)源于中國(guó)科技期刊《電子產(chǎn)品世界》2016年第5期第12頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。
評(píng)論