博客專欄

EEPW首頁(yè) > 博客 > 如何在計(jì)算機(jī)視覺(jué)領(lǐng)域做開(kāi)創(chuàng)性的前沿研究?

如何在計(jì)算機(jī)視覺(jué)領(lǐng)域做開(kāi)創(chuàng)性的前沿研究?

發(fā)布人:MSRAsia 時(shí)間:2022-06-21 來(lái)源:工程師 發(fā)布文章

以下文章來(lái)源于微軟學(xué)術(shù)合作 ,作者微軟學(xué)術(shù)合作

全球人工智能領(lǐng)域最具學(xué)術(shù)影響力的頂級(jí)會(huì)議之一 CVPR 2022召開(kāi)在即。為了促進(jìn)計(jì)算機(jī)視覺(jué)領(lǐng)域前沿研究的分享與交流,推動(dòng)相關(guān)技術(shù)進(jìn)步與發(fā)展,近年來(lái)微軟亞洲研究院每年都會(huì)舉辦CVPR論文分享會(huì)。今年的CVPR 2022 論文分享會(huì)于4月23日?qǐng)A滿落幕。此次分享會(huì)由微軟智能信息處理西安交通大學(xué)實(shí)驗(yàn)室主辦,微軟亞洲研究院承辦,中國(guó)計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺(jué)專委會(huì)、中國(guó)圖象圖形學(xué)會(huì)視覺(jué)大數(shù)據(jù)專委會(huì)、中國(guó)計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)女計(jì)算機(jī)工作者委員會(huì)、中國(guó)圖象圖形學(xué)會(huì)女科技工作者工作委員會(huì)協(xié)辦。


本次活動(dòng)不僅匯聚了來(lái)自清華大學(xué)、復(fù)旦大學(xué)、北京大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、華中科技大學(xué)、西安交通大學(xué)、東南大學(xué)等高校的教授、研究員,還有來(lái)自微軟亞洲研究院、粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院等企業(yè)研究院的科研人員。20余位講者通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)、自監(jiān)督+多模態(tài)預(yù)訓(xùn)練、多模態(tài)應(yīng)用、3D 視覺(jué)、圖像和視頻生成、檢測(cè)分割這六大主題,分享了他們?cè)?CVPR 2022 上發(fā)表的最新成果。每個(gè)主題的論文分享后,今年的分享會(huì)還首次設(shè)置了主題討論環(huán)節(jié),講者們就該方向進(jìn)行了針對(duì)性的討論,探討整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域的現(xiàn)狀與未來(lái),同時(shí)也對(duì)觀眾的問(wèn)題做出了解答。


此外,CVPR 2022 論文分享會(huì)還新增了中場(chǎng)主旨演講環(huán)節(jié),CVPR 2022 程序主席、便利蜂 CTO 和首席科學(xué)家華剛博士帶來(lái)了以“You and Your Research Career with Computer Vision”為題的精彩報(bào)告。幾位歷年視覺(jué)頂會(huì)最佳論文的斬獲者也一同共話“好論文是怎么煉成的”。


接下來(lái),讓我們一起回顧一下 CVPR 2022 論文分享會(huì)的精彩內(nèi)容吧!


圖片


CVPR 2022主席傾情分享“如何讓自己與領(lǐng)域共舞”


華剛博士首先從自己領(lǐng)導(dǎo)便利蜂人工智能研究院的實(shí)際科研經(jīng)驗(yàn)出發(fā),從較高的視角探討了“計(jì)算機(jī)視覺(jué)的殺手級(jí)應(yīng)用是什么”。華剛博士總結(jié),“它可以數(shù)字化物理世界,從社會(huì)經(jīng)濟(jì)的層面可以給不同的工業(yè)、商業(yè)領(lǐng)域的信息化做出關(guān)鍵性的貢獻(xiàn)。從數(shù)字經(jīng)濟(jì)、數(shù)字生產(chǎn)力的角度來(lái)看,它也會(huì)對(duì)傳統(tǒng)工業(yè)行業(yè)的生產(chǎn)力提高發(fā)揮必不可少的關(guān)鍵作用。”


在回顧了過(guò)去20年的經(jīng)濟(jì)發(fā)展之后,華剛博士表示互聯(lián)網(wǎng)經(jīng)濟(jì)是最有活力并產(chǎn)生了巨大財(cái)富的一個(gè)領(lǐng)域,其背后的高生產(chǎn)效率,得益于其自身促成的數(shù)字化世界。在這個(gè)數(shù)字化的世界里,我們可以做各種各樣的數(shù)字決策,這些數(shù)字化決策最后會(huì)形成相應(yīng)的工作任務(wù)在物理世界得到執(zhí)行。未來(lái)數(shù)字生產(chǎn)力的重點(diǎn),是將多數(shù)傳統(tǒng)產(chǎn)業(yè)的線下生產(chǎn)、運(yùn)營(yíng)的物理過(guò)程的信息數(shù)字化,形成數(shù)字化的映射,并在進(jìn)一步完成數(shù)字化決策后回到物理世界進(jìn)行相應(yīng)的工作任務(wù)執(zhí)行。在這個(gè)信息數(shù)字化的過(guò)程中,計(jì)算機(jī)視覺(jué)將發(fā)揮巨大且無(wú)可替代的作用


圖片

華剛博士為 CVPR 2022 論文分享會(huì)作主旨演講


而后,華剛博士就在當(dāng)下這個(gè)計(jì)算機(jī)視覺(jué)的黃金時(shí)代里“如何探索自己的計(jì)算機(jī)視覺(jué)研究生涯”進(jìn)行了分享。他表示,對(duì)于一個(gè)人的科研生涯而言,第一位是做研究,在研究社群最好的會(huì)議和期刊上發(fā)表的論文,基本上就代表了你在研究社群中的地位。也就是說(shuō),你發(fā)表的論文是你在研究領(lǐng)域的形象表征;另一方面則是你對(duì)研究社群的服務(wù),例如當(dāng)審稿人等。科研生涯的評(píng)判標(biāo)準(zhǔn)是你對(duì)整個(gè)領(lǐng)域的影響力,即你給這個(gè)研究社群帶來(lái)了什么改變,包括知識(shí)層面和服務(wù)層面。而對(duì)于“科研生涯”和職業(yè)生涯的聯(lián)系,華剛博士認(rèn)為他們很大程度上是并行的,兩者可以互相幫助與促進(jìn)。


華剛博士接下來(lái)還討論了“工業(yè)界研究”與學(xué)術(shù)界研究的關(guān)系。他指出,兩者的主要區(qū)別在于經(jīng)費(fèi)的來(lái)源,在學(xué)術(shù)界,經(jīng)費(fèi)主要來(lái)自政府的稅收,而在工業(yè)界,研究的經(jīng)費(fèi)主要來(lái)自于公司的利潤(rùn)。那么兩者之間的橋梁是什么?華剛博士提到,我們需要建立一條路徑,使研究可以產(chǎn)生一些商業(yè)上的影響。而對(duì)于“工業(yè)界是否也可以做基礎(chǔ)研究”,華剛博士的回答是肯定的,但他也強(qiáng)調(diào)需要建立一個(gè)“可以將基礎(chǔ)研究轉(zhuǎn)化為商業(yè)目標(biāo)”的架構(gòu)。做基礎(chǔ)研究并不意味著可以很長(zhǎng)時(shí)間沒(méi)有結(jié)果,需要設(shè)置一些里程碑,在完成最終目標(biāo)地過(guò)程中持續(xù)產(chǎn)出階段性的研究成果,將研究項(xiàng)目持續(xù)地推進(jìn)到最終目標(biāo)。


最后,華剛博士分享了建立自己的主研究社群(Home research community)的重要性,并為廣大研究者提出了四點(diǎn)建議


  • 如果你在工業(yè)界做研究,一定要有持久性,它需要你工作之外的額外精力。

  • 無(wú)論在公司還是在研究社群,要去理解這個(gè)系統(tǒng)是怎么運(yùn)作的,這樣會(huì)有助于你在系統(tǒng)內(nèi)達(dá)成自己的目標(biāo)。

  • 如果在工業(yè)界,要思考如何產(chǎn)生商業(yè)的影響,你的研究需要設(shè)計(jì)一條可以產(chǎn)生實(shí)際工業(yè)影響的路線。

  • 希望大家找到自己的主研究社群,也希望大家把計(jì)算機(jī)視覺(jué)當(dāng)作自己的主研究社群。


視覺(jué)頂會(huì)最佳論文得主探討“好論文是如何煉成的”


今年的圓桌論壇邀請(qǐng)到了五位歷年計(jì)算機(jī)視覺(jué)頂會(huì)最佳論文的斬獲者,以“好論文是怎么煉成的?”為主題,分享了他們對(duì)于“做好的論文”和“做好的研究”的理解。


巧合的是,這些歷年的“最佳論文”研究具有一定的傳承性。最佳論文的回顧從 ICCV 99的 3D 幾何研究開(kāi)始,期間穿插討論了近兩年關(guān)于高維空間低秩表達(dá)的新書《High-Dimensional Data Analysis with Low-Dimensional Models》,書中所探討的稀疏低秩表達(dá)曾在10多年前推動(dòng)了當(dāng)時(shí)視覺(jué)領(lǐng)域最火熱的方向,而此后 CVPR 12 的獲獎(jiǎng)工作,恰好是 3D 幾何和低秩表達(dá)的完美結(jié)合與總結(jié)。隨著深度學(xué)習(xí)時(shí)代的到來(lái),許多經(jīng)典工作大量涌現(xiàn),其中就包括2015年的獲獎(jiǎng)工作 HED,該工作以及前序的 DSN 工作都在嘗試探索深度網(wǎng)絡(luò)的有效訓(xùn)練問(wèn)題。而這一問(wèn)題在2016年的 ResNet 中得到了幾乎完美的解決,CVPR 2017 的最佳論文 DenseNet 則是繼 ResNet 之后卷積網(wǎng)絡(luò)的又一突破。


圖片

CVPR 2022 論文分享會(huì)現(xiàn)場(chǎng)


幾位講者除了分享了自己關(guān)于“最佳論文”背后的故事外,還就“如何發(fā)現(xiàn)重要的研究問(wèn)題,找到正確方向”、“一個(gè)新領(lǐng)域的開(kāi)創(chuàng)和發(fā)展需要什么條件、準(zhǔn)備和時(shí)機(jī)”、“如何與同行交流,推廣自己的工作”、“如何做好開(kāi)源”等問(wèn)題進(jìn)行了廣泛和深刻的探討。


其中,屠卓文老師的工作經(jīng)常很超前,在分享自己“如何發(fā)現(xiàn)重要的研究問(wèn)題,找到正確方向”經(jīng)驗(yàn)時(shí),他總結(jié):第一是要善于和導(dǎo)師學(xué)習(xí);第二是要手寫代碼,這會(huì)幫助自己對(duì)相關(guān)內(nèi)容有更強(qiáng)烈的印象;第三是自己的堅(jiān)持。這樣才會(huì)做出最具有代表性與原創(chuàng)性的論文。而馬毅老師則特別分享了自己的“盲人摸象”觀點(diǎn)——許多不同派別的研究,到最后我們會(huì)發(fā)現(xiàn)大家都只觸摸到了一頭大象的一部分。因此,想在自己的領(lǐng)域做出能夠青史留名的工作,必須要了解這個(gè)領(lǐng)域的發(fā)展歷史與思想演進(jìn)。同時(shí),也有許多研究到最后發(fā)現(xiàn)只是一個(gè)更復(fù)雜系統(tǒng)里的局部,是其它領(lǐng)域早已踩過(guò)的坑,因此我們不僅要了解自己的領(lǐng)域發(fā)生了什么,也要通過(guò)歷史關(guān)注其他領(lǐng)域的問(wèn)題。針對(duì)如何做出真的開(kāi)創(chuàng)性的工作,他提出:第一,設(shè)計(jì)一個(gè)遠(yuǎn)大的正確的目標(biāo)方向;第二,了解歷史,知道與這件事情相關(guān)的來(lái)龍去脈是什么;第三,深耕相關(guān)的領(lǐng)域,借深度學(xué)習(xí)的話就是做學(xué)問(wèn)也要越深越好、越寬越好——越深就是要去了解歷史縱深,看到思想的傳承,越寬就是要去了解相關(guān)領(lǐng)域,由點(diǎn)及面你才能看到大象的整體,也會(huì)有自己更獨(dú)到的思想,而這可能是你一生中最有成就感的事情。


六大熱門主題,共話領(lǐng)域現(xiàn)狀與未來(lái)


在本次分享會(huì)上,20多位講者從六大主題進(jìn)行了論文分享和研討。這六大主題分別是:網(wǎng)絡(luò)結(jié)構(gòu)、自監(jiān)督+多模態(tài)預(yù)訓(xùn)練、多模態(tài)應(yīng)用、3D 視覺(jué)、圖像和視頻生成,以及檢測(cè)分割。它們也正是計(jì)算機(jī)視覺(jué)領(lǐng)域近年來(lái)最活躍的幾個(gè)方向。


網(wǎng)絡(luò)結(jié)構(gòu)主題中,四位講者分別帶來(lái)了 ACMix、SwinV2、CSwin 以及 RepLKNet 的分享,其中兩篇論文關(guān)于視覺(jué) Transformer,一篇關(guān)于卷積網(wǎng)絡(luò)的“第二次增長(zhǎng)”,另一篇?jiǎng)t是 CNN 和 Transformer 的融合。值得一提的是,該主題的研討很有幸匯聚了三位視覺(jué)頂級(jí)會(huì)議的最佳論文獎(jiǎng)得主,他們?cè)谇迦A大學(xué)魯繼文教授的主持下,就“大模型和小模型在性質(zhì)上的區(qū)別”、“高校如何參與大模型的研究”等問(wèn)題進(jìn)行了討論。


自監(jiān)督+多模態(tài)預(yù)訓(xùn)練主題中,三位講者分別帶來(lái)了 SimMIM、BEVT 和 HD-VILLA 論文的分享,其中前兩篇論文聚焦最近火熱的掩碼圖像建模方法在圖像和視頻上的應(yīng)用,最后一篇論文則關(guān)注多模態(tài)預(yù)訓(xùn)練方面的進(jìn)展。隨后講者和嘉賓們針對(duì)“掩碼圖像建模(MIM)預(yù)訓(xùn)練能否像掩碼語(yǔ)言建模(MLM)那樣從大數(shù)據(jù)中獲益”等問(wèn)題分享了自己的觀點(diǎn)。


多模態(tài)應(yīng)用主題中,三位講者的工作主要涉及將語(yǔ)言和目標(biāo)對(duì)齊、語(yǔ)言和視頻對(duì)齊,以及語(yǔ)言和多模態(tài)知識(shí)對(duì)齊,完美地覆蓋了目前多模態(tài)領(lǐng)域的核心概念:對(duì)齊,三個(gè)工作也在各層面做了非常豐富的探索。在討論環(huán)節(jié),嘉賓們?cè)谥锌圃狐S巖老師的主持下就“多模態(tài)未來(lái)將產(chǎn)生哪些值得期待的應(yīng)用場(chǎng)景”等問(wèn)題進(jìn)行了分享和討論。


圖片

六大主題論文分享和研討


在 3D 視覺(jué)主題中,三位講者的論文分別關(guān)于動(dòng)作捕捉,移動(dòng)端三維重建,以及基于神經(jīng)輻射場(chǎng)的三維圖像生成。前兩篇論文是貼合實(shí)際應(yīng)用的研究,而后者則與最近幾年火熱的神經(jīng)輻射場(chǎng)相關(guān)。講者和嘉賓們?cè)谖靼步煌ù髮W(xué)蘭旭光老師的主持下針對(duì)“3D 視覺(jué)的殺手級(jí)應(yīng)用是什么”以及“NerF 的現(xiàn)狀與未來(lái)”等問(wèn)題進(jìn)行了討論,并各自分享了自己的觀點(diǎn)。


圖像和視頻生成主題中,三位講者分別分享了降噪擴(kuò)散模型方面的最新成果 VQ-Diffusion,以及基于 Transformer 的圖像修復(fù)和超分辨率方法。其中降噪擴(kuò)散模型(DDPM)已有取代 GAN 成為圖像生成的未來(lái)趨勢(shì),而 Transformer 則繼續(xù)在底層視覺(jué)問(wèn)題中攻城掠地。隨后講者和嘉賓們還針對(duì)“現(xiàn)在圖像生成有哪些成功或者潛在的應(yīng)用”,“擴(kuò)散模型的未來(lái)”等問(wèn)題進(jìn)行了討論。


最后一個(gè)主題是檢測(cè)分割,這也是一個(gè)廣受關(guān)注的領(lǐng)域,分享的四個(gè)工作其中之二涉及 Transformer 結(jié)構(gòu)特別是其****在檢測(cè)分割領(lǐng)域的應(yīng)用,而另外兩個(gè)則是基于傳統(tǒng)檢測(cè)分割頭部網(wǎng)絡(luò)的工作。其中,來(lái)自粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院的張磊老師克服美國(guó)深夜三點(diǎn)的時(shí)差,堅(jiān)持現(xiàn)場(chǎng)演講。他分享的 DN-DETR 是這個(gè)方向的一個(gè)重要工作,也是他最近在 COCO 物體檢測(cè)中取得新紀(jì)錄的 DINO 方法的重要前序工作。華中科技大學(xué)王興剛老師則分享了他們團(tuán)隊(duì)將掩碼圖像建模應(yīng)用于 ViT 檢測(cè)的最新工作,這也與第二個(gè)主題中備受矚目的掩碼圖像建模模型相呼應(yīng)。最后在主題討論環(huán)節(jié),活動(dòng)邀請(qǐng)到了中科院張兆翔老師加入討論,5位講者和嘉賓們針對(duì)“在檢測(cè)分割這樣的下游任務(wù)中,網(wǎng)絡(luò)結(jié)構(gòu)是否會(huì)被 Transformer 一統(tǒng)天下,還是仍然會(huì)保持目前一個(gè)相對(duì)百花齊放的局面”等問(wèn)題進(jìn)行了精彩討論和觀點(diǎn)分享。


CVPR 2022 分享會(huì)聚焦了近期計(jì)算機(jī)視覺(jué)的核心方向與重要研究,為與會(huì)者們帶來(lái)了深度與廣度并存的分享,而講者們也通過(guò)彼此的思想交鋒獲得了研究認(rèn)知的刷新。歡迎大家持續(xù)關(guān)注,我們將于近期精選 CVPR 2022 的一些精彩工作,為大家?guī)?lái)介紹!

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉