魏云超:弱監(jiān)督語義分割研究的早期開拓者,推動計算機視覺發(fā)展,或將為數(shù)字農(nóng)業(yè)帶來巨大變革 | 創(chuàng)新35人專欄
1 月 22 日,由 DeepTech 攜手絡繹科學舉辦的“MEET35:創(chuàng)新者說”論壇暨“35 歲以下科技創(chuàng)新 35 人”2021 年中國線上發(fā)布儀式成功舉行。來自科學界和產(chǎn)業(yè)界的人士在云端共同見證了新一屆中國青年科技領軍人物登場。
絡繹科學邀請到了“創(chuàng)新 35 人” 2021 中國入選者北京交通大學教授魏云超,做客直播間,從面向非完美數(shù)據(jù)像素理解方面的研究工作與我們進行了分享。
作為“先鋒者”入選的魏云超主要研究集中在開發(fā)基于不完美標注數(shù)據(jù)的深度學習相關技術,進而幫助計算機“看到”和理解復雜場景中的各種物體。因其提出一系列原創(chuàng)的弱監(jiān)督語義分割解決方案,而成功入選“創(chuàng)新 35 人”。
獲獎時年齡:35 歲
獲獎時職位:北京交通大學教授
獲獎理由:他是弱監(jiān)督語義分割研究的早期開拓者,推動了非完美數(shù)據(jù)條件下視覺理解的發(fā)展。
人類認知世界的信息中 83% 來自于視覺,而在人工智能時代,計算機視覺則是機器認知世界的基礎。
計算機視覺的發(fā)展歷史可以追溯至 20 世紀 60 年代,隨著機器學習的興起,以及互聯(lián)網(wǎng)的崛起使得大量數(shù)據(jù)隨之產(chǎn)生,大規(guī)模數(shù)據(jù)集也隨之產(chǎn)生,這為機器學習應用于計算機視覺領域提供了一個良好的環(huán)境。2010 年左右,因深度學習的產(chǎn)生,人工智能迎來了一次大變革。在過去 10 年中,基于深度學習的監(jiān)督學習極大地提升了計算機視覺相關任務的性能。
監(jiān)督學習的成功主要歸功于大規(guī)模標注數(shù)據(jù)的出現(xiàn)和計算機硬件的發(fā)展。然而,這些監(jiān)督學習的算法通常都依賴大量完美標注的數(shù)據(jù),即“data-hungry”。在很多真實場景中,往往很難獲得足夠多高質(zhì)量的標注數(shù)據(jù),導致這些監(jiān)督算法很難被直接用于真實的工業(yè)級應用中。
為了解決這個問題,魏云超自 2014 年開始從事基于不完美數(shù)據(jù)的相關研究,開發(fā)基于不完美標注數(shù)據(jù)的深度學習相關技術,是該領域早期的開拓者之一。他已經(jīng)在國際頂級期刊和頂級會議論文上發(fā)表了眾多具有國際影響力的研究論文,包括在模式識別和機器智能領域最好的國際期刊 IEEE TPAMI 上發(fā)表的 12 篇高質(zhì)量論文,并多次受邀作為專家參與研究領域的同行評審工作。
弱監(jiān)督語義分割早期開拓者,多種方案推動計算機視覺發(fā)展
2013 年底,魏云超以訪問學者的身份進入新加坡國立大學顏水成教授的機器學習與計算機視覺實驗室。當時由于深度學習的興起,大量計算機視覺基礎問題的解決方案被重新定義,魏云超在顏水成教授的指導下開始涉獵分類、檢測和分割等核心問題。
弱監(jiān)督語義分割
在研究過程中,魏云超發(fā)現(xiàn)所有跟深度學習相關的計算機視覺算法都依賴大量的標注樣本,若沒有足夠多的訓練樣本,結果就會很差。這個問題在語義分割上的表現(xiàn)尤為突出,因為一張完美的像素級標注樣本往往需要消耗幾分鐘甚至一個小時?;诖耍涸瞥岢隽艘幌盗腥醣O(jiān)督語義分割解決方案,利用相對容易獲取的圖像標簽作為監(jiān)督信息進行訓練,在測試中完成復雜的圖像分割任務,即像素級分類,這種方法比當時最高的弱監(jiān)督的結果提高了 10%。
但在研究過程中,魏云超發(fā)現(xiàn)標注數(shù)據(jù)并不直接含有標簽和像素的對應關系,存在語義關聯(lián)鴻溝。針對這些問題,魏云超提出了物體顯著性引導、識別-擦除相對抗、注意力遷移等多種解決方案,并在過去三年將模型在 PASCAL 數(shù)據(jù)集上的分類性能提升了 20%。
識別-擦除相對抗
在絡繹科學 APP 上中國區(qū)第五屆“35 歲以下科技創(chuàng)新 35 人”的線上發(fā)布儀式中,魏云超重點分享了他在識別-擦除相對抗這一方案的工作。
分類網(wǎng)絡通常僅依賴于物體的某些判別區(qū)域。比如,在一張以狗為主體的圖片中,狗的頭部通常具有較強的判別力,可以使網(wǎng)絡識別出圖片中包含狗,從而忽略狗的其他區(qū)域。但對于弱監(jiān)督學習的語義分割任務而言,需要比較稠密和完整的定位圖去訓練更好的模型,僅僅依賴于分類網(wǎng)絡直接生成的定位圖很難訓練出有效模型。
受計算機輔助制造(CAM)的啟發(fā),魏云超先將包含狗的圖片輸入分類網(wǎng)絡,通過訓練得到對于狗而言最具判別力的區(qū)域,如狗的頭部。接下來,將狗的頭部從圖片中擦除掉,并將擦除后的圖片輸入分類網(wǎng)絡進行再訓練。網(wǎng)絡會尋找其他證據(jù)來使得圖像可以被正確分類,進而找到狗的胸部。重復此操作后,狗的腳部區(qū)域也可以被發(fā)現(xiàn)。最后,將擦除掉的區(qū)域合并從而獲取相對完整的區(qū)域。通過挖掘出很多高質(zhì)量的物體的區(qū)域用來去訓練分割網(wǎng)絡的方式,可以得到比之前更高的結果。
基于以上工作,魏云超發(fā)表了兩篇對該領域有重要推動作用的文章,一篇利用顯著性分析圖來建立圖像類別標簽和像素的關聯(lián),文章發(fā)表在 2016 年的 IEEE T-PAMI 上,他引次數(shù)為 275,這一工作將分割性能至少提升了 10%。另一篇是創(chuàng)新性地提出了對抗-擦除(adversarial erasing)這一概念,該文章 2017 年被 CVPR 接收為 oral 報告文章(錄用率僅2.67%),他引次數(shù)為 254,并在隨后影響了很多其它方向的研究人員。
為推動相關研究,魏云超還組織了第一屆和第二屆 CVPR Learning from Imperfect Data (LID) 研討會和 ICCV Real-World Recognition from Low Quality Images and Videos (RLQ) 研討會,吸引了數(shù)百位來自世界各地的研究人員,推動了利用有限標注或噪聲等不完美數(shù)據(jù)來解決計算機視覺及其應用方面的相關研究。
創(chuàng)建免費開放的高校標注平臺,將重點研究農(nóng)業(yè)圖像和無人機視覺
最近幾年,除了之前的研究方向外,魏云超主要針對視覺媒體的物體和場景分割展開研究,并在半監(jiān)督視頻分割、交互式圖像/視頻分割領域進行了深入研究。他提出的 Inside-Outside Guidance (IOG) 交互分割方法,在 10 個數(shù)據(jù)集上都取得了國際領先的分割結果?;?IOG,魏云超快速且精準地標注國際知名的包含 1000 類物體的 ImageNet 數(shù)據(jù)集。
圖像/視頻分割具備非常廣闊的應用場景,包括自動駕駛、醫(yī)療圖像分割、農(nóng)業(yè)圖像分割、衛(wèi)星圖像識別及視頻編輯等。但所有的應用場景目前都受制于數(shù)據(jù)的缺失,即很難獲取大量高精度的標注數(shù)據(jù)。因此,魏云超計劃將自己在圖像和視頻分割上的研究成果整合成一個高效的標注平臺,利用深度學習技術輔助標注,并免費對外開放。
談到下一個階段的研究方向和目標時,魏云超表示,除之前的研究方向外,還將在農(nóng)業(yè)圖像和無人機視覺這兩個方向投入更多精力。
“中國是農(nóng)業(yè)大國,但針對農(nóng)業(yè)方面的計算機視覺相關研究,在國內(nèi)幾乎沒有。我今年同伊利諾伊大學厄本那香檳分校和美國 IntelinAir 公司合作推出了首個大規(guī)模的農(nóng)業(yè)圖像分割數(shù)據(jù)集 AGRICULTURE-VISION。但在構建數(shù)據(jù)集過程中標注非常困難,我們也引入了一些弱監(jiān)督和交互式物體分割技術來解決這一問題。后面希望這一方向能在中國得到更多重視和發(fā)展?!蔽涸瞥f道。
“隨著新冠疫情的全球爆發(fā),無人配送也得到了更多關注。如何使得無人機自動感知整個場景實現(xiàn)自動配送或定點投放,有可能會成為將來重要的實際應用點。但由于無人機下真實場景的數(shù)據(jù)收集非常困難,我利用 Google Earth 的 3D 引擎構建一個無人機目標定位數(shù)據(jù)集 University-1652,目標是希望通過衛(wèi)星圖或地面圖使得無人機自動識別建筑。雖然圖像是虛擬的不完美數(shù)據(jù),但希望通過領域自適應等技術在未來解決這一問題?!?/span>
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。