博客專欄

EEPW首頁 > 博客 > 曠視張祥雨:從基礎(chǔ)科研的「大」和「統(tǒng)一」,看視覺AI研究新趨勢

曠視張祥雨:從基礎(chǔ)科研的「大」和「統(tǒng)一」,看視覺AI研究新趨勢

發(fā)布人:機器之心 時間:2022-07-21 來源:工程師 發(fā)布文章
在 MegTech 2022 上,曠視研究院基礎(chǔ)科研負責人張祥雨表示:“大”和 “統(tǒng)一” 是視覺 AI 基礎(chǔ)研究的新趨勢。


基礎(chǔ)模型科研是 AI 創(chuàng)新突破的基石,每一代基礎(chǔ)模型的突破都極大程度地促進了視覺 AI 的發(fā)展。7 月 15 日,2022 曠視技術(shù)開放日(MegTech 2022)在京舉行,曠視研究院基礎(chǔ)科研負責人張祥雨在會上分享了他對基礎(chǔ)模型科研的深入思考及基礎(chǔ)模型組的最新科研成果。
張祥雨表示,「“大”和 “統(tǒng)一” 是當今視覺 AI 基礎(chǔ)研究的新趨勢。同時,“在致力于解決人工智能最本質(zhì)難題的道路上,曠視將秉持原創(chuàng)、實用和本質(zhì)的科研價值觀,重點深耕通用圖像大模型、視頻理解大模型等四個主要方向?!?/span>

圖片

曠視研究院基礎(chǔ)科研負責人張祥雨在曠視技術(shù)開放日上發(fā)表演講
發(fā)揮 “大” 的威力,推進大模型、大算法與大應(yīng)用協(xié)同發(fā)展
“大”主要指 AI 大模型,即利用大數(shù)據(jù)、大算力和大參數(shù)量,提高模型的表達能力,使得 AI 模型能夠適用于多種任務(wù)、多種數(shù)據(jù)和多種應(yīng)用場景。張祥雨指出,「“大”是提高 AI 系統(tǒng)性能的最重要捷徑之一。這主要是因為,AI 視覺系統(tǒng)通常要面對復雜的應(yīng)用場景和多種任務(wù),提高模型性能的最直接途徑就是提高模型本身的表達能力,也就是所謂的“大”?!?/span>
但在做 “大” 的過程中,隨著模型參數(shù)量和數(shù)據(jù)量的增多,邊際效應(yīng)遞減情形卻時有發(fā)生。如張祥雨所言,“大并不一定代表著好,更大的模型會帶來更大的計算開銷,我們的收益將會非常有限。” 換言之,片面追求大參數(shù)量、大計算量和大數(shù)據(jù)量,并不一定能夠得到性能更強的模型。視覺 AI 基礎(chǔ)研究不僅需往 “大” 的方向努力,更要讓 “大” 模型的優(yōu)勢能發(fā)揮出來,這是當今 AI 視覺研究主要的趨勢和挑戰(zhàn)之一。

圖片

AI 視覺研究面對著如何讓 “大” 模型優(yōu)勢發(fā)揮出來的挑戰(zhàn)
為此,曠視以創(chuàng)新算法充分發(fā)揮大數(shù)據(jù)、大算力威力,持續(xù)拓展 AI 認知邊界,重新定義 “大” 的內(nèi)涵:即大模型、大算法與大應(yīng)用。

  • 大模型。要研究的不僅是如何實現(xiàn)“大”,更重要的是如何發(fā)揮大模型背后的威力;
  • 大算法。大模型需要大量基礎(chǔ)設(shè)施、算法、算力做支持,要成功地將這些大模型、大算法、大算力及大數(shù)據(jù)整合起來,就要求研究者提出創(chuàng)新算法以充分發(fā)揮大模型的作用;
  • 大應(yīng)用。大模型做出來以后,究竟能干什么?如何提高 AI 模型的生產(chǎn)效率?提高模型性能?


“統(tǒng)一”AI 系統(tǒng)設(shè)計,打造簡單、強大、通用系統(tǒng)
近年來,包括基礎(chǔ)模型研發(fā)、視覺基礎(chǔ)應(yīng)用、AI 算法演化等在內(nèi)的研究領(lǐng)域都衍生出一系列算法,而這些算法正在底層走向統(tǒng)一。例如,在基礎(chǔ)模型方面,過去有各種各樣的 CNN 和 ViT 被提出來。但近年的研究表明,通過特定的優(yōu)化算法能夠在訓練過程中增加先驗,使得 CNN、ViT、MLP 都取得相似的性能,這就為“統(tǒng)一”AI 系統(tǒng)設(shè)計奠定了基礎(chǔ)。
“統(tǒng)一”的好處是顯而易見的。如果能用統(tǒng)一算法、統(tǒng)一模型來表示和建模各種數(shù)據(jù)、各種任務(wù),研究界將可以得到簡單、強大且通用的系統(tǒng)。張祥雨解釋稱,「一旦模型統(tǒng)一,AI 加速器的設(shè)計就會非常簡單,一個模型可以適用于各種設(shè)備和各種任務(wù),這可以極大地節(jié)省模型適配成本,且硬件計算平臺廠商只用支持少量算子就能把大部分任務(wù)跑起來。」
但實現(xiàn) “統(tǒng)一” 的挑戰(zhàn)亦是顯著的。比如,要實現(xiàn)在多個任務(wù)上共享一個模型、一個算法,就必須加深對系統(tǒng)及模型的認識以抽象出共性,才能使 “統(tǒng)一” 模型達到專為所有系統(tǒng)單獨設(shè)計的模型所具有的性能。
為此,曠視認為“統(tǒng)一”AI 系統(tǒng)設(shè)計要從以下三方面著手:

  • 要統(tǒng)一架構(gòu)。主要是指基礎(chǔ)模型架構(gòu),也包括基本的計算架構(gòu);
  • 要統(tǒng)一算法。用盡可能統(tǒng)一的算法來支持各種任務(wù)、數(shù)據(jù)和平臺,從紛繁的 AI 調(diào)參中解放出來;
  • 要統(tǒng)一認知。唯有從算法中抽取共性,理解本質(zhì),才能構(gòu)建統(tǒng)一的、高性能的視覺 AI 系統(tǒng)。


立足四大重點方向,曠視秉持原創(chuàng)、實用與本質(zhì)科研價值觀
基于 “大” 和“統(tǒng)一”是當今視覺 AI 基礎(chǔ)研究新趨勢的判斷,張祥雨在演講中指出,曠視基礎(chǔ)模型科研工作重點關(guān)注如下四個主要方向:
通用圖像大模型。在這項研究中,曠視主要著眼于構(gòu)建通用、統(tǒng)一、高性能的圖像視覺大模型,解決如何高效變 “大” 的問題。如上所述,“大”不意味著好,故需要研究讓 “大” 真正服務(wù)于 “性能提升、孵化應(yīng)用” 的創(chuàng)新方法。
視頻理解大模型?;诖朔较?,曠視期望在視頻理解與視頻建模問題上攻克困擾業(yè)界已久的長序列建模問題,并找到更高效的視頻模型訓練、監(jiān)督和應(yīng)用方法。
計算攝影大模型。當前,計算攝影常通過圖像退化模式進行建模,實現(xiàn)高質(zhì)量圖像生成。這種建模思路不能使用、整合大數(shù)據(jù)的威力,也無法實現(xiàn)多模組、多設(shè)備、多數(shù)據(jù)之間的通用。因此,曠視希望找到計算攝影大模型研究的新范式,從大數(shù)據(jù)中找到充分的真實圖像先驗信息,進而指導我們生成更加高清、高質(zhì)量的圖像。

圖片

基礎(chǔ)模型科研需要堅持長期主義
自動駕駛感知大模型。在這項研究中,曠視主要著眼于研究簡單、高效、統(tǒng)一且易于使用的自動駕駛模型的優(yōu)化、訓練和部署方法。
演講尾聲,張祥雨再次闡釋了曠視基礎(chǔ)模型科研始終秉持的科研價值觀,“堅持長期主義,堅持原創(chuàng)、實用和本質(zhì)的價值觀。”他認為,只有立足原創(chuàng),才能突破現(xiàn)有技術(shù)的認知邊界;只有做到實用,才能把科研成果真正轉(zhuǎn)化為產(chǎn)品,轉(zhuǎn)化為實際可以落地的價值;只有發(fā)現(xiàn)本質(zhì),才能從紛繁的表象中看到模型背后的創(chuàng)新點,更好地實現(xiàn) “大” 且“統(tǒng)一”的基礎(chǔ)模型研發(fā)。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉