7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度學(xué)習(xí)的黃金十年;擴(kuò)散模型生成視頻
本周論文包括谷歌大牛 Jeff Dean 發(fā)文探索深度學(xué)習(xí)發(fā)展的黃金十年;Google Research 的研究者們提出了一種稱為「自洽性(self-consistency)」的簡(jiǎn)單策略,顯著提高了大型語(yǔ)言模型的推理準(zhǔn)確率。
目錄
A Golden Decade of Deep Learning: Computing Systems & Applications
Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing
Self-Consistency Improves Chain of Thought Reasoning in Language Models
Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction
Video Diffusion Models
Overcoming a Theoretical Limitation of Self-Attention
RETHINKING NETWORK DESIGN AND LOCAL GEOMETRY IN POINT CLOUD: A SIMPLE RESIDUAL MLP FRAMEWORK
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:A Golden Decade of Deep Learning: Computing Systems & Applications
作者:Jeffrey Dean
論文鏈接:https://www.amacad.org/sites/default/files/publication/downloads/Daedalus_Sp22_04_Dean.pdf
摘要:自從計(jì)算機(jī)誕生之初,人類就夢(mèng)想著能夠創(chuàng)造出會(huì)思考的機(jī)器。1956 年在達(dá)特茅斯學(xué)院組織的一個(gè)研討會(huì)上,約翰 · 麥卡錫提出人工智能這個(gè)概念,一群數(shù)學(xué)家和科學(xué)家聚集在一起尋找如何讓機(jī)器使用語(yǔ)言、形成抽象理解和概念、以解決現(xiàn)存的各種問(wèn)題,當(dāng)時(shí)研討會(huì)參與者樂(lè)觀地認(rèn)為,在幾個(gè)月的時(shí)間里這些問(wèn)題能取得真正的進(jìn)展。
事實(shí)證明,預(yù)留幾個(gè)月的時(shí)間安排過(guò)于樂(lè)觀。在接下來(lái)的 50 年里,創(chuàng)建人工智能系統(tǒng)的各種方法開(kāi)始流行,但后來(lái)又遭遇過(guò)時(shí),包括基于邏輯的系統(tǒng)、基于規(guī)則的專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)。
直到 2011 年左右,人工智能才開(kāi)始進(jìn)入發(fā)展關(guān)鍵階段,取得了巨大的進(jìn)步,這得益于深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的復(fù)興,這些技術(shù)的進(jìn)步有助于提高計(jì)算機(jī)看、聽(tīng)和理解周圍世界的能力,使得人工智能在科學(xué)以及人類探索的其他領(lǐng)域取得巨大進(jìn)步。這其中有哪些原因呢?
近日,谷歌大牛 Jeff Dean 發(fā)表了一篇文章《 A Golden Decade of Deep Learning: Computing Systems & Applications 》,文章探索了深度學(xué)習(xí)在這黃金十年里,計(jì)算系統(tǒng)以及應(yīng)用進(jìn)步的原因都有哪些?本文重點(diǎn)關(guān)注三個(gè)方面:促成這一進(jìn)步的計(jì)算硬件和軟件系統(tǒng);過(guò)去十年在機(jī)器學(xué)習(xí)領(lǐng)域一些令人興奮的應(yīng)用示例;如何創(chuàng)建更強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng),以真正實(shí)現(xiàn)創(chuàng)建智能機(jī)器的目標(biāo)。
Jeff Dean 的這篇文章發(fā)表在了美國(guó)文理學(xué)會(huì)會(huì)刊 D?dalus 的 AI 與社會(huì)(AI & Society)特刊上。
推薦:谷歌大牛 Jeff Dean 單一作者撰文:深度學(xué)習(xí)研究的黃金十年。
論文 2:Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing
作者:Zhuo Wang 、 Zezheng Wang 、 Zitong Yu 等
論文鏈接:https://arxiv.org/abs/2203.05340
摘要:在這篇文章中,該研究提出了一個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu) SSAN,用以實(shí)現(xiàn)具有域泛化性的活體檢測(cè)算法。與過(guò)去的方法直接在圖像完全表征上提升域泛化性的思路不同,該研究基于內(nèi)容特征和風(fēng)格特征在統(tǒng)計(jì)特性上的差異,對(duì)他們實(shí)施不同的處理。具體而言,對(duì)于內(nèi)容特征,本文采用了對(duì)抗學(xué)習(xí)的方式,使得網(wǎng)絡(luò)無(wú)法對(duì)他們進(jìn)行數(shù)據(jù)域?qū)用娴膮^(qū)分。對(duì)于風(fēng)格特征,本文使用了對(duì)比學(xué)習(xí)的策略,來(lái)強(qiáng)化與活體相關(guān)的風(fēng)格信息,同時(shí)抑制域信息相關(guān)的部分。然后,本文對(duì)配對(duì)的內(nèi)容和風(fēng)格特征進(jìn)行組合,構(gòu)成完全特征表示,并用以最后的分類。
此外,為了彌合學(xué)術(shù)界與工業(yè)界之間的差異,本文通過(guò)合并現(xiàn)有的公開(kāi)數(shù)據(jù)集,建立了大規(guī)?;铙w檢測(cè)測(cè)試協(xié)議。在現(xiàn)有的協(xié)議和本文所提出的協(xié)議上,所提出的 SSAN 算法均取得了最佳的表現(xiàn)。
本文方法的整體框架如圖二所示。首先,本文使用一個(gè)雙流網(wǎng)絡(luò)來(lái)對(duì)圖像的內(nèi)容信息和風(fēng)格信息進(jìn)行提取。第二步,一種風(fēng)格重組的方法被提出,以使不同的內(nèi)容特征和風(fēng)格特征進(jìn)行組合。然后,為了抑制域相關(guān)的風(fēng)格信息,同時(shí)增強(qiáng)活體相關(guān)的風(fēng)格信息,本文在重組后的特征空間上使用了對(duì)比學(xué)習(xí)的策略。最后,總的損失函數(shù)用來(lái)訓(xùn)練所提出的網(wǎng)絡(luò)。整體網(wǎng)絡(luò)框架
推薦:快手、北郵提出基于特征組合的域泛化性活體檢測(cè)算法,多項(xiàng) SOTA。
論文 3:Self-Consistency Improves Chain of Thought Reasoning in Language Models
作者:Xuezhi Wang 、 Jason Wei 等
論文鏈接:https://arxiv.org/pdf/2203.11171.pdf
摘要:盡管語(yǔ)言模型在一系列 NLP 任務(wù)中取得了顯著的成功,但它們的推理能力往往不足,僅靠擴(kuò)大模型規(guī)模不能解決這個(gè)問(wèn)題?;诖?,Wei et al. (2022) 提出了思維提示鏈(chain of thought prompting),提示語(yǔ)言模型生成一系列短句,這些短句模仿一個(gè)人在解決推理任務(wù)時(shí)可能采用的推理過(guò)程。
現(xiàn)在來(lái)自 Google Research 的研究者們提出了一種稱為「自洽性(self-consistency)」的簡(jiǎn)單策略,它顯著提高了大型語(yǔ)言模型的推理準(zhǔn)確率。
簡(jiǎn)單來(lái)說(shuō),復(fù)雜的推理任務(wù)通常有多個(gè)能得到正確答案的推理路徑,自洽方法通過(guò)思維提示鏈從語(yǔ)言模型中采樣一組不同的推理路徑,然后返回其中最自洽的答案。
該方法在一系列算術(shù)和常識(shí)推理基準(zhǔn)上評(píng)估自洽性,可以穩(wěn)健地提高各種語(yǔ)言模型的準(zhǔn)確性,而無(wú)需額外的訓(xùn)練或輔助模型。當(dāng)與最近的大型語(yǔ)言模型 PaLM-540B 結(jié)合使用時(shí),自洽方法將多個(gè)基準(zhǔn)推理任務(wù)的性能提高到 SOTA 水平。
該方法是完全無(wú)監(jiān)督的,預(yù)訓(xùn)練語(yǔ)言模型直接可用,不需要額外的人工注釋,也不需要任何額外的訓(xùn)練、輔助模型或微調(diào)。
該研究在三種大型語(yǔ)言模型上評(píng)估一系列算術(shù)推理和常識(shí)推理任務(wù)的自洽性,包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者發(fā)現(xiàn),對(duì)于這幾種規(guī)模不同的語(yǔ)言模型,自洽方法都能顯著提高其推理能力。與通過(guò)貪心解碼(Wei et al., 2022)生成單一思維鏈相比,自洽方法有助于在所有推理任務(wù)中顯著提高準(zhǔn)確性,如下圖 2 所示。
推薦:用自洽性提升大模型推理能力,谷歌解答基準(zhǔn)中 75% 數(shù)學(xué)問(wèn)題,比 GPT-3 提升 20%。
論文 4:Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction
作者:Mengmeng Sun、Chenyao Tian 等
論文鏈接:https://onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202112508
摘要:看過(guò)電影《毒液》的朋友都知道,「共生體」以液體狀的形式出現(xiàn),即使被打成肉泥或是一灘水,只要有足夠的時(shí)間也可以恢復(fù)?,F(xiàn)在,具有這般強(qiáng)大修復(fù)功能的機(jī)器人出現(xiàn)了。
這種「磁性粘液機(jī)器人」和粘液怪 slime 同名,是由來(lái)自哈爾濱工業(yè)大學(xué)和香港中文大學(xué)的研究者共同研發(fā)的,研究發(fā)表在同行評(píng)審期刊《Advanced Functional Materials》上。
slime 由聚乙烯醇、硼砂和釹磁鐵顆粒的混合物制成。研究團(tuán)隊(duì)成員、香港中文大學(xué)教授張立說(shuō):「這種材料就像是水和淀粉的混合物,是一種非牛頓流體,其粘度會(huì)在外力作用下發(fā)生變化。當(dāng)你快速觸摸它時(shí),它就像一個(gè)固體。當(dāng)你輕輕地、慢慢地觸摸它時(shí),它就像液體一樣?!?/span>
由于該粘液中含有釹磁鐵等磁性顆粒,因此能夠由磁鐵控制其移動(dòng)和變形,并且具有良好的導(dǎo)電性,可與電極相連,充當(dāng)電路開(kāi)關(guān)。
slime 具備極好的拉伸性能,可以通過(guò) 1.5mm 的狹窄縫隙而不斷裂。該研究在相同的磁場(chǎng)條件下,比較了鐵磁流體液滴機(jī)器人和 slime 的拉伸能力。
此外,slime 能夠變成 O 形或 C 形來(lái)環(huán)繞細(xì)小的物體,一些科學(xué)家認(rèn)為這可能對(duì)消化系統(tǒng)有用,例如減少吞下小電池的危害。他們認(rèn)為使用這種粘液機(jī)器人對(duì)電池進(jìn)行封裝,形成一種惰性涂層,可以避免有毒電解質(zhì)泄漏的危害。
推薦:來(lái)自哈爾濱工業(yè)大學(xué)和香港中文大學(xué)的研究者共同研發(fā)了一種磁性粘液機(jī)器人,具有強(qiáng)大的變形功能。
論文 5:Video Diffusion Models
作者:Jonathan Ho 、 Tim Salimans 等
論文鏈接:https://arxiv.org/pdf/2204.03458.pdf
摘要:擴(kuò)散模型并不是一個(gè)嶄新的概念,早在 2015 年就已經(jīng)被提出。其核心應(yīng)用領(lǐng)域包括音頻建模、語(yǔ)音合成、時(shí)間序列預(yù)測(cè)、降噪等。
那么它在視頻領(lǐng)域表現(xiàn)如何?先前關(guān)于視頻生成的工作通常采用諸如 GAN、VAE、基于流的模型。
在視頻生成領(lǐng)域,研究的一個(gè)重要里程碑是生成時(shí)間相干的高保真視頻。來(lái)自谷歌的研究者通過(guò)提出一個(gè)視頻生成擴(kuò)散模型來(lái)實(shí)現(xiàn)這一里程碑,顯示出非常有希望的初步結(jié)果。本文所提出的模型是標(biāo)準(zhǔn)圖像擴(kuò)散架構(gòu)的自然擴(kuò)展,它可以從圖像和視頻數(shù)據(jù)中進(jìn)行聯(lián)合訓(xùn)練,研究發(fā)現(xiàn)這可以減少小批量梯度的方差并加快優(yōu)化速度。
為了生成更長(zhǎng)和更高分辨率的視頻,該研究引入了一種新的用于空間和時(shí)間視頻擴(kuò)展的條件采樣技術(shù),該技術(shù)比以前提出的方法表現(xiàn)更好。
例如生成五彩斑斕的煙花:
這項(xiàng)研究有哪些亮點(diǎn)呢?首先谷歌展示了使用擴(kuò)散模型生成視頻的首個(gè)結(jié)果,包括無(wú)條件和有條件設(shè)置。先前關(guān)于視頻生成的工作通常采用其他類型的生成模型,如 GAN、VAE、基于流的模型和自回歸模型。
其次該研究表明,可以通過(guò)高斯擴(kuò)散模型的標(biāo)準(zhǔn)公式來(lái)生成高質(zhì)量的視頻,除了直接的架構(gòu)更改以適應(yīng)深度學(xué)習(xí)加速器的內(nèi)存限制外,幾乎不需要其他修改。該研究訓(xùn)練生成固定數(shù)量的視頻幀塊的模型,并且為了生成比該幀數(shù)更長(zhǎng)的視頻,他們還展示了如何重新調(diào)整訓(xùn)練模型的用途,使其充當(dāng)對(duì)幀進(jìn)行塊自回歸的模型。
下圖左為利用梯度方法的視頻幀,圖右為利用自回歸擴(kuò)展基線替代(replacement)方法的幀??梢钥吹剑褂锰荻确椒ú捎玫囊曨l比基線方法具有更好的時(shí)間相干性。
推薦:視頻生成無(wú)需 GAN、VAE,谷歌用擴(kuò)散模型聯(lián)合訓(xùn)練視頻、圖像,實(shí)現(xiàn)新 SOTA。
論文 6:Overcoming a Theoretical Limitation of Self-Attention
作者:David Chiang 、 Peter Cholak
論文鏈接:https://arxiv.org/pdf/2202.12172.pdf
摘要:盡管 transformer 模型在許多任務(wù)中都非常有效,但它們對(duì)一些看起來(lái)異常簡(jiǎn)單的形式語(yǔ)言卻難以應(yīng)付。Hahn (2020) 提出一個(gè)引理 5),來(lái)試圖解釋這一現(xiàn)象。這個(gè)引理是:改變一個(gè)輸入符號(hào)只會(huì)將 transformer 的輸出改變
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。