Gary Marcus又來「整頓」AI圈:LeCun不可信,Nature審稿人沒用腦子
Gary Marcus 和 Yann LeCun 等人的一系列辯論能否讓「AI 的未來何去何從」這一命題越辯越明?
這個周末剛過,我們再次看到了 Gary Marcus 對 AI 圈的最新「整頓」成果。
「四天內關于人工智能和機器學習的三個令人費解的說法、頂級期刊的統(tǒng)計錯誤,以及 Yann LeCun 的一些說法,你都不應該相信?!?/span>
以下是 Gary Marcus 的原文內容:
一些事情即將發(fā)生。當《紐約時報》說一場革命即將到來,但事實上并沒有發(fā)生時,我從不感到驚訝。這種情況已經持續(xù)了很長一段時間(實際上是幾十年)。
比如,想想 2011 年時 John Markoff 是如何展望 IBM Watson 的。
「對 I.B.M. 來說,這場較量不僅是一場廣為人知的宣傳和 100 萬美元的獎勵,還證明了該公司已經朝著一個智能機器能夠理解并對人類做出反應,甚至可能不可避免地取代人類的世界邁出了一大步?!?/span>
但 11 年之后的今天,John Markoff 所描述的愿景并沒有發(fā)生。人們仍然缺乏對人工智能的理解,真正被 AI 取代的工作也是極少數(shù)。我所知道的每一輛卡車仍然在由人類駕駛(除了一些在受限場景下進行測試的卡車),目前還沒有放射科醫(yī)生被取代。Watson 本身近期也在被拆分出售。
《紐約時報》在 1958 年首次表示,神經網絡即將解決人工智能問題。當然,預測 AI 并不是《紐約時報》的強項。
但在過去的幾天里,我看到一大堆嚴肅的研究人員也在提出類似的過度興奮的主張,他們本應該更了解這個領域的情況。
第一個例子來自斯坦福大學經濟學家 Erik Brynjolfsson,是三個例子中最不令人反感的一個,但仍有些過頭。
我看過很多種不同類型的狹義智能,一些智能在它們特定的領域能超越人類。人類智能(可能)比目前所有其他智能都更加廣泛,但仍然只是智能空間中一個非常狹窄的部分。
Brynjolfsson 認為,人類智能是所有可能的智能空間中非常狹窄的一部分(這是喬姆斯基在我出生前就針對人類語言提出的觀點),這個看法完全正確。毫無疑問,比我們更聰明的智能是有可能存在的,而且還可能實現(xiàn)。
但是,且慢——他帖子里的 「probably」是怎么回事呢?他甚至把它放到了括號里。
任何一個正常的 5 歲孩子都可以用他們幾年前或多或少從零學到的母語進行對話、爬上一個不熟悉的攀爬架、看懂一部新卡通的情節(jié)或口頭掌握一個新卡片游戲的規(guī)則,而不需要進行成千上萬次的嘗試。人類孩童在不斷地學習新事物,而且通常是從少量的數(shù)據中學習。在人工智能的世界里,沒有任何東西可以與之相比。
他在帖子里加一個「probably」,就好像我們認為,在人工智能的世界里,人類通用智能存在一個有潛力的競爭對手。事實上并沒有。這就好像我說「塞雷娜 · 威廉姆斯可能(could probably)會打敗我」一樣。
與此同時,Yann LeCun 發(fā)布了一系列令人費解的推文,聲稱他發(fā)明的 ConvNet(或其他什么東西)可以解決幾乎所有問題,這不是真的,而且從表面上看與他自己幾周前告訴 ZDNet 的相矛盾。但是等等,還有更糟的。LeCun 繼續(xù)寫了下面的話,這真的讓我摸不著頭腦:
無論你是想增強人力還是取代人力,在 AI 領域取得進展所要解決的問題都是「完全」相同的。
我不同意他的看法。增強人的能力要簡單得多,因為你不需要把整個問題都解決掉。計算器可以增強會計的能力,但它不知道哪些錢是可扣除的,也不知道稅法中哪里可能存在漏洞。我們知道如何建造能做數(shù)學運算的機器(增強),但不知道如何制造能夠閱讀稅法代碼的機器(取代)。
我們再來看看放射學:
放射科醫(yī)師的工作不僅包括閱讀圖像(卷積網絡適用),而且(在某些情況下)包括推理患者的病史以及閱讀非結構化文本,這兩個問題卷積網絡就不太適用了。
醫(yī)療 AI 領域以壓倒性多數(shù)和一致的方式支持我的論點:
說得對!我們會閱讀臨床記錄、查看 lab value、與轉診醫(yī)生交流,然后在這些附加信息的背景下查看成像結果。
經過一番思考,我們認為 LeCun 的說法不正確。我們在醫(yī)學上建立輔助系統(tǒng)的原因是我們還無法解決診斷任務。我們只擅長非常簡單的高通量任務,而這些任務對放射科醫(yī)生來說真的很容易。
我的收件箱里全都是爭論「AI 是否可以取代放射科醫(yī)生?還是只能看掃描結果」的內容,然而 AI 甚至還不能很好地看懂影像……
我已經在醫(yī)學成像中用了五年的深度學習。我自己的公開預測是:有朝一日,人工智能將完全取代放射科醫(yī)生。但是在此之前,我們將先實現(xiàn)移民火星的夢想。
人工智能可以解決放射學某些方面的問題,但這并不意味著它可以解決所有方面的任何問題。
正如 Una Health 聯(lián)合創(chuàng)始人兼首席醫(yī)療官 Matthew Fenech 所說:「主張在一段不長的時間里取代放射科醫(yī)生是從根本上誤解了他們的角色?!?/span>
但這些只是即興的推文。也許我們可以原諒他們倉促的表達。但更令我驚訝的是,《自然》雜志的一篇關于語言神經科學的文章中出現(xiàn)了大量有利于深度學習的統(tǒng)計錯誤。
這篇文章(《Deep language algorithms predict semantic comprehension from brain activity(深度語言算法通過大腦活動預測語義理解)》)由一些 MetaAI 的研究人員撰寫:
表面上看,這個結果對于深度學習愛好者來說是個好消息,揭示了深度學習和人腦之間的相關性。該研究的主要作者在推特上的同一系列帖子中聲稱,GPT-2 的「內部工作」與人類大腦之間存在「直接聯(lián)系」:
但細節(jié)很重要;我們看到的只是一種相關性,觀察到的相關性是良好的,但不是決定性的,R = 0.50。
這足夠發(fā)表文章了,但也意味著還有很多未知的地方。當兩個變量像這般相關時,并不意味著 A 導致 B(反之亦然)。這甚至不意味著他們步調一致。它類似于身高和體重之間的相關性的大?。喝绻抑恢滥愕纳砀撸鴮δ阋粺o所知,我可以對你的體重做出一個稍微有根據的猜測——可能很接近,但也可能相去甚遠,這些都是無法保證的。
這篇論文本身解決了這個問題,但是當它這樣做時,它犯了一個大錯,再次將太多結果歸因于深度學習。他們是這樣說的:(了解自己統(tǒng)計數(shù)據的人可能會立即發(fā)現(xiàn)錯誤)。
正如 Stats 101 告訴我們的,所解釋的變化量不是 R,而是 R 的平方。因此,如果你有 R = 0.5 的相關性,實際上「解釋」的(實際上只是「預測」)只有 25 % 的方差——這意味著四分之三(而不是一半)的可變性仍未得到解釋。這是一個巨大的差異。(在一則私信中,我向作者 King 指出了錯誤,他和我意見一致,并承諾他會聯(lián)系期刊進行更正。)
預測僅 25% 的方差意味著允許進行「推測」,但這肯定不意味著你已經確定了答案。最后,我們真正擁有的證據只是表明,對 GPT 很重要的東西對大腦也很重要(例如頻率和復雜性)。但我們還不能說,兩個弱相關的東西實際上在以相同的方式運作。
現(xiàn)在事情就是這樣。但《自然》雜志的同行評審并沒有注意到這個點,這讓我感到震驚。它告訴我的是人們喜歡這個故事,卻并沒有仔細閱讀。(仔細閱讀是同行評審員的首要工作。)
當審稿人喜歡這個故事但沒有批判性地閱讀時,這表明他們是用心投****,而不是用大腦投****。
原文鏈接:https://garymarcus.substack.com/p/too-much-benefit-of-the-doubt?utm_source=twitter&sd=pf
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。