新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 阿里云創(chuàng)始人王堅(jiān)院士:計(jì)算驅(qū)動(dòng)當(dāng)今的發(fā)現(xiàn)和創(chuàng)新

阿里云創(chuàng)始人王堅(jiān)院士:計(jì)算驅(qū)動(dòng)當(dāng)今的發(fā)現(xiàn)和創(chuàng)新

—— 王堅(jiān)院士在“2023中國計(jì)算機(jī)大會(huì)”的講演摘編
作者:迎九 時(shí)間:2023-12-30 來源:電子產(chǎn)品世界 收藏

2023 年10 月,2023(2023 中國計(jì)算機(jī)大會(huì))在沈陽召開,中國工程院院士、之江實(shí)驗(yàn)室主任、阿里云創(chuàng)始人王堅(jiān)博士做了“的科學(xué)發(fā)現(xiàn)和科技創(chuàng)新”主旨講演,認(rèn)為20 世紀(jì)是電驅(qū)動(dòng)的時(shí)代,現(xiàn)在是的時(shí)代。云計(jì)算將是未來趨勢(shì),于是王堅(jiān)院士等人當(dāng)年創(chuàng)辦了阿里云。過去的很多思想是靠假設(shè)來驅(qū)動(dòng)的,數(shù)據(jù)最重要的作用是幫助人們產(chǎn)生新的假設(shè)。是計(jì)算密集型、數(shù)據(jù)驅(qū)動(dòng)和基于模型的完美結(jié)合。

本文引用地址:http://2s4d.com/article/202312/454368.htm

1 20世紀(jì)是電氣化驅(qū)動(dòng)的

之前的科學(xué)發(fā)現(xiàn)和創(chuàng)新是被什么驅(qū)動(dòng)的?圖1是美國工程院對(duì)20 世紀(jì)最偉大的工程技術(shù)發(fā)明做的調(diào)查,可見第一項(xiàng)是電氣化。

表1 20世紀(jì)最偉大的工程技術(shù)發(fā)明

1703905027416450.png

如今,電氣化已非常普遍。例如,人們?cè)谝揽空彰鞯臅?huì)議室里召開“2023 中國計(jì)算機(jī)大會(huì)”,如果沒有電氣化,這是無法完成的。如果仔細(xì)看表1,也很有意思,像激光、互聯(lián)網(wǎng)、計(jì)算機(jī)等排在電氣化之后,而你再往深層次想象,如果沒有電氣化,可能后面很多的發(fā)明都不會(huì)存在,所以電氣化對(duì)人類社會(huì)的推動(dòng)是非常巨大的。

2 今天是數(shù)據(jù)驅(qū)動(dòng)的時(shí)代

計(jì)算能否像電氣化一樣,扮演著超過人們今天想象的對(duì)社會(huì)發(fā)展起著根本推動(dòng)的角色?

回顧歷史,20 世紀(jì)就是一個(gè)被電驅(qū)動(dòng)來做創(chuàng)新的時(shí)代。從1882 年開始,電第一次作為一種公共服務(wù)被提供的時(shí)候,世界就發(fā)生了一次巨變。

電力作為一種公共服務(wù)是由愛迪生倡導(dǎo)的,盡管他發(fā)明的是直流電,最后交流電替代了直流電作為了公共服務(wù)的標(biāo)準(zhǔn)。但是不管怎樣,愛迪生的發(fā)明仍然被認(rèn)為是電力革命的里程碑,因?yàn)槭沟秒娏梢员挥行У貍鬏敽褪褂谩V?,因?yàn)橛辛穗姎饣?,全世界的城市發(fā)生了一次天翻地覆的變化。所以電氣化推動(dòng)了城市的進(jìn)步。關(guān)于數(shù)據(jù)驅(qū)動(dòng),如果把計(jì)算放到一個(gè)更廣的視野里來看,數(shù)據(jù)驅(qū)動(dòng)究竟要改變什么?

關(guān)于數(shù)據(jù)非常有意思:世界上所有城市只占了地球表面積的2%~3%,但是今天容納了大概全球60% 的人口,預(yù)計(jì)到2025 年將容納80% 的人口,這意味著更多的人會(huì)到城市里來,不管你愿意不愿意,不管城市病有多嚴(yán)重,但是一個(gè)很挑戰(zhàn)的事情就是世界上所有城市消費(fèi)了超過74% 的世界能源。從發(fā)展的角度來看,我們面臨的挑戰(zhàn)可能比想象的要大、緊迫。

當(dāng)年IBM 首次提出smart city(注:源自IBM 的“智慧地球”),人們翻譯為智慧城市,實(shí)際上叫“靈巧城市”更為恰當(dāng)。里面有一個(gè)數(shù)據(jù),對(duì)一座城市而言,大概有35% 以上的水是被漏掉的(注:即使打開水龍頭把水放掉都不算漏掉)。所以可以設(shè)想一下,一家水廠35% 的水就無聲無息地消失了,但是人們拿它沒有任何辦法。這個(gè)問題并沒有隨著技術(shù)、信息化技術(shù)的發(fā)展被解決掉。

根據(jù)愛爾蘭的調(diào)查,該國2018 年約有46% 的水從自來水管網(wǎng)被漏掉。多么驚人的資源浪費(fèi)!希望2021年能夠把漏水量降到38%,到了2030 年這個(gè)比例降到25%,即1/4 的水被管網(wǎng)漏掉。

所以人們認(rèn)真想一下,這個(gè)世界面臨的挑戰(zhàn)比我們?cè)谀骋粋€(gè)領(lǐng)域看到的挑戰(zhàn)要大得多。

根據(jù)這個(gè)數(shù)據(jù),你會(huì)發(fā)現(xiàn),漏水的多少跟一座城市發(fā)展的水平?jīng)]有關(guān)系。因此,人們平時(shí)講綠色、可持續(xù)發(fā)展,面臨的挑戰(zhàn)或數(shù)字可能是超乎想象的。

那么再回到它的原點(diǎn),也就是說這些問題都帶來了電氣化的問題,所以人們可以人們看到圖1 的水平紅線,我們平時(shí)講到2050 年或2060 年,我們要達(dá)到碳中和水平的碳排放量。

所以人們看到一件很有意思的事情:事實(shí)上,今天的碳排放量是隨著1850 年以后電氣化大規(guī)模普及而帶來的,之后呈這樣一條指數(shù)型的曲線上去。所以人們認(rèn)真想一下,如果我們要在2050 年把它回到碳中和狀態(tài),要有一條更陡的曲線把它降下來。

為什么要談數(shù)據(jù)驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)和創(chuàng)新?

人們認(rèn)真想一想,從1950 年到今天,這條碳排放的曲線能這樣爬上來,從另外一個(gè)角度,也是得益于科技的創(chuàng)新和發(fā)現(xiàn)。

1703905133885834.png

圖1

所以這是一個(gè)非常有意思的分水嶺,是科技和創(chuàng)新的發(fā)現(xiàn),使得人類消耗自然資源的能力被極大地提升了,造成了今天的碳排放量水平。從另外一個(gè)角度,撇開我們所有的觀念的話,我們得問一個(gè)非常嚴(yán)肅的問題:在接下去的二三十年,我們能不能用更短的時(shí)間、更快的速度把碳排放量降下來?那么就得靠我們平時(shí)常講的數(shù)字化。

人們?cè)O(shè)想一下,計(jì)算和數(shù)字化的關(guān)系就是電和電氣化的關(guān)系,這就是為什么要談到計(jì)算驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)和創(chuàng)新,最后的結(jié)果使得我們有機(jī)會(huì)在2050 年或2060 年把碳排放量能降到我們今天希望的碳中和的水平。

從這個(gè)角度講,給這個(gè)學(xué)科帶來一次非常難得的機(jī)會(huì)。如果設(shè)想一下今天的數(shù)字化跟100 年前的電子化來相比,計(jì)算在這里扮演的角色就是非常值得期待的。預(yù)計(jì):計(jì)算驅(qū)動(dòng)(Computing-driven)的計(jì)算是會(huì)在21 世紀(jì)接下來的100 年重新發(fā)明所有的事情,包括城市在內(nèi)。

3 “計(jì)算”的內(nèi)涵和外延

有三個(gè)詞很重要,它們是有關(guān)系的。Computing( 計(jì)算) 的含義是非常豐富的。如果去看文獻(xiàn),可以看到Computing( 計(jì)算) 是早于Computer (計(jì)算機(jī))這個(gè)詞,即計(jì)算是早于計(jì)算機(jī)這個(gè)詞出現(xiàn)的。所以在王堅(jiān)院士的語境里,Computing( 計(jì)算) 這個(gè)詞包含了三個(gè)很有意義的組成部分。

在今天的人工智能環(huán)境的語境下,computing ( 計(jì)算) 可以看想象成這三個(gè)詞的綜合:① computational intensive, 王堅(jiān)院士對(duì)這個(gè)詞斟酌了很久,認(rèn)為指“計(jì)算”密集型,盡管到了中文的翻譯, 此“ 計(jì)算(computational)” 非彼“ 計(jì)算(Computing)”。② 數(shù)據(jù)驅(qū)動(dòng)。③基于模型。

從計(jì)算密集型角度,人們會(huì)想到超算。摩爾定律(圖2)顯示了計(jì)算是怎么發(fā)生、發(fā)展的,其速度超過任何一個(gè)領(lǐng)域的速度。

image.png

圖2 摩爾定律示意圖

同樣很有意思的是人們很熟悉的,今天做人工智能的時(shí)候,會(huì)談到英偉達(dá)的A100 和H100 顯卡。如果把時(shí)間稍微拉長一點(diǎn),會(huì)發(fā)現(xiàn)英偉達(dá)GPU 從3 億個(gè)晶體管(GeForce 7800)到今天800 億個(gè)晶體管(H100),增長速度是非常驚人的。在早期集成電路出來的時(shí)候只有2 個(gè)晶體管,英特爾在70 年代初的第一個(gè)芯片只有2000 多個(gè)晶體管。所以可以設(shè)想一下,從一只手就能數(shù)出來的數(shù)量,到人生一輩子都數(shù)不完的800 億個(gè)晶體管,計(jì)算的物理基礎(chǔ)發(fā)生了非常大的變化(圖3)。

1703905288726847.png

圖3

2006 年Jeannette Wing 提出一個(gè)想法,盡管沒有流行起來:Computational Thinking,慢慢改變了人們的思維。所以“計(jì)算”是非常值得深思的,中文一個(gè)詞“計(jì)算”很難反映深刻的內(nèi)涵和外延(圖4)。

image.png

圖4

2007 年Gordon Bell( 美國微軟灣區(qū)研究中心高級(jí)研究員,高性能和并行計(jì)算領(lǐng)域先驅(qū)) 講“計(jì)算”這件事情,講到 HPC 計(jì)算會(huì)被挑戰(zhàn)的時(shí)候,他在PPT 里寫了這么一句話,可能云的服務(wù)能夠慢慢來支持高性能計(jì)算(HPC)。人們會(huì)發(fā)現(xiàn),當(dāng)計(jì)算發(fā)展到一定程度時(shí),關(guān)于云的思考就會(huì)被自然而然地帶出來。所以計(jì)算computational,即使到今天還是值得我們認(rèn)真地來思考。

4 從假設(shè)驅(qū)動(dòng)到數(shù)據(jù)驅(qū)動(dòng)

人們比較熟悉的,當(dāng)年有一個(gè)所謂的第4 范式,叫做數(shù)據(jù)驅(qū)動(dòng)科學(xué)發(fā)現(xiàn)。曾經(jīng)扮演一個(gè)非常重要作用的人叫Jim Gray,他當(dāng)年在微軟研究院工作,他個(gè)人也很傳奇,在2007 年一次出海后就消失了,也沒有證據(jù)消失在哪里。

他的書《The Fourth Paradigm——Data-Intensive Scientific Discover》 ( 第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)) 是在他身后出版的。很有意思的是他生前最后一次講演就是關(guān)于數(shù)據(jù)驅(qū)動(dòng)。

那么這里就有一個(gè)問題,在數(shù)據(jù)驅(qū)動(dòng)以前的科學(xué)研究到底是由什么來驅(qū)動(dòng)?

王堅(jiān)院士認(rèn)為:很多的科學(xué)發(fā)現(xiàn),或者今天的很多思想是靠假設(shè)來驅(qū)動(dòng)的。

所以王堅(jiān)院士的觀點(diǎn)是什么?數(shù)據(jù)驅(qū)動(dòng)不是拿數(shù)據(jù)來證明或者解決你的假設(shè),數(shù)據(jù)最重要的作用是幫助你來產(chǎn)生新的假設(shè)。所以到了一個(gè)新的科學(xué)發(fā)現(xiàn)的階段——數(shù)據(jù)驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)。

這句話很抽象,但在一些學(xué)科的發(fā)展過程中有非常有意思的例子。例如英國著名天文學(xué)家Fred Hoyle 爵士曾在1948 年時(shí)設(shè)想從外太空看地球是什么樣,他的假設(shè)是:一旦有人從外太空拍攝一張地球的照片,一種前所未有但無可辯駁的全新觀念就會(huì)誕生。1972年人類第一次到太空拍攝了地球的照片,人們才有一個(gè)概念叫藍(lán)色地球。這張照片從根本上改變了一件事情:突然發(fā)現(xiàn)不是一點(diǎn)點(diǎn)地研究地球,而是應(yīng)該把地球當(dāng)作一個(gè)整體來研究。因此出現(xiàn)了地球系統(tǒng)科學(xué)。人們看到了三條主軸線:地球系統(tǒng)科學(xué)的出現(xiàn)跟一些機(jī)構(gòu)有關(guān)系,跟一些研究也有關(guān)系,但很有意思的是覺得跟這張照片緊密相關(guān)。

所以數(shù)據(jù)會(huì)改變很多今天我們自己不會(huì)注意到的東西。

可見,無論是假設(shè)驅(qū)動(dòng)還是數(shù)據(jù)驅(qū)動(dòng),都會(huì)改變我們很多想法。

人們可能知道哈勃望遠(yuǎn)鏡和很多天文學(xué)的研究,但是當(dāng)王堅(jiān)院士在看這些文獻(xiàn)的時(shí)候,有一句話是深深打動(dòng)他的,哈勃從一個(gè)沒有任何認(rèn)知的地方去拍照,而給我們帶來了對(duì)宇宙的一種全新的認(rèn)識(shí)。這就是為何是數(shù)據(jù)驅(qū)動(dòng)、不是假設(shè)驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)和創(chuàng)新的時(shí)代。

望遠(yuǎn)鏡第一次出來的時(shí)候大概也是類似狀態(tài),那時(shí)并不是因?yàn)橹捞栂凳鞘裁礃幼?,只不過是因?yàn)橛辛送h(yuǎn)鏡,讓我們慢慢清楚太陽系是怎么工作的。所以數(shù)據(jù)會(huì)深深地改變我們對(duì)很多事情的看法。

再回到模型,也是很有意思的。人工智能從1947年開始到今天,此“人工智能”已非“彼人工智能”,方法論、邏輯、假設(shè)等不一樣。已到了一個(gè)基于模型的時(shí)代。

如圖5,盡管只總結(jié)到了2020 年。ChatGPT 是在2022 年底、2023 年初突然火爆起來的。如圖5 會(huì)發(fā)現(xiàn),很多年前人們對(duì)于模型的收斂已經(jīng)到了GPT 上,只不過人們并沒有意識(shí)到其會(huì)這么徹底改變我們對(duì)這么一個(gè)學(xué)科/ 領(lǐng)域的重新的認(rèn)識(shí)。

1703905473536766.png

圖5

所以從這個(gè)角度,GDP 在2022 年底、2023 年初火起來是有一點(diǎn)后知后覺的。

從圖5 可以看到,其實(shí)很早就應(yīng)該火起來。當(dāng)然結(jié)果就是中間穿插了一件事情,就是AlphaFold(注:2018 年DeepMind 公司開源的人工智能系統(tǒng), 借助AlphaFold 可以更準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)的形狀。)出來的時(shí)候, 當(dāng)時(shí)一篇文章中有這么一句話,biology’s ImageNet Moment(生物學(xué)的ImageNet 時(shí)刻)(如圖6)。

1703905542101526.png

圖6

從事計(jì)算機(jī)學(xué)科的人會(huì)非常驕傲的,ImageNet 在那時(shí)推動(dòng)了很多事情的發(fā)展,現(xiàn)在會(huì)有人把它作為一個(gè)非常重要的思考/ 研究的方式。這句話的本質(zhì)是:未來的研究要基于平臺(tái),ImageNet 就是平臺(tái)的一個(gè)非常重要的代表。ImageNet 是集計(jì)算(computational)、數(shù)據(jù)驅(qū)動(dòng)、模型為一體的載體,只是那時(shí)人們簡單的把它想象成一個(gè)數(shù)據(jù)集。

總結(jié)一下什么叫“生物學(xué)的ImaginNet 時(shí)刻”,就是GDT+ 的時(shí)候。這是我們第一次能夠把理論框架收斂、集中的方法上。

今年英偉達(dá)的CEO 黃仁勛說:ChatGPT 是AI 的iPhone 時(shí)刻。套用了前面的那句話。所以這個(gè)時(shí)候很多事情、關(guān)系發(fā)生了一些有趣的變化。

當(dāng)模型走在一起的時(shí)候,黃仁勛又說了另外一句:最后人工智能和超級(jí)計(jì)算怎么被人們用?最后還是要回到云的服務(wù)(圖7)。

image.png

圖7

吻合了。2009 年王堅(jiān)院士開始做云計(jì)算,到今天看是非常幸運(yùn)的,因?yàn)檫@個(gè)領(lǐng)域里的技術(shù)有機(jī)會(huì)變成一項(xiàng)非常重要的產(chǎn)業(yè),而且這個(gè)產(chǎn)業(yè)還有很長的生命周期,就像當(dāng)年電氣化一樣。這既是云計(jì)算的幸運(yùn),也是計(jì)算的幸運(yùn)。

5 原始創(chuàng)新更重要

不過,一講到今天的人工智能和云計(jì)算,人們就會(huì)談到英偉達(dá)的A100 卡、H100 卡,很多人會(huì)覺得無卡就無能為力。參加2023 的有很多學(xué)生,王堅(jiān)院士想對(duì)學(xué)生和科研人員說,所有的創(chuàng)新都是人創(chuàng)造的。例如GeForce 7800 卡( 圖8)。大概是2006 年的卡,它是第一個(gè)把CNN 算法跑在了GPU 卡上, 速度比CPU 快了4倍。但這張卡在當(dāng)年是張什么卡?在中關(guān)村的所有網(wǎng)吧里都有,不是被禁運(yùn)的,更不是只有少數(shù)人買得起的,因此是所有人能用的卡,但是,有人第一次把CNN 的算法跑起來,為我們打開了一個(gè)新天地。

1703905661270182.png

圖8

這張卡就更加有意思了,6 年以后的2012 年,兩位來自多倫多大學(xué)的學(xué)生Alex Krizhevsky 和Ilya Sutskeverz(他們的導(dǎo)師是人工智能的三巨頭之一Geoffrey Hinton)就是用了兩張GeForce 7800 GPU 卡,在當(dāng)年的ImageNet競(jìng)賽上獲得了冠軍。

所以人們可以設(shè)想一下,憑借兩張當(dāng)年每一個(gè)實(shí)驗(yàn)室的學(xué)生都有的圖形卡,但是他們的智慧使得它能夠讓一個(gè)新的世界開始。

GPU 能成為深度學(xué)習(xí)的必選項(xiàng),而且被工業(yè)界最后采用,事實(shí)上是這兩個(gè)學(xué)生創(chuàng)造的。王堅(jiān)院士是從工業(yè)界來的,有時(shí)候感到丟臉——是兩名學(xué)生為我們定義了今天人工智能應(yīng)該用什么樣的框架來做。從這個(gè)角度看,學(xué)生的創(chuàng)造力是無窮的。

這兩名學(xué)生的第二人——Ilya Sutskeverz 也是今天OpenAI 的首席科學(xué)家。所以創(chuàng)新也不是一天就可以成就的。

從圖3 的架構(gòu)演進(jìn)可以看到,在2004 年的技術(shù)架構(gòu)基礎(chǔ)上完成了今天人們都趨之若鶩的一卡難求的狀況,可以看到原始創(chuàng)新的重要性。今天是我們可以重現(xiàn)2004 年那一代學(xué)生所創(chuàng)造出來的事情的時(shí)刻,所以所有的事情遠(yuǎn)不是結(jié)束,而是剛剛開始。

自AI 誕生后的幾十年中發(fā)生了很多事情,從1997年的Deep-Blue(深藍(lán)超級(jí)國際象棋電腦),到2016年的阿爾法狗,到今年的chatGPT,每一次重要發(fā)明都帶來一次變革,而且這種變革接下來因?yàn)橛?jì)算的驅(qū)動(dòng)還會(huì)繼續(xù)地發(fā)生下去。所以慢慢地,到最后所謂的計(jì)算驅(qū)動(dòng),就是計(jì)算密集型、數(shù)據(jù)驅(qū)動(dòng)和基于模型的完美結(jié)合。

(本文來源于EEPW 2023年12月期)



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉