中國超算服務(wù),誰主沉浮?
最近,超算領(lǐng)域?qū)W術(shù)界和產(chǎn)業(yè)界人士圍繞“中國超算服務(wù)創(chuàng)新”展開了一場熱烈的討論。
本文引用地址:http://2s4d.com/article/201909/405110.htm起因是,北京并行科技股份有限公司(以下簡稱并行科技)總經(jīng)理陳健從超算建設(shè)投入產(chǎn)出比的角度提出,雖然中國超算近年來取得了矚目的成就,但超算服務(wù)的模式還很落后,特別是一些自建院系、單位級和用戶組級超算集群(統(tǒng)稱為中小微超算),投入產(chǎn)出比遠(yuǎn)不及大型超算,且年平均利用率低,這種“小農(nóng)經(jīng)濟(jì)式”超算服務(wù)形態(tài),急需改進(jìn)、創(chuàng)新。
如何為科研提供更好的超算服務(wù),是中國超算的一大命題。
陳健提出的解決方案是“超算上云”。作為超算云服務(wù)提供商,陳健認(rèn)為,超算的使用者大都要經(jīng)歷“國內(nèi)外大超算平臺排隊上機(jī)——自建超算集群——租用超算——超算云服務(wù)”的過程,這是一個“從落后的生產(chǎn)力逐漸過渡到更先進(jìn)的生產(chǎn)力形式”。
以此為發(fā)端,超算領(lǐng)域?qū)W術(shù)界、產(chǎn)業(yè)界人士從各個角度給出了他們的理解和思考。
超算“全盤云化”有其局限
之所以以“小農(nóng)經(jīng)濟(jì)”類比,在陳健看來,自建超算集群就好比自種“兩畝自留地”,這些自建的中小微超算有些浪費,不如大家都把需求集中起來,把無數(shù)的“兩畝地”匯集成“萬畝良田”,大家通過超算云服務(wù)的形式,從大型超算上按需購買計算資源,不但可減少浪費,還能提高應(yīng)用效率。
相應(yīng)的,陳健把并行科技比作“制造大型農(nóng)機(jī)具的”——只有大型超算(萬畝良田)多了,“現(xiàn)代農(nóng)機(jī)具廠商”才好開張。
但是,超算全部上云(指服務(wù)模式,并非云計算),現(xiàn)實嗎?
虛擬化和云計算專家麻清剛提出,從技術(shù)上來講,限制超算“上云”的條件是網(wǎng)絡(luò)帶寬?!叭绻梢砸詷O低成本拉一條400G的網(wǎng)絡(luò)專線,超算還真有可能全盤云化——但不一定都是公有云,私有云、企業(yè)云、行業(yè)云等形態(tài)都可能存在?!?/p>
但是,帶寬問題目前很難逾越?!皫捹M用是阻礙我們?nèi)?nèi)蒙古建超算的最主要原因,節(jié)約的電費都給運營商買帶寬去了?!北本┐髮W(xué)高性能計算平臺主任工程師、計算中心系統(tǒng)管理室主任樊春這樣說。
內(nèi)蒙古電價為每千瓦時0.26元。近年來,西部地區(qū)利用“超低電費”的條件大力投建IT基礎(chǔ)設(shè)施,這對于一般的云計算中心來說是個利好,但對于超算而言,并不一定可行。
樊春說,對于大部分超算用戶來說,速度和價格是排在前兩位的。超算中心對外提供計算服務(wù),只有同時滿足這兩點,用戶才愿意買單。
且不說“拉一條400G的網(wǎng)絡(luò)專線”是個很大的前提,僅超算服務(wù)“全盤云化”這一點,中科院計算所研究員、國家超級計算濟(jì)南中心主任張云泉就不太認(rèn)同。
他從超算需求的角度出發(fā),認(rèn)為目前超算云服務(wù)只能支持一些中低端計算需求,那些更快、更大規(guī)模的需求,超算云服務(wù)的形式還提供不了,“就像當(dāng)年網(wǎng)格計算聲稱可全面取代超算一樣,超算服務(wù)全盤云化幾乎不可能”。
超算成本下降還需規(guī)模效益
樊春還提出一個問題:“超算云技術(shù)管理上無法降低成本,從而無法降低對最終用戶的價格,這是超算云發(fā)展的最大障礙?!?/p>
這一觀點與陳健提出的觀點相悖。陳健此前在接受《中國科學(xué)報》采訪時稱,超算云服務(wù)商的角色,就是通過研發(fā)軟件和方案,以技術(shù)輸出提高超算集群的易用性和有效利用率,從而降低超算的使用成本——把超算的每核時成本降低至一毛錢。
二者的矛盾點在哪?
一個答案是:用戶規(guī)模。只有用戶規(guī)模上去了,兩人的觀點才能找到平衡點。
一方面,陳健認(rèn)為樊春所在的北京大學(xué)校級高性能計算平臺,已經(jīng)有了足夠大的規(guī)模應(yīng)用,規(guī)模效益已現(xiàn),所以北大能夠給予用戶更低的價格;
另一方面,陳健也深知城域網(wǎng)光纖非常貴——他們就投建了從廣州超算到北京的城域網(wǎng)光纖專線,之所以這么做,是因為并行科技也實現(xiàn)了規(guī)模效益,通過這條光纖專線,并行科技有每年數(shù)千萬元的超算云服務(wù)經(jīng)營額。
“這(超大帶寬網(wǎng)絡(luò)光纖)是一個極具規(guī)模效益的基礎(chǔ)設(shè)施投入。”陳健感嘆。
那么,現(xiàn)在中國超算應(yīng)用是否到了產(chǎn)生規(guī)模效益的節(jié)點?
陳健認(rèn)為“是”。他給出了一組數(shù)據(jù):并行科技依托各大超算中心資源提供的超算云服務(wù),現(xiàn)在已經(jīng)有近1.5萬個客戶,并行科技給用戶提供的超算價格,經(jīng)核算比自建超算低一半。此外,2018年并行科技超算云服務(wù)合同額已達(dá)2億元,預(yù)計2019年會達(dá)到3億元。
“這是無數(shù)科研工作者用腳投票的結(jié)果。”陳健說,長此以往,中小微超算集群建設(shè)的越少,中國超大型國家級超算、大型地方超算、校級超算乃至公有云超算就發(fā)展得越好。
沒誰能“一統(tǒng)江湖”
以云服務(wù)的方式提供超算資源,這塊市場上并不只有并行科技。阿里云等云計算巨頭,也“順手”做了超算的云服務(wù);一些大型超算中心,也探索了超算云服務(wù)的模式,國家超級計算天津中心就是一例。
“我們做超算云,是為了讓用戶用起來更好用?!眹页売嬎闾旖蛑行囊晃灰竽涿膶<艺f,“不管是超算云還是云超算,本質(zhì)是為用戶服務(wù)的形式。服務(wù)形式確實可以降低用戶使用門檻,讓用戶用起來更簡單,但不應(yīng)過分夸大使用模式(對中國超算實力提高)的作用?!?/p>
他認(rèn)為,并非只有超算云才能解決現(xiàn)在的超算服務(wù)問題。
阿里云高性能計算負(fù)責(zé)人、資深技術(shù)專家何萬青也持類似觀點。他說,超算是個大生態(tài)系統(tǒng),中國是個超算大國,必然有各種模式的超算集群——有國家投資建設(shè)的,有諸如并行科技以SaaS和PaaS形式提供增值服務(wù)的,也有諸如阿里云等云計算公司提供的商用系統(tǒng),“只要用戶認(rèn)為他出的價格符合自己所需的價值,就是合理的”。
至于超算服務(wù)的價格,何萬青認(rèn)為:“價格永遠(yuǎn)是市場行為,甲之蜜糖,乙之砒霜。有的用戶愿意出高價購買,其他用戶也許棄之若敝履,這就是市場?!?/p>
何萬青舉例說,一些科研型和渲染型客戶,他只在靈感或者創(chuàng)作來了之后,才會啟動計算的點對點模式,這時候資源靈活調(diào)度和自動伸縮比線下性能優(yōu)化更重要——而這其實是云計算比較擅長的領(lǐng)域。
“舉例是想說誰也別想一統(tǒng)江湖。大家各有所長,客戶、技術(shù)需求、業(yè)務(wù)特點和生態(tài)發(fā)展也是多樣性的?!昂稳f青說。
超算應(yīng)該部分免費嗎
在超算平臺建設(shè)方面,陳健提出,事實上目前我國的國家級超算一直是不核算建設(shè)成本的,對重大應(yīng)用采取免費或者低價支持的措施;一些高校超算,一般采取免費或低價使用手段,“其實都是虧本在服務(wù)校內(nèi)用戶”。
對此,在超算領(lǐng)域從業(yè)多年的中科京云總經(jīng)理賀建海提出一個大膽的想法,“我認(rèn)為國家級超算應(yīng)該向基礎(chǔ)研究提供免費計算資源?!?/p>
曾在三家國家級超算中心工作、現(xiàn)任職于鵬城實驗室人工智能研究中心的王丙強(qiáng)認(rèn)為,該出發(fā)點雖好,但在實際操作中,可能會帶來混亂:誰會對免費的東西不動心?
但他也提出,有關(guān)科技主管機(jī)構(gòu),確實應(yīng)該考慮降低使用計算資源的成本和門檻。
張云泉也覺得,免費難免浪費,但面向基礎(chǔ)研究領(lǐng)域,超算可以嘗試提供盡量低的價格,降低獲取成本。
樊春結(jié)合他們在北大高性能計算平臺提供超算服務(wù)的經(jīng)驗提出,面向那些小規(guī)模短時長、納入教學(xué)任務(wù)的超算使用需求,可以且應(yīng)該免費,以降低學(xué)生學(xué)習(xí)的門檻;
而面向基礎(chǔ)科研,比較耗費資源的高性能計算任務(wù)是不能免費的,但是應(yīng)該以極低的價格提供給科學(xué)工作者使用。
“收費是為了防止濫用資源,不是為了賺錢?!狈赫f,收費的價格要讓“挖礦”等無利可圖。
而低價格是為了降低用戶使用成本,符合“價格低—用戶大量使用—計算量大—出更優(yōu)秀結(jié)果的概率增加—超算為人類的貢獻(xiàn)也更大”的邏輯。
樊春還提出,如果高性能計算免費的話,就需要一個跨學(xué)科的專家委員會來分配資源。
不過他也認(rèn)為,分配資源工作是非常耗費資源和精力的,協(xié)調(diào)的成本要“遠(yuǎn)遠(yuǎn)高于硬件的浪費”。
一位高能物理應(yīng)用領(lǐng)域的匿名用戶認(rèn)為,國內(nèi)許多公共服務(wù)平臺類的大科學(xué)裝置采用的模式是,國家財政支持裝置的運行經(jīng)費,除企業(yè)用戶外,裝置不得向科研用戶收費。用戶提出機(jī)時申請,用戶委員會對申請進(jìn)行評審篩選。
“事實上科研用戶的經(jīng)費也是從國家財政來的,倒一道手沒什么意義?!彼硎荆斑@種只管建設(shè)不管運行的模式未必是好模式?!?/p>
一個問題是,如果相關(guān)主管部門對科研級超算應(yīng)用實行免費或低價,超算行業(yè)還需要并行科技、阿里云超算這類企業(yè)嗎?
樊春認(rèn)為,還是需要的。
“這個行業(yè)雖然不如傳統(tǒng)云計算獲利空間大,但也的確有賺錢空間?!彼ㄗh,“超算云公司應(yīng)該提升技術(shù)以及管理能力,努力提供更加便宜的資源、更優(yōu)秀的服務(wù)吸引用戶,拓展整個高性能計算行業(yè)?!?/p>
評論