博客專欄

EEPW首頁 > 博客 > 百度CTO王海峰:飛槳及文心大模型構(gòu)建智能時代新基礎(chǔ)設(shè)施,助力AI普惠

百度CTO王海峰:飛槳及文心大模型構(gòu)建智能時代新基礎(chǔ)設(shè)施,助力AI普惠

發(fā)布人:CV研究院 時間:2022-06-17 來源:工程師 發(fā)布文章

作為AI工業(yè)大生產(chǎn)的基礎(chǔ)平臺,深度學習平臺下接芯片,上承應(yīng)用,被視為“智能時代的操作系統(tǒng)”。作為我國首個自主研發(fā)的產(chǎn)業(yè)級深度學習開源開放平臺,飛槳致力于解決深度學習技術(shù)發(fā)展和大規(guī)模產(chǎn)業(yè)化中的諸多難題,降低AI開發(fā)和應(yīng)用的門檻,助力AI普惠。

6月9日晚,北京信息科學與技術(shù)國家研究中心系列交叉論壇(第45期)線上舉行,論壇由中國工程院院士、清華大學信息學院院長、信息國家研究中心主任戴瓊海主持,百度首席技術(shù)官、深度學習技術(shù)及應(yīng)用國家工程研究中心主任王海峰博士作了以“飛槳產(chǎn)業(yè)級深度學習開源開發(fā)平臺”為主題的報告。

飛槳多年來堅持研發(fā)核心技術(shù)、打造功能豐富的平臺、建設(shè)兼容并包的生態(tài)等,已凝聚477萬開發(fā)者,服務(wù)18萬企事業(yè)單位,得到社會各界廣泛認可。王海峰在報告中闡釋了深度學習平臺對人工智能技術(shù)發(fā)展和大規(guī)模產(chǎn)業(yè)化的意義,分享了飛槳產(chǎn)業(yè)級深度學習開源開放平臺最新進展,包括技術(shù)與平臺的創(chuàng)新成果、文心產(chǎn)業(yè)級知識增強大模型、飛槳生態(tài)建設(shè),以及飛槳平臺在各行各業(yè)的應(yīng)用等,并與院士專家共同探討了中國深度學習平臺在產(chǎn)業(yè)、科研、教育中的落地實踐。王海峰表示,基于飛槳平臺,AI開發(fā)和應(yīng)用門檻不斷降低,人人都可以成為智能應(yīng)用的開發(fā)者。飛槳平臺及文心大模型正在賦能千行百業(yè),惠及千家萬戶。

以下根據(jù)王海峰博士報告整理:

報告的題目是《飛槳產(chǎn)業(yè)級深度學習開源開放平臺》,分為五個部分:引言;飛槳產(chǎn)業(yè)級深度學習開源開放平臺;飛槳模型庫中的文心大模型;飛槳生態(tài);飛槳助力AI普惠。

深度學習平臺相當于智能時代的操作系統(tǒng)

人工智能已經(jīng)成為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量。人類歷史上過去200多年已經(jīng)歷三次工業(yè)革命,每一次工業(yè)革命的核心驅(qū)動科技,無論是機械技術(shù)、電氣技術(shù)還是信息技術(shù),都具有很強的通用性,而且進入工業(yè)大生產(chǎn)階段以后,也體現(xiàn)出標準化、自動化和模塊化的工業(yè)大生產(chǎn)特征,可以應(yīng)用于各行各業(yè),為人類帶來了非常大的產(chǎn)業(yè)變革。

以深度學習為關(guān)鍵核心技術(shù)的新一代人工智能如同前三次工業(yè)革命的核心驅(qū)動科技一樣,已經(jīng)具備了非常強的通用性,并呈現(xiàn)出標準化、自動化、模塊化的工業(yè)大生產(chǎn)特征。

深度學習技術(shù)研發(fā)周期很長,應(yīng)用落地的流程也非常復雜,例如,在開發(fā)階段,模型的實現(xiàn)復雜,要同時兼顧靈活和高效難度很大;模型訓練階段,隨著模型越來越大,效率如何提升、模型結(jié)構(gòu)如何與硬件匹配降低訓練成本等;推理部署階段,應(yīng)用環(huán)境復雜多樣,如何高效適配多端、多平臺、多硬件,如何實現(xiàn)高性能推理,等等。深度學習技術(shù)的發(fā)展和大規(guī)模產(chǎn)業(yè)化面臨諸多難題。

典型的深度學習平臺具備基礎(chǔ)的深度學習框架,包括開發(fā)、訓練、推理等等,同時也包括各種模型庫和輔助工具,形成一個完整的平臺,能夠有效解決上述問題。深度學習平臺下接芯片,上承應(yīng)用,相當于智能時代的“操作系統(tǒng)”。

飛槳產(chǎn)業(yè)級深度學習開源開放平臺,大幅降低應(yīng)用門檻

飛槳平臺是我國首個自主研發(fā)、開源開放的產(chǎn)業(yè)級深度學習平臺,具備顯著的標準化、自動化和模塊化特征,是人工智能工業(yè)大生產(chǎn)的基礎(chǔ)平臺,促進我國人工智能技術(shù)發(fā)展和大規(guī)模產(chǎn)業(yè)應(yīng)用。

飛槳產(chǎn)業(yè)級深度學習開源開放平臺集核心框架、基礎(chǔ)模型庫、開發(fā)套件和工具組件于一體。核心框架包括既有動態(tài)圖,也有靜態(tài)圖的便捷開發(fā)、具備大規(guī)模分布式訓練技術(shù)及產(chǎn)業(yè)級數(shù)據(jù)處理等訓練,以及端邊云深度優(yōu)化的高性能推理;基礎(chǔ)模型庫包含經(jīng)典的自然語言PaddleNLP、計算機視覺PaddleCV、語音技術(shù)PaddleSpeech和推薦技術(shù)PaddleRec等,也包含文心大模型;端到端開發(fā)套件,如語義理解、圖像分類、目標檢測等開發(fā)套件,以及包含強化學習、聯(lián)邦學習、圖神經(jīng)網(wǎng)絡(luò),和很受關(guān)注的科學計算、量子機器學習、生物計算的工具組件,同時也有預訓練模型應(yīng)用工具、全流程開發(fā)工具、可視化分析工具以及安全隱私工具、資源管理與調(diào)度等等,能夠讓科技工作者和開發(fā)者簡潔快速地進行技術(shù)創(chuàng)新和應(yīng)用實踐。此外,飛槳也建設(shè)了AI Studio學習與實訓社區(qū),支撐AI人才的學習和實踐訓練。

圖片

飛槳平臺從以下四個方面持續(xù)積累和突破,成為大幅降低AI應(yīng)用門檻的全棧平臺,包括開發(fā)便捷的深度學習框架、超大規(guī)模訓練技術(shù)、多端多平臺高性能推理和產(chǎn)業(yè)級模型庫。

圖片

在開發(fā)環(huán)節(jié),需兼顧靈活和高效。動態(tài)圖更靈活,靜態(tài)圖更高效。飛槳實現(xiàn)了動靜統(tǒng)一的開發(fā)體驗,用動態(tài)圖進行開發(fā),自動轉(zhuǎn)成靜態(tài)圖部署。利用飛槳簡潔易用的API,10行代碼即可實現(xiàn)模型訓練。動靜統(tǒng)一、高低融合的API體系可以大幅降低模型的開發(fā)成本。

在核心的訓練環(huán)節(jié),飛槳研制了通用異構(gòu)參數(shù)服務(wù)器技術(shù),可以進行高效混布異構(gòu)計算、存儲、通信,突破單一硬件制約;以及端到端自適應(yīng)分布式訓練技術(shù),能夠自動感知硬件環(huán)境、實行多維混合的并行策略,以及做異步流水線的執(zhí)行等等,支持大規(guī)模高效訓練,降低訓練成本。

圖片

在推理部署環(huán)節(jié),飛槳研制了訓推一體工具鏈,支持從模型訓練到模型優(yōu)化,再到推理部署的全流程效率提升。在模型壓縮中,實現(xiàn)了自動化壓縮技術(shù),在精度和性能無損情況下,開發(fā)代碼量大幅降低。對于端、邊、云全場景的推理引擎,通過數(shù)據(jù)處理加速、計算圖優(yōu)化、執(zhí)行調(diào)度開銷降低等方式,深度優(yōu)化性能,大幅降低推理時延,實現(xiàn)了多端多平臺的高性能推理。

壓縮完成之后,硬件會統(tǒng)一接入,全面降低硬件適配成本。飛槳硬件適配統(tǒng)一方案,最底層是芯片,然后是飛槳框架硬件適配層,可在算子、子圖、整圖、深度學習編譯器、神經(jīng)網(wǎng)絡(luò)交換格式等進行不同的適配。飛槳已經(jīng)適配了國內(nèi)外的各類主流芯片/IP超過30種。

面對AI模型開發(fā)、訓練和推理部署的復雜流程,飛槳提供訓推一體導航圖,可以讓開發(fā)者基于導航圖,找到最適合自己應(yīng)用的訓練模式、推理部署的工具等等,進而可以非常便捷快速地開發(fā)自己的應(yīng)用。

圖片

產(chǎn)業(yè)級模型庫方面,如今飛槳開源的模型數(shù)量已超過500個,涵蓋不同層面,既有基礎(chǔ)的自然語言處理、計算機視覺、推薦、語音等,也包括各種工具組件,可以讓開發(fā)者便捷調(diào)用。此外,飛槳還提供了產(chǎn)業(yè)模型的選型工具,為應(yīng)用場景自動選擇最佳模型,更好地匹配產(chǎn)業(yè)落地的訴求,提供全流程的選型建議以及配套范例的教程。

飛槳模型庫:知識增強的產(chǎn)業(yè)級文心大模型

文心大模型是飛槳模型庫的重要組成部分,包含基礎(chǔ)大模型、任務(wù)大模型、行業(yè)大模型等產(chǎn)業(yè)級知識增強大模型體系,以及工具平臺、API和創(chuàng)意社區(qū)助力大模型的高效應(yīng)用。

圖片

文心知識增強大模型從海量數(shù)據(jù)和大規(guī)模知識中融合學習,效率更高,效果更好,理解和生成能力顯著提升。

2022年高考期間,文心大模型加持的AI數(shù)字人度曉曉挑戰(zhàn)高考作文,圍繞“本手、妙手、俗手”, 秒級成文,寫出了題為《苦練本手,方能妙手隨成》的作文。根據(jù)歷年情況,度曉曉的作文得分超過75%的高考考生。

圖片

文心知識增強大模型在國際排行榜SuperGLUE上奪冠,以相對更小的參數(shù)規(guī)模取得更好的效果。傳統(tǒng)方法針對不同的自然語言處理任務(wù),比如信息抽取、情感分析、問答等等,需要訓練不同的模型,是一種分散化的模型開發(fā)模式;知識增強大模型可以同時實現(xiàn)多任務(wù)的訓練,是集約化的模型開發(fā)模式。在基礎(chǔ)大模型的基礎(chǔ)上,面向不同任務(wù)、不同場景做精調(diào),可以得到非常好的效果。因此,知識增強大模型具有很好的通用性和泛化性,配置相應(yīng)的工具平臺,可以大幅降低AI開發(fā)與應(yīng)用門檻。

在文心的基礎(chǔ)大模型中,鵬城-百度·文心是百度和鵬城實驗室聯(lián)合研發(fā)的全球首個知識增強千億大模型,在60多項任務(wù)取得了最好效果。

圖片

任務(wù)知識增強大模型ERNIE 3.0 Zeus,從海量文本數(shù)據(jù)、大規(guī)模知識圖譜和不同任務(wù)中融合學習,針對不同的任務(wù)做知識增強,效果大幅提升。

計算機視覺領(lǐng)域,多任務(wù)統(tǒng)一的視覺大模型,在分類、檢索、分割、檢測等20多項視覺任務(wù)上取得了很好的效果。

知識增強的跨模態(tài)大模型,實現(xiàn)了跨模態(tài)語義的統(tǒng)一表示與關(guān)聯(lián),進行跨模態(tài)語義的理解與生成,如ERNIE-VilG能夠進行圖文雙向生成,ERNIE-GeoL融合“地理-語言”關(guān)聯(lián)知識,大幅提升地理位置相關(guān)任務(wù)效果等。

除了跨模態(tài),還有跨領(lǐng)域大模型,如生物計算大模型,化合物表征學習HELIX-GEM,是首個幾何構(gòu)象增強的化合物表征模型,在14項****物相關(guān)的任務(wù)上取得良好效果;蛋白質(zhì)結(jié)構(gòu)分析 HELIX-Fold模型,全面適配國產(chǎn)軟硬件環(huán)境,在國產(chǎn)硬件上訓練千萬級別蛋白效率更高。

文心大模型也積極與產(chǎn)業(yè)合作,促進大模型在行業(yè)中的應(yīng)用。在能源電力行業(yè),百度和國網(wǎng)聯(lián)合研發(fā)了國網(wǎng)-百度·文心大模型?;谕ㄓ梦男拇竽P?,在海量數(shù)據(jù)中挖掘電力行業(yè)數(shù)據(jù),與國網(wǎng)專家們一起,引入電力業(yè)務(wù)積累的樣本數(shù)據(jù)和特有知識。訓練中,結(jié)合雙方在預訓練算法和電力領(lǐng)域業(yè)務(wù)與算法的經(jīng)驗,設(shè)計電力領(lǐng)域?qū)嶓w判別、電力領(lǐng)域文檔判別等算法作為預訓練任務(wù),讓文心大模型深入學習電力專業(yè)知識,在國網(wǎng)場景任務(wù)應(yīng)用效果提升。相似的思路,在金融領(lǐng)域,百度和浦發(fā)也聯(lián)合研發(fā)了浦發(fā)-百度·文心大模型,效果顯著。

協(xié)同共建生態(tài),飛槳平臺已凝聚477萬開發(fā)者

飛槳多年來堅持研發(fā)核心技術(shù)、打造功能豐富的平臺、建設(shè)兼容并包的生態(tài)等,已凝聚477萬開發(fā)者,服務(wù)了18萬企事業(yè)單位,創(chuàng)建了56萬個模型,得到社會各界廣泛認可。

圖片

人才培養(yǎng)方面,飛槳與高校、科研院所等合作,助力復合型的AI人才培養(yǎng)。飛槳已經(jīng)為700多所高校培養(yǎng)了3000多名教師,合作出版了系列基于產(chǎn)業(yè)實踐的AI教輔書,組織國內(nèi)外系列AI技術(shù)競賽等。

硬件生態(tài)方面,飛槳與硬件伙伴的合作不斷深化。2020年,與硬件伙伴聯(lián)合發(fā)起飛槳硬件生態(tài)圈,促進AI產(chǎn)業(yè)鏈的適配升級;2021年,飛槳與硬件伙伴軟硬一體聯(lián)合優(yōu)化,適配飛槳的芯片/IP超過30種;2022年,合作進一步深化,全面共創(chuàng),協(xié)同推出廠商版飛槳框架、建設(shè)模型庫、開發(fā)課程,更好地服務(wù)開發(fā)者,促進生態(tài)繁榮共贏。

飛槳及文心大模型賦能千行百業(yè),助力AI普惠

飛槳平臺及文心大模型的創(chuàng)新發(fā)展,不斷降低AI開發(fā)和應(yīng)用的門檻,越來越多的人都可以成為智能應(yīng)用的開發(fā)者。如10歲小學生開發(fā)了檢測水果新鮮度的應(yīng)用;鐵路鉗工開發(fā)了火車車身字符及標識檢測的應(yīng)用;大學老師開發(fā)了花樣滑冰的人體動作分析的應(yīng)用等等。

圖片

基于飛槳平臺,人工智能技術(shù)已在制造、城市、能源、金融、媒體等行業(yè)廣泛應(yīng)用,并催生了AI訓練師、5G云代駕等新業(yè)態(tài)、新模式。

飛槳平臺及文心大模型正在賦能千行百業(yè),惠及千家萬戶。

轉(zhuǎn)自《新聞助手》


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉