上海人工智能實(shí)驗(yàn)室要做大模型技術(shù)的“度量衡” | 尋找中國經(jīng)濟(jì)新動(dòng)能
通常來看,AI大模型在國內(nèi)市場(chǎng)燃起的這把火,主要來自互聯(lián)網(wǎng)大廠和科技創(chuàng)業(yè)公司兩股力量,但實(shí)際上,還有一股力量來自能夠連接產(chǎn)學(xué)研三界的研發(fā)機(jī)構(gòu),他們?cè)谶@場(chǎng)前沿科技全球競(jìng)賽中的角色同樣重要。
上海人工智能實(shí)驗(yàn)室正處于該行列中。該實(shí)驗(yàn)室是上海人工智能創(chuàng)新中心發(fā)起設(shè)立的新型研發(fā)機(jī)構(gòu),在2020年的世界人工智能大會(huì)上正式揭牌成立。
上海人工智能實(shí)驗(yàn)室的研究方向包含AI基礎(chǔ)理論、AI開放平臺(tái)、AI基礎(chǔ)軟件和基礎(chǔ)硬件系統(tǒng)、AI應(yīng)用、AI核心技術(shù)、AI倫理與政策等。除學(xué)術(shù)成果外,實(shí)驗(yàn)室已聯(lián)合業(yè)界、學(xué)界發(fā)布多項(xiàng)技術(shù)產(chǎn)品,涉及大語言、多模態(tài)、城市實(shí)景三維等基礎(chǔ)模型。
據(jù)界面新聞了解,目前該實(shí)驗(yàn)室已在大模型領(lǐng)域有了諸多技術(shù)進(jìn)展。今年以來,上海人工智能實(shí)驗(yàn)室已發(fā)布書生·浦語2.0、新一代書生·視覺大模型、書生·天際2.0,其書生通用大模型體系全面邁向2.0時(shí)代。此外,由基礎(chǔ)大模型衍生出的書生·浦語靈筆2.0和書生·浦語數(shù)學(xué)開始拓寬該領(lǐng)域技術(shù)的應(yīng)用路徑。
除了技術(shù)成果,上海人工智能實(shí)驗(yàn)室在大模型領(lǐng)域的另一突出價(jià)值,在于建立了大模型開源開放評(píng)測(cè)體系“司南”(OpenCompass2.0),包含評(píng)測(cè)榜單CompassRank、評(píng)測(cè)基準(zhǔn)社區(qū)CompassHub、評(píng)測(cè)工具鏈體系CompassKit三個(gè)板塊。
在大模型的混戰(zhàn)中,行業(yè)曾出現(xiàn)大模型大肆刷榜、不同來源大模型評(píng)測(cè)榜單四起的亂象,外界一時(shí)對(duì)各大榜單的公信力產(chǎn)生質(zhì)疑,陷入無從分辨大模型真實(shí)水平的困境。
界面新聞此前曾報(bào)道,有多位行業(yè)人士表示,未來更看好OpenCompass、FlagEval等具有一定學(xué)術(shù)背景的評(píng)測(cè)機(jī)構(gòu)模式,并有頭部大模型公司創(chuàng)業(yè)者以O(shè)penCompass為準(zhǔn),評(píng)判各個(gè)大模型的性能表現(xiàn)。
對(duì)于如何看待大模型刷榜亂象,又如何有策略地構(gòu)建評(píng)測(cè)榜單的技術(shù)公信力一事,該實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人表示,評(píng)測(cè)是大模型技術(shù)進(jìn)步的“度量衡”。如果一些大模型沉迷于刷榜、跑分,通過“題海戰(zhàn)術(shù)”提高大模型評(píng)測(cè)成績,對(duì)于模型性能的反映可能失真,影響模型研發(fā)團(tuán)隊(duì)的改進(jìn)方向,“高分低能”傷害的是機(jī)構(gòu)本身。
在具體做法上,OpenCompass的評(píng)測(cè)維度包括基礎(chǔ)能力和綜合能力兩個(gè)層級(jí),涵蓋了語言、知識(shí)、理解、數(shù)學(xué)、代碼、長文本、智能體等12個(gè)一級(jí)能力維度,綜合設(shè)計(jì)了50余個(gè)二級(jí)能力維度。其能力維度設(shè)計(jì)具備可擴(kuò)展性和增長性,同時(shí)可根據(jù)未來的大模型應(yīng)用場(chǎng)景進(jìn)行動(dòng)態(tài)更新和迭代。
為了能向參與評(píng)測(cè)的機(jī)構(gòu)提供更真實(shí)的大模型性能表現(xiàn),OpenCompass借鑒了高考提前公布“考試大綱”而不公布考題的策略,在每一期榜單發(fā)布前,公開上一期的評(píng)測(cè)題目,既讓參與評(píng)測(cè)的機(jī)構(gòu)有方向可循,也避免了直接刷題情況的產(chǎn)生。
與此同時(shí),OpenCompass在題目構(gòu)建上也進(jìn)行了前沿探索。研究人員在評(píng)測(cè)題目構(gòu)建中投入了巨大的研發(fā)力度,使評(píng)測(cè)題集保持創(chuàng)新狀態(tài),盡量無法在互聯(lián)網(wǎng)中搜索到原題。創(chuàng)新構(gòu)造題目的策略和整套的系統(tǒng),同樣為大模型評(píng)測(cè)技術(shù)的核心環(huán)節(jié)之一。
此外,上海人工智能實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人強(qiáng)調(diào),CompassRank作為榜單的承載平臺(tái),將不受任何商業(yè)利益干擾,保持中立性。
為繼續(xù)提升大模型評(píng)測(cè)榜單的公信力和擴(kuò)大可評(píng)測(cè)范疇,目前,OpenCompass已與多家產(chǎn)業(yè)機(jī)構(gòu)共同推出了多個(gè)垂直領(lǐng)域的評(píng)測(cè)基準(zhǔn)和數(shù)據(jù)集,涉及法律、金融、醫(yī)療、網(wǎng)絡(luò)安全等領(lǐng)域。OpenCompass還將通過司南大模型評(píng)測(cè)伙伴計(jì)劃,與各行業(yè)頭部企業(yè)機(jī)構(gòu)一起,構(gòu)建各類高質(zhì)量的行業(yè)評(píng)測(cè)基準(zhǔn)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。