博客專欄

EEPW首頁 > 博客 > GPT-4太燒錢,微軟想甩掉OpenAI?曝出Plan B:千塊GPU專訓「小模型」,開啟必應內測

GPT-4太燒錢,微軟想甩掉OpenAI?曝出Plan B:千塊GPU專訓「小模型」,開啟必應內測

發(fā)布人:傳感器技術 時間:2023-10-01 來源:工程師 發(fā)布文章
【導讀】GPT-4太吃算力,微軟被爆內部制定了Plan B,訓練更小、成本更低的模型,進而擺脫OpenAI。


GPT-4太吃算力,連微軟也頂不住了!
今年,無數場微軟AI大會上,CEO納德拉臺前激動地官宣,將GPT-4、DALL·E 3整合到微軟「全家桶」。微軟全系產品已被OpenAI的模型重塑,愿景是讓AI成為每個人的生活伴侶。圖片然而在幕后,因GPT-4運行成本太高,微軟卻悄悄地搞起了plan B。The Information獨家爆料稱,為了擺脫對OpenAI的依賴,由Peter Lee領導的1500人研究團隊中,一部分人轉向研發(fā)全新對話式AI。圖片據稱,研發(fā)的模型性能可能不如GPT-4,但參數規(guī)模小,研究成本更低,運行速度更快。目前,微軟已經在必應聊天等產品中,開啟了內測。不僅是微軟,包括谷歌在內的其他科技巨頭,正在另辟蹊徑,以在AI聊天軟件和芯片兩方面節(jié)省成本。而Llama 2宣發(fā)時微軟與Meta的合作,也不啻是一種擺脫完全依靠OpenAI的手段。這是微軟帝國繼續(xù)向前成長、突破當前局限,注定要走的路。

更「精煉」的模型,必應先嘗鮮


今年2月,微軟正式發(fā)布新必應(New Bing),其中結合了ChatGPT和自家的普羅米修斯(Prometheus)模型。在GPT-4公布后,微軟緊接著宣布,GPT-4整合到必應中,將搜索體驗帶上了一個新臺階。微軟搜索主管Mikhail Parakhin近日表示,Bing Chat目前在「創(chuàng)意」和「精準」模式下使用的是100%的GPT-4。而在平衡模式下(多數用戶選擇的模式),微軟用普羅米修斯模型,以及圖靈語言模型(Turing language models)作為補充。圖片普羅米修斯模型是技能和技術的集合體。而圖靈模型不如GPT-4強大,旨在識別和回答簡單的問題,并將更難的問題傳遞給GPT-4。微軟內部,已經將其手頭的2000塊GPU中的大部分,都投入到了「小模型」的訓練當中。當然,這與微軟提供給OpenAI的芯片數量相比,只能說是小巫見大巫了。不過,這些模型可以執(zhí)行比GPT-4更簡單的任務,也是微軟為破冰所作的努力。

打破OpenAI束縛


多年來,微軟與OpenAI這兩家公司,保持著千絲萬縷的聯(lián)系。但是,隨著ChatGPT,微軟必應等全家桶競相推出,微軟與OpenAI也開始秘密開展市場角逐戰(zhàn)。盡管微軟的努力仍處于早期階段,但納德拉正帶領微軟,為自家AI產品開辟一條不完全依賴OpenAI的路。圖片「這終究還是要發(fā)生的」,Databricks的高管Naveen Rao在談到微軟內部的AI工作時說。「微軟是一家精明的企業(yè),當你部署產品使用GPT-4巨型模型時,他們要的是高效。這就好比說,我們并不需要一個擁有3個博士學位的人,來當電話接線員,這在經濟上是行不通的?!?/span>然而,納德拉和研究主管Peter Lee希望在沒有OpenAI的情況下,開發(fā)出復雜的AI,這大概只是一廂情愿。自從微軟投資OpenAI后,這家巨頭的研究部門把大部分時間,都用來調整OpenAI的模型,以便使其適用微軟的產品,而不是開發(fā)自己的模型。微軟的研究團隊,也并沒有幻想自己能開發(fā)出像GPT-4這樣強大的AI。圖片他們清楚地知道,自身沒有OpenAI的計算資源,也沒有大量的人類審查員來反饋LLM回答的問題,以便工程師改進模型。過去一年里,隨著幾波研究人員的離職,包括一些轉入微軟內部的產品團隊,研究部門的人才也在不斷流失。對微軟自身來說,在沒有OpenAI幫助的情況下,開發(fā)高質量的LLM,可以在未來幾年,兩家公司討論續(xù)簽合作關系時贏得更多談判籌碼。

圖片

微軟AI研究主管Peter Lee目前,兩者交易對雙方都有利。微軟投資OpenAI一百多億美元,作為回報,能夠在微軟產品中永久使用OpenAI 現(xiàn)有知識產權的獨家權利。此外,微軟還將獲得OpenAI 75%的理論運營收益,直到其初始投資償還為止,并且將獲得利潤的49%,直到達到一定上限為止。圖片現(xiàn)在,微軟希望通過與OpenAI,以及其他AI企業(yè)的現(xiàn)有聯(lián)盟,在一個不確定的時期內增加至少100億美元的新收入。O?ce 365全家桶在得到GPT-4能力加持,已經出現(xiàn)了早期的收入增長跡象。微軟還在7月份表示,已有超過2.7萬家公司為代碼編寫工具GitHub Copilot付費了。Statista統(tǒng)計,2023年除了微軟云服務比例最大,加速生產力商業(yè)流程的軟件產品收入占比也在逐漸增加。圖片然鵝,諷刺的是,微軟與OpenAI的交易條款,也間接地幫助微軟努力擺脫對OpenAI的依賴。當用戶使用必應時,微軟可以訪問OpenAI模型輸出的結果。目前,微軟正在利用這些數據,創(chuàng)建更加「精煉」的模型。內部研究人員的研究結果表明,這些模型可以用更少的計算資源產生類似的結果。

「小模型」的探索


在OpenAI的陰影下度過一年后,微軟的一些研究人員找到了全新的目標——制造一個模仿GPT-4的「蒸餾」模型。今年6月,微軟訓練了一個算力消耗只有GPT-4十分之一的模型——Orca。為了創(chuàng)建這個Orca,微軟將GPT-4生成的數百萬個答案輸入到了一個更為基本的開源模型之中,并以此教它模仿GPT-4。

圖片

論文地址:https://arxiv.org/abs/2306.02707結果顯示,Orca不僅超過了其他的SOTA指令微調模型,而且在BigBench Hard(BBH)等復雜的零樣本推理基準中,實現(xiàn)了比Vicuna-13B翻倍的性能表現(xiàn)。此外,Orca在BBH基準上還實現(xiàn)了與ChatGPT持平的性能,在SAT、LSAT、GRE和GMAT等專業(yè)和學術考試中只有4%的性能差距,并且都是在沒有思維鏈的零樣本設置下測量的。圖片圖片甚至,在某些情況下,Orca的表現(xiàn)與OpenAI的免費版ChatGPT不相上下。圖片類似的,微軟還公布了一款參數量不到GPT-4千分之一的模型——phi-1。由于采用了「教科書級」的高質量訓練數據,phi-1在數學和邏輯問題上的熟練程度,完全不亞于5倍于它的開源模型。

圖片

論文地址:https://arxiv.org/abs/2306.11644隨后,微軟在研究「一個LLM有多小,才能達到一定的能力」上更進了一步,推出了只有13億參數的模型phi-1.5。

圖片

論文地址:https://arxiv.org/abs/2309.05463phi-1.5展現(xiàn)出了許多大模型具備的能力,能夠進行「一步一步地思考」,或者進行一些基本上下文學習。圖片結果顯示,phi-1.5在常識推理和語言技能上的表現(xiàn),與規(guī)模10倍于它的模型旗鼓相當。同時,在多步推理上,還遠遠超過了其他大模型。圖片雖然目前還不清楚,像Orca和Phi這樣的「小模型」是否真的能與更大的SOTA模型(如GPT-4)相媲美。但它們巨大的成本優(yōu)勢,加強了微軟繼續(xù)推動相關研究的動力。據一位知情人士透露,團隊在發(fā)布Phi之后,首要任務就是驗證此類模型的質量。在即將要發(fā)表的論文中,研究人員又提出了一種基于對比學習的方法,讓工程師們可以教模型區(qū)分高質量和低質量的響應,從而改進Orca。同時,微軟其他的團隊也正在緊鑼密鼓地開發(fā)全新的多模態(tài)大模型,也就是一種既能解釋又能生成文本和圖像的LLM。圖片

GPT-4V

顯然,像Orca和Phi這樣的模型,可以幫助微軟降低為客戶提供AI功能時所需的計算成本。據一位在職員工透露,微軟的產品經理已經在測試如何使用Orca和Phi而不是OpenAI的模型,來處理必應聊天機器人的查詢了。比如,總結小段文本、回答是或者否,這種相對簡單的問題。此外,微軟還在權衡是否向Azure云客戶提供Orca模型。據知情人士透露,Orca論文一經發(fā)表,就有客戶來詢問何時能用上了。但問題在于,如果真要這樣操作的話,微軟是不是還需要找Meta拿個許可。畢竟后者對哪些公司可以將其開源LLM進行商業(yè)化,還是有所限制的。 來源:新智元

 


*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: GPT-4

相關推薦

技術專區(qū)

關閉