博客專欄

EEPW首頁 > 博客 > ChatGPT 慘遭嫌棄,Llama 2 開源春風得意、OpenAI 表示不服!

ChatGPT 慘遭嫌棄,Llama 2 開源春風得意、OpenAI 表示不服!

發(fā)布人:AI科技大本營 時間:2023-08-03 來源:工程師 發(fā)布文章
圖片

既開源又免費的 Llama 2 一經(jīng)發(fā)布頗有席卷之勢,成了最火爆的開源 ChatGPT 替代,國內外不少開發(fā)者及企業(yè)都跟風進行模型的研究和商業(yè)開發(fā),比如這幾天 OpenAI 傳奇科學家 Andrej Karpathy 就用純 C 語言打造了一個輕量版的 Llama 2 模型。而反觀被稱為大模型天花板的 GPT-4 則很不如意,深陷智商下降漩渦。

圖片

ChatGPT 什么時候不聰明了?


自今年三月 GPT-4 發(fā)布后,已經(jīng)有不少的開發(fā)者和用戶在 OpenAI 論壇提到使用 ChatGPT 時會出現(xiàn)不連貫性、非自然語言、以及推理等問題。其核心癥結眾說紛紜,有學者懷疑是 OpenAI 的系統(tǒng)修改和升級導致,通過削弱運算性能從而實現(xiàn)降本增效。然而由于 ChatGPT 閉源的屬性,我們很難確定其背后的真正原因。

圖片

OpenAI社區(qū)討論GPT-4性能的帖子尤其熱鬧

圍繞 GPT 智商下降的討論在 “How is ChatGPT's Behavior Changing Over Time?” 論文的發(fā)布之下被推向了頂峰,來自斯坦福大學和加州大學伯克利分校的學者 Lingjiao Chen、Matei Zaharia 和 James Zou 對 3 月和 6 月不同版本的 GPT-3.5 和 GPT-4 進行了任務測試,結果發(fā)現(xiàn)不同版本的結果出現(xiàn)顯著的表現(xiàn)差異(漂移 drifting)。

首先是程序員們最為關心的代碼生成能力。即使在明確聲明不要注釋的前提下,新版 GPT-3.5 和 GPT-4 仍然添加了更多的非代碼文本和注釋,使回答變得繁雜冗長。同時,代碼質量下降使得直接可執(zhí)行代碼生成的比例更低(GPT-4 從 3 月的 52%下降到 6 月的 10%)。這對于程序員們而言,可能在用 LeetCode 刷題時,自己答對的概率比 ChatGPT 還能高不少。

圖片

而在解決數(shù)學問題方面,GPT-4 識別質數(shù)的能力從 3 月份幾乎全對下降到 2.4%,而 GPT-3.5 的成功率暴漲至 86.8%。作者懷疑 GPT-3.5 相比較 GPT-4 更好地遵循了鏈式思維指示(Chain-Of-Thought),而新版 GPT-4 可能會在推理過程思維斷裂而出錯。圖片在回答敏感問題方面,新版 GPT-3.5 較 3 月版更大膽,回答率從 4%增加到 8%。而新版 GPT-4 則更保守,從 21%下降到 5%。同時,GPT-4 的生成字符長度從 600 多個下降到大約 140 個,在拒絕回答時更簡潔,提供的解釋也更短。GPT-3.5 也發(fā)生了類似的現(xiàn)象。這表明新版 ChatGPT 的答案可能會更安全,但是也更慫、更不愿意解釋。圖片最后的任務是視覺推理。新版 GPT-4 和 GPT-3.5 的整體性能較三個月前有小幅提升,但依舊不高:GPT-4 的正確率為 27.4%,GPT-3.5 為 12.2%。值得注意的是,盡管整體性能更好,但 GPT-4 在之前沒有犯的錯誤反而在新版里出現(xiàn)了,凸顯了對于關鍵應用漂移監(jiān)測的必要性。圖片在論文中,作者并沒有明確提及新版 ChatGPT 比較舊版性能有降級,僅僅是將觀察到的漂移現(xiàn)象描述出來,并強調了持續(xù)評估 LLM 在生產(chǎn)應用程序中的行為的必要性,并建議用戶和公司實施與上述四個任務類似的監(jiān)控分析以保證其運行順暢。Zou:“我們不完全了解是什么導致了 ChatGPT 響應的這些變化,因為這些模型是不透明的。調整模型以提高其在某些領域的性能可能會產(chǎn)生意想不到的副作用,使其在其他任務上變得更糟?!?/span>李飛飛的學生、英偉達資深 AI 科學家 Jim Fan 也表達了他對于這篇論文和 ChatGPT“反向”升級的觀點。他認為,OpenAI 從 3 月到 6 月花了大部分精力做減負,導致了一些功能的損失。但同時,安全對齊(Safety Alignment)使編程變得冗余而讓開發(fā)者徒增煩惱,削減成本可能會影響模型性能。圖片OpenAI 回應:GPT 沒有智商下降!
面對如此多的討論,OpenAI 否定了 ChatGPT 性能倒退的說法。OpenAI 產(chǎn)品副總裁 Peter Welinder 在一條推文中說:“我們并沒有讓 GPT-4 變得愚蠢。恰恰相反:我們使每個新版本都比前一個版本更智能?!彼岢隽艘粋€猜想,“你用得越多,越能注意到以前沒有看到的問題,”并鼓勵大家把覺得 GPT 退化的截圖發(fā)給他用以分析。
圖片從 OpenAI 發(fā)布的信息來看,新版本只是每三月一次例行的更新,以保證開發(fā)者一直能使用最好的模型。但同時 OpenAI 也發(fā)現(xiàn),每三月一次的更新過于頻繁,即使有三個月的延期,開發(fā)者仍然來不及升級他們的應用。因此,OpenAI 將最新的 OpenAI API 中對 gpt-3.5-turbo-0301 和 gpt-4-0314 模型的支持延長到一年后的 2024 年 6 月 13 日,并表示部分情況會遇到模型回歸的問題,可以通過發(fā)送更詳細的 prompt 來解決。圖片與此同時,OpenAI 也在集中改進被社區(qū)反饋的問題。例如,OpenAI 技術發(fā)言人 Logan Kilpatrick 剛剛宣布新版 ChatGPT 被提問時將不再一直以“作為一個由 OpenAI 訓練的大語言模型,得到下面的結論...”為開頭,這對于開發(fā)者們而言,能夠更直接地獲得反饋,同時對于 ChatGPT 來說,也從一定程度上減少了系統(tǒng)負擔。
圖片

圖片開源才是答案?
有趣的是,Chen 等人對 ChatGPT 測試的論文與 Llama 2 幾乎同時發(fā)表,無論用途和用戶,向所有人開放免費下載使用?!癘SS LLM 不會這么保密。我們可以作為一個社區(qū)嚴格版本化和跟蹤回歸、診斷和修復所有這些問題,”Fan 在推文中提到。自 ChatGPT 橫空出世之后,人人都在呼喚、渴求它的開源,然而終究是石沉大海。哪怕是當 OpenAI 創(chuàng)始人 Sam Altman 被直接問到關于開源的問題時,他的回答依然很巧妙地規(guī)避了 GPT 是否會開源,只是說“我們未來會有更多開源大模型,但沒有具體模型和時間表”。這也是為什么 Llama 2 火速收獲全球開發(fā)者及企業(yè)喜愛的關鍵所在。而對于搭建像 ChatGPT 一樣封閉式的大語言模型,對于安全的不確定性、更持續(xù)透明的信息同步和維護依然是開發(fā)者最為迫切的需求。參考鏈接:https://twitter.com/DrJimFan/status/1681716564335394817https://arxiv.org/abs/2307.09009https://www.theregister.com/2023/07/20/gpt4_chatgpt_performance/?td=rt-3ahttps://community.openai.com/t/experiencing-decreased-performance-with-chatgpt-4/234269https://twitter.com/OfficialLoganK https://twitter.com/OpenAI


*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區(qū)

關閉