新版DeepSeek V3悄然發(fā)布外媒：很強但少了"人味"

作者：時間：2025-03-26 來源：網(wǎng)易科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

3月25日消息，中國人工智能初創(chuàng)公司DeepSeek悄然發(fā)布了一款新的大語言模型，在人工智能行業(yè)引發(fā)震動。這不僅因為其強大的能力，還因為其獨特的發(fā)布方式。

本文引用地址：http://2s4d.com/article/202503/468620.htm

這個大小為641GB的模型名為DeepSeek-V3-0324，于周一悄然出現(xiàn)在人工智能資源庫Hugging Face上，幾乎沒有任何官方公告，延續(xù)了該公司低調(diào)卻影響深遠的發(fā)布風格。

此次發(fā)布尤其值得關(guān)注的是，該模型采用MIT許可（允許免費商用），并且有報道稱它可以直接在消費者級“硬件”上運行，尤其是配備M3 Ultra芯片的蘋果Mac Studio。

人工智能研究員Awni Hannun在社交媒體上寫道：“4比特量化的新版DeepSeek-V3-0324，在512GB M3 Ultra的機器上通過mlx-lm實現(xiàn)了每秒20個token的處理速度！”雖然售價為9499美元的Mac Studio可能超出了“消費者硬件”的定義，但能夠在這樣的硬件上本地運行如此龐大的模型，標志著與通常與最先進人工智能技術(shù)相關(guān)的數(shù)據(jù)中心需求有了根本性突破。

DeepSeek隱秘發(fā)布策略打破AI市場預(yù)期

這個擁有6850億參數(shù)的模型發(fā)布時沒有附帶技術(shù)白皮書、博客文章或營銷推廣，只有一個空白的README文件和模型權(quán)重。這種做法與西方人工智能公司通常精心策劃的產(chǎn)品發(fā)布形成鮮明對比，后者往往在發(fā)布前數(shù)月便開始進行炒作。

早期測試者報告稱，相比于前一版本，DeepSeek-V3-0324在各項指標上有了顯著提升。人工智能研究員Xeophon在社交媒體上發(fā)帖高調(diào)宣稱：“我在內(nèi)部基準測試平臺上測試了新版DeepSeek V3，在所有測試中，它在各項指標上都有巨大的躍升。它現(xiàn)在是最好的非推理模型，把Sonnet 3.5拉下王座?！?/p>

如果這一說法得到更廣泛的驗證，DeepSeek的新模型將在性能排行榜上壓制Anthropic的Claude Sonnet 3.5，后者是業(yè)內(nèi)公認頂尖的商業(yè)人工智能系統(tǒng)之一。而且與需要訂閱的Sonnet不同，DeepSeek-V3-0324的權(quán)重文件供任何人免費下載使用。

DeepSeek V3-0324的突破性架構(gòu)如何實現(xiàn)無與倫比的效率

DeepSeek-V3-0324采用了混合專家（MoE）架構(gòu)，從根本上重新構(gòu)想了大語言模型的運作方式。傳統(tǒng)模型會在每項任務(wù)中激活全部參數(shù)，而DeepSeek的方法是在特定任務(wù)中只激活約370億個參數(shù)，盡管它擁有6850億個參數(shù)。

這種選擇性激活代表了模型效率的范式轉(zhuǎn)變。通過僅激活與每個特定任務(wù)最相關(guān)的“專家”參數(shù)，DeepSeek能夠在大幅減少計算需求的同時，提供與更大、完全激活的模型相當?shù)男阅堋?/p>

該模型還融入了兩項突破性技術(shù)：多頭潛在注意力（MLA）和多token預(yù)測（MTP）。MLA增強了模型在處理長文本時保持上下文的能力，而MTP則可以每個步驟生成多個token，而非傳統(tǒng)的逐標記生成方式。兩者結(jié)合使得輸出速度提高了近80%。

開發(fā)工具創(chuàng)造者西蒙·威利森（Simon Willison）在博客中指出，4比特量化版本的DeepSeek-V3將存儲占用減少到352GB，這使得在像Mac Studio（配備M3 Ultra芯片）這樣的高端消費者硬件上運行成為可能。

這代表了人工智能技術(shù)部署方式的潛在重大轉(zhuǎn)變。傳統(tǒng)人工智能基礎(chǔ)設(shè)施通常依賴于多塊英偉達GPU，消耗數(shù)千瓦的電力，而Mac Studio在推理過程中僅消耗不到200瓦的電力。這一效率差距表明，人工智能行業(yè)可能需要重新審視關(guān)于頂尖模型性能所需基礎(chǔ)設(shè)施的假設(shè)。

中國的開源AI革命挑戰(zhàn)硅谷的“封閉花園”模式

DeepSeek的發(fā)布策略體現(xiàn)了中西方公司在人工智能商業(yè)理念上的根本分歧。像OpenAI和Anthropic這樣的美國領(lǐng)軍公司將他們的模型封閉在付費墻后，而中國人工智能公司則越來越多地采納寬松的開源許可。

這種做法正在迅速改變中國的人工智能生態(tài)系統(tǒng)。尖端模型的開源產(chǎn)生了乘數(shù)效應(yīng)，使得初創(chuàng)公司、研究人員和開發(fā)人員能夠在沒有巨額資本支出的情況下，基于復(fù)雜的人工智能技術(shù)進行構(gòu)建。這加速了中國人工智能能力的提升，令西方觀察者感到震驚。

這一策略背后的商業(yè)邏輯反映了中國市場的現(xiàn)實。在眾多資金雄厚的競爭對手存在的情況下，當競爭者免費提供類似能力時，保持專有模型變得越來越困難。開源通過生態(tài)系統(tǒng)領(lǐng)導(dǎo)地位、API服務(wù)和基于免費可用基礎(chǔ)模型構(gòu)建的企業(yè)解決方案創(chuàng)造了替代的價值路徑。

即便是中國的科技巨頭也認識到這一轉(zhuǎn)變。百度宣布計劃在6月前將其文心一言4.5系列模型開源，而阿里巴巴和騰訊也發(fā)布了具有專業(yè)能力的開源人工智能模型。這一舉措與西方公司依賴API的策略形成了鮮明對比。

開源策略還解決了中國人工智能公司面臨的獨特挑戰(zhàn)。在獲取尖端英偉達芯片受限的情況下，中國公司更加強調(diào)效率和優(yōu)化，以在有限的計算資源下實現(xiàn)競爭性性能。這種由需求驅(qū)動的創(chuàng)新現(xiàn)在已成為潛在的競爭優(yōu)勢。

DeepSeek V3-0324：AI推理革新的基礎(chǔ)

DeepSeek-V3-0324的發(fā)布時機和特點強烈表明，DeepSeek預(yù)計將在未來兩個月內(nèi)發(fā)布的改進型推理專用模型DeepSeek-R2。這符合DeepSeek的慣常模式，即基礎(chǔ)模型發(fā)布數(shù)周后推出專用推理模型。

Reddit用戶mxforest指出：“這與他們在圣誕節(jié)前后發(fā)布V3，幾周后推出R1的模式一致。傳聞R2將在4月發(fā)布，所以這可能就是它?！?/p>

推理模型的開源再怎么強調(diào)都不為過。目前，像OpenAI的o1和DeepSeek的R1這樣的推理模型代表了人工智能能力的最前沿，在數(shù)學、編程等領(lǐng)域展現(xiàn)了前所未有的問題解決能力。將這項技術(shù)免費開放，會使目前只有擁有雄厚資金支持的公司才能使用的人工智能系統(tǒng)普及化。

潛在的R2模型發(fā)布之際，關(guān)于推理模型計算需求的重要發(fā)現(xiàn)正在浮現(xiàn)。英偉達首席執(zhí)行官黃仁勛最近指出，DeepSeek的R1模型“消耗的計算量是非推理人工智能系統(tǒng)的100倍”，這與之前業(yè)內(nèi)對效率的假設(shè)相矛盾。這揭示了DeepSeek模型背后取得的非凡成就，它們在資源限制更大的情況下依然能夠提供競爭力的表現(xiàn)。

如果DeepSeek-R2繼續(xù)沿著R1設(shè)定的軌跡發(fā)展，它可能會直接挑戰(zhàn)GPT-5，即OpenAI的下一代旗艦?zāi)Ｐ?，后者預(yù)計將在不久后發(fā)布。OpenAI封閉、資金密集型的方法與DeepSeek開放、資源高效的戰(zhàn)略之間，代表了人工智能領(lǐng)域兩種相互競爭的未來愿景。

如何體驗DeepSeek V3-0324：開發(fā)者和用戶的完整指南

對于那些急于體驗DeepSeek-V3-0324的人，根據(jù)技術(shù)需求和資源的不同，可以選擇多種途徑。完整的模型權(quán)重已在Hugging Face上發(fā)布，641GB的大小需要充足的存儲空間和計算資源。

對于大多數(shù)用戶而言，基于云的選項提供了最易接入的入口。OpenRouter提供免費API訪問該模型，并且配有用戶友好的聊天界面。只需選擇DeepSeek V3 0324作為模型即可開始體驗。

DeepSeek自己的聊天界面chat.deepseek.com也很可能已經(jīng)更新為新版本，盡管公司尚未明確確認。早期用戶反饋稱，新的版本在該平臺上可用，且性能較此前版本有所提升。

希望將模型集成到應(yīng)用程序中的開發(fā)者，也可以通過各種推理提供商訪問它。Hyperbolic Labs宣布成為“在Hugging Face平臺上首家提供該模型服務(wù)的推理提供商”提供該模型，而OpenRouter則提供與OpenAI SDK兼容的API訪問。

DeepSeek的新模型更注重技術(shù)精確性而非對話親和力

早期用戶報告稱，DeepSeek模型的交流風格發(fā)生了明顯變化。盡管之前的模型因其對話式、擬人化的語氣備受好評，但DeepSeek V3-0324呈現(xiàn)出更加正式、技術(shù)導(dǎo)向的風格。

Reddit用戶nother_level問道：“是只有我覺得這個版本不那么像人類了嗎？對我來說，DeepSeek V3與其他模型不同的地方在于它更像人類。它的語氣、措辭都不像其他大語言模型那樣機械感，但現(xiàn)在這個版本感覺像其他大語言模型一樣機械得要命?！?/p>

另一位用戶AppearanceHeavy6724補充道：“沒錯，它肯定失去了那種超然的魅力，感覺聰明反被聰明誤?！?/p>

這種明顯的風格變化似乎是DeepSeek工程師的有意設(shè)計。轉(zhuǎn)向更精準、分析式的交流風格，表明該公司正將模型重新定位至專業(yè)和技術(shù)應(yīng)用，而非休閑對話的戰(zhàn)略。這與人工智能行業(yè)的廣泛趨勢一致，開發(fā)者越來越認識到，不同的使用場景需要不同的互動風格。

對開發(fā)專業(yè)應(yīng)用的開發(fā)者而言，這種更精準的交流風格反而成為優(yōu)勢，能為工作流程提供更清晰一致的輸出；但會削弱模型在需親和力的消費端應(yīng)用中的吸引力。

DeepSeek的開源戰(zhàn)略如何重塑全球AI版圖

DeepSeek的人工智能技術(shù)開發(fā)和分發(fā)方法不僅是一項技術(shù)成就，也體現(xiàn)了關(guān)于先進技術(shù)應(yīng)如何在社會中傳播的根本不同愿景。通過提供開放許可的尖端人工智能模型，DeepSeek推動了一個傳統(tǒng)閉源模型無法比擬的指數(shù)級創(chuàng)新。這一戰(zhàn)略正在快速縮小中國和美國在人工智能領(lǐng)域的差距。幾個月前，大多數(shù)分析師都認為中國落后美國一到兩年，而如今這一差距已縮小至3至6個月，部分領(lǐng)域接近持平甚至中國領(lǐng)先。

這種開源部署理念與安卓對移動生態(tài)系統(tǒng)的影響頗為相似。通過免費提供安卓系統(tǒng)，谷歌創(chuàng)建了一個平臺，最終實現(xiàn)了全球市場的主導(dǎo)地位。同樣，開源人工智能模型也有可能憑借廣泛普及和開發(fā)者集體創(chuàng)新，在競爭中超越閉源系統(tǒng)。

這一影響超越了市場競爭，直指技術(shù)獲取的根本問題。西方AI巨頭因?qū)⑾冗M能力集中在資源充足的公司與個人手中而備受批評，而DeepSeek的開放戰(zhàn)略讓能力廣泛分布，可能加速全球AI應(yīng)用。

隨著DeepSeek-V3-0324進入全球研究實驗室和開發(fā)者工作站，競爭已不再僅僅是關(guān)于構(gòu)建最強大的人工智能，而是關(guān)于讓更多人能夠利用人工智能進行創(chuàng)造。在這場競賽中，DeepSeek的低調(diào)發(fā)布已充分預(yù)示了人工智能的未來。最自由分享技術(shù)的公司，或?qū)⒆罱K主導(dǎo)AI重塑世界的進程。