新版DeepSeek V3悄然發(fā)布 外媒:很強(qiáng)但少了"人味"
3月25日消息,中國人工智能初創(chuàng)公司DeepSeek悄然發(fā)布了一款新的大語言模型,在人工智能行業(yè)引發(fā)震動(dòng)。這不僅因?yàn)槠鋸?qiáng)大的能力,還因?yàn)槠洫?dú)特的發(fā)布方式。
本文引用地址:http://2s4d.com/article/202503/468620.htm這個(gè)大小為641GB的模型名為DeepSeek-V3-0324,于周一悄然出現(xiàn)在人工智能資源庫Hugging Face上,幾乎沒有任何官方公告,延續(xù)了該公司低調(diào)卻影響深遠(yuǎn)的發(fā)布風(fēng)格。
此次發(fā)布尤其值得關(guān)注的是,該模型采用MIT許可(允許免費(fèi)商用),并且有報(bào)道稱它可以直接在消費(fèi)者級(jí)“硬件”上運(yùn)行,尤其是配備M3 Ultra芯片的蘋果Mac Studio。
人工智能研究員Awni Hannun在社交媒體上寫道:“4比特量化的新版DeepSeek-V3-0324,在512GB M3 Ultra的機(jī)器上通過mlx-lm實(shí)現(xiàn)了每秒20個(gè)token的處理速度!”雖然售價(jià)為9499美元的Mac Studio可能超出了“消費(fèi)者硬件”的定義,但能夠在這樣的硬件上本地運(yùn)行如此龐大的模型,標(biāo)志著與通常與最先進(jìn)人工智能技術(shù)相關(guān)的數(shù)據(jù)中心需求有了根本性突破。
DeepSeek隱秘發(fā)布策略打破AI市場(chǎng)預(yù)期
這個(gè)擁有6850億參數(shù)的模型發(fā)布時(shí)沒有附帶技術(shù)白皮書、博客文章或營銷推廣,只有一個(gè)空白的README文件和模型權(quán)重。這種做法與西方人工智能公司通常精心策劃的產(chǎn)品發(fā)布形成鮮明對(duì)比,后者往往在發(fā)布前數(shù)月便開始進(jìn)行炒作。
早期測(cè)試者報(bào)告稱,相比于前一版本,DeepSeek-V3-0324在各項(xiàng)指標(biāo)上有了顯著提升。人工智能研究員Xeophon在社交媒體上發(fā)帖高調(diào)宣稱:“我在內(nèi)部基準(zhǔn)測(cè)試平臺(tái)上測(cè)試了新版DeepSeek V3,在所有測(cè)試中,它在各項(xiàng)指標(biāo)上都有巨大的躍升。它現(xiàn)在是最好的非推理模型,把Sonnet 3.5拉下王座。”
如果這一說法得到更廣泛的驗(yàn)證,DeepSeek的新模型將在性能排行榜上壓制Anthropic的Claude Sonnet 3.5,后者是業(yè)內(nèi)公認(rèn)頂尖的商業(yè)人工智能系統(tǒng)之一。而且與需要訂閱的Sonnet不同,DeepSeek-V3-0324的權(quán)重文件供任何人免費(fèi)下載使用。
DeepSeek V3-0324的突破性架構(gòu)如何實(shí)現(xiàn)無與倫比的效率
DeepSeek-V3-0324采用了混合專家(MoE)架構(gòu),從根本上重新構(gòu)想了大語言模型的運(yùn)作方式。傳統(tǒng)模型會(huì)在每項(xiàng)任務(wù)中激活全部參數(shù),而DeepSeek的方法是在特定任務(wù)中只激活約370億個(gè)參數(shù),盡管它擁有6850億個(gè)參數(shù)。
這種選擇性激活代表了模型效率的范式轉(zhuǎn)變。通過僅激活與每個(gè)特定任務(wù)最相關(guān)的“專家”參數(shù),DeepSeek能夠在大幅減少計(jì)算需求的同時(shí),提供與更大、完全激活的模型相當(dāng)?shù)男阅堋?/p>
該模型還融入了兩項(xiàng)突破性技術(shù):多頭潛在注意力(MLA)和多token預(yù)測(cè)(MTP)。MLA增強(qiáng)了模型在處理長(zhǎng)文本時(shí)保持上下文的能力,而MTP則可以每個(gè)步驟生成多個(gè)token,而非傳統(tǒng)的逐標(biāo)記生成方式。兩者結(jié)合使得輸出速度提高了近80%。
開發(fā)工具創(chuàng)造者西蒙·威利森(Simon Willison)在博客中指出,4比特量化版本的DeepSeek-V3將存儲(chǔ)占用減少到352GB,這使得在像Mac Studio(配備M3 Ultra芯片)這樣的高端消費(fèi)者硬件上運(yùn)行成為可能。
這代表了人工智能技術(shù)部署方式的潛在重大轉(zhuǎn)變。傳統(tǒng)人工智能基礎(chǔ)設(shè)施通常依賴于多塊英偉達(dá)GPU,消耗數(shù)千瓦的電力,而Mac Studio在推理過程中僅消耗不到200瓦的電力。這一效率差距表明,人工智能行業(yè)可能需要重新審視關(guān)于頂尖模型性能所需基礎(chǔ)設(shè)施的假設(shè)。
中國的開源AI革命挑戰(zhàn)硅谷的“封閉花園”模式
DeepSeek的發(fā)布策略體現(xiàn)了中西方公司在人工智能商業(yè)理念上的根本分歧。像OpenAI和Anthropic這樣的美國領(lǐng)軍公司將他們的模型封閉在付費(fèi)墻后,而中國人工智能公司則越來越多地采納寬松的開源許可。
這種做法正在迅速改變中國的人工智能生態(tài)系統(tǒng)。尖端模型的開源產(chǎn)生了乘數(shù)效應(yīng),使得初創(chuàng)公司、研究人員和開發(fā)人員能夠在沒有巨額資本支出的情況下,基于復(fù)雜的人工智能技術(shù)進(jìn)行構(gòu)建。這加速了中國人工智能能力的提升,令西方觀察者感到震驚。
這一策略背后的商業(yè)邏輯反映了中國市場(chǎng)的現(xiàn)實(shí)。在眾多資金雄厚的競(jìng)爭(zhēng)對(duì)手存在的情況下,當(dāng)競(jìng)爭(zhēng)者免費(fèi)提供類似能力時(shí),保持專有模型變得越來越困難。開源通過生態(tài)系統(tǒng)領(lǐng)導(dǎo)地位、API服務(wù)和基于免費(fèi)可用基礎(chǔ)模型構(gòu)建的企業(yè)解決方案創(chuàng)造了替代的價(jià)值路徑。
即便是中國的科技巨頭也認(rèn)識(shí)到這一轉(zhuǎn)變。百度宣布計(jì)劃在6月前將其文心一言4.5系列模型開源,而阿里巴巴和騰訊也發(fā)布了具有專業(yè)能力的開源人工智能模型。這一舉措與西方公司依賴API的策略形成了鮮明對(duì)比。
開源策略還解決了中國人工智能公司面臨的獨(dú)特挑戰(zhàn)。在獲取尖端英偉達(dá)芯片受限的情況下,中國公司更加強(qiáng)調(diào)效率和優(yōu)化,以在有限的計(jì)算資源下實(shí)現(xiàn)競(jìng)爭(zhēng)性性能。這種由需求驅(qū)動(dòng)的創(chuàng)新現(xiàn)在已成為潛在的競(jìng)爭(zhēng)優(yōu)勢(shì)。
DeepSeek V3-0324:AI推理革新的基礎(chǔ)
DeepSeek-V3-0324的發(fā)布時(shí)機(jī)和特點(diǎn)強(qiáng)烈表明,DeepSeek預(yù)計(jì)將在未來兩個(gè)月內(nèi)發(fā)布的改進(jìn)型推理專用模型DeepSeek-R2。這符合DeepSeek的慣常模式,即基礎(chǔ)模型發(fā)布數(shù)周后推出專用推理模型。
Reddit用戶mxforest指出:“這與他們?cè)谑フQ節(jié)前后發(fā)布V3,幾周后推出R1的模式一致。傳聞R2將在4月發(fā)布,所以這可能就是它?!?/p>
推理模型的開源再怎么強(qiáng)調(diào)都不為過。目前,像OpenAI的o1和DeepSeek的R1這樣的推理模型代表了人工智能能力的最前沿,在數(shù)學(xué)、編程等領(lǐng)域展現(xiàn)了前所未有的問題解決能力。將這項(xiàng)技術(shù)免費(fèi)開放,會(huì)使目前只有擁有雄厚資金支持的公司才能使用的人工智能系統(tǒng)普及化。
潛在的R2模型發(fā)布之際,關(guān)于推理模型計(jì)算需求的重要發(fā)現(xiàn)正在浮現(xiàn)。英偉達(dá)首席執(zhí)行官黃仁勛最近指出,DeepSeek的R1模型“消耗的計(jì)算量是非推理人工智能系統(tǒng)的100倍”,這與之前業(yè)內(nèi)對(duì)效率的假設(shè)相矛盾。這揭示了DeepSeek模型背后取得的非凡成就,它們?cè)谫Y源限制更大的情況下依然能夠提供競(jìng)爭(zhēng)力的表現(xiàn)。
如果DeepSeek-R2繼續(xù)沿著R1設(shè)定的軌跡發(fā)展,它可能會(huì)直接挑戰(zhàn)GPT-5,即OpenAI的下一代旗艦?zāi)P?,后者預(yù)計(jì)將在不久后發(fā)布。OpenAI封閉、資金密集型的方法與DeepSeek開放、資源高效的戰(zhàn)略之間,代表了人工智能領(lǐng)域兩種相互競(jìng)爭(zhēng)的未來愿景。
如何體驗(yàn)DeepSeek V3-0324:開發(fā)者和用戶的完整指南
對(duì)于那些急于體驗(yàn)DeepSeek-V3-0324的人,根據(jù)技術(shù)需求和資源的不同,可以選擇多種途徑。完整的模型權(quán)重已在Hugging Face上發(fā)布,641GB的大小需要充足的存儲(chǔ)空間和計(jì)算資源。
對(duì)于大多數(shù)用戶而言,基于云的選項(xiàng)提供了最易接入的入口。OpenRouter提供免費(fèi)API訪問該模型,并且配有用戶友好的聊天界面。只需選擇DeepSeek V3 0324作為模型即可開始體驗(yàn)。
DeepSeek自己的聊天界面chat.deepseek.com也很可能已經(jīng)更新為新版本,盡管公司尚未明確確認(rèn)。早期用戶反饋稱,新的版本在該平臺(tái)上可用,且性能較此前版本有所提升。
希望將模型集成到應(yīng)用程序中的開發(fā)者,也可以通過各種推理提供商訪問它。Hyperbolic Labs宣布成為“在Hugging Face平臺(tái)上首家提供該模型服務(wù)的推理提供商”提供該模型,而OpenRouter則提供與OpenAI SDK兼容的API訪問。
DeepSeek的新模型更注重技術(shù)精確性而非對(duì)話親和力
早期用戶報(bào)告稱,DeepSeek模型的交流風(fēng)格發(fā)生了明顯變化。盡管之前的模型因其對(duì)話式、擬人化的語氣備受好評(píng),但DeepSeek V3-0324呈現(xiàn)出更加正式、技術(shù)導(dǎo)向的風(fēng)格。
Reddit用戶nother_level問道:“是只有我覺得這個(gè)版本不那么像人類了嗎?對(duì)我來說,DeepSeek V3與其他模型不同的地方在于它更像人類。它的語氣、措辭都不像其他大語言模型那樣機(jī)械感,但現(xiàn)在這個(gè)版本感覺像其他大語言模型一樣機(jī)械得要命。”
另一位用戶AppearanceHeavy6724補(bǔ)充道:“沒錯(cuò),它肯定失去了那種超然的魅力,感覺聰明反被聰明誤?!?/p>
這種明顯的風(fēng)格變化似乎是DeepSeek工程師的有意設(shè)計(jì)。轉(zhuǎn)向更精準(zhǔn)、分析式的交流風(fēng)格,表明該公司正將模型重新定位至專業(yè)和技術(shù)應(yīng)用,而非休閑對(duì)話的戰(zhàn)略。這與人工智能行業(yè)的廣泛趨勢(shì)一致,開發(fā)者越來越認(rèn)識(shí)到,不同的使用場(chǎng)景需要不同的互動(dòng)風(fēng)格。
對(duì)開發(fā)專業(yè)應(yīng)用的開發(fā)者而言,這種更精準(zhǔn)的交流風(fēng)格反而成為優(yōu)勢(shì),能為工作流程提供更清晰一致的輸出;但會(huì)削弱模型在需親和力的消費(fèi)端應(yīng)用中的吸引力。
DeepSeek的開源戰(zhàn)略如何重塑全球AI版圖
DeepSeek的人工智能技術(shù)開發(fā)和分發(fā)方法不僅是一項(xiàng)技術(shù)成就,也體現(xiàn)了關(guān)于先進(jìn)技術(shù)應(yīng)如何在社會(huì)中傳播的根本不同愿景。通過提供開放許可的尖端人工智能模型,DeepSeek推動(dòng)了一個(gè)傳統(tǒng)閉源模型無法比擬的指數(shù)級(jí)創(chuàng)新。這一戰(zhàn)略正在快速縮小中國和美國在人工智能領(lǐng)域的差距。幾個(gè)月前,大多數(shù)分析師都認(rèn)為中國落后美國一到兩年,而如今這一差距已縮小至3至6個(gè)月,部分領(lǐng)域接近持平甚至中國領(lǐng)先。
這種開源部署理念與安卓對(duì)移動(dòng)生態(tài)系統(tǒng)的影響頗為相似。通過免費(fèi)提供安卓系統(tǒng),谷歌創(chuàng)建了一個(gè)平臺(tái),最終實(shí)現(xiàn)了全球市場(chǎng)的主導(dǎo)地位。同樣,開源人工智能模型也有可能憑借廣泛普及和開發(fā)者集體創(chuàng)新,在競(jìng)爭(zhēng)中超越閉源系統(tǒng)。
這一影響超越了市場(chǎng)競(jìng)爭(zhēng),直指技術(shù)獲取的根本問題。西方AI巨頭因?qū)⑾冗M(jìn)能力集中在資源充足的公司與個(gè)人手中而備受批評(píng),而DeepSeek的開放戰(zhàn)略讓能力廣泛分布,可能加速全球AI應(yīng)用。
隨著DeepSeek-V3-0324進(jìn)入全球研究實(shí)驗(yàn)室和開發(fā)者工作站,競(jìng)爭(zhēng)已不再僅僅是關(guān)于構(gòu)建最強(qiáng)大的人工智能,而是關(guān)于讓更多人能夠利用人工智能進(jìn)行創(chuàng)造。在這場(chǎng)競(jìng)賽中,DeepSeek的低調(diào)發(fā)布已充分預(yù)示了人工智能的未來。最自由分享技術(shù)的公司,或?qū)⒆罱K主導(dǎo)AI重塑世界的進(jìn)程。
評(píng)論