國產(chǎn)之光DeepSeek把AI大佬全炸出來了!671B大模型訓(xùn)練只需此前算力1/10,細(xì)節(jié)全公開
相信很多大家對(duì)國產(chǎn)之光DeepSeek把AI大佬全炸出來了!671B大模型訓(xùn)練只需此前算力1/10,細(xì)節(jié)全公開還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
DeepSeek新版模型正式發(fā)布,技術(shù)大佬們都轉(zhuǎn)瘋了!
延續(xù)便宜大碗特點(diǎn)的基礎(chǔ)之上,DeepSeek V3發(fā)布即完全開源,直接用了53頁論文把訓(xùn)練細(xì)節(jié)和盤托出的那種。
怎么說呢,QLoRA一作的一個(gè)詞評(píng)價(jià)就是:優(yōu)雅。
具體來說,DeepSeek V3是一個(gè)參數(shù)量為671B的MoE模型,激活37B,在14.8T高質(zhì)量token上進(jìn)行了預(yù)訓(xùn)練。
在多項(xiàng)測評(píng)上,DeepSeek V3達(dá)到了開源SOTA,超越Llama3.1405B,能和GPT-4o、Claude3.5Sonnet等TOP模型正面掰掰手腕——
而其價(jià)格比Claude3.5Haiku還便宜,僅為Claude3.5Sonnet的9%。
更重要的是,大家伙兒還第一時(shí)間在論文中發(fā)現(xiàn)了關(guān)鍵細(xì)節(jié):
DeepSeek V3整個(gè)訓(xùn)練過程僅用了不到280萬個(gè)GPU小時(shí),相比之下,Llama3405B的訓(xùn)練時(shí)長是3080萬GPU小時(shí)(p.s. GPU型號(hào)也不同)。
直觀地從錢上來對(duì)比就是,訓(xùn)練671B的DeepSeek V3的成本是557.6萬美元(約合4070萬人民幣),而只是訓(xùn)練一個(gè)7B的Llama2,就要花費(fèi)76萬美元(約合555萬人民幣)。
OpenAI創(chuàng)始成員Karpathy對(duì)此贊道:
Meta科學(xué)家田淵棟也驚嘆DeepSeek V3的訓(xùn)練看上去是“黑科技”:
全網(wǎng)熱烈實(shí)測中
先來看官方說法,新模型這次主要有以下幾個(gè)特點(diǎn):
首先從模型能力來看,其評(píng)測跑分不僅超越了Qwen2.5-72B和Llama-3.1-405B等開源模型,甚至還和一些頂尖閉源模型(如GPT-4o以及Claude-3.5-Sonnet)不分伯仲。
從實(shí)際響應(yīng)來看,其生成速度提升了3倍,每秒生成60個(gè)tokens。
在又快又好的同時(shí),DeepSeek V3的API價(jià)格也被打下來了。
單論價(jià)格,正如一開始提到的,它幾乎是Claude3.5Sonnet的1/53(后者每百萬輸入3美元、輸出15美元)。
而如果要平衡性能和成本,它成了DeepSeek官方繪圖中唯一闖進(jìn)“最佳性價(jià)比”三角區(qū)的模型。
對(duì)了,DeepSeek這次還搞了一個(gè)45天優(yōu)惠價(jià)格體驗(yàn)期,也就是在2025年2月8日之前,所有用戶使用DeepSeek V3API的價(jià)格分別下降了80%(輸入命中)、50%(輸入未命中),75%(輸出)。
最后,官方此次一同開源了原生FP8權(quán)重,并提供了從FP8到BF16的轉(zhuǎn)換腳本。
具體而言,SGLang和LMDeploy這兩個(gè)框架已支持FP8推理,另外兩個(gè)框架TensorRT-LLM和MindIE則支持BF16推理(適合需要更高精度的場景)。
目前普通用戶可以通過官網(wǎng)(chat.deepseek.com)與DeepSeek V3展開對(duì)話,API也已同步更新,接口配置無需改動(dòng)。
知名AI博主AK親測,只需幾行代碼就能將它部署到Gradio。
Okk,話說到這里,我們直接來看一些實(shí)測效果吧。
首位全職提示詞工程師出新題,DeepSeek V3完全答對(duì)這第一關(guān),來自首位全職提示詞工程師Riley Goodside。
新題為“Which version is this?”,考察模型對(duì)自身版本的理解。接受考驗(yàn)的選手除了DeepSeek V3,還有Claude、Gemini、ChatGPT和Grok。
先說結(jié)論,按Riley的說法,這幾位的回答主打“各不相同”,不過DeepSeek V3完全答對(duì)了。
Claude3.5Sonnet也對(duì)其版本了如指掌——不僅說對(duì)了版本號(hào)(許多用戶非官方地稱這個(gè)版本為3.5.1或3.6),還給出了發(fā)布月份。
(不過Claude3.5Haiku出錯(cuò)了,誤識(shí)別為Claude3Haiku。)
不過后面幾位選手就開始各種出錯(cuò)了,尤其是ChatGPT和Grok。
ChatGPT要么給出模糊答案(基于GPT-4架構(gòu)),要么直接自信給出錯(cuò)誤版本,總之處于比較懵圈的狀態(tài)。
而Grok更是獨(dú)特,理論倒是一套一套,但就是不說自己的版本。(除非直接問它是哪個(gè)Grok模型)
除此之外,一些網(wǎng)友還進(jìn)行了更多測試。
更多網(wǎng)友整活比如這位Tom小哥驚訝表示,DeepSeek V3無需開發(fā)者詳細(xì)解釋,就能“詭異”理解整個(gè)項(xiàng)目。
他唯一做的,就是告訴DeepSeek V3最終目標(biāo)是什么。
當(dāng)然,老規(guī)矩還是要測一下數(shù)草莓中的“r”以及“9.9和9.11哪個(gè)大”這種行業(yè)難題。(doge)
很欣慰,這次它都答對(duì)了,而且答案和分析過程都沒問題。
最后,還有人直接將4個(gè)M4Mac mini堆疊在一起來運(yùn)行DeepSeek V3了……
唯一值得遺憾的是,當(dāng)前版本的DeepSeek V3暫不支持多模態(tài)輸入輸出。
模型預(yù)訓(xùn)練:<2個(gè)月,600萬美元
測試完畢,我們繼續(xù)掰開論文細(xì)節(jié)。先來看最受關(guān)注的預(yù)訓(xùn)練部分:
官方介紹,通過在算法、框架和硬件方面的協(xié)同優(yōu)化,DeepSeek V3的訓(xùn)練成本變得非常經(jīng)濟(jì)。
預(yù)訓(xùn)練階段,在每萬億token上訓(xùn)練DeepSeek V3僅需要18萬GPU小時(shí),就是說,在官方2048卡集群上,3.7天就能完成這一訓(xùn)練過程。
研發(fā)團(tuán)隊(duì)用了不到2個(gè)月的時(shí)間就完成了DeepSeek V3的預(yù)訓(xùn)練,耗費(fèi)了266.4萬GPU小時(shí),再加上上下文長度擴(kuò)展的11.9萬GPU小時(shí),和后訓(xùn)練的5000GPU小時(shí),總訓(xùn)練成本為278.8萬GPU小時(shí)。
假設(shè)GPU租賃價(jià)格為每GPU小時(shí)2美元,那成本換算過來就是557.6萬美元。
所以,具體是什么樣的協(xié)同優(yōu)化?
官方標(biāo)注了幾個(gè)重點(diǎn):
首先,架構(gòu)方面,DeepSeek V3采用了創(chuàng)新的負(fù)載均衡策略和訓(xùn)練目標(biāo)。
研發(fā)團(tuán)隊(duì)在DeepSeek-V2架構(gòu)的基礎(chǔ)上,提出了一種無輔助損失的負(fù)載均衡策略,能最大限度減少負(fù)載均衡而導(dǎo)致的性能下降。
具體而言,該策略為MoE中的每個(gè)專家引入了一個(gè)偏置項(xiàng)(bias term),并將其添加到相應(yīng)的親和度分?jǐn)?shù)中,以確定top-K路由。
研發(fā)團(tuán)隊(duì)還證明,多Token預(yù)測目標(biāo)(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推測解碼。
預(yù)訓(xùn)練方面,DeepSeek V3采用FP8訓(xùn)練。研發(fā)團(tuán)隊(duì)設(shè)計(jì)了一個(gè)FP8混合精度訓(xùn)練框架,首次驗(yàn)證了FP8訓(xùn)練在極大規(guī)模模型上的可行性和有效性。
論文中還提到了跨節(jié)點(diǎn)MoE訓(xùn)練中的通信瓶頸問題。解決策略包括,設(shè)計(jì)DualPipe高效流水線并行算法:在單個(gè)前向和后向塊對(duì)內(nèi),重疊計(jì)算和通信。
這種重疊能確保隨著模型的進(jìn)一步擴(kuò)大,只要保持恒定的計(jì)算和通信比率,就仍然可以跨節(jié)點(diǎn)使用細(xì)粒度專家,實(shí)現(xiàn)接近于0的all-to-all通信開銷。
另外,研發(fā)團(tuán)隊(duì)還開發(fā)了高效的跨節(jié)點(diǎn)all-to-all通信內(nèi)核等。
后訓(xùn)練方面,DeepSeek V3引入了一種創(chuàng)新方法,將推理能力從長思維鏈模型(DeepSeek R1)中,蒸餾到標(biāo)準(zhǔn)模型上。這在顯著提高推理性能的同時(shí),保持了DeepSeek V3的輸出風(fēng)格和長度控制。
其他值得關(guān)注的細(xì)節(jié)還包括,DeepSeek V3的MoE由256個(gè)路由專家和1個(gè)共享專家組成。在256個(gè)路由專家中,每個(gè)token會(huì)激活8個(gè)專家,并確保每個(gè)token最多被發(fā)送到4個(gè)節(jié)點(diǎn)。
DeepSeek V3還引入了冗余專家(redundant experts)的部署策略,即復(fù)制高負(fù)載專家并冗余部署。這主要是為了在推理階段,實(shí)現(xiàn)MoE不同專家之間的負(fù)載均衡。
最后,來看部分實(shí)驗(yàn)結(jié)果。
大海撈針實(shí)驗(yàn):
可以看到,在各項(xiàng)基準(zhǔn)測試中,DeepSeek V3在開源模型中達(dá)到SOTA。
賈揚(yáng)清談DeepSeek團(tuán)隊(duì):其成就根植于多年專業(yè)知識(shí)
新版本模型引爆熱議,更多有關(guān)DeepSeek及其背后團(tuán)隊(duì)的信息也被關(guān)注到。
其中,賈揚(yáng)清還透露了與DeepSeek團(tuán)隊(duì)早年的相處細(xì)節(jié)。
當(dāng)時(shí)是2019年,他正打算向團(tuán)隊(duì)推薦一個(gè)AI云解決方案,并試圖說服這群人:
有意思的是,團(tuán)隊(duì)表示這些東西他們早已實(shí)踐了多年,并轉(zhuǎn)而讓他幫忙向一些大學(xué)實(shí)驗(yàn)室捐贈(zèng)算力資源。
當(dāng)然最后也確實(shí)幫上忙了,而賈揚(yáng)清也再次感嘆:
最最后,除了本次官方公布的測試結(jié)果,Imsys匿名競技場也出來提前預(yù)熱了。
體驗(yàn)地址:
chat.deepseek.com
技術(shù)報(bào)告地址:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
抱抱臉開源地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3
參考鏈接:
https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ
以上就是關(guān)于【國產(chǎn)之光DeepSeek把AI大佬全炸出來了!671B大模型訓(xùn)練只需此前算力1/10,細(xì)節(jié)全公開】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價(jià)格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報(bào)價(jià)2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費(fèi)者在選購車輛時(shí)不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬起,趕緊行動(dòng)
- 安徽淮南威然最新價(jià)格2024款,各配置車型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢 2023款落地價(jià),各配置車型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價(jià),購車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評(píng)為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動(dòng)汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級(jí)珠寶系列
- 奇瑞風(fēng)云A8L電動(dòng)轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計(jì)劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者