DeepSeek持續(xù)開源推動(dòng)產(chǎn)業(yè)變革
近日,DeepSeek在知乎上發(fā)表《DeepSeek-V3/R1推理系統(tǒng)概覽》文章,表明其理論上一天的成本利潤(rùn)率可達(dá)545%。
業(yè)內(nèi)人士表示,DeepSeek將新技術(shù)完全開源,源代碼在GitHub上公開,任何開發(fā)者都可自由使用和改進(jìn),打破了前沿技術(shù)被大型科技公司壟斷的局面,為整個(gè)行業(yè)注入新活力,也為行業(yè)建立了更健康的技術(shù)共享機(jī)制,促進(jìn)知識(shí)自由流動(dòng)和技術(shù)迭代,因此產(chǎn)業(yè)變革有望加速,代碼公布助力應(yīng)用端加速落地。
事件驅(qū)動(dòng) DeepSeek公布模型推理成本利潤(rùn)細(xì)節(jié)
DeepSeek于2025年3月1日通過知乎平臺(tái)首次披露其模型推理服務(wù)的成本結(jié)構(gòu),引發(fā)行業(yè)震動(dòng)。根據(jù)公開數(shù)據(jù),在采用H800GPU集群、動(dòng)態(tài)資源調(diào)度(白天全節(jié)點(diǎn)推理、夜間釋放節(jié)點(diǎn)用于訓(xùn)練)的機(jī)制下,其日均算力成本為87072美元。若按R1模型的定價(jià)標(biāo)準(zhǔn)計(jì)算,理論日收入可達(dá)562027美元,對(duì)應(yīng)545%的成本利潤(rùn)率,相當(dāng)于每日凈賺約346萬元人民幣。這一數(shù)據(jù)刷新了行業(yè)對(duì)AI服務(wù)盈利能力的認(rèn)知,MenloVentures投資人Deedy推算其理論年收入可達(dá)2億美元,估值應(yīng)超百億美元。
在知乎的官方文章中,DeepSeek-V3/R1推理系統(tǒng)的優(yōu)化目標(biāo)是:更大的吞吐,更低的延遲。由于DeepSeek-V3/R1的專家數(shù)量眾多,并且每層256個(gè)專家中僅激活其中8個(gè)。模型的高度稀疏性決定了我們必須采用很大的overalbatchsize,才能給每個(gè)專家提供足夠的expertbatchsize,從而實(shí)現(xiàn)更大的吞吐、更低的延時(shí)。為了實(shí)現(xiàn)這兩個(gè)目標(biāo),DeepSeek通過使用大規(guī)模跨節(jié)點(diǎn)專家并行,即Prefil:路由專家EP32、MLA和共享專家DP32,一個(gè)部署單元是4節(jié)點(diǎn),32個(gè)冗余路由專家,每張卡9個(gè)路由專家和1個(gè)共享專家。
作為對(duì)比,Nvdia官方有兩個(gè)可以參考的數(shù)據(jù)。1月30日,在官方blog中透露,在H200節(jié)點(diǎn)上可以實(shí)現(xiàn)3872t/s的峰值輸出吞吐;2月25日在x上公布FP4精度優(yōu)化性能,H200節(jié)點(diǎn)峰值輸出吞吐優(yōu)化到5899t/s,B200節(jié)點(diǎn)峰值輸出吞吐則高達(dá)21088t/s。DeepSeek用閹割版的H800實(shí)現(xiàn)了14.8kt/s的輸出吞吐(相較H200大約下降20%—25%的性能),是NvdiaH200FP8性能的整整3.8倍。
行業(yè)現(xiàn)狀 人工智能產(chǎn)業(yè)變革有望加速
DeepSeek在2月24日至28日進(jìn)行了為期5天的開源周“技術(shù)轟炸”,開源了5大代碼庫,覆蓋訓(xùn)練、推理、通信、負(fù)載均衡以及數(shù)據(jù)加速的全鏈路,驚喜連連。
開源周第一天發(fā)布FlashMLA,一款專為Hopper架構(gòu)打造的高效MLA解碼器,可高效處理變長(zhǎng)序列,優(yōu)化內(nèi)存管理,榨取GPU極致性能。開源周第二天發(fā)布DeepEP,聚焦通信資源利用,提升數(shù)據(jù)高效傳輸,是首個(gè)為MoE量身定制的靈活GPU資源控制通信庫。開源周的第三天,DeepSeek推出了支持稠密和MoE模型的FP8計(jì)算庫——DeepGEMM,核心邏輯僅約300行代碼直面AI計(jì)算中最頻繁的矩陣乘法,可為V3/R1的訓(xùn)練和推理提供強(qiáng)大支持。開源周第四天,DeepSeek推出了一系列優(yōu)化并行策略,包括DualPipe——一種用于V3/R1模型訓(xùn)練中實(shí)現(xiàn)計(jì)算與通信重疊的雙向流水線并行算法;以及E-PLB——一個(gè)針對(duì)V3/R1模型的專家并行負(fù)載均衡工具,并深入分析了V3/R1模型中的計(jì)算與通信重疊機(jī)制。開源周的最后一天,DeepSeek發(fā)布了3FS并行文件系統(tǒng),旨在應(yīng)對(duì)人工智能訓(xùn)練和推理工作負(fù)載帶來的挑戰(zhàn)。該系統(tǒng)利用現(xiàn)代固態(tài)硬盤(SSDs)和RDMA網(wǎng)絡(luò),提供一個(gè)共享存儲(chǔ)層,從而簡(jiǎn)化分布式應(yīng)用程序的開發(fā),并加速DeepSeek平臺(tái)上所有數(shù)據(jù)訪問操作。
DeepSeek開源周上接連不斷的技術(shù)發(fā)布,彰顯了團(tuán)隊(duì)的極客精神和開源理念。將新技術(shù)完全開源,源代碼在GitHub上公開,任何開發(fā)者都可自由使用和改進(jìn),打破了前沿技術(shù)被大型科技公司壟斷的局面,為整個(gè)行業(yè)注入新活力,也為行業(yè)建立了更健康的技術(shù)共享機(jī)制,促進(jìn)知識(shí)自由流動(dòng)和技術(shù)迭代,因此產(chǎn)業(yè)變革有望加速。
投資機(jī)會(huì) DeepSeek代碼公布助力應(yīng)用端落地
今年以來,自從包括豆包、DeepSeek在內(nèi)的國產(chǎn)大模型突破以來,全球AI產(chǎn)業(yè)的共振正在加速,產(chǎn)業(yè)趨勢(shì)不斷發(fā)酵。
中泰證券認(rèn)為,DeepSeek的驚艷收益有望促進(jìn)應(yīng)用爆發(fā),建議關(guān)注金山辦公、同花順、合合信息、螢石網(wǎng)絡(luò)等;應(yīng)用爆發(fā)帶來的龐大推理需求,以及未來圖像+聲音+視頻的全面智能體會(huì)支撐起更多業(yè)務(wù)場(chǎng)景,大型云廠具備規(guī)模、infra優(yōu)勢(shì),能夠以更低的成本支持高并發(fā)的業(yè)務(wù)需求。海外高性能芯片供應(yīng)受限,國產(chǎn)算力結(jié)合算法架構(gòu)創(chuàng)新有望彎道超車。建議關(guān)注海光信息、中科曙光、神州數(shù)碼等;通過將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成在高性能、分布式的命名空間,實(shí)現(xiàn)實(shí)時(shí)分析能力,傳統(tǒng)數(shù)據(jù)庫有望升級(jí)為新型數(shù)據(jù)基礎(chǔ)設(shè)施,建議關(guān)注達(dá)夢(mèng)數(shù)據(jù)、星環(huán)科技、海量數(shù)據(jù)等。
華創(chuàng)證券表示,DeepSeek代碼公布助力應(yīng)用端加速落地,建議關(guān)注以下標(biāo)的:辦公關(guān)注金山辦公、合合信息、福昕軟件;金融關(guān)注京北方、宇信科技、天陽科技、神州信息、同花順、恒生電子、新致軟件;大模型關(guān)注科大訊飛、三六零;工業(yè)關(guān)注中控技術(shù)、索辰科技、鼎捷數(shù)智;端側(cè)、穿戴、玩具關(guān)注螢石網(wǎng)絡(luò)、云天勵(lì)飛、中科創(chuàng)達(dá)、漢王科技;醫(yī)療關(guān)注潤(rùn)達(dá)醫(yī)療、衛(wèi)寧健康;法律關(guān)注金橋信息、華宇軟件、通達(dá)海;郵箱關(guān)注彩訊股份;教育關(guān)注佳發(fā)教育、鷗瑪軟件、新開普;電商關(guān)注焦點(diǎn)科技;安全關(guān)注深信服、永信至誠;部署關(guān)注卓易信息、優(yōu)刻得、星環(huán)科技、網(wǎng)宿科技、漢得信息;算力關(guān)注海光信息、寒武紀(jì)、景嘉微等。 宗禾
- 免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
- 版權(quán)聲明:凡文章來源為“大眾證券報(bào)”的稿件,均為大眾證券報(bào)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來源為“大眾證券報(bào)”。
- 廣告/合作熱線:025-86256149
- 舉報(bào)/服務(wù)熱線:025-86256144
