首頁
產(chǎn)品系列
行業(yè)應(yīng)用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng)澤
| En
 
  當(dāng)前位置:首頁 > 新聞資訊 > 人工智能應(yīng)用 > DeepSeek帶來的AI變革,在低精度FP8的模式下訓(xùn)練大模型,計(jì)算成本降低約1000倍  
 

DeepSeek帶來的AI變革,在低精度FP8的模式下訓(xùn)練大模型,計(jì)算成本降低約1000倍

來源:華福證券      編輯:創(chuàng)澤      時(shí)間:2025/3/6      主題:其他   [加盟]

一、用戶量:海外加速出圈,迅速登D下載榜單

1、網(wǎng)頁端:重度用戶為主,DeepSeek 在 24 年 12 月 26 日推出V3(對(duì)標(biāo) GPT4o),因其顯著的性能,用戶迅速開始增長,同時(shí)在 1月 20 日發(fā)布 R1(對(duì)標(biāo) GPT-o1)后,進(jìn)一步出圈。

2、APP 端:大眾用戶為主,R1 推出后,追平 GPT-o1,迅速出圈海外。根據(jù)點(diǎn)點(diǎn)數(shù)據(jù),從 DeepSeek 在美國下載排名從 1 月 22 日的 201名,迅速在 1 月 27 日登D名;根據(jù)七麥數(shù)據(jù),截止 1 月 30 日,DeepSeek 在 168 個(gè)位居下載榜名。

二、DeepSeek 偏好激進(jìn)性創(chuàng)新:架構(gòu)(MOE+MLA)+精度(FP8)

1、MOE 架構(gòu)創(chuàng)新:相比過去主流模型的 MOE 專家模型停留在8~16 個(gè),而 DeepSeek 每個(gè) MoE 層包含 1 個(gè)共享專家和 256 個(gè)路由專家,有助于降低模型推理時(shí)激活的參數(shù)量。

2、MLA 架構(gòu)創(chuàng)新:MLA 通過聯(lián)合壓縮鍵值矩陣為低秩向量,將多個(gè)頭的鍵值信息融合,使推理時(shí)僅需緩存少量低秩向量,大幅降低 KV 緩存需求,減少內(nèi)存占用。

3、訓(xùn)練特色:突破大模型訓(xùn)練固定思維(一般模型權(quán)重和梯度使用 FP16,優(yōu)化器參數(shù)使用 FP32),敢于嘗試在低精度 FP8 的模式下訓(xùn)練大模型,并且該嘗試同樣出現(xiàn)了較好的效果。

三、DeepSeek 開源對(duì) AI 應(yīng)用和 AI 終端的影響:產(chǎn)品力競(jìng)爭時(shí)代

DeepSeek 從 V3 到 R1,將進(jìn)一步推動(dòng)全行業(yè)大模型的提升,更快的追趕 GPT4o 和 GPT-o1;同時(shí)成本的下降,有助于 AI 應(yīng)用和 AI 終端的普及。未來行業(yè)競(jìng)爭將進(jìn)入“產(chǎn)品能力競(jìng)爭”,巨頭的流量優(yōu)勢(shì)將進(jìn)一步凸顯。

四、DeepSeek 對(duì)推理成本的影響:用戶規(guī)模和使用頻次

未來推動(dòng)推理成本增加的核心因素:用戶規(guī)模和用戶使用頻次的增加。根據(jù) Grok 創(chuàng)始人,過去 60 年,每10年計(jì)算成本降低約1000倍,但人們的購買量增加了 10 萬倍,總支出反而增長了 100 倍。




附件:DeepSeek帶來的AI變革,在低精度FP8的模式下訓(xùn)練大模型,計(jì)算成本降低約1000倍






DeepSeek 引發(fā)廣泛關(guān)注,大模型應(yīng)用落地將加速,加快大模型在 B 端和 C 端應(yīng)用場(chǎng)景的落地

DeepSeek大模型的開源,低成本和高性能將大幅降低大模型的獲得,部署和應(yīng)用成本,將加快大模型在 B 端和 C 端應(yīng)用場(chǎng)景的落地;已應(yīng)用于端側(cè)、教育、金融、辦公、傳媒、醫(yī)療、智能汽車、企業(yè)服務(wù)等多個(gè)應(yīng)用場(chǎng)景,應(yīng)用領(lǐng)域廣闊

從DeepSeek看國內(nèi)AI產(chǎn)業(yè)趨勢(shì),部署大模型的成本下降,應(yīng)用有望大規(guī)模落地

DeepSeek 降低了單個(gè)模型的部署成本,AI 應(yīng)用有望大規(guī)模落地, 推理算力需求將顯著增長,相關(guān)廠商有望加速進(jìn)入業(yè)績兌現(xiàn)期,在 AI 應(yīng)用前沿落地 場(chǎng)景中,全球 AI 應(yīng)用產(chǎn)業(yè)有望迎來共振期

DeepSeek推進(jìn)技術(shù)平權(quán),賦能AI圖像應(yīng)用深耕細(xì)作,輸入費(fèi)用 0.55/百萬 token

PI 調(diào)用層面,DS/OpenAI 的輸入費(fèi)用分別為 0.55/15 美元/百萬 token,DS 推理使用成本僅為 OpenAI 的 4%,顯著的降低資金門檻,推動(dòng)了 AI 技術(shù)平權(quán)

DeepSeek行業(yè)級(jí)應(yīng)用白皮書,精準(zhǔn)數(shù)據(jù)洞察與自動(dòng)化效能提升方法論

精準(zhǔn)數(shù)據(jù)洞察與自動(dòng)化效能提升方法論;DeepSeek將在企業(yè)服務(wù)、科研創(chuàng)新等垂直領(lǐng)域深度滲透;DeepSeek將通過開源戰(zhàn)略擴(kuò)大開發(fā)者社區(qū)規(guī)模,并推出模型微調(diào)平臺(tái)和低代碼部署工具

周鴻祎清華授課:DeepSeek帶來的創(chuàng)業(yè)機(jī)會(huì)

周鴻祎以DeepSeek帶來的變革為切入點(diǎn),深入剖析AI行業(yè)發(fā)展趨勢(shì),并分享了AI技術(shù)于創(chuàng)業(yè)的應(yīng)用前景,未來應(yīng)用將從六大方向?qū)崿F(xiàn)爆發(fā),企業(yè)內(nèi)部未來一定是多個(gè)大模型組合工作

AIGC發(fā)展研究3.0版,聚焦于DeepSeek以外的世界

AI生成的回答重復(fù)相似,缺乏新意,即使改變提問,無法提供不同的結(jié)論;使用更多樣的訓(xùn)練數(shù)據(jù)和算法,提高AI的多樣性;優(yōu)化訓(xùn)練參數(shù), 避免模型陷入局部最優(yōu)

DeepSeek與AI幻覺,普通用戶難以辨別AI內(nèi)容的真實(shí)性,對(duì)醫(yī)療建議、法律咨詢等專業(yè)場(chǎng)景的可靠性產(chǎn)生懷疑

模型難以處理訓(xùn)練集外的復(fù)雜場(chǎng)景,模型過度依賴參數(shù)化記憶,普通用戶難以辨別AI內(nèi)容的真實(shí)性,可能對(duì)醫(yī)療建議、法律咨詢等專業(yè)場(chǎng)景的可 靠性產(chǎn)生長期懷疑

DeepSeek+DeepResearch:讓科研像聊天一樣簡單,垂直領(lǐng)域深耕,流程自動(dòng)化與認(rèn)知協(xié)作

DeepSeek技術(shù)突破與應(yīng)用場(chǎng)景,冷啟動(dòng)數(shù)據(jù)與多階段優(yōu)化,本地部署與端云協(xié)同,垂直領(lǐng)域深耕(醫(yī)療、金融、教育);智能協(xié)作與自動(dòng)化轉(zhuǎn)型,消費(fèi)決策與商業(yè)研究賦能

DeepSeek賦能職場(chǎng)(清華大學(xué)2),從提示語技巧到多場(chǎng)景應(yīng)用

你想要生成什么樣的文案? 這樣的文案具備哪些特征? 你要針對(duì)什么生成類似文案? 篇幅、用詞、結(jié)構(gòu)優(yōu)化;批量生成新媒體文案

DeepSeek從入門到精通(清華大學(xué)1),采用SPECTRA模型進(jìn)行任務(wù)分解

提示語(Prompt)是用戶輸入給AI系統(tǒng)的指令或信息,包括指令、上下文和期望,為了更有效地進(jìn)行任務(wù)分解,可以采用SPECTRA模型,能夠掃描讀取各類文件及圖片中的文字內(nèi)容

DeepSeek提示詞工程和落地場(chǎng)景,使用DeepSeek的三種方法,提示詞讓對(duì)話質(zhì)量提升立竿見影

講座為DeepSeek原理和應(yīng)用系列研討的講座之一,聚焦提示詞工程與產(chǎn)業(yè)實(shí)踐兩大核心模塊,延續(xù)前序?qū)IGC底層邏輯的探討,系統(tǒng)拆解如何通過自然語言交互充分釋放DeepSeek潛能

DeepSeek與AIGC應(yīng)用,探討大模型和AIGC的底層工作機(jī)制,突破工具應(yīng)用的局限

進(jìn)一步探討大模型和AIGC的底層工作機(jī)制,旨在幫助讀者突破工具應(yīng)用的局限,理解DeepSeek和AIGC的深層次價(jià)值。最后,介紹如何科學(xué)選擇與高效使用 AI 工具,為大家提供更具深度與實(shí)用性的應(yīng)用場(chǎng)景的指導(dǎo),給聽眾帶來更落地的AI應(yīng)用價(jià)值
 
資料獲取
新聞資訊
== 資訊 ==
» 2025大小模型端云協(xié)同賦能人機(jī)交互報(bào)告
» DeepSeek完全實(shí)用手冊(cè)V1.5-在
» 人形機(jī)器人“大腦”,神機(jī)妙算,加速進(jìn)化,
» 智元機(jī)器人:號(hào)角催征,攻勢(shì)漸濃,累計(jì)下線
» 東莞市加快智能機(jī)器人產(chǎn)業(yè)創(chuàng)新發(fā)展行動(dòng)計(jì)劃
» 質(zhì)量管理類機(jī)器人應(yīng)用:機(jī)器視覺檢測(cè)大量取
» 物流配送類機(jī)器人應(yīng)用:識(shí)別+導(dǎo)航
» 生產(chǎn)操作類機(jī)器人應(yīng)用:機(jī)械臂+操作
» 2025“機(jī)器人+人工智能”工業(yè)應(yīng)用研究
» 秒懂DeepSeek潛能,快速提升個(gè)人競(jìng)
» 2025工業(yè)機(jī)器人市場(chǎng)前景:每年新增約5
» 大模型的算法黑箱特性, 會(huì)給機(jī)器人的行為
» 2025并聯(lián)機(jī)器人核心廠商名單
» 2025移動(dòng)機(jī)器人核心廠商名單
» 2025具身智能機(jī)器人結(jié)構(gòu)件創(chuàng)新技術(shù)領(lǐng)先
 
== 機(jī)器人推薦 ==
 
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人底盤

機(jī)器人底盤

 

商用機(jī)器人  Disinfection Robot   展廳機(jī)器人  智能垃圾站  輪式機(jī)器人底盤  迎賓機(jī)器人  移動(dòng)機(jī)器人底盤  講解機(jī)器人  紫外線消毒機(jī)器人  大屏機(jī)器人  霧化消毒機(jī)器人  服務(wù)機(jī)器人底盤  智能送餐機(jī)器人  霧化消毒機(jī)  機(jī)器人OEM代工廠  消毒機(jī)器人排名  智能配送機(jī)器人  圖書館機(jī)器人  導(dǎo)引機(jī)器人  移動(dòng)消毒機(jī)器人  導(dǎo)診機(jī)器人  迎賓接待機(jī)器人  前臺(tái)機(jī)器人  導(dǎo)覽機(jī)器人  酒店送物機(jī)器人  云跡科技潤機(jī)器人  云跡酒店機(jī)器人  智能導(dǎo)診機(jī)器人 
版權(quán)所有 © 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司     中國運(yùn)營中心:北京·清華科技園九號(hào)樓5層     中國生產(chǎn)中心:山東日照太原路71號(hào)
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728