新聞動(dòng)態(tài)

DeepSeek 如何重構(gòu)算力市場？

2025.02.06

理解Token

Token 是自然語言處理（NLP）中的一個(gè)基本概念，是文本的最小可處理單位。在如 Transformer 這種深度學(xué)習(xí)模型中，輸入的文本數(shù)據(jù)需要被轉(zhuǎn)換為 token 序列。模型通過學(xué)習(xí)這些 token 序列的模式和關(guān)系，來理解語言的結(jié)構(gòu)和語義。

例如，在英文中，“Hello, world!” 可以被分解為以下 token：["Hello", ",", "world", "!"]。

在中文中，“你好，世界！”可以被分解為以下 token：["你好", "，", "世界", "！"]。

文本數(shù)據(jù)的Token分解

Token 可以做為訓(xùn)練數(shù)據(jù)量的度量

業(yè)界通常會(huì)用 token 的數(shù)量來衡量訓(xùn)練數(shù)據(jù)的規(guī)模。例如，DeepSeek v3 的預(yù)訓(xùn)練使用了 14.8 萬億 token，這意味著模型在訓(xùn)練過程中學(xué)習(xí)了 14.8 萬億個(gè) token 的序列。

Token 可以做為計(jì)算復(fù)雜度的指標(biāo)

模型的計(jì)算復(fù)雜度通常與 token 的數(shù)量密切相關(guān)，處理更多的 token 需要更多的計(jì)算資源和時(shí)間。

大模型DeepSeek-R1

DeepSeek-R1 采用 Mixture-of-Experts (MoE) 架構(gòu)，總參數(shù)量為 6710 億，每次推理時(shí)激活的參數(shù)為 370 億，模型使用了 14.8 萬億 tokens 進(jìn)行訓(xùn)練，最大生成長度為 32,768 tokens，支持長文本的處理。

DeepSeek-R1的性能表現(xiàn)

在多個(gè)基準(zhǔn)測試中，DeepSeek-R1 的性能與 OpenAI 的 o1 模型相當(dāng)，甚至在某些任務(wù)上表現(xiàn)更優(yōu)。

DeepSeek-R1在不同測試方式中的排名

DeepSeek-R1的運(yùn)行成本

DeepSeek-R1 的運(yùn)行成本顯著低于 OpenAI 的 o1 模型。具體來說，DeepSeek-R1 每百萬輸入token的成本為 0.55 美元，每百萬輸出token的成本為 2.19 美元，而 OpenAI o1 的成本分別為 15 美元和 60 美元。DeepSeek-R1 的成本降低了約 95%。

DeepSeek-R1的訓(xùn)練成本

DeepSeek-R1 的預(yù)訓(xùn)練階段使用了 2048 個(gè) H800 GPU 的集群進(jìn)行訓(xùn)練，采用混合精度 FP8 訓(xùn)練，耗時(shí)約 3.7 天，總計(jì)約 180,000 個(gè) H800 小時(shí)。

DeepSeek-R1 的訓(xùn)練成本約為 557 萬美元，在強(qiáng)化學(xué)習(xí)階段的計(jì)算成本估計(jì)約為 100 萬美元，總計(jì)約為600萬美元。相比較之下，Open AI o1 的訓(xùn)練成本約為5億美元，成本是 DeepSeek-R1 的83倍。

DeepSeek重構(gòu)算力市場

算力需求趨于理性和均衡

DeepSeek 通過算法優(yōu)化、數(shù)據(jù)效率提升、硬件利用率優(yōu)化以及全流程成本控制等多方面的技術(shù)創(chuàng)新，顯著降低了訓(xùn)練和推理所需的算力，實(shí)現(xiàn)了高性能模型的低成本訓(xùn)練和部署。

以運(yùn)行 DeepSeek R1 671B 全量模型所需硬件配置為例，具體如下：

CPU：AMD Ryzen 9 7950X 或更高配置。

內(nèi)存：至少 1TB DDR5 內(nèi)存。

存儲(chǔ)：至少 2TB PCIe 4.0 NVMe SSD。

顯卡：20張 RTX 3090 或 10張 RTX A6000。

雖然全量模型的運(yùn)行的配置要求仍然比較高，但是對(duì)于企業(yè)用而言，不再是可望而不可及。

短期來看，算力需求的下降沖擊了傳統(tǒng)算力供應(yīng)商的業(yè)務(wù)增長邏輯。長期來看，當(dāng)AI應(yīng)用百花齊放，大模型與產(chǎn)業(yè)應(yīng)用深度結(jié)合之后，會(huì)推動(dòng)算力需求持續(xù)上漲。

新興GPU和AI芯片廠商迎來發(fā)展機(jī)遇

DeepSeek 在研發(fā)過程中采用了PTX（Parallel Thread Execution）語言。PTX作為一種底層硬件指令集，能夠直接與GPU驅(qū)動(dòng)函數(shù)進(jìn)行交互，顯著降低了對(duì)CUDA框架的依賴，并在硬件適配方面展現(xiàn)出了更高的靈活性和自主性。

華為昇騰等國產(chǎn)GPU廠商已完成DeepSeek V3/R1的部署，并且開放服務(wù)。DeepSeek 的成功降低了大模型對(duì)高端芯片的依賴，為其他 AI 芯片廠商提供了更多的市場機(jī)會(huì)。

算法與芯片協(xié)同優(yōu)化，推動(dòng)邊緣AI加速應(yīng)用

DeepSeek 模型的開源給了所有AI芯片廠商的創(chuàng)新提供了新思路，通過將芯片的CPU、GPU和TPU、FPGA等核心異構(gòu)集成，針對(duì)AI模型算法進(jìn)行進(jìn)一步優(yōu)化，可大幅提升端側(cè)AI設(shè)備的表現(xiàn)，從而推動(dòng)AI的應(yīng)用場景不斷拓展，從智能制造、智能駕駛、智能安防等領(lǐng)域向醫(yī)療、教育、金融、零售等更多行業(yè)滲透。

下一條：垂直供電：AI加速卡的終極供電方案
返回列表

女同性黄网aaaaa片,亚洲第一红杏精品久久,欧美亚洲色图国产日韩,第九区国产在线视频网站

新聞動(dòng)態(tài)

DeepSeek 如何重構(gòu)算力市場？

理解Token

大模型DeepSeek-R1

DeepSeek重構(gòu)算力市場

集團(tuán)概況

產(chǎn)品中心

技術(shù)能力

新聞動(dòng)態(tài)

投資者關(guān)系

可持續(xù)發(fā)展

人力資源

聯(lián)系我們

供應(yīng)鏈

女同性黄网aaaaa片,亚洲第一红杏精品久久,欧美亚洲色图国产日韩,第九区国产在线视频网站

新聞動(dòng)態(tài)

DeepSeek 如何重構(gòu)算力市場？

理解Token

大模型DeepSeek-R1

DeepSeek重構(gòu)算力市場

集團(tuán)概況

產(chǎn)品中心

技術(shù)能力

新聞動(dòng)態(tài)

投資者關(guān)系

可持續(xù)發(fā)展

人力資源

聯(lián)系我們

供應(yīng)鏈

DeepSeek 如何重構(gòu)算力市場？