|
查看: 81|回复: 1
|
转:DeepSeek V4 真正的地震,他們在技術報告 §3.1 那 200 字英文裡
[复制链接]
|
|
|
DeepSeek V4 真正的地震,他們在技術報告 §3.1 那 200 字英文裡
" AI 訓練/推理棧,都可以做到可以 GPU vendor agnostic "
.
DeepSeek V4 出了,雖然成效沒到 SOTA
但是他們 token 價格大降
這件事情的確還是震撼了業界
.
V4 出來這幾天,社群在吵的全是價格、跑分、百萬 token、被 GLM 5.1 壓 70 分丟不丟臉
但是 DeepSeek V4 真正的地震,不在跑分,在 section 3.1 那 200 字
.
原文是這段:
> "We validated the fine-grained EP scheme on **both NVIDIA GPUs and HUAWEI Ascend NPUs platforms**. Compared against strong non-fused baselines, it achieves **1.50 ~ 1.73× speedup** for general inference workloads, and up to **1.96×** for latency-sensitive scenarios such as RL rollouts and high-speed agent serving."
.
簡單講就是,我們用 NVIDIA 跟華為 , 不論訓練或是inference 都沒差
可以做到 vender 無感
.
第一: Inference 框架做硬體抽象早有成熟路徑(vLLM、SGLang、ONNX)。但 training 對通訊拓樸、kernel fusion、記憶體的依賴,比 inference 高一個數量級。能在訓練端做到硬體抽象,技術門檻完全不同
.
第二,「fine-grained EP scheme」是 MoE 訓練最複雜的那塊
Expert parallelism 牽涉 all-to-all 通訊、token 分發、負載平衡——是整個 training stack 裡最吃硬體底層、最難移植的部分
.
第三,Nvidia 跟華為兩個平台加速比落在同一個區間
1.50~1.96× 在 NVIDIA Hopper 跟華為達文西架構上都成立。不只是能編譯,是「效能曲線吻合」
.
合起來只在傳達一句話:
DeepSeek 的訓練棧,做到了硬體無關。而且驗證對象就是中國國產的昇騰 NPU
而且我可以全流程使用中國製
.
當然, 很多人都說 V4會晚出兩個月也是因為被硬體卡到
.
---
可能有人會說:「中國模型在華為上訓練,GLM-5 不是早做了嗎?」
.
對,GLM-5 是第一個完全不用 NVIDIA 訓出來的 frontier 級模型——28.5T token、約 10 萬顆昇騰 910B、MindSpore,零 NVIDIA。本身就是大事
.
但兩件事證明的東西不同:
GLM-5:能在華為昇騰上訓出 SOTA。」訓練棧基本綁在昇騰 + MindSpore。
V4 :同一套訓練棧,在 NVIDIA 跟昇騰上都跑出對齊效能。
.
對企業策略而言,後者意義更大——它代表訓練端第一次有了真正的可移植性,而不只是「換一個鎖」。
---
光看 DeepSeek 單方面講還不夠。但華為官方 GitHub 有個倉庫叫 `cann-recipes-train`
裡面已經有 V4-Flash 在昇騰 A3 集群做續訓練的參考實現。
.
論文(DeepSeek 設計層)+ 廠商 GitHub(華為實作層)兩邊指向同一結論。如果訓練棧沒真的 vendor-agnostic,這倉庫不會存在;存在但跑不通,華為不會敢公開掛上去
.
---
當然事情沒那麼絕對
- CPT ≠ 完整預訓練 : 目前華為跑通的主要是續訓練, 還有距離
- 生態還有距離 : CANN 算子庫覆蓋率、文件、第三方 framework 整合,跟 CUDA 還有代差。
- V4 模型能力還有差距: 本身就不是 SOTA
.
Deepseek V4 的方向是明確的, GPU vender agnostic
訓練端不押注單一晶片廠一旦建立起來,是不可逆的
用AI 的話說,經濟效應絕對是萬億級的 |
|
|
|
|
|
|
|
|
|
|
发表于 30-4-2026 04:23 PM
|
显示全部楼层
|
|
|
|
|
|
|
|
| |
本周最热论坛帖子
|