转：DeepSeek V4 真正的地震，他們在技術報告 §3.1 那 200 字英文裡

aidj · 发表于 29-4-2026 09:13 PM

DeepSeek V4 真正的地震，他們在技術報告 §3.1 那 200 字英文裡
" AI 訓練/推理棧，都可以做到可以 GPU vendor agnostic "
.
DeepSeek V4 出了，雖然成效沒到 SOTA
但是他們 token 價格大降
這件事情的確還是震撼了業界
.
V4 出來這幾天，社群在吵的全是價格、跑分、百萬 token、被 GLM 5.1 壓 70 分丟不丟臉
但是 DeepSeek V4 真正的地震，不在跑分，在 section 3.1 那 200 字
.
原文是這段：

> "We validated the fine-grained EP scheme on **both NVIDIA GPUs and HUAWEI Ascend NPUs platforms**. Compared against strong non-fused baselines, it achieves **1.50 ~ 1.73× speedup** for general inference workloads, and up to **1.96×** for latency-sensitive scenarios such as RL rollouts and high-speed agent serving."
.
簡單講就是，我們用 NVIDIA 跟華為 , 不論訓練或是inference 都沒差
可以做到 vender 無感
.
第一: Inference 框架做硬體抽象早有成熟路徑（vLLM、SGLang、ONNX）。但 training 對通訊拓樸、kernel fusion、記憶體的依賴，比 inference 高一個數量級。能在訓練端做到硬體抽象，技術門檻完全不同
.
第二，「fine-grained EP scheme」是 MoE 訓練最複雜的那塊
Expert parallelism 牽涉 all-to-all 通訊、token 分發、負載平衡——是整個 training stack 裡最吃硬體底層、最難移植的部分
.
第三，Nvidia 跟華為兩個平台加速比落在同一個區間
1.50～1.96× 在 NVIDIA Hopper 跟華為達文西架構上都成立。不只是能編譯，是「效能曲線吻合」
.
合起來只在傳達一句話：

DeepSeek 的訓練棧，做到了硬體無關。而且驗證對象就是中國國產的昇騰 NPU
而且我可以全流程使用中國製
.
當然, 很多人都說 V4會晚出兩個月也是因為被硬體卡到
.
---

可能有人會說：「中國模型在華為上訓練，GLM-5 不是早做了嗎？」
.
對，GLM-5 是第一個完全不用 NVIDIA 訓出來的 frontier 級模型——28.5T token、約 10 萬顆昇騰 910B、MindSpore，零 NVIDIA。本身就是大事
.
但兩件事證明的東西不同：
GLM-5：能在華為昇騰上訓出 SOTA。」訓練棧基本綁在昇騰 + MindSpore。
V4 ：同一套訓練棧，在 NVIDIA 跟昇騰上都跑出對齊效能。
.
對企業策略而言，後者意義更大——它代表訓練端第一次有了真正的可移植性，而不只是「換一個鎖」。

---

光看 DeepSeek 單方面講還不夠。但華為官方 GitHub 有個倉庫叫 `cann-recipes-train`
裡面已經有 V4-Flash 在昇騰 A3 集群做續訓練的參考實現。
.
論文（DeepSeek 設計層）+ 廠商 GitHub（華為實作層）兩邊指向同一結論。如果訓練棧沒真的 vendor-agnostic，這倉庫不會存在；存在但跑不通，華為不會敢公開掛上去
.
---

當然事情沒那麼絕對

- CPT ≠ 完整預訓練 : 目前華為跑通的主要是續訓練, 還有距離
- 生態還有距離 : CANN 算子庫覆蓋率、文件、第三方 framework 整合，跟 CUDA 還有代差。
- V4 模型能力還有差距: 本身就不是 SOTA
.
Deepseek V4 的方向是明確的, GPU vender agnostic
訓練端不押注單一晶片廠一旦建立起來，是不可逆的
用AI 的話說，經濟效應絕對是萬億級的

使用者 · 发表于 30-4-2026 04:23 PM

目前没有机会测试 Deepseek V4

		自动登录	找回密码
密码			注册

转：DeepSeek V4 真正的地震，他們在技術報告 §3.1 那 200 字英文裡

所属分类: 电脑手机