佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

搜索
查看: 81|回复: 1

转:DeepSeek V4 真正的地震,他們在技術報告 §3.1 那 200 字英文裡

[复制链接]
发表于 29-4-2026 09:13 PM 来自手机 | 显示全部楼层 |阅读模式
DeepSeek V4 真正的地震,他們在技術報告 §3.1 那 200 字英文裡
" AI 訓練/推理棧,都可以做到可以 GPU vendor agnostic "
.
DeepSeek V4 出了,雖然成效沒到 SOTA
但是他們 token 價格大降
這件事情的確還是震撼了業界
.
V4 出來這幾天,社群在吵的全是價格、跑分、百萬 token、被 GLM 5.1 壓 70 分丟不丟臉
但是 DeepSeek V4 真正的地震,不在跑分,在 section 3.1 那 200 字
.
原文是這段:

> "We validated the fine-grained EP scheme on **both NVIDIA GPUs and HUAWEI Ascend NPUs platforms**. Compared against strong non-fused baselines, it achieves **1.50 ~ 1.73× speedup** for general inference workloads, and up to **1.96×** for latency-sensitive scenarios such as RL rollouts and high-speed agent serving."
.
簡單講就是,我們用 NVIDIA 跟華為 ,  不論訓練或是inference 都沒差
可以做到 vender 無感
.
第一: Inference 框架做硬體抽象早有成熟路徑(vLLM、SGLang、ONNX)。但 training 對通訊拓樸、kernel fusion、記憶體的依賴,比 inference 高一個數量級。能在訓練端做到硬體抽象,技術門檻完全不同
.
第二,「fine-grained EP scheme」是 MoE 訓練最複雜的那塊
Expert parallelism 牽涉 all-to-all 通訊、token 分發、負載平衡——是整個 training stack 裡最吃硬體底層、最難移植的部分
.
第三,Nvidia 跟華為兩個平台加速比落在同一個區間
1.50~1.96× 在 NVIDIA Hopper 跟華為達文西架構上都成立。不只是能編譯,是「效能曲線吻合」
.
合起來只在傳達一句話:

DeepSeek 的訓練棧,做到了硬體無關。而且驗證對象就是中國國產的昇騰 NPU
而且我可以全流程使用中國製
.
當然, 很多人都說 V4會晚出兩個月也是因為被硬體卡到
.
---

可能有人會說:「中國模型在華為上訓練,GLM-5 不是早做了嗎?」
.
對,GLM-5 是第一個完全不用 NVIDIA 訓出來的 frontier 級模型——28.5T token、約 10 萬顆昇騰 910B、MindSpore,零 NVIDIA。本身就是大事
.
但兩件事證明的東西不同:
GLM-5:能在華為昇騰上訓出 SOTA。」訓練棧基本綁在昇騰 + MindSpore。
V4 :同一套訓練棧,在 NVIDIA 跟昇騰上都跑出對齊效能。
.
對企業策略而言,後者意義更大——它代表訓練端第一次有了真正的可移植性,而不只是「換一個鎖」。

---

光看 DeepSeek 單方面講還不夠。但華為官方 GitHub 有個倉庫叫 `cann-recipes-train`
裡面已經有 V4-Flash 在昇騰 A3 集群做續訓練的參考實現。
.
論文(DeepSeek 設計層)+ 廠商 GitHub(華為實作層)兩邊指向同一結論。如果訓練棧沒真的 vendor-agnostic,這倉庫不會存在;存在但跑不通,華為不會敢公開掛上去
.
---

當然事情沒那麼絕對

- CPT ≠ 完整預訓練 : 目前華為跑通的主要是續訓練, 還有距離
- 生態還有距離 : CANN 算子庫覆蓋率、文件、第三方 framework 整合,跟 CUDA 還有代差。
- V4 模型能力還有差距: 本身就不是 SOTA
.
Deepseek V4 的方向是明確的, GPU vender agnostic
訓練端不押注單一晶片廠一旦建立起來,是不可逆的
用AI 的話說,經濟效應絕對是萬億級的
回复

使用道具 举报


ADVERTISEMENT

发表于 30-4-2026 04:23 PM | 显示全部楼层
目前没有机会测试 Deepseek V4
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT


本周最热论坛帖子本周最热论坛帖子

ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 1-5-2026 08:49 AM , Processed in 0.044560 second(s), 10 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表