使用道具 举报
高热流密度导致的是局部烧毁,而不是整体爆炸。
这不是化学爆炸,而是一种极端电气事故。
毫秒级紧急断电 → 秒级主动预防
“永远不会坏。”
“失效模式绝对可控,影响范围绝对局限。”
72张GPU各算各的
72张GPU共同完成同一次推理。
推理属于同步阻塞计算。 所有GPU必须完成当前Token计算, 系统才能继续输出下一个Token。
你把坏GPU踢掉了, 但没人接手工作。
故障发生后, 系统自动降级运行, 而不是直接崩溃。
芯片会不会爆炸?
芯片烧掉之后, 推理还能不能继续?
硬件层已经具备检测与隔离能力; 软件层距离真正的“无缝接管”还有相当距离。
GPU17上的工作自动恢复。
其余GPU不会因为拓扑损坏而全部瘫痪。
GPU坏掉 ↓ 系统自动切换 ↓ 推理继续
GPU死亡 ≈ 会话状态死亡
企业存储不是早就做到热切换了吗?
失败一次重试 比 永远保持双份冗余 便宜得多。
新的请求绕开坏卡。
GB200支持GPU故障容错。
GPU烧掉了, 用户聊天完全无感知, 会话继续, KV Cache自动恢复。
支持RAS 支持隔离 支持重配置 支持高可用
支持GPU热插拔
所谓Hot Plug, 通常指维护能力, 不是运行中推理任务的无缝恢复能力。
8张卡坏1张, 剩7张继续跑不就好了?
动态重组属于恢复服务能力, 不属于保持当前任务存活能力。
高可用 = GPU坏了任务照跑
保住剩余系统, 避免故障扩散。
把已经丢失的KV Cache和计算状态凭空救回来。
ilovet 发表于 31-5-2026 09:15 PM
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
佳礼网 面子书
ADVERTISEMENT
版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网
GMT+8, 1-6-2026 06:26 PM , Processed in 0.055280 second(s), 11 queries , Gzip On, Redis On.
Powered by Discuz! X3.4
Copyright © 2001-2021, Tencent Cloud.