佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

查看: 164|回复: 2

資料中心 GPU 其實很容易壞,機器人上的晶片更是另一等級難題

[复制链接]
发表于 11-11-2025 07:25 AM 来自手机 | 显示全部楼层 |阅读模式
【資料中心 GPU 其實很容易壞,機器人上的晶片更是另一等級難題】

特斯拉資深工程師 Yun-Ta Tsai 發文說,為機器人設計推論用晶片,其實非常困難。在資料中心,每顆晶片就像泡在按摩浴缸裡、有保姆照顧一樣(有散熱系統、不會一直震動等)。如果晶片掛了,會立刻被一顆「克隆晶片」熱插拔替換掉。

資料中心的 GPU 故障率其實相當高。以產業的實際情況來看,H100 的年度平均故障率大約是 9%。在最理想的條件下可以降到 2%,但永遠無法低於個位數。更糟的是,GPU 節點的故障恢復時間從幾分鐘到幾小時都有可能,並不是馬上就能修好。

但在機器人身上,晶片是暴露在外、環境惡劣,而且需要快速自我恢復。機器人對容錯率的要求完全是另一個等級。許多機器人公司常常遇到晶片撐不到幾個小時就得重開機的問題。

對晶片公司來說很棒,因為他們可以叫機器人公司多買晶片做「熱插拔」替換。

但對機器人公司來說,這就慘了,因為這明顯不是可行的解決方案,他們只能在供應商之間無止盡地互開問題工單來回踢皮球。
--
資料來源:https://x.com/YunTaTsai1/status/1987200430938456068?s=20
--
現在就立刻加入《馬斯克帝國觀察》免費電子報,每周兩期,帶你完整掌握馬斯克的企業帝國最新情報,完整不漏接。
https://muskempire0628.substack.com/
回复

使用道具 举报


ADVERTISEMENT

发表于 11-11-2025 09:12 AM | 显示全部楼层
可以找低tdp的GPU,以便解决用电问题和容易坏的问题,效率问题可以轻量化软件,别用python拖慢效率的,用python虽然可以很快写出软件,但执行速度慢。
回复

使用道具 举报

 楼主| 发表于 11-11-2025 09:37 AM 来自手机 | 显示全部楼层
本帖最后由 aidj 于 11-11-2025 09:45 AM 编辑
为人民服务 发表于 11-11-2025 09:12 AM
可以找低tdp的GPU,以便解决用电问题和容易坏的问题,效率问题可以轻量化软件,别用python拖慢效率的,用py ...


馬斯克 要打造“野外生存级” 机器人
因为 nVidia GPU 娇身肉贵



所以也有自己 terraFab 皮衣男不高兴
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2023 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 14-11-2025 02:12 PM , Processed in 0.104866 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表