|
查看: 164|回复: 2
|
資料中心 GPU 其實很容易壞,機器人上的晶片更是另一等級難題
[复制链接]
|
|
|
【資料中心 GPU 其實很容易壞,機器人上的晶片更是另一等級難題】
特斯拉資深工程師 Yun-Ta Tsai 發文說,為機器人設計推論用晶片,其實非常困難。在資料中心,每顆晶片就像泡在按摩浴缸裡、有保姆照顧一樣(有散熱系統、不會一直震動等)。如果晶片掛了,會立刻被一顆「克隆晶片」熱插拔替換掉。
資料中心的 GPU 故障率其實相當高。以產業的實際情況來看,H100 的年度平均故障率大約是 9%。在最理想的條件下可以降到 2%,但永遠無法低於個位數。更糟的是,GPU 節點的故障恢復時間從幾分鐘到幾小時都有可能,並不是馬上就能修好。
但在機器人身上,晶片是暴露在外、環境惡劣,而且需要快速自我恢復。機器人對容錯率的要求完全是另一個等級。許多機器人公司常常遇到晶片撐不到幾個小時就得重開機的問題。
對晶片公司來說很棒,因為他們可以叫機器人公司多買晶片做「熱插拔」替換。
但對機器人公司來說,這就慘了,因為這明顯不是可行的解決方案,他們只能在供應商之間無止盡地互開問題工單來回踢皮球。
--
資料來源:https://x.com/YunTaTsai1/status/1987200430938456068?s=20
--
現在就立刻加入《馬斯克帝國觀察》免費電子報,每周兩期,帶你完整掌握馬斯克的企業帝國最新情報,完整不漏接。
https://muskempire0628.substack.com/ |
|
|
|
|
|
|
|
|
|
|
发表于 11-11-2025 09:12 AM
|
显示全部楼层
|
可以找低tdp的GPU,以便解决用电问题和容易坏的问题,效率问题可以轻量化软件,别用python拖慢效率的,用python虽然可以很快写出软件,但执行速度慢。 |
|
|
|
|
|
|
|
|
|
|

楼主 |
发表于 11-11-2025 09:37 AM
来自手机
|
显示全部楼层
本帖最后由 aidj 于 11-11-2025 09:45 AM 编辑
为人民服务 发表于 11-11-2025 09:12 AM
可以找低tdp的GPU,以便解决用电问题和容易坏的问题,效率问题可以轻量化软件,别用python拖慢效率的,用py ...
馬斯克 要打造“野外生存级” 机器人
因为 nVidia GPU 娇身肉贵
所以也有自己 terraFab 皮衣男不高兴 |
|
|
|
|
|
|
|
|
| |
本周最热论坛帖子
|