|
查看: 118|回复: 1
|
G A N, O(N^2)
[复制链接]
|
|
|
放心吧!结论是 GAN 离不开 辉达GPU,伤不了 台湾人荷包。
(1)跑去fengshui123.org 发过一个帖子。探讨了 AI,不班门弄斧。长话短说, 其实也没什么了不起,
跟 2004年 I,Robot 的 主角 运存2套系统,应该有人会听明白。
(2) Transformer 框架 注意力机制 没有人类要解决。
For an input with n tokens, this requires calculating n² pairwise relationships, creating an \(\mathcal{O}(n^2)\) computational and memory cost.
堆 记忆体 不是办法,只婊 不只本。
物理极限,哪来那么多空间。
(3)相传古印度宰相西萨(Sissa)发明了国际象棋,国王舍罕王非常高兴,决定重赏他。宰相只提出了一个看似微不足道的请求:
在棋盘的第1个格子放 1 粒米第2个格子放 2 粒米第3个格子放 4 粒米每一个格子放的米数都是前一个格子的 2 倍,以此类推,直到放满 64 个格子。惊人的数学结果国王最初爽快地答应了,但他很快发现自己根本付不起这笔赏赐。
因为这是一个等比数列的求和问题,随着格子的增加,数字呈现爆发式增长:
前 10 个格子:只需 1,023 粒米
第 30 个格子:超过 5.3 亿粒米
填满所有 64 个格子:总共需要 2⁶⁴ - 1 = 18,446,744,073,709,551,615 粒米
|
|
|
|
|
|
|
|
|
|
|

楼主 |
发表于 13-6-2026 07:05 PM
来自手机
|
显示全部楼层
O(N² )
1000 token = 10⁶
1000000 token = 10¹²
实际 FLOPs 通常是:O(N² d)
其中 d 是 hidden dimension。
例如:N=10^6, d=8192
则计算量接近:
10^12×8192≈8.2×10^15
约 8 quadrillion operations(千万亿级)。
这也是为什么传统 Transformer 很难直接处理 100 万 token 上下文! |
|
|
|
|
|
|
|
|
| |
本周最热论坛帖子
|