99.99% 自吹自擂的AI 文

阅读模式 · 发表于 8-6-2026 09:48 PM

Anthropic萬字爆火長文的三個判斷，以及一個值得警惕的陽

快刀青衣

這幾天，全球科技媒體都在轉一篇非常長的文章，國內講AI的公眾號也全在聊，非常爆。也就是全球最頂尖的AI公司Anthropic發佈的，標題叫《When AI builds itself》。

我真的把這篇文章看了三遍，每次看的感受都不太一樣。這篇文章信息量極大，裡面全是他們內部的真實數據，很多是第一次公開。但我越讀越覺得，這篇文章不只是“分享數據”這麼簡單。

所以今天我想做兩件事。第一，把這篇文章裡普通人最該關注的幾個判斷，用大白話講出來，重點不是“AI多厲害”，而是“然後呢，我該怎麼辦”。第二，講完這幾個判斷之後，我想聊聊這篇文章沒告訴你的背後的那些東西。

先說第一個判斷。

Anthropic現在合入生產代碼庫裡的代碼，超過80%是Claude寫的。兩年前，大家想要證明自己的產研團隊是不是足夠AI化，都會用AI寫的代碼占總量的百分比來衡量，最初10%或者20%就已經算AI創新企業了。

這個數字在2025年2月之前，Anthropic內部也還只是個位數，畢竟他們團隊成員基本都是全球頂級的程式大牛，讓他們接受當時AI寫的亂七八糟的代碼，會更難。

但是只需要一年多時間，現在已經從“偶爾AI幫忙寫幾段代碼，再粘貼到人類的代碼裡”，變成了“AI主力輸出”。所以他們工程師今年日均合入代碼量，是2024年的8倍。

但8倍這個數字，是按代碼行數算的，肯定高估了真實生產力提升。這就好像兩個廚師，甲廚師一個小時可以做五道菜，乙廚師一個小時只能做一道菜，你就直接把乙廚師開除了，絲毫不考慮甲廚師做的菜非常難吃，乙廚師做的是招牌菜。

不過8倍這個數量差，就不能說是小優化了，這些代碼都經過了人類工程師的審核，基本邏輯沒問題。

所以Anthropic的程式師，工作方式已經變了。以前是我理解需求，我打開編輯器，我寫代碼，我測試，我提交。現在越來越像這樣：我把目標告訴AI，AI寫代碼、跑測試、修bug，我判斷它有沒有走偏，我做審查和合併。不僅僅是Anthropic的工程師，我相信大部分的程式師都已經是這種工作狀態了。

注意這個變化，程式師正在從“手藝人”變成“技術監工”。以前一個導演要親自扛攝像機、打燈、剪片，現在他面前有十幾個AI攝製組。他的價值不再是手速，而是知道要拍什麼、哪裡不對、什麼時候喊停。

所以第一個判斷是，執行力的價格正在趨近於零。這跟攝影一個道理，當每個人都有了能自動對焦、自動修圖的手機之後，決定一張照片好壞的，不再是你按快門的技術，而是你選擇拍什麼、在什麼角度拍的“眼光”。人類最值錢的東西，正在從“能做出來”變成“能判斷做什麼”。

第二個判斷跟第一個是連著的。

當AI能寫大量代碼、提大量方案、跑大量實驗之後，新的瓶頸不是“做不出來”，而是“審不過來”。

Anthropic自己就已經遇到了，人類工程師的代碼審核成了瓶頸，他們後來不得不用AI做自動審查，發現如果過去每次改動都經過這樣的AI審查，大約三分之一導致線上事故的bug可以提前被發現。

但這裡有個微妙的地方。大家可以想一想，Claude審Claude寫的代碼，這個閉環你信多少？就像同一個老師教出來的學生互批考卷，可能對同一類錯誤集體失明。

回到判斷本身。以後一個團隊的問題，可能不是“沒有方案”，而是“方案太多，沒人判斷哪個是真的”。一百個AI自動生成的方向裡，哪個值得做？哪個看起來對但其實跑偏了？哪個結果漂亮但不可複現？

Anthropic的員工有一段話說得很真實，“在一切順利的日子裡，我忍不住想，我做的任何事都不重要了，一切都被自動化了，它比我永遠能達到的水準更好、更快。但當一切崩潰，我又不明白為什麼時，我才意識到，我已經完全不知道自己到底在面對什麼了。”

所以第二個判斷是，未來組織最稀缺的能力，不是“會不會用AI”，而是你能不能驗收AI的結果，能不能發現它哪裡看起來對、實際上錯，能不能在一堆自動生成的方案裡挑出真正值得做的三個。

我自己也有這個感覺。每次用AI完成一個任務，最危險的時刻不是它做錯了，而是它做對了，但我不確定它為什麼做對了。我現在每次用Codex這些工具時，都會在看完結果後，去看一下AI的思考和處理過程。介面上這個過程一般被縮成了一小句話，比如“已處理9分30秒”，但我會去展開看看中間到底發生了什麼。這個習慣現在看起來不緊急，但等到AI產出量真的上來，它就是你的生死線。

第三個判斷，是這篇文章裡最深的一層。

AI能獨立完成任務的時間長度，翻倍速度從之前的約7個月加速到了約4個月。2024年3月，4分鐘。2025年3月，1.5小時。2026年3月，12小時。照這個速度，今年可能到幾天，明年可能到幾周。

但注意，METR的核心指標是50%成功率。我之前和你介紹過METR，這是一個獨立的第三方大模型衡量機構。而50%成功率這個指標，在研究裡是很有價值的信號，但在真實工作裡不夠用。你不會把公司數據庫遷移交給一個“有一半概率成功”的員工，所以更清醒的表述是：AI的長任務能力正在變強，但它離“無人看管、穩定交付關鍵任務”還有距離。

不過方向是清楚的。如果AI真的開始幫AI公司造下一代AI，進步速度就不再只受人類研究員數量限制，而更受算力、能源、芯片限制。

人類正在逐漸被擠出這個研發循環，進步速度越來越取決於機器了。這才是真正值得擔心的：不是某個崗位被替代，而是技術迭代的速度可能快到社會制度跟不上。

文章裡有一句話說得很準，“更多的智能無法在一夜之間學會一種藥物在幾十年使用中的副作用，也無法在一個週末就把陌生人變成老朋友。”實驗室裡的智能加速到“機器速度”，但藥物審批、法律修訂、教育改革、人的心理適應，仍然是“人類速度”。這兩個速度之間的裂縫，才是普通人真正會遇到的問題。

我舉個自己產品研發的例子。我們正在做的有個記憶功能，聽起來很簡單，就是把你過去10年的使用痕跡、記的筆記、劃的線，用AI的方式做到隨時調取。功能寫出來、代碼寫出來、上線，這個難度並不大。

但真正做的時候你會發現，使用者在什麼任務下需要調什麼樣的課程、什麼樣的書、什麼樣的筆記，以及需不需要調，這些都是需要一步一步打磨出來的場景。你需要瞭解你的使用者群，深入到用戶中去，你才知道需求會是什麼樣子的。

用AI做出來的功能，僅僅是萬里長征的第一步。我們最近在各個用戶群裡收集到非常多的用戶回饋，這就是深入到用戶使用場景裡的慢變數：需要這麼多使用者真實的使用，並不是AI把功能代碼寫出來就可以了。

這個打磨的速度，AI再快也替代不了，因為這不是代碼問題，是人的問題。使用者習慣不是靠功能迭代就能加速的，而是靠一次次靠譜的交付慢慢攢出來的。

所以與其焦慮“AI會不會取代我”，不如想清楚：你的工作裡哪些環節是靠慢變數撐著的，那些才是你真正的安全墊。

這篇文章最有價值的地方，是讓我們看到AI正在加速AI研發；最危險的地方，是容易讓人把“AI幫人造AI”誤讀成“AI已經能自己造自己”。

文章標題叫《When AI builds itself》，很有衝擊力。但嚴格說，現在發生的還不是完整的遞迴自我改進，更準確的說法是：人類設目標，AI幫忙寫代碼、跑實驗、調試、整理結果。

真正的AI自我建造，是AI自己發現短板、提出方案、訓練部署，然後根據結果調整目標。而且這個循環越轉越快。

Anthropic自己也承認“還沒到那裡”。現在的階段，不是一條響尾蛇已經咬住自己的尾巴開始無限循環，更像是人類實驗室裡多了一批非常強的自動化助手。標題指向“自我進化”，數據展示的是“研發加速”，中間有一段需要警惕的跳躍。

所以要認清楚一個事實，80%的代碼由AI寫完，這當然很驚人，但這可不等於80%的研發由AI完成。

代碼行數不是價值，選什麼問題、信什麼結果、什麼時候停下來，這些判斷仍然在人手裡。比如幾個技術的閒聊討論，這肯定不算代碼寫作，但這是研發過程中必不可少的一部分。

這裡再和你講一個小故事。我們都知道這波AI的爆發，起源就是谷歌的那篇非常經典的Transformer架構的論文。

當時在2017年的一天，谷歌著名技術大神沙澤爾（Shazeer）走在谷歌1965號樓的走廊上，正好聽到了阿希什·瓦斯瓦尼（Ashish Vaswani）和尼基·帕爾馬爾（Niki Parmar）正在激烈地討論自注意力的想法，他停下來聽了一會兒，覺得“這項目聽起來是個好主意，這幫人有意思”。

他就主動加入了這個項目，並且從頭到尾重寫了一版代碼。其他人當時都說他是魔法師，因為這個項目已經被卡很久了，成績一直上不去，但是沙澤爾重寫了代碼之後，模型被拉高到了一個新水準。

在這個小故事裡，大家想想，無論是人的爭論和偶遇，還是沙澤爾把代碼重寫一遍的事情，這都是人類的價值所在，而不僅僅是把代碼寫出來就完了。

當然，沙澤爾後來出去自己創業，谷歌在2024年又花了27億美元把他的公司收購了，核心目的並不是要他這個創業公司，而是把他請回去共同領導現在我們都在使用的Gemini。

故事講完了。要知道，文章裡的這些數據是Claude的“主場數據”。Anthropic是Claude的製造商，它自己的工程師懂模型，工具鏈圍繞Claude優化，內部任務天然適合Claude學習和適配。這就像考試自己出題自己答，然後說自己考了98分，不是說98分是假的，但你得知道文章中的這個98分是在什麼條件下拿的。

好，判斷講完了。但讀到這裡，你可能已經感覺到了，這篇文章有些地方不太對勁。

這篇文章最後有一段話，也是過去一周傳播最廣的一段話。大意是，如果風險繼續上升，世界應該有能力讓前沿AI開發慢下來或者暫停。Anthropic說，如果有可驗證的暫停機制，他們也願意慢下來。

聽起來很負責任對吧？但這句話的位置很微妙。它把“不慢下來”的責任推給了“別人不慢”，自己保持了道德高地。翻譯一下就是，不是我停不下來，是別人不停，我也不敢停。

現在來看一下這篇文章背後的時間線：2026年5月，Anthropic完成650億美元H輪融資，估值9650億美元。2026年6月1日，Anthropic秘密提交IPO申請。而這篇文章的發佈時間，就在提交IPO的同一周。

我不是說這篇文章是公關稿。它裡面有真實信號，Claude確實正在重塑Anthropic自己的研發流程。但一篇“帶戰略目的的真文章”，比一篇純假文章更值得警惕，因為它讓你在吸收真實信息的同時，不知不覺也接受了它的敘事框架。

這個敘事框架的核心操作是，把“AI輔助研發”講得很像“AI自我進化”。標題指向自我進化，數據展示的是研發加速，結尾呼籲暫停。

整篇文章讀完，你會有一種感覺，AI已經快失控了，需要有人來管。而誰最懂怎麼管？當然是正在造AI的前沿公司。

1946年，同樣的劇本上演過一次。

那年6月14日，75歲的華爾街傳奇人物伯納德·巴魯克（Bernard Baruch），代表美國走進聯合國。他開場就說了一句話，“我們面臨的是生與死的抉擇。”

你看，把“是否接受國際控制原子能”直接等同於選擇生死，不給任何中間立場留空間。聽起來很耳熟對吧？Anthropic這篇文章，也是在用“AI自我進化”的敘事製造緊迫感，讓你覺得要麼接受他們的方案，要麼面對失控。

巴魯克計畫的核心設計是“先建立控制體系，再銷毀核武器”。表面上看，先建監督機制再銷毀武器，很合理。但關鍵就在這個“先……後……”的順序，美國先獲得對全球原子能活動的控制權，然後才承諾銷毀自己的核武器。在控制體系建立之前的過渡期，美國繼續壟斷核武器。

計畫裡還藏了一顆暗釘，要求國際原子能機構的執法行動不受安理會否決權約束。要知道，蘇聯在安理會擁有否決權，這是二戰後大國博弈的核心機制。巴魯克計畫要求蘇聯在原子能問題上放棄否決權，等於讓蘇聯在一個關鍵安全領域交出最後的防禦手段。

巴魯克提出計畫後，蘇聯代表葛羅米柯（Gromyko）很快就針鋒相對地提出了反方案，邏輯正好反過來，先銷毀核武器，再討論國際控制。

葛羅米柯的立場很清楚，你先把原子彈銷毀了，我們再來談監督。你手裡攥著原子彈讓我接受監督，這不是和平，這是脅迫。這是不是聽起來也很合理？蘇聯根本不需要時間考慮，早就看穿了巴魯克計畫背後的小心思。

談判持續了約半年，最終破裂。1946年底蘇聯投了棄權票。但美國獲得了它真正想要的東西，那就是“我們提議了和平，是對方不配合”的道德高地。與此同時，美國繼續壟斷核武器，直到1949年蘇聯成功試爆自己的原子彈。

美國前國務卿伯恩斯（James Byrnes）有一句話，說得一點沒遮掩，大意是：原子彈很可能讓我們在戰爭結束時，按自己的條件說了算。

你發現沒有，把這句話放到今天，把“原子彈”換成“前沿AI模型”，幾乎不用改字。Anthropic呼籲的“可驗證暫停機制”，跟巴魯克計畫的“對違反者迅速且有保證的懲罰”，結構上是一致的。

誰有能力驗證別人有沒有暫停？誰有資源承擔合規成本？答案都是只有最領先的那幾家。如果現在暫停AI的發展，那麼包括Anthropic在內的現有領先者就會鎖定AI能力的優勢地位。

當然，我並不是說Anthropic的安全關切是假的，他們可能真的擔心風險，但同時，又恰好從自己的擔憂中獲得最大的利益。這兩件事可一點兒不矛盾。

所以，對於這篇文章，我建議可以都去看看原文，用翻譯軟體或者AI工具也非常簡單。看的過程中，記住一個判斷標準：凡是“自己出題自己答”的數據，降一檔信任；凡是“呼籲監管”的同時正在融資上市的，多想一步誰受益。

帶著這個標準，再看三層：

第一層，可以相信。Claude正在顯著加速Anthropic內部研發，尤其是代碼生成、實驗執行、bug修復。趨勢是真的。

第二層，謹慎相信。AI會讓前沿公司研發更快，但具體倍數、普適性、成本收益，需要第三方驗證。他們的主場數據不能當全世界通用真理。

第三層，暫時不要當事實。“AI即將完整自我改進”“人類很快退出研發核心循環”“100人公司穩定做10萬人組織的事”，這些是情景推演，不是已經發生的現實。

最後還有一點，文章裡不少關鍵判斷來自Anthropic內部數據，有些評估還是用Claude來評價Claude的表現。自己審自己，這個閉環你信多少，自己掂量。

80年過去了，領先者的劇本一點兒沒換。我在電子書裡找到一本《美國重要核戰略數據選編（1940-1988）》，裡面詳細講了巴魯克計畫，看完真是唏噓。

一個公司擔憂AI風險，和可以從AI風險中掙到大量的財富，這不矛盾。而喜歡一家公司的AI產品，和非常討厭同一家公司的價值觀，居然也不矛盾。

匿名 *发表于 8-6-2026 09:49 PM* · 发表于 8-6-2026 09:49 PM

Screenshot_2026-06-08-21-46-08-459_com.android.chrome.jpg

ilovet · 发表于 9-6-2026 08:53 AM

使用者 · 发表于 9-6-2026 04:13 PM

每个 Ai 都很厉害的，是看遇到什么样的程度。

匿名 *发表于 9-6-2026 07:31 PM* · 发表于 9-6-2026 07:31 PM

使用者发表于 9-6-2026 04:13 PM
每个 Ai 都很厉害的，是看遇到什么样的程度。

看似高水平的大学教授，基本问题都不会的小学生。 #测评污染 https://youtu.be/NWnD1IjFjME?

		自动登录	找回密码
密码			注册

99.99% 自吹自擂的AI 文

所属分类: 谈天说地

浏览过的版块