佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

搜索
查看: 143|回复: 4

99.99% 自吹自擂的AI 文

[复制链接]
匿名
匿名  发表于 8-6-2026 09:48 PM |阅读模式
Anthropic萬字爆火長文的三個判斷,以及一個值得警惕的陽

快刀青衣

這幾天,全球科技媒體都在轉一篇非常長的文章,國內講AI的公眾號也全在聊,非常爆。也就是全球最頂尖的AI公司Anthropic發佈的,標題叫《When AI builds itself》。

我真的把這篇文章看了三遍,每次看的感受都不太一樣。這篇文章信息量極大,裡面全是他們內部的真實數據,很多是第一次公開。但我越讀越覺得,這篇文章不只是“分享數據”這麼簡單。

所以今天我想做兩件事。第一,把這篇文章裡普通人最該關注的幾個判斷,用大白話講出來,重點不是“AI多厲害”,而是“然後呢,我該怎麼辦”。第二,講完這幾個判斷之後,我想聊聊這篇文章沒告訴你的背後的那些東西。

先說第一個判斷。

Anthropic現在合入生產代碼庫裡的代碼,超過80%是Claude寫的。兩年前,大家想要證明自己的產研團隊是不是足夠AI化,都會用AI寫的代碼占總量的百分比來衡量,最初10%或者20%就已經算AI創新企業了。

這個數字在2025年2月之前,Anthropic內部也還只是個位數,畢竟他們團隊成員基本都是全球頂級的程式大牛,讓他們接受當時AI寫的亂七八糟的代碼,會更難。

但是只需要一年多時間,現在已經從“偶爾AI幫忙寫幾段代碼,再粘貼到人類的代碼裡”,變成了“AI主力輸出”。所以他們工程師今年日均合入代碼量,是2024年的8倍。

但8倍這個數字,是按代碼行數算的,肯定高估了真實生產力提升。這就好像兩個廚師,甲廚師一個小時可以做五道菜,乙廚師一個小時只能做一道菜,你就直接把乙廚師開除了,絲毫不考慮甲廚師做的菜非常難吃,乙廚師做的是招牌菜。

不過8倍這個數量差,就不能說是小優化了,這些代碼都經過了人類工程師的審核,基本邏輯沒問題。

所以Anthropic的程式師,工作方式已經變了。以前是我理解需求,我打開編輯器,我寫代碼,我測試,我提交。現在越來越像這樣:我把目標告訴AI,AI寫代碼、跑測試、修bug,我判斷它有沒有走偏,我做審查和合併。不僅僅是Anthropic的工程師,我相信大部分的程式師都已經是這種工作狀態了。

注意這個變化,程式師正在從“手藝人”變成“技術監工”。以前一個導演要親自扛攝像機、打燈、剪片,現在他面前有十幾個AI攝製組。他的價值不再是手速,而是知道要拍什麼、哪裡不對、什麼時候喊停。

所以第一個判斷是,執行力的價格正在趨近於零。這跟攝影一個道理,當每個人都有了能自動對焦、自動修圖的手機之後,決定一張照片好壞的,不再是你按快門的技術,而是你選擇拍什麼、在什麼角度拍的“眼光”。人類最值錢的東西,正在從“能做出來”變成“能判斷做什麼”。

第二個判斷跟第一個是連著的。

當AI能寫大量代碼、提大量方案、跑大量實驗之後,新的瓶頸不是“做不出來”,而是“審不過來”。

Anthropic自己就已經遇到了,人類工程師的代碼審核成了瓶頸,他們後來不得不用AI做自動審查,發現如果過去每次改動都經過這樣的AI審查,大約三分之一導致線上事故的bug可以提前被發現。

但這裡有個微妙的地方。大家可以想一想,Claude審Claude寫的代碼,這個閉環你信多少?就像同一個老師教出來的學生互批考卷,可能對同一類錯誤集體失明。

回到判斷本身。以後一個團隊的問題,可能不是“沒有方案”,而是“方案太多,沒人判斷哪個是真的”。一百個AI自動生成的方向裡,哪個值得做?哪個看起來對但其實跑偏了?哪個結果漂亮但不可複現?

Anthropic的員工有一段話說得很真實,“在一切順利的日子裡,我忍不住想,我做的任何事都不重要了,一切都被自動化了,它比我永遠能達到的水準更好、更快。但當一切崩潰,我又不明白為什麼時,我才意識到,我已經完全不知道自己到底在面對什麼了。”

所以第二個判斷是,未來組織最稀缺的能力,不是“會不會用AI”,而是你能不能驗收AI的結果,能不能發現它哪裡看起來對、實際上錯,能不能在一堆自動生成的方案裡挑出真正值得做的三個。

我自己也有這個感覺。每次用AI完成一個任務,最危險的時刻不是它做錯了,而是它做對了,但我不確定它為什麼做對了。我現在每次用Codex這些工具時,都會在看完結果後,去看一下AI的思考和處理過程。介面上這個過程一般被縮成了一小句話,比如“已處理9分30秒”,但我會去展開看看中間到底發生了什麼。這個習慣現在看起來不緊急,但等到AI產出量真的上來,它就是你的生死線。

第三個判斷,是這篇文章裡最深的一層。

AI能獨立完成任務的時間長度,翻倍速度從之前的約7個月加速到了約4個月。2024年3月,4分鐘。2025年3月,1.5小時。2026年3月,12小時。照這個速度,今年可能到幾天,明年可能到幾周。

但注意,METR的核心指標是50%成功率。我之前和你介紹過METR,這是一個獨立的第三方大模型衡量機構。而50%成功率這個指標,在研究裡是很有價值的信號,但在真實工作裡不夠用。你不會把公司數據庫遷移交給一個“有一半概率成功”的員工,所以更清醒的表述是:AI的長任務能力正在變強,但它離“無人看管、穩定交付關鍵任務”還有距離。

不過方向是清楚的。如果AI真的開始幫AI公司造下一代AI,進步速度就不再只受人類研究員數量限制,而更受算力、能源、芯片限制。

人類正在逐漸被擠出這個研發循環,進步速度越來越取決於機器了。這才是真正值得擔心的:不是某個崗位被替代,而是技術迭代的速度可能快到社會制度跟不上。

文章裡有一句話說得很準,“更多的智能無法在一夜之間學會一種藥物在幾十年使用中的副作用,也無法在一個週末就把陌生人變成老朋友。”實驗室裡的智能加速到“機器速度”,但藥物審批、法律修訂、教育改革、人的心理適應,仍然是“人類速度”。這兩個速度之間的裂縫,才是普通人真正會遇到的問題。

我舉個自己產品研發的例子。我們正在做的有個記憶功能,聽起來很簡單,就是把你過去10年的使用痕跡、記的筆記、劃的線,用AI的方式做到隨時調取。功能寫出來、代碼寫出來、上線,這個難度並不大。

但真正做的時候你會發現,使用者在什麼任務下需要調什麼樣的課程、什麼樣的書、什麼樣的筆記,以及需不需要調,這些都是需要一步一步打磨出來的場景。你需要瞭解你的使用者群,深入到用戶中去,你才知道需求會是什麼樣子的。

用AI做出來的功能,僅僅是萬里長征的第一步。我們最近在各個用戶群裡收集到非常多的用戶回饋,這就是深入到用戶使用場景裡的慢變數:需要這麼多使用者真實的使用,並不是AI把功能代碼寫出來就可以了。

這個打磨的速度,AI再快也替代不了,因為這不是代碼問題,是人的問題。使用者習慣不是靠功能迭代就能加速的,而是靠一次次靠譜的交付慢慢攢出來的。

所以與其焦慮“AI會不會取代我”,不如想清楚:你的工作裡哪些環節是靠慢變數撐著的,那些才是你真正的安全墊。

這篇文章最有價值的地方,是讓我們看到AI正在加速AI研發;最危險的地方,是容易讓人把“AI幫人造AI”誤讀成“AI已經能自己造自己”。

文章標題叫《When AI builds itself》,很有衝擊力。但嚴格說,現在發生的還不是完整的遞迴自我改進,更準確的說法是:人類設目標,AI幫忙寫代碼、跑實驗、調試、整理結果。

真正的AI自我建造,是AI自己發現短板、提出方案、訓練部署,然後根據結果調整目標。而且這個循環越轉越快。

Anthropic自己也承認“還沒到那裡”。現在的階段,不是一條響尾蛇已經咬住自己的尾巴開始無限循環,更像是人類實驗室裡多了一批非常強的自動化助手。標題指向“自我進化”,數據展示的是“研發加速”,中間有一段需要警惕的跳躍。

所以要認清楚一個事實,80%的代碼由AI寫完,這當然很驚人,但這可不等於80%的研發由AI完成。

代碼行數不是價值,選什麼問題、信什麼結果、什麼時候停下來,這些判斷仍然在人手裡。比如幾個技術的閒聊討論,這肯定不算代碼寫作,但這是研發過程中必不可少的一部分。

這裡再和你講一個小故事。我們都知道這波AI的爆發,起源就是谷歌的那篇非常經典的Transformer架構的論文。

當時在2017年的一天,谷歌著名技術大神沙澤爾(Shazeer)走在谷歌1965號樓的走廊上,正好聽到了阿希什·瓦斯瓦尼(Ashish Vaswani)和尼基·帕爾馬爾(Niki Parmar)正在激烈地討論自注意力的想法,他停下來聽了一會兒,覺得“這項目聽起來是個好主意,這幫人有意思”。

他就主動加入了這個項目,並且從頭到尾重寫了一版代碼。其他人當時都說他是魔法師,因為這個項目已經被卡很久了,成績一直上不去,但是沙澤爾重寫了代碼之後,模型被拉高到了一個新水準。

在這個小故事裡,大家想想,無論是人的爭論和偶遇,還是沙澤爾把代碼重寫一遍的事情,這都是人類的價值所在,而不僅僅是把代碼寫出來就完了。

當然,沙澤爾後來出去自己創業,谷歌在2024年又花了27億美元把他的公司收購了,核心目的並不是要他這個創業公司,而是把他請回去共同領導現在我們都在使用的Gemini。

故事講完了。要知道,文章裡的這些數據是Claude的“主場數據”。Anthropic是Claude的製造商,它自己的工程師懂模型,工具鏈圍繞Claude優化,內部任務天然適合Claude學習和適配。這就像考試自己出題自己答,然後說自己考了98分,不是說98分是假的,但你得知道文章中的這個98分是在什麼條件下拿的。

好,判斷講完了。但讀到這裡,你可能已經感覺到了,這篇文章有些地方不太對勁。

這篇文章最後有一段話,也是過去一周傳播最廣的一段話。大意是,如果風險繼續上升,世界應該有能力讓前沿AI開發慢下來或者暫停。Anthropic說,如果有可驗證的暫停機制,他們也願意慢下來。

聽起來很負責任對吧?但這句話的位置很微妙。它把“不慢下來”的責任推給了“別人不慢”,自己保持了道德高地。翻譯一下就是,不是我停不下來,是別人不停,我也不敢停。

現在來看一下這篇文章背後的時間線:2026年5月,Anthropic完成650億美元H輪融資,估值9650億美元。2026年6月1日,Anthropic秘密提交IPO申請。而這篇文章的發佈時間,就在提交IPO的同一周。

我不是說這篇文章是公關稿。它裡面有真實信號,Claude確實正在重塑Anthropic自己的研發流程。但一篇“帶戰略目的的真文章”,比一篇純假文章更值得警惕,因為它讓你在吸收真實信息的同時,不知不覺也接受了它的敘事框架。

這個敘事框架的核心操作是,把“AI輔助研發”講得很像“AI自我進化”。標題指向自我進化,數據展示的是研發加速,結尾呼籲暫停。

整篇文章讀完,你會有一種感覺,AI已經快失控了,需要有人來管。而誰最懂怎麼管?當然是正在造AI的前沿公司。

1946年,同樣的劇本上演過一次。

那年6月14日,75歲的華爾街傳奇人物伯納德·巴魯克(Bernard Baruch),代表美國走進聯合國。他開場就說了一句話,“我們面臨的是生與死的抉擇。”

你看,把“是否接受國際控制原子能”直接等同於選擇生死,不給任何中間立場留空間。聽起來很耳熟對吧?Anthropic這篇文章,也是在用“AI自我進化”的敘事製造緊迫感,讓你覺得要麼接受他們的方案,要麼面對失控。

巴魯克計畫的核心設計是“先建立控制體系,再銷毀核武器”。表面上看,先建監督機制再銷毀武器,很合理。但關鍵就在這個“先……後……”的順序,美國先獲得對全球原子能活動的控制權,然後才承諾銷毀自己的核武器。在控制體系建立之前的過渡期,美國繼續壟斷核武器。

計畫裡還藏了一顆暗釘,要求國際原子能機構的執法行動不受安理會否決權約束。要知道,蘇聯在安理會擁有否決權,這是二戰後大國博弈的核心機制。巴魯克計畫要求蘇聯在原子能問題上放棄否決權,等於讓蘇聯在一個關鍵安全領域交出最後的防禦手段。

巴魯克提出計畫後,蘇聯代表葛羅米柯(Gromyko)很快就針鋒相對地提出了反方案,邏輯正好反過來,先銷毀核武器,再討論國際控制。

葛羅米柯的立場很清楚,你先把原子彈銷毀了,我們再來談監督。你手裡攥著原子彈讓我接受監督,這不是和平,這是脅迫。這是不是聽起來也很合理?蘇聯根本不需要時間考慮,早就看穿了巴魯克計畫背後的小心思。

談判持續了約半年,最終破裂。1946年底蘇聯投了棄權票。但美國獲得了它真正想要的東西,那就是“我們提議了和平,是對方不配合”的道德高地。與此同時,美國繼續壟斷核武器,直到1949年蘇聯成功試爆自己的原子彈。

美國前國務卿伯恩斯(James Byrnes)有一句話,說得一點沒遮掩,大意是:原子彈很可能讓我們在戰爭結束時,按自己的條件說了算。

你發現沒有,把這句話放到今天,把“原子彈”換成“前沿AI模型”,幾乎不用改字。Anthropic呼籲的“可驗證暫停機制”,跟巴魯克計畫的“對違反者迅速且有保證的懲罰”,結構上是一致的。

誰有能力驗證別人有沒有暫停?誰有資源承擔合規成本?答案都是只有最領先的那幾家。如果現在暫停AI的發展,那麼包括Anthropic在內的現有領先者就會鎖定AI能力的優勢地位。

當然,我並不是說Anthropic的安全關切是假的,他們可能真的擔心風險,但同時,又恰好從自己的擔憂中獲得最大的利益。這兩件事可一點兒不矛盾。

所以,對於這篇文章,我建議可以都去看看原文,用翻譯軟體或者AI工具也非常簡單。看的過程中,記住一個判斷標準:凡是“自己出題自己答”的數據,降一檔信任;凡是“呼籲監管”的同時正在融資上市的,多想一步誰受益。

帶著這個標準,再看三層:

第一層,可以相信。Claude正在顯著加速Anthropic內部研發,尤其是代碼生成、實驗執行、bug修復。趨勢是真的。

第二層,謹慎相信。AI會讓前沿公司研發更快,但具體倍數、普適性、成本收益,需要第三方驗證。他們的主場數據不能當全世界通用真理。

第三層,暫時不要當事實。“AI即將完整自我改進”“人類很快退出研發核心循環”“100人公司穩定做10萬人組織的事”,這些是情景推演,不是已經發生的現實。

最後還有一點,文章裡不少關鍵判斷來自Anthropic內部數據,有些評估還是用Claude來評價Claude的表現。自己審自己,這個閉環你信多少,自己掂量。

80年過去了,領先者的劇本一點兒沒換。我在電子書裡找到一本《美國重要核戰略數據選編(1940-1988)》,裡面詳細講了巴魯克計畫,看完真是唏噓。

一個公司擔憂AI風險,和可以從AI風險中掙到大量的財富,這不矛盾。而喜歡一家公司的AI產品,和非常討厭同一家公司的價值觀,居然也不矛盾。
回复

使用道具 举报


ADVERTISEMENT

匿名
匿名  发表于 8-6-2026 09:49 PM
Screenshot_2026-06-08-21-46-08-459_com.android.chrome.jpg
回复

使用道具 举报

发表于 9-6-2026 08:53 AM | 显示全部楼层
回复

使用道具 举报

发表于 9-6-2026 04:13 PM | 显示全部楼层
每个 Ai 都很厉害的,是看遇到什么样的程度。
回复

使用道具 举报

匿名
匿名  发表于 9-6-2026 07:31 PM
使用者 发表于 9-6-2026 04:13 PM
每个 Ai 都很厉害的,是看遇到什么样的程度。

看似高水平的大学教授,基本问题都不会的 小学生。 #测评污染 https://youtu.be/NWnD1IjFjME?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 10-6-2026 11:27 AM , Processed in 0.058926 second(s), 12 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表