我們離 AGI 還有多遠？從 ARC 測試看 AI 與人類智慧的本質差異

全球頂尖新創加速器 Y Combinator（YC）2026 年冬季（W26）Demo Day 於 3 月 24 日正式落幕。在近 190 家參與的新創公司中，「AI」依舊是核心的關鍵字。但在一系列以未來經濟規模效益為考量的名單中，這家名為 ARC Prize Foundation 的非營利組織卻顯得格外突兀。

ARC Prize 是由 Zapier 共同創辦人 Mike Knoop 與 Keras 創辦人 François Chollet 共同發起，旨在推動開源「通用人工智慧（AGI）」的研究，並建立一套能夠衡量 AGI 進展的基準測試（Benchmarks）。

儘管是非營利性質，ARC Prize 的影響力卻直達 AI 產業的最頂層。目前，包括 OpenAI、Anthropic、Google DeepMind 以及 xAI 在內的全球頂尖實驗室，在發佈模型時都會引用其基準測試的結果數據，顯示出業界對其權威性的認可。

AGI 是人類需要發明的最後一項技術 ?

如果說現在我們熟悉的大多數 AI，是在特定任務上表現出色的「專才」，例如幫你寫文案、生成圖片、寫程式，或回答學術問題，那在 AGI 想像中的，則是一種更接近人類的「通才型智慧」：它不只會處理既定任務，還能在面對陌生情境時快速理解規則、舉一反三，甚至自主學習全新的事物。

雖然 AGI 的發展存在著風險與爭議，但它仍被全球頂尖科技公司視為 AI 發展的終極目標。一旦 AGI 實現，它將可能具備比人類更強的科學研究與工程能力。屆時，從新藥研發到新能源技術等下一代的關鍵創新，都有機會在 AGI 的參與下大幅加速。

但目前主流的 AI 測試（如 MMLU）卻多半在挑戰「PhD++」等級的困難題目，衡量的是 AI 儲存了多少已知知識。而 ARC Prize 的核心理念，則建立在對「智慧」的重新定義上。ARC Prize 專注於「流體智慧（Fluid Intelligence）」的展現，測試的是 AI 在面對未曾出現在訓練數據中的陌生問題時，能否展現出與人類匹敵的泛化能力。

智慧不只是解題，還包括「知道什麼值得被解」

為了能更精準地掌握「流體智慧」的動態特質，相較於前兩代偏靜態的抽象推理任務，ARC Prize 所推出的新一代測驗，ARC-AGI-3，轉變為交互式（Interactive）的類遊戲環境。AI 不再只是看一張圖、解一道題，而是要進入一個陌生世界中，透過不斷嘗試、觀察回饋與修正策略，逐步理解「這裡到底發生什麼事」（就像把 AI 丟進一個沒有說明書的超級瑪利歐關卡中）。

ARC-AGI-3 包含了超過 150 個全新的環境，且幾乎不提供任何文字說明、規則提示或標準解題流程。測試者（無論是人類或 AI）必須進入環境，透過點擊、移動等行動，觀察環境的反饋，自行推斷出最終目標。每一個遊戲機制都截然不同，研究者無法透過針對單一任務的強化學習來「刷榜」，而是真正考驗系統面對陌生問題時的適應與泛化能力。

這樣的設計，也吸引了不少學術界與研究圈關注。麻省理工學院（MIT）相關科系更曾主辦 ARC Prize 的專題活動，邀請認知科學家與 AI 研究人員親自體驗 ARC-AGI-3，進一步討論什麼才算真正的「通用智慧」。

來自史丹佛的研究學者 Juni Chu 在分享試玩心得時曾提及，智慧不只是解決問題，還包含評估、選擇以及創造新問題。而 ARC-AGI-3 吸引人的地方，正在於它更接近人類面對未知問題時的真實狀態：不是先知道題目、再開始作答，而是必須先理解「這到底是不是一個問題？我應該怎麼玩？」這種帶有探索、好奇與主動發現的過程，本身就是智慧的重要組成。

更大的 AI 模型，不一定代表它真的更聰明

ARC Prize 之所以引起關注，也是因為它為當前 AI 產業發展帶來的反思。

在 ARC Prize 的評估中，「動作效率（Action Efficiency）」被視為衡量智慧的重要指標，也就是一個系統能否在陌生環境中，以盡可能少的步數快速理解規則並找到解法。從數據來看，AI 的確正在進步，例如 OpenAI 的推理模型 o1-preview 在第一代的靜態測驗 ARC-AGI-1 上，已從 GPT-4 約 4% 的成績提升至 21%，顯示模型已不再只是單純做模式匹配，而開始具備一定程度的推理能力。

然而，一旦測試進入 ARC-AGI-3 這類需要主動探索、觀察回饋與修正策略的互動環境，情況就完全不同了。即便是 GPT-5 High Reasoning 或 Grok 4 等前沿模型，也常陷入重複性動作、無法有效探索，整體表現仍處於極低水準。相較之下，ARC Prize 團隊也邀請了會計師、Uber 司機等一般大眾進行測試，這些「普通人類」即便從未見過這些遊戲，也能迅速建立心智模型並以極少步數完成任務。

這樣的人機鴻溝（Human-AI Gap）或許也是在提醒整個 AI 產業，在追求更大的模型、更多的算力與數據之前，或許值得先停下來思考，這是不是真正在讓 AI 變得更聰明。