全球頂尖新創加速器 Y Combinator(YC)2026 年冬季(W26)Demo Day 於 3 月 24 日正式落幕。在近 190 家參與的新創公司中,「AI」依舊是核心的關鍵字。但在一系列以未來經濟規模效益為考量的名單中,這家名為 ARC Prize Foundation 的非營利組織卻顯得格外突兀。
ARC Prize 是由 Zapier 共同創辦人 Mike Knoop 與 Keras 創辦人 François Chollet 共同發起,旨在推動開源「通用人工智慧(AGI)」的研究,並建立一套能夠衡量 AGI 進展的基準測試(Benchmarks)。
儘管是非營利性質,ARC Prize 的影響力卻直達 AI 產業的最頂層。目前,包括 OpenAI、Anthropic、Google DeepMind 以及 xAI 在內的全球頂尖實驗室,在發佈模型時都會引用其基準測試的結果數據,顯示出業界對其權威性的認可。
AGI 是人類需要發明的最後一項技術 ?
如果說現在我們熟悉的大多數 AI,是在特定任務上表現出色的「專才」,例如幫你寫文案、生成圖片、寫程式,或回答學術問題,那在 AGI 想像中的,則是一種更接近人類的「通才型智慧」:它不只會處理既定任務,還能在面對陌生情境時快速理解規則、舉一反三,甚至自主學習全新的事物。
雖然 AGI 的發展存在著風險與爭議,但它仍被全球頂尖科技公司視為 AI 發展的終極目標。一旦 AGI 實現,它將可能具備比人類更強的科學研究與工程能力。屆時,從新藥研發到新能源技術等下一代的關鍵創新,都有機會在 AGI 的參與下大幅加速。
但目前主流的 AI 測試(如 MMLU)卻多半在挑戰「PhD++」等級的困難題目,衡量的是 AI 儲存了多少已知知識。而 ARC Prize 的核心理念,則建立在對「智慧」的重新定義上。ARC Prize 專注於「流體智慧(Fluid Intelligence)」的展現,測試的是 AI 在面對未曾出現在訓練數據中的陌生問題時,能否展現出與人類匹敵的泛化能力。
智慧不只是解題,還包括「知道什麼值得被解」
為了能更精準地掌握「流體智慧」的動態特質,相較於前兩代偏靜態的抽象推理任務,ARC Prize 所推出的新一代測驗,ARC-AGI-3,轉變為交互式(Interactive)的類遊戲環境。AI 不再只是看一張圖、解一道題,而是要進入一個陌生世界中,透過不斷嘗試、觀察回饋與修正策略,逐步理解「這裡到底發生什麼事」(就像把 AI 丟進一個沒有說明書的超級瑪利歐關卡中)。
ARC-AGI-3 包含了超過 150 個全新的環境,且幾乎不提供任何文字說明、規則提示或標準解題流程。測試者(無論是人類或 AI)必須進入環境,透過點擊、移動等行動,觀察環境的反饋,自行推斷出最終目標。每一個遊戲機制都截然不同,研究者無法透過針對單一任務的強化學習來「刷榜」,而是真正考驗系統面對陌生問題時的適應與泛化能力。
這樣的設計,也吸引了不少學術界與研究圈關注。麻省理工學院(MIT)相關科系更曾主辦 ARC Prize 的專題活動,邀請認知科學家與 AI 研究人員親自體驗 ARC-AGI-3,進一步討論什麼才算真正的「通用智慧」。
來自史丹佛的研究學者 Juni Chu 在分享試玩心得時曾提及,智慧不只是解決問題,還包含評估、選擇以及創造新問題。而 ARC-AGI-3 吸引人的地方,正在於它更接近人類面對未知問題時的真實狀態:不是先知道題目、再開始作答,而是必須先理解「這到底是不是一個問題?我應該怎麼玩?」這種帶有探索、好奇與主動發現的過程,本身就是智慧的重要組成。
更大的 AI 模型,不一定代表它真的更聰明
ARC Prize 之所以引起關注,也是因為它為當前 AI 產業發展帶來的反思。
在 ARC Prize 的評估中,「動作效率(Action Efficiency)」被視為衡量智慧的重要指標,也就是一個系統能否在陌生環境中,以盡可能少的步數快速理解規則並找到解法。從數據來看,AI 的確正在進步,例如 OpenAI 的推理模型 o1-preview 在第一代的靜態測驗 ARC-AGI-1 上,已從 GPT-4 約 4% 的成績提升至 21%,顯示模型已不再只是單純做模式匹配,而開始具備一定程度的推理能力。
然而,一旦測試進入 ARC-AGI-3 這類需要主動探索、觀察回饋與修正策略的互動環境,情況就完全不同了。即便是 GPT-5 High Reasoning 或 Grok 4 等前沿模型,也常陷入重複性動作、無法有效探索,整體表現仍處於極低水準。相較之下,ARC Prize 團隊也邀請了會計師、Uber 司機等一般大眾進行測試,這些「普通人類」即便從未見過這些遊戲,也能迅速建立心智模型並以極少步數完成任務。
這樣的人機鴻溝(Human-AI Gap)或許也是在提醒整個 AI 產業,在追求更大的模型、更多的算力與數據之前,或許值得先停下來思考,這是不是真正在讓 AI 變得更聰明。
讓 AGI 研究回到「新想法」本身
作為 YC 梯次中極少見的非營利組織,ARC Prize 的目標並不是販售測驗產品,而是期望透過競賽、研究補助與開源社群,推動更多研究者去挑戰當前 AI 能力的關鍵缺口。
官方目前已持續舉辦 ARC Prize 系列競賽,並與全球最大的數據科學與機器學習社群 Kaggle 合作推廣。根據官方資料,ARC Prize 2025 年共吸引了 1,454 支團隊報名參與;2026 年則持續以新的 benchmark 與競賽形式,祭出高達 200 萬美元的獎金池。