You are now offline.

AI革命真的來了嗎?AI大神Karpathy用7個觀察揭開「代理人元年」的幻覺與工程現實

AI革命真的來了嗎?AI大神Karpathy用7個觀察揭開「代理人元年」的幻覺與工程現實
Dwarkesh Patel
分享
收藏
已完成
已取消

在人工智慧的狂熱浪潮中,為何許多看似驚人的突破,距離實際應用仍然遙遠?

前特斯拉 AI 總監、OpenAI 科學家 Andrej Karpathy 具備深厚的工程經驗,也是「氛圍編碼」(Vibe Coding)一詞的提出者,他近期在一場 Podcast 訪談中吐露「大實話」。

Karpathy 直言,當前 AI 產業瀰漫過度樂觀的情緒,甚至可以說在進展上「跨出太大一步」,試圖假裝 AI 代理人技術已經非常厲害,但實際上仍有許多不足,而業界卻不願正視這些缺陷, 「其中很大一部分,老實說,就是為了融資。」

他指出, 許多對 AI 爆炸性發展的預測(例如 AI 將迅速自動化 AI 工程與研究)正是基於對 Vibe Coding/Agents 能力的過度高估。 他認為,若要編寫實際的生產級(production-grade)程式碼,錯誤所帶來的風險極高(例如自動駕駛),因此需要經歷「九」的艱辛行軍(a march of nines),不斷提升可靠性。

舉例而言,台灣近期發生一位 Vibe Coding 講師在備課時未妥善保護 API key,導致在 Google AI Studio 發生超額扣款的翻車事件;這凸顯 Vibe Coding 的低門檻容易忽略「帳務控管、資安、程式邏輯審核」等基本防線,也揭示了當前 AI 的能力仍有清晰可見的天花板。

以下將逐一解析 Karpathy 在 Dwarkesh Patel 的 Podcast 節目中所提到的 AI 產業洞見:究竟目前業界頻頻高喊的「生產力 10 倍」、「AI First」等口號,是真金白銀,還是畫大餅?

洞見1:我們正處於「AI代理人10年」,而非「元年」

Karpathy 指出,當前 AI 領域普遍瀰漫對「代理
人元年」(the year of agents)的興奮情緒,認為能夠自主執行任務的 AI 代理人已近在眼前。然而,他所謂的「代理人的十年」(the decade of agents),正是對此種過度樂觀預測的直接回應。

他認為,打造一個能像人類實習生一樣工作的 AI「智慧體」(agent),是一項長達十年的艱鉅任務,絕非一年內可以實現。他將一個真正有用的智慧體定義為:可以像聘請實習生或員工一樣僱用的對象。

而當前的 AI,仍無法放心地將重要工作交給它們,因為其智慧、多模態感知能力都遠遠不足,更缺乏在現實世界中穩定執行任務的可靠性。你無法只告訴它們一件事,就期望它們永遠記得(缺乏持續學習能力)。

Karpathy 更提出犀利反問: 「如果 AI 已經可以取代人類,那麼你(指公司)今天為什麼不這麼做?原因就是它(指 AI 取代人類)根本行不通!」

洞見2:我們在召喚「幽靈」,而非打造「動物」

AI 的發展常被類比為生物演化,但 Karpathy 提出更深刻也更奇特的比喻:我們並不是透過物理演化打造一種類似斑馬(出生幾分鐘就能奔跑)的「動物」,因為動物的許多能力是深植於硬體中的天賦。相反地,我們是在「召喚幽靈」。

他解釋,AI 是一種完全數位的「精神實體」,其智慧並非源自物理世界的演化壓力,而是透過模仿網路上龐大的人類數據而生。這意味著 AI 的智慧本質是一種模仿——人類思想與行為模式的數位倒影。這種差異決定了 AI 的能力與侷限。

「我們實際上不是在打造動物,我們在打造幽靈。這些像是飄渺的精神實體,因為它們完全是數位的,並且有點像在模仿人類,這是一種不同類型的智慧。」Karpathy 說。

這種「幽靈」的本質也從根本上影響了 AI 的學習方式,使其與人類學習有著天壤之別。這個區別告誡我們,不應將 AI 的學習與動物或人類的學習直接類比。AI 智慧的發展規則與路徑,可能完全超乎人類想像。

洞見3:現行的強化學習「非常糟糕」

自 AlphaGo 擊敗世界棋王後,強化學習(Reinforcement Learning, RL)被許多人視為通往更高等智慧的關鍵路徑。然而,Karpathy 直言,現行的 RL 方法「非常糟糕」。但他隨即補充:「只是剛好我們以前擁有的一切都比它糟糕得多。」

他將 RL 的學習過程比喻為「透過吸管吸取監督訊號」(sucking supervision through a straw)。這個比喻精準描繪了 RL 的核心缺陷:假設一個模型要解決數學問題,它會嘗試數百種不同路徑。最終,RL 只會根據答案是否正確(單一獎勵訊號),來獎勵或懲罰整個行為序列中的每一步。

這種方法充滿雜訊且效率低落,因為即便在最終成功的路徑上,許多錯誤步驟與繞遠路,也都會因為最後的好結果而被錯誤強化。 相比之下,人類在解題後會覆盤反思,分析哪些步驟是關鍵、哪些是多餘的,而不是像 RL 那樣盲目增強整個路徑。

洞見4:AI真正的目標是「認知核心」,而非知識本身

人們普遍認為,大型語言模型的力量來自其從網路上學到的龐大知識庫。但 Karpathy 提出反直覺的觀點:在預訓練過程中,模型同時學到了兩件事: (1)來自網路的「知識」,以及(2)解決問題的演算法與策略,他稱之為「認知核心」(cognitive core)。

他認為,龐大「知識」反而是一種負擔。它讓模型過度依賴記憶,難以處理超出訓練數據範圍的新問題,就像一個只會背誦課本的學生,卻無法應對靈活考題。這種依賴不僅阻礙泛化能力,也使模型輸出重複、缺乏創意,進而導致「模型崩潰」的關鍵。

理想的未來方向是,找到方法剝離具體知識,只保留純粹、可用於解題的「認知核心」,讓模型學會「如何思考」,而不是「記得什麼」。然而,要將這個理想的「認知核心」與能在現實世界運作的產品連結,則揭示了另一個殘酷的工程現實。

洞見5:有了 AI 後,可能只是「一切照舊」

科技圈常見的現象是,一個驚豔的展示(demo)往往引發過度樂觀的預期。Karpathy 在特斯拉自動駕駛的經驗,為整個 AI 產業提供了一課。他提出「九」的艱辛行軍(march of nines),揭示從展示到可靠產品之間的巨大鴻溝。

他解釋,將系統成功率從 90% 提升到 99%,再到 99.9%,每推進一個「9」,所需付出都相同甚至更大。這條「最後的百分之一」的道路,往往不是最後一步,而是占據整個專案一半以上的時間與資源。

因此,許多人預期通用人工智慧(AGI)將帶來經濟的「奇點」或爆炸性增長,但 Karpathy 認為,AI 只是數百年來計算與自動化趨勢的自然延伸,而非全新的斷裂式事件。

他指出,我們早已身處一場「智慧爆炸」(intelligence explosion)之中,AI 只是這條長期指數曲線上的一部分。因此,我們無法在 GDP 數據中找到由「AI」引發的突變點,就像我們找不到「電腦」或「網路」的突變點一樣。技術的擴散多是緩慢且漸進,最終融入經濟的平滑增長曲線。

關於 AI 領域會出現遞迴式自我改進(recursively self-improvement)的說法,Karpathy 認為這也是「一切照舊」。工程師使用 LLM 更有效率地建構下一代 LLM,與工程師使用 Google 搜尋或 IDE 提升效率沒有本質不同,都只是加速了整體進程。

他批判業界對 AI 發展的過度預測,尤其是不切實際的快速時間表。他對「不連續的跳躍」(discrete jump)的假設表示懷疑。

洞見6:Vibe Coding被高估,當前AI在「原創」沒太大幫助

儘管 AI 在編寫樣板程式碼(boilerplate code)上表現出色,但 Karpathy 在建構 nanochat 這個高度原創的專案時,卻發現 AI 代理人的幫助非常有限。原因在於 AI 傾向遵循網路上最常見的模式,無法理解其專案中的獨特架構與假設。

例如,當他為 nanochat 撰寫客製化的梯度同步程序時,AI 不斷強迫他使用標準的 PyTorch DDP 容器,只因為那是網路上最常見的模式,完全無法理解他客製化方案背後的深層意圖。此外,AI 還會過度防禦,添加不必要的複雜程式碼,並常常誤解開發者的策略。

Karpathy 認為,對於高度原創、智力密集的任務,目前 AI 的最佳定位是「自動完成」(autocomplete),而非「專案代理人」(agent)。同時,人類架構師的角色依然重要,要負責定義問題、設計藍圖。

Karpathy的結論是,雖然 Vibe Coding 在某些特定、非關鍵的任務中(如生成報告或使用不熟悉的語言)是有用的工具,但整體而言,業界對其取代複雜、智慧密集型程式設計的能力是被高估了。

洞見7:「模型崩潰」的風險

AI 領域對使用「合成數據」(AI 生成的數據)來訓練下一代模型抱持樂觀期待。但 Karpathy 提出嚴峻警告:模型的輸出正「默默地崩潰」(silently collapsed)。例如,試著請 ChatGPT 說個笑話,你會發現它反覆只產生少數常見類型,這就是一個絕佳例子。

這意味著 AI 生成的內容雖然看似合理,但在統計上極度缺乏多樣性,只佔所有可能輸出的極小空間。若持續用這種貧乏的數據進行訓練,模型會越來越同質化,最終導致能力衰退,陷入自我迴圈。

Karpathy 指出,這類似人類隨著年齡增長,思想會變得僵化;而兒童之所以充滿創造力,正因其思維尚未「崩潰」。因此,如何讓 AI 在學習時保持彈性,是解決模型崩潰的根本挑戰。

結語:與其FOMO,不如專注眼前挑戰

最後,Karpathy 並非 AI 悲觀論者,而是植根於工程現實的「務實樂觀主義者」。正如他所說:「我其實很樂觀,我認為這行得通……而我聽起來悲觀,只是因為當我打開我的 Twitter 時,常常看到一些毫無意義的東西。」

他的論述是:與其追逐 AI 熱潮與焦慮(FOMO),不如將精力集中在當前的實際挑戰與紮實基礎工作上。像工程師那樣,專注於克服技術缺陷,透過親手編寫程式碼來獲取真正的知識。

資料來源:Dwarkesh Patel

本文授權轉載自《數位時代》初稿為AI編撰,整理.編輯/ 李先泰,原文標題:「我們只是在召喚數位幽靈!」AI大神Karpathy揭7大洞見:Vibe Coding為何被業界過度高估?

TAGS: # AI
延伸閱讀

使用會員功能前,請先登入

  • 收藏文章
了解更多關於創業小聚的資訊,歡迎透過以下服務: