近期熱議的人工智慧代理平台Manus,憑藉其自動操作網站、執行任務的能力,迅速在開發者社群掀起熱烈討論。然而,Manus爆紅的同時,也意外捧紅了其背後的開源工具Browser Use,使其在短時間內成為開發圈最受矚目的技術之一。
簡單來說,Browser Use可將網站前端結構轉換為AI能理解的文字格式,讓語言模型不再只能讀取資料,而是能「讀懂」網站,進一步像人類一樣完成點擊、輸入、瀏覽等操作。
根據Browser Use共同創辦人Gregor Žunič表示,相關介紹文章在社群平台X上獲得超過240萬次瀏覽,使Browser Use的日下載量從5,000次飆升至28,000次,並迅速登上GitHub熱門排行。
令人意外的是,這套技術的雛形,其實只是一項由兩位碩士學生在週末完成的實驗,僅花了四天就打造出第一版原型。AI自動操作網站的概念並不新穎,許多團隊早有嘗試,但Browser Use究竟做對了什麼,能率先突破限制,並贏得開源社群與市場青睞?
Browser Use讓AI真正「讀懂」網站
近期AI代理(AI Agent)成為人工智慧應用中備受關注的方向,許多新創團隊紛紛投入,嘗試讓AI自主完成各種網頁上的任務。然而,目前多數技術解法仍仰賴「視覺導向」的方式,例如透過截圖擷取網站畫面、分析畫面中元素的座標位置,模擬人類的操作流程。
這類方法雖然相對容易上手,但穩定性往往不高。一旦網站介面略有調整,例如按鈕位置變動、功能重新排列,原本設定好的自動化流程就可能失效,導致任務中斷,也增加維護與修正的技術成本。同時,網站普遍具備反機器人機制,像是封鎖異常IP、要求輸入驗證碼、或強制重新登入等,也讓AI的執行過程充滿不確定性。
Browser Use所採取的,則是一種完全不同的路徑。它不依賴圖像判斷,而是讓AI真正「讀懂」網站。透過將網頁上的互動元素(例如按鈕、輸入欄位、下拉選單等)轉譯為語意化的結構化文字格式,使大型語言模型(LLMs)能像理解自然語言一樣理解網站邏輯,進而自主做出操作決策。這樣的方式避開了視覺辨識常見的座標誤差與版面變動問題,大幅提升操作的準確性與穩定性。
在實際應用上,使用者只需下達任務指令,例如「登入某網站」「下載某報表」「填寫特定表單」,Browser Use便能協助AI自動解析網站架構,依序完成各項操作。它不僅支援多分頁操作與滑鼠鍵盤模擬,還能存取電腦中的檔案,讓AI能順利執行更複雜且具連貫性的網頁任務。
有趣的是,這項AI技術的原型僅花了四天就完成。是什麼原因,讓一個構想能夠引發開源社群的關注與討論?
午餐時的點子,四天做出原型並引發關注
這個點子來自瑞士蘇黎世聯邦理工學院(ETH Zurich)兩位資料科學碩士生Magnus Müller與Gregor Žunič。
Magnus Müller擅長開發網頁爬蟲與自動化工具,Gregor Žunič則專注於將資料科學應用於實際任務與流程優化。兩人在2024年於校園創新加速器「Student Project House」相識,隨即展開合作,著手開發一套能讓大型語言模型控制瀏覽器、直接操作網頁的開源架構。
Gregor Žunič回憶,這個構想最初只是幾次午餐閒聊中討論出的點子,「我們想做個小東西放上Hacker News,看看會發生什麼事。」沒想到短短四天內便完成了最小可行產品(MVP),並同步上傳至GitHub與Hacker News。
產品曝光後便登上熱門榜首,迅速引發開發者社群的熱烈關注,也吸引大量使用者參與試用與貢獻開發。目前,Browser Use在GitHub上累積超過5萬顆星,擁有超過1萬5,000位開發者貢獻者,已成為開源AI自動化領域中受矚目的專案之一。
起初,Browser Use僅提供開源版本,供開發者自行部署與客製化使用。但就在OpenAI推出自家瀏覽器代理服務「Operator」後,Browser Use社群的需求瞬間爆炸——許多開發者紛紛詢問是否能直接提供一套免安裝、開箱即用的雲端服務。團隊因應需求,迅速推出由官方營運的線上版本,訂價為每月30美元(約新台幣945元)。
這項線上服務整合了IP切換、驗證碼處理、自動記住登入狀態等功能,並支援同時執行多個任務,使用者無需處理繁瑣的後端設定,就能直接在平台上部署AI代理流程。這項產品調整,讓Browser Use不再只是開源工具,也開始具備作為AI代理平台的商業化可能。
看準代理型AI成長潛力,獲1,700萬美元資金挹注
根據市場研究機構Research and Markets的預測,至2029年,AI代理市場的規模將達到420億美元。顧問公司Deloitte則指出,到2027年,超過一半的企業將導入AI代理技術,顯示該領域正逐漸成為企業數位轉型中的關鍵技術之一。
在這波產業趨勢中,Browser Use也成功獲得資本市場的青睞。在由Felicis合夥人Astasia Myers領投、Paul Graham、Nexus Venture Partners、A Capital等創投機構參與的種子輪募資中,Browser Use募得1,700萬美元資金(約為新台幣5,100萬元)。
Astasia Myers表示,團隊「開源優先」的策略與其在AI代理應用上的技術定位,是促成投資的主要原因之一;她同時指出,創辦團隊的執行能力與專業度,亦是吸引投資人關注的重要因素。
團隊目前正積極開發語音操作、任務重跑、自動排程等功能,並計畫推出API介面,協助開發者更容易將AI代理整合至自家產品。Gregor Žunič表示:「告訴電腦你要做什麼,它就會幫你完成。」這句話,也正是他們想讓AI真正做到的事。
參考資料:《Techcrunch》、《Y Combinator》、《Tech In Asia》、《Techcrunch》、《The Cryptonomist》、《Siliconangle》

喜歡喝飲料的話多人類。
2011年起《數位時代》開始以Meet社群品牌推動創業家們的交流連結。從新創團隊的採訪報導、創業小聚月會的分享、產業沙龍的分享, 提供創新與創業社群相互分享與媒合的平台。新創團隊採訪請來信:meet@bnext.com.tw