經常關注Hugging Face的人或許已隱約感覺,近期的Hugging Face有諸多有關「機器人」的動作,例如2025年4月收購Pollen Robotics,同月推出500美元不到的機器手臂SO-101,5月推出3,000美元的人形機器人HopeJr,以及299美元的互動機器人Reachy Mini,7月再推出300美元的更平易版互動機器人Reachy Mini Lite,原先的Reachy Mini則為449美元。
另外Hugging Face也推行機器人AI模型LeRobot,6月則提出可在Mac電腦上跑的SmolVLA模型,為何Hugging Face在短短數個月內連續提出各種機器人相關的軟硬體?在Hugging Face尚未正式官方說明前,筆者嘗試推敲其佈局策略。
文數影音AI逐漸飽和
已經席捲2年多的GenAI、LLM旋風,極大程度是在文字(含語音)、數字、圖片、影片層面的輸入與再變化,從單純ChatGPT文字輸入、文字輸出,到可以同時文字、影片輸入的多模態(Multimodal)輸入,以及各種可能的輸出,如圖生圖、圖生文、文生圖等,這類的轉換已經到了眼花撩亂。
各位若瀏覽過Hugging Face即可發現,這類的轉換已達50種,自然語言處理類如翻譯(Translation)、問題回答(Question Answering),電腦視覺如文字轉立體(Text-to-3D)、影片生影片(Video-to-Video)等,多模態如影片與文字生文字(Video-Text-to-Text)、任何生任何(Any-to-Any)等。
很明顯的,這方面Hugging Face已經網羅最多的預訓練模型,甚至也包含最豐富的資料集(Datasets,或稱數據集),在模型即服務(Model-as-a-Service, MaaS)領域Hugging Face已是明顯的第一,難見其對手。
NVIDIA開始倡議物理AI
而在2024年NVIDIA技術年會上,NVIDIA開始倡議實體AI(Physical AI),鼓勵各界訓練另一種取向的AI模型,即不再是叫AI模型認識文數影音,而是認識真實世界的光、影、重力、速度等物理特性,訓練完成的AI模型可放入人形機器人、自駕車、無人搬運車內,使這類的自主移動載具能更智慧地在真實世界移動,實現智慧避障、退讓等工作。
NVIDIA提倡實體AI自然是為了刺激更多GPU(AI硬體加速)晶片的銷售,為此加強與提升諸多開發軟體,如NVIDIA Cosmos、NVIDIA Isaac Sim等,方便軟體工程師模擬推演其訓練出的實體AI模型。
消費版的物理AI
到這裡已可以約略看出Hugging Face的想法,Hugging Face與NVIDIA一樣,都在文數影音的GenAI、LLM領域有壓倒性獨占地位地為了,很難在既有領域大幅成長,所以NVIDIA寄望於實體AI(NVIDIA其實也寄望於其他課題,如RAN AI、主權AI等),Hugging Face一樣也望向實體AI。
但是NVIDIA提供的開發工具非常專業,最終訓練出的物理AI模型可能是用於工廠無人搬運車、可能是用於需要高度高全實證的公路自駕車,最簡單的也是迪士尼樂園與遊客同樂的逗趣機器人。
Hugging Face尚無法進入如此專業的領域,但可以從樂趣、家庭、消費取向的實體AI來推動,而且Hugging Face也缺乏機器人模擬推演的專業軟體工具,故以實機實證為主,所以其機器人相關硬體必須便宜才行,因此每一款推出都標榜低價,如299美元、349美元等。
附帶的兩個小目標
如果說Hugging Face是為了將GenAI的成功複製到實體AI領域,但Reachy Mini這類的機器人只能固定在原地,不能移動,就無法與實體AI扯上邊,家用、消費性物理AI說會否牽強些?
對此,若各位進一步觀察,Hugging Face收購的Pollen Robotics已開始推行一款名為Reachy 2的人形機器人,Reachy 2從外觀上即可明顯看出與Reachy Mini共用零件,為了讓所有機器人硬體都能平價化,自然是讓零件盡可能共用,讓量價均攤效益最大化,故Reachy Mini、Reachy Mini Lite某種程度在於平價、衝量,以便讓後續Reachy 2可以連帶平價。
另一點是,就算Reachy Mini不能移動,至少也擴展了Hugging Face在AI家庭化、消費生活化領域的發展,過往與Hugging Face接觸與互動多是透過電腦,從今而後則可與Reachy Mini互動,讓更多一般用戶與Hugging Face建立起連結,使其社群更加擴大,而非侷限在有基本資訊技能的AI體驗者、開發者,有機會擴展延伸到一般AI服務使用者上。
最後,不是有了實體AI就不要現行GenAI了,人形機器人體內也是要放置GenAI模型才能與人交談互動的,自駕車內也要有傳統CV(電腦視覺)類的AI模型來識別交通號誌。
展望後續,未來的AI發展並非是單一走向,更可能是多元走向,既朝更智慧的AGI方向走(今日的AI Agent即是此路線),也朝GenAI+Physical AI的路線走,或有其他路線走,各種發展都值得Maker們持續期待、持續探索。
本文授權轉載自《MakerPRO》,作者:陸向陽,原文標題:推探Hugging Face機器人策略

MakerPRO是一個以推動科技創新實作為願景的社群/媒體,我們致力於和PRO-Maker夥伴協作,在MakerPRO媒體官網發表教學文、分享創新專案與應用,並舉辦各類型交流活動與學習課程,希望讓科技創新的影響力更大、更深遠。