「我們目前生活的世界,是建立在NVIDIA的GPU之上(The world we live in is built on NVIDIA GPUs)。 」 這是NVIDIA執行長黃仁勳(Jensen Huang)日前接受媒體採訪時的發言。
生成式AI襲捲全球,由OpenAI的ChatGPT領軍,大大小小的AI應用正以前所未見的速度冒出,熱潮延燒下,對運算至關重要的GPU成為高價稀缺資源。思科(Cisco)資訊長Fletcher Previn日前更公開表示,「這些NVIDIA晶片是用裝甲車運送過來的。」足以突顯GPU的珍貴。
「我必須說,這場遊戲很殘酷,誰有GPU,誰就是贏家。價格、使用者界面好不好用,這些甚至都不重要,在90%的情況下,擁有GPU資源的人,就是贏得業務的人。」 新創Inference.ai創辦人暨執行長John Yue在談到GPU短缺的情況時表示,「現在你去找公有雲業者要GPU,經常要等1~2個季度,還不一定排得到,而且還要預先支付一大筆金額,這對想做AI的新創與企業來說是一大困難。」
「在AI的時代,基礎設施即服務(Infrastructure as a Service, IaaS)將迎來重大改變,因為大家不再像以前那樣擁有無限資源可以使用,這是產業需要正視的事。」John表示,「而我們,擁有很多算力。」
看好資料量爆炸趨勢,以雲端儲存業務起家,搭上GPU浪潮
打開Inference.ai的網站,映入眼簾的是一整排又多又齊全的NVIDIA GPU晶片,再往下滑,還能看到AMD與 Intel的產品。在捧著錢都搶不到GPU的時代,Inference.ai的GPU晶片,就如同新時代的黃金一般,閃閃發光。
Inference.ai並不是先知,更不是早在多年前就預知今日GPU大缺貨的局面,但卻絕對是在這一領域中的先行者。John與共同創辦人在2019年創立公司時,就選定了「分散式儲存」(distributed storage)的賽道,因此在早期就掌握了許多CPU、GPU資源,才能在AI爆發之際踏上浪尖、乘勢而起。
John來自加拿大,是連續創業家,過去創業的題目也圍繞在硬體、IaaS相關。John說,「幾年前我跟我的共同創辦人決定,創業若要成功,首先要緊跟著大趨勢。」,「當時我們看到最重要的趨勢,是數據正以前所未有的速度激增。而在未來數據只會越來越多,對於儲存、算力的需求只會成長,絕對不會少。」
研究資料印證了John的觀點。IDC報告指出,因為物聯網與雲端運算已成為主流,資料的數量與類別都在快速成長。2014年時IDC就預估,到2020年時,全球的資料量每2年就會翻一倍。
John看準了資料量倍增的趨勢,決定以雲端分散式儲存業務起步。「我們當初的想法很直接:資料快速成長,那麼儲存需求也會同步增加。 然而,資料儲存技術好幾年來沒有長足進步,使用者體驗不夠好,且價格極高。 」
基於這些痛點,John與夥伴與超過2萬個儲存數據中心合作,邀請業者共享閒置的雲端儲存資源。當有使用者要儲存資料時,除選擇公有雲以外,也能選擇分散放在Inference.ai提供的80個不同的伺服器上,除了成本比使用傳統公有雲降低90%以外,更大幅降低資料遺失與被駭的機率。
因為最一開始的選題,加上過去的創業資源累積,讓John早在所有人之先,就掌握了不少閒置的CPU與GPU資源。然而,當時他沒有預估到的是,才短短沒幾年的時間,生成式AI為產業帶來轉折點,GPU變成各企業爭搶的資源,也讓Inference.ai的業務,站上產業最紅的風口。
算力成為AI時代的新貨幣!「GPU即服務」市場興起
AI應用爆發,背後最主要的驅動力就是GPU,在算力短缺嚴重的情況下,「GPU即服務」(GPU as a Service, GPUaaS)順勢興起,也帶動Inference.ai在關鍵時刻處於最好的位置,更為Inference.ai在募資寒冬時,帶來資金活水。 Inference.ai在2023年成功募得400萬美元(約新台1億元)的種子輪投資,由心元資本(Cherubic Ventures)、Maple VC與Fusion Fund投資。
Inference.ai做的是什麼?其實很簡單:將擁有GPU資源的資料中心,與有GPU算力需求的客戶相匹配,並提供租用服務。簡單來說,Inference.ai就像是「GPU的Airbnb」,透過匹配,幫助企業快速找到價格最合理、規格最適合的GPU,讓已經稀缺的GPU資源被更有效的利用,解決GPU算力短缺的燃眉之急。
例如,使用者可以用每小時1.99美元(約新台幣63元)的價格租用到NVIDIA H100晶片,或針對不同的模型訓練需求,選擇租用不同型號的GPU晶片。
這樣的服務,對於急需GPU資源的企業來說,在資源、時間、成本上都有好處。 在資源的取得上,透過Inference.ai,使用者可以立即獲得GPU並進行模型訓練,同時也不需要被綁在特定的GPU規格上,更也不用曠日費時,等待公有雲業者釋出GPU。
在成本上,租用Inference.ai的GPU,則不需自行下重本建置伺服器,而是能以更低的價格、更快的速度進行AI產品開發。整體來說,用戶透過租用Inference.ai的GPU,比起向Google、AWS、微軟這些大公司購買,可以省下82%的成本。
GPU市場3大痛點-資源分配不均、短缺難緩解、資訊不對稱
John觀察到,目前市面上有3大痛點,首先,是 GPU資源嚴重短缺與分配不均。 微軟、Google、AWS等公有雲業者以及擁有AI需求的大企業,已經拿走了大部分的GPU,資源較少的企業有錢也買不到,新創公司更是分不到一杯羹。根據估計,NVIDIA 最新 GPU僅有不到6%是分給新創。
此外,企業若想要做AI模型訓練並開發產品,找公有雲業者要GPU資源得等上1~2個季度,更需要先準數百萬美元,並且事先付款,才有機會取得算力。 對想要投入AI的企業是一大阻礙,對資金吃緊的新創來說,根本就是天方夜譚。
而第二大痛點,是GPU算力供不應求的情況,短期內尚難看到緩解曙光。
儘管全球GPU晶片短缺情況近期有稍微緩解,但卻不是立刻就能完全解決的議題。若想要短缺狀況舒緩,除了GPU 晶片製造商的產能要全速轉起來以外,包括供應鏈如台積電CoWoS先進封裝產能、半導體設備供應商ASML的EUV極紫外光微影曝光設備的產能都要同步提高,而這些問題,目前仍然沒有速成解方。
供給端跟不上,但需求端卻不斷爆發。 各行各業都想趁早發展AI。將AI分為「模型訓練」(model training)與「模型推論」(model inferencing)兩階段,儘管現在大多數公司都還在模型訓練的階段,但John認為,模型推論將在未來12個月內到來,屆時會有更多的公司將已訓練好的AI模型用來預測或產生內容或新產品。而因為AI模型只有在更新時才需要訓練,但AI的推論卻會持續不斷發生,也就是說,當AI推論越來越多,也會需要越來越多的GPU算力。
「在這樣的情況下,一是增加生產,二是讓現有資源更好地被分配。後者就是我們正在做的事情」,John表示,「我們相信,未來隨著GPU規格不斷推陳出新,短缺的情況會一直存在,我們能做的,就是確保所有的資源都能被有效率地分配到需要的人手上。」
儘管市場爆發,但在資訊上,供需兩方仍有相當大的不對稱,這是第三大痛點。
GPU和CPU扮演不同功能,若以運動選手比喻,CPU就如同全能選手,在各種運動項目都表現優秀,但也很可能在任何一項上面都不是最頂尖的。
而GPU就像一個「專才」,被專門設計來有效率地處理某些特定的運算。使用加速運算,就等於聘用了一位專家,而每位專家擅長的任務都不同,「很多人搞不清楚這一點,事實上,大部分人對於GPU理解還是很少。而ChatGPT爆紅不到2年的時間,要所有的技術長都在一夕之間變身GPU專家,是不可能的事。」 John說,現在若企業想知道訓練一個模型需要多少GPU,通常只能上NVIDIA或AMD的網站閱讀規格,然後「拍腦袋」猜測大概需要多少算力。
另外,因為機器學習的不可解釋性,也讓訓練AI模型的過程就如同黑盒子,訓練者無法得知算法的決策方式,更增加了企業在採購算力時的難度與複雜性。
除了在產品上的資訊不對稱以外,通路上的資訊也有相當大的落差。 John舉例,過去,Inference.ai其中一個客戶正在尋找NVIDIA的 L40S晶片,「但那時這批晶片是 NVIDIA 最新產品,只提供給大學實驗室,甚至沒有提供給企業」,「我們的客戶翻遍全世界都找不到這款晶片。於是,他們找上我們。」
很快地,John與團隊找到一間於愛沙尼亞的供應商,最終順利解決了客戶的問題,「如果沒有我們,他們可能永遠無法在第一時間找到這些晶片。我想說的是,就算GPU短缺,並不代表這個產業的資訊落差就已被解決;我們做的,就是幫助供應端的資源被更好地分配,客戶端的需求被滿足。」
此外,為了讓客戶將資源運用在刀口上,Inference.ai更特地開發了專門推薦GPU型號的AI模型「ChatGPU」 ,使用者可依自身需求,事先在Inference.ai的官方網站上免費諮詢。
「ChatGPU」會回答各種模型訓練方面的問題,再根據客戶不同的資金,時間,模型需求等推薦合適的晶片。另外,Inference.ai的專業團隊也會一起進行基準測試(benchmark testing),進一步協助客戶對標出到底需要多少算力、再協助用戶配對並租用最合適的晶片。
加速運算時代來臨,「AI時代的公有雲業者」將崛起
John認為,AI浪潮之下,權利將重新分配,而手握最大資源的,將不再是互聯網時代的公有雲業者,而是 NVIDIA、AMD等新巨頭。在這樣的趨勢下,「AI時代的公有雲業者」也將趁勢崛起,John自信表示,「我很有信心,我們將成為新時代的AWS。」
如同黃仁勳說的,「通用運算」(general-purpose computing)時代已經結束,「加速運算」(accelerated computing)時代正式來臨,而世界與科技產業的生態,也將迎來全新的面貌。可以想見的是,在AI時代,GPU晶片將越來越細分與垂直,尋找算力的挑戰也會越來越大。而在未來,誰能最有效率地分配資源,將會成為新時代的贏家。
本文授權轉載自cherubic,原文標題:踏上 GPU 浪頭的新玩家! Inference.ai 要成為 「AI 時代的新 AWS」

成立於 2014 年,心元資本是致力於全球下一個偉大企業最早投資人的創投機構。心元的核心理念是與敢夢的創業者們為伍,陪伴他們從創業的第一天開始,一起推動夢想成為改變世界的力量。團隊橫跨台北、上海與舊金山,心元在全球建立起緊密的社群連結,幫助創業者以兼具國際觀點的思維與深入當地的市場洞察發展事業。