得GPU者得天下！Inference.ai如何讓GPU資源可以重新分配？

「我們目前生活的世界，是建立在NVIDIA的GPU之上（The world we live in is built on NVIDIA GPUs）。」 這是NVIDIA執行長黃仁勳（Jensen Huang）日前接受媒體採訪時的發言。

生成式AI襲捲全球，由OpenAI的ChatGPT領軍，大大小小的AI應用正以前所未見的速度冒出，熱潮延燒下，對運算至關重要的GPU成為高價稀缺資源。思科（Cisco）資訊長Fletcher Previn日前更公開表示，「這些NVIDIA晶片是用裝甲車運送過來的。」足以突顯GPU的珍貴。

「我必須說，這場遊戲很殘酷，誰有GPU，誰就是贏家。價格、使用者界面好不好用，這些甚至都不重要，在90%的情況下，擁有GPU資源的人，就是贏得業務的人。」新創Inference.ai創辦人暨執行長John Yue在談到GPU短缺的情況時表示，「現在你去找公有雲業者要GPU，經常要等1～2個季度，還不一定排得到，而且還要預先支付一大筆金額，這對想做AI的新創與企業來說是一大困難。」

「在AI的時代，基礎設施即服務（Infrastructure as a Service, IaaS）將迎來重大改變，因為大家不再像以前那樣擁有無限資源可以使用，這是產業需要正視的事。」John表示，「而我們，擁有很多算力。」

看好資料量爆炸趨勢，以雲端儲存業務起家，搭上GPU浪潮

打開Inference.ai的網站，映入眼簾的是一整排又多又齊全的NVIDIA GPU晶片，再往下滑，還能看到AMD與 Intel的產品。在捧著錢都搶不到GPU的時代，Inference.ai的GPU晶片，就如同新時代的黃金一般，閃閃發光。

Inference.ai並不是先知，更不是早在多年前就預知今日GPU大缺貨的局面，但卻絕對是在這一領域中的先行者。John與共同創辦人在2019年創立公司時，就選定了「分散式儲存」（distributed storage）的賽道，因此在早期就掌握了許多CPU、GPU資源，才能在AI爆發之際踏上浪尖、乘勢而起。

John來自加拿大，是連續創業家，過去創業的題目也圍繞在硬體、IaaS相關。John說，「幾年前我跟我的共同創辦人決定，創業若要成功，首先要緊跟著大趨勢。」，「當時我們看到最重要的趨勢，是數據正以前所未有的速度激增。而在未來數據只會越來越多，對於儲存、算力的需求只會成長，絕對不會少。」

研究資料印證了John的觀點。IDC報告指出，因為物聯網與雲端運算已成為主流，資料的數量與類別都在快速成長。2014年時IDC就預估，到2020年時，全球的資料量每2年就會翻一倍。

John看準了資料量倍增的趨勢，決定以雲端分散式儲存業務起步。「我們當初的想法很直接：資料快速成長，那麼儲存需求也會同步增加。 然而，資料儲存技術好幾年來沒有長足進步，使用者體驗不夠好，且價格極高。」

基於這些痛點，John與夥伴與超過2萬個儲存數據中心合作，邀請業者共享閒置的雲端儲存資源。當有使用者要儲存資料時，除選擇公有雲以外，也能選擇分散放在Inference.ai提供的80個不同的伺服器上，除了成本比使用傳統公有雲降低90%以外，更大幅降低資料遺失與被駭的機率。

因為最一開始的選題，加上過去的創業資源累積，讓John早在所有人之先，就掌握了不少閒置的CPU與GPU資源。然而，當時他沒有預估到的是，才短短沒幾年的時間，生成式AI為產業帶來轉折點，GPU變成各企業爭搶的資源，也讓Inference.ai的業務，站上產業最紅的風口。

算力成為AI時代的新貨幣！「GPU即服務」市場興起

AI應用爆發，背後最主要的驅動力就是GPU，在算力短缺嚴重的情況下，「GPU即服務」（GPU as a Service, GPUaaS）順勢興起，也帶動Inference.ai在關鍵時刻處於最好的位置，更為Inference.ai在募資寒冬時，帶來資金活水。 Inference.ai在2023年成功募得400萬美元（約新台1億元）的種子輪投資，由心元資本（Cherubic Ventures）、Maple VC與Fusion Fund投資。

Inference.ai做的是什麼？其實很簡單：將擁有GPU資源的資料中心，與有GPU算力需求的客戶相匹配，並提供租用服務。簡單來說，Inference.ai就像是「GPU的Airbnb」，透過匹配，幫助企業快速找到價格最合理、規格最適合的GPU，讓已經稀缺的GPU資源被更有效的利用，解決GPU算力短缺的燃眉之急。

例如，使用者可以用每小時1.99美元（約新台幣63元）的價格租用到NVIDIA H100晶片，或針對不同的模型訓練需求，選擇租用不同型號的GPU晶片。

這樣的服務，對於急需GPU資源的企業來說，在資源、時間、成本上都有好處。 在資源的取得上，透過Inference.ai，使用者可以立即獲得GPU並進行模型訓練，同時也不需要被綁在特定的GPU規格上，更也不用曠日費時，等待公有雲業者釋出GPU。

在成本上，租用Inference.ai的GPU，則不需自行下重本建置伺服器，而是能以更低的價格、更快的速度進行AI產品開發。整體來說，用戶透過租用Inference.ai的GPU，比起向Google、AWS、微軟這些大公司購買，可以省下82%的成本。

GPU市場3大痛點－資源分配不均、短缺難緩解、資訊不對稱

John觀察到，目前市面上有3大痛點，首先，是 GPU資源嚴重短缺與分配不均。 微軟、Google、AWS等公有雲業者以及擁有AI需求的大企業，已經拿走了大部分的GPU，資源較少的企業有錢也買不到，新創公司更是分不到一杯羹。根據估計，NVIDIA 最新 GPU僅有不到6%是分給新創。

此外，企業若想要做AI模型訓練並開發產品，找公有雲業者要GPU資源得等上1~2個季度，更需要先準數百萬美元，並且事先付款，才有機會取得算力。 對想要投入AI的企業是一大阻礙，對資金吃緊的新創來說，根本就是天方夜譚。

而第二大痛點，是GPU算力供不應求的情況，短期內尚難看到緩解曙光。

儘管全球GPU晶片短缺情況近期有稍微緩解，但卻不是立刻就能完全解決的議題。若想要短缺狀況舒緩，除了GPU 晶片製造商的產能要全速轉起來以外，包括供應鏈如台積電CoWoS先進封裝產能、半導體設備供應商ASML的EUV極紫外光微影曝光設備的產能都要同步提高，而這些問題，目前仍然沒有速成解方。

供給端跟不上，但需求端卻不斷爆發。 各行各業都想趁早發展AI。將AI分為「模型訓練」(model training）與「模型推論」（model inferencing）兩階段，儘管現在大多數公司都還在模型訓練的階段，但John認為，模型推論將在未來12個月內到來，屆時會有更多的公司將已訓練好的AI模型用來預測或產生內容或新產品。而因為AI模型只有在更新時才需要訓練，但AI的推論卻會持續不斷發生，也就是說，當AI推論越來越多，也會需要越來越多的GPU算力。

「在這樣的情況下，一是增加生產，二是讓現有資源更好地被分配。後者就是我們正在做的事情」，John表示，「我們相信，未來隨著GPU規格不斷推陳出新，短缺的情況會一直存在，我們能做的，就是確保所有的資源都能被有效率地分配到需要的人手上。」

儘管市場爆發，但在資訊上，供需兩方仍有相當大的不對稱，這是第三大痛點。

GPU和CPU扮演不同功能，若以運動選手比喻，CPU就如同全能選手，在各種運動項目都表現優秀，但也很可能在任何一項上面都不是最頂尖的。

而GPU就像一個「專才」，被專門設計來有效率地處理某些特定的運算。使用加速運算，就等於聘用了一位專家，而每位專家擅長的任務都不同，「很多人搞不清楚這一點，事實上，大部分人對於GPU理解還是很少。而ChatGPT爆紅不到2年的時間，要所有的技術長都在一夕之間變身GPU專家，是不可能的事。」 John說，現在若企業想知道訓練一個模型需要多少GPU，通常只能上NVIDIA或AMD的網站閱讀規格，然後「拍腦袋」猜測大概需要多少算力。

另外，因為機器學習的不可解釋性，也讓訓練AI模型的過程就如同黑盒子，訓練者無法得知算法的決策方式，更增加了企業在採購算力時的難度與複雜性。

除了在產品上的資訊不對稱以外，通路上的資訊也有相當大的落差。 John舉例，過去，Inference.ai其中一個客戶正在尋找NVIDIA的 L40S晶片，「但那時這批晶片是 NVIDIA 最新產品，只提供給大學實驗室，甚至沒有提供給企業」，「我們的客戶翻遍全世界都找不到這款晶片。於是，他們找上我們。」

很快地，John與團隊找到一間於愛沙尼亞的供應商，最終順利解決了客戶的問題，「如果沒有我們，他們可能永遠無法在第一時間找到這些晶片。我想說的是，就算GPU短缺，並不代表這個產業的資訊落差就已被解決；我們做的，就是幫助供應端的資源被更好地分配，客戶端的需求被滿足。」

此外，為了讓客戶將資源運用在刀口上，Inference.ai更特地開發了專門推薦GPU型號的AI模型「ChatGPU」 ，使用者可依自身需求，事先在Inference.ai的官方網站上免費諮詢。

「ChatGPU」會回答各種模型訓練方面的問題，再根據客戶不同的資金，時間，模型需求等推薦合適的晶片。另外，Inference.ai的專業團隊也會一起進行基準測試（benchmark testing），進一步協助客戶對標出到底需要多少算力、再協助用戶配對並租用最合適的晶片。

加速運算時代來臨，「AI時代的公有雲業者」將崛起

John認為，AI浪潮之下，權利將重新分配，而手握最大資源的，將不再是互聯網時代的公有雲業者，而是 NVIDIA、AMD等新巨頭。在這樣的趨勢下，「AI時代的公有雲業者」也將趁勢崛起，John自信表示，「我很有信心，我們將成為新時代的AWS。」

如同黃仁勳說的，「通用運算」（general-purpose computing）時代已經結束，「加速運算」（accelerated computing）時代正式來臨，而世界與科技產業的生態，也將迎來全新的面貌。可以想見的是，在AI時代，GPU晶片將越來越細分與垂直，尋找算力的挑戰也會越來越大。而在未來，誰能最有效率地分配資源，將會成為新時代的贏家。