打造講中文的AI大腦!APMIC 宣布旗下 AI 平台加入冠軍繁中大型語言模型

生成式AI 掀起巨大浪潮,隨著相關應用層面逐漸擴大,全球正面臨一波新的產業革命。NVIDIA 在AI時代中扮演要角,更透過 NVIDIA Inception 新創計畫,扶植全球 15,000 家新創公司,藉由協助他們與 NVIDIA 在技術、業務擴展與行銷等各方面合作,用AI加速產業轉型、共同改變世界。
來自台灣的 AI 新創 APMIC 是 NVIDIA Inception 新創計畫的一員,更是 NVIDA 生成式 A I的獨立軟體供應商(ISV)。APMIC 是一間以自然語言理解(NLU)核心技術出發,由一群對 AI 技術充滿熱情的團隊所成立的,「CaiGunn 開講」則是 APMIC 自主開發的在地化大型語言模型(同時也是語言模型平台),企業人員只要將現有的文章、網站或是文件資料上傳,不須撰寫任何程式,就能打造出最聰明且接地氣的聊天機器人,讓每個員工都能輕鬆能成為AI 「詠唱師」。
在今年 COMPUTEX 中,APMIC 宣布旗下「CaiGunn 開講」平台首發新增「台灣之光」、專為台灣人打造的最新繁體中文大型語言模型 「 Llama-3-Taiwan-70B-Instruct」,採用 Nemo Retriever(NVIDIA 的一系列生成式人工智慧微服務) ,能夠對其擁有 700 億參數的模型(70B)進行檢索增強生成(Retrieval-Augmented Generation;RAG),以讓 AI 更符合台灣人的語境和文化脈絡,並進行相關應用支援。
「Llama-3-Taiwan-70B-Instruct」模型是在 NVIDIA 的 Project TAME (TAiwanese Mixture of Experts)中,由多家廠商努力下的成果,目前台灣繁體中文的SOTA(State-of-the-Art)的冠軍,在繁體中文的評測(使用TMMLU+ 模型)上表現亮眼,分數更勝過GPT4-turbo。近
也是「Llama-3-Taiwan-70B-Instruct」透過大量NVIDA DGX H100 訓練而成,目前 70B 版本適合運行在DGX、HGX 的 H100 系列硬體上。
現在,使用 APMIC所開發的「CaiGunn 開講」模型的企業,已可直接選用在平台上「Llama-3-Taiwan-70B-Instruct」模型選項(使用者可以優先封測至 6 月30日),
企業中的每個員工更能透過 No-Code 的介面來使用此AI模型,自此台灣企業終能擁有屬於自己的、講我們熟悉語言的「AI 數位大腦」。此模型已經由 NVIDIA NIM 優化,以提供更佳的推論速度,更即將推出支援 ASUS、Dell、HPE、Supermicro 等設備環境的版本,為每間企業提供快速導入專屬 AI 大腦的能力,實現卓越運營與創新。
APMIC 創辦人暨執行長吳柏翰(Jerry)指出,在過去,建立大型語言模型(LLM)需要走過許多複雜的流程。從資料輸入開始,企業人員需要進行資料前處理,如 PDF、Word 等格式轉換,把資料存到檔案系統中,同步轉文字放在 NoSQL(非關聯式資料庫);而後,要把資料格式透過 LLM 放到向量資料庫(Vector Database),開始進行 RAG 準備。接下來,要依據資料與準確率開始進行模型微調、指令微調、RLHF(人類意見回饋強化學習)等工作,最後取得模型版本後,讓使用者上傳資料、下提示語(Prompt),再取得最終的AI成果。
「現在,透過APMIC的『CaiGunn 開講』,這些流程可被輕易的自動化,再搭配 Llama-3-Taiwan所 產生的內容成果,輕鬆打造出『插電即用』的大型語言模型平台,讓人人都可以透過自然語言做溝通,讓每個員工都能使用AI、為企業創造價值。」吳柏翰分享。