You are now offline.

「鍵盤是古董!」同樣都是AI語音轉文字,新創Wispr為何跟Siri、Alexa不同?

「鍵盤是古董!」同樣都是AI語音轉文字,新創Wispr為何跟Siri、Alexa不同?
Wispr官網
分享
收藏
已完成
已取消

鍵盤其實是個恐龍級的古董,Wispr共同創辦人暨執行長Tanay Kothari認為,是時候讓AI取代這個150多年前設計的工具。

Wispr是總部位於舊金山的AI語音輸入的新創,簡單來說,Wispr希望人們不要再盯著螢幕、用手指打字了,而是運用自家的語音轉文字的AI應用程式Flow,靠說話輸入文字。

繼2025年6月完成由Menlo Ventures領投的3,000萬美元A輪募資後,Wispr在11月又迅速追加了一輪由Notable Capital領投的2,500萬美元募資,估值已經來到7億美元。

但是,語音輸入並不是新題目,甚至是個超級擁擠的賽道,Wispr憑什麼獲得青睞?

語音輸入,是「不是辦法」中的「最好辦法」?

先釐清Wispr要解決的問題是什麼。

雖然我們習以為常,鍵盤其實並不是最佳的輸入工具。腦中誕生一段想法、準備手打鍵盤轉化成文字時,其實會遇到一些摩擦,包含要把口語變成有架構的句子、找到鍵盤上對應的按鍵、調整與修正等等,這限制了我們傳達思緒、意圖和指令給數位系統的速度。

根據Typing.com的研究顯示,員工每天花費大約5小時在打字上。如果,這些時間可以被省下來呢?

最理想的方式是什麼?對Tanay Kothari來說,其實不是語音,而是有點科幻的解法:鋼鐵人。「我最一開始其實是想打造電影《鋼鐵人》中的AI助理賈維斯。」Tanay Kothari笑著說,最好的理想是不用說話,直接將腦神經訊號轉換成文字,因此創業頭3年和共同創辦人暨技術長Sahaj Garg研發了一款穿戴硬體裝置,不過硬體所要投入的資源跟時長,讓Wispr最終還是放棄了。

Wispr共同創辦人暨執行長Tanay Kothari(左)和共同創辦人暨技術長Sahaj Garg
Wispr共同創辦人暨執行長Tanay Kothari(左)和共同創辦人暨技術長Sahaj Garg(右)。 Wispr官網

團隊決定轉向軟體試試看,「但是轉成軟體平台,是一個高風險的賭注。」Tanay Kothari說,過去幾十年來,語音技術充滿炒作,真的有實際效果的產品卻是寥寥無幾,而且競爭激烈程度相當高。

沒想到的是,Wispr的產品Flow發佈後,大約20%的使用者轉為付費用戶,遠高於一般軟體的3%至4%轉換率,證明了Wispr初步的產品市場契合度(Product-Market Fit,PMF)。

講話是講話,文字是文字

Wispr能在語音AI紅海成功的關鍵,跟產品設計的哲學有關。

和蘋果的Siri、亞馬遜的Alexa不同的是,Wispr不是單純的把語音轉錄為文字,還會理解說話的語意,這件事情帶來的差異就是,使用者不用再花時間去除贅詞、修正,或者重新組織雜亂的思緒。

可以回想一下過往使用語音輸入的情境。說話時,我們總是有很多語助詞、停頓、重複贅字,或者中途改變表達順序的時候,以前的語音輸入AI會忠實地將一切記錄下來,變成一段看不懂的句子,可是Flow可以處理人類說話的這些「混亂」,產生乾淨、結構化的句子,例如,當您在訊息中試圖更改會議時間時,傳統工具可能會轉錄成一串混亂的重複:「嘿Aaron,我們五點見,等等,不是,六點。」而新的語音工具則能捕捉意圖並清理成:「嘿Aaron,我們六點見。」

Wispr Flow.jpg
Wispr不是單純的把語音轉錄為文字,還會理解說話的語意,使用者就不用再手動去除贅詞、修正。 Wispr官網

所以Wispr團隊在意的指標,是「零編輯率」(zero-edit-rate)。

傳統聽寫工具或許會聲稱其平均詞彙準確度達到98%,但Kraning指出,即使有98%的準確度,一則約80個詞(五或六句話)的長訊息,仍然有超過80%的機率會出現錯誤。相比之下,Wispr Flow已經實現了超過80%的零編輯率。這個數字仍在持續改進中,並遠優於競爭對手:Flow宣稱其錯誤率約為10%,明顯低於OpenAI的Whisper的27%和Apple原生聽寫功能的47%。

日常能用,比酷炫的AI代理更重要

不過目前看下來,Flow只是一個技術,要變成一個可以收費的產品,還需要進一步的設計,也就是成為能硬實際用到各個應用程式、在後台運作的系統。

Wispr已經發布Flow的Mac應用程式(2024年10月)、Windows應用程式(2025年3月)和iOS應用程式(2025年6月),而且只專注於人們每天重複許多次的任務,例如寫信、回訊息、設置提醒、寫筆記等等。

Wispr Flow.jpg
Wispr的Flow只專注於人們每天重複許多次的任務。 Wispr官網

「用語音預訂Uber或航班,這類應用場景沒什麼用,因為太是一次性頻率低的事件,資料量少、產品價值低。」Wispr的共同創辦人Sahaj Garg說,Flow是日常就會使用的工具,帶來的價值遠遠高於其他AI語音代理,數據顯示,使用者透過Flow每天平均會進行大約100次聽寫、輸入其中72%的字元,且跨越了近70個應用程式和網站。

目前Wispr的營收正以每月50%的速度增長,而且開始進軍企業市場,已經與125家企業客戶簽下付費合約,不過並未透露具體的收費模式。

最新的2,500萬美元募資,也是為了擴大市場佈局,包含推出Android應用程式的測試版、語音模型個人化、企業服務等等,不過Wispr在技術上也還有些挑戰有待克服,例如Flow對背景噪音和口音的敏感度極高,還有忘記上下文的問題,例如用戶在說話中途停頓,應用程式就會忘記前文。

AI時代,模型進步相當快,Flow能否成為這個領域的霸主,就要看Wispr接下來的速度了。

資料來源:《TechCrunch》《next play’s newsletter》《Reddit》《Forbes Technology Council》《Menlo Ventures》

TAGS: # AI
延伸閱讀
本文作者 曾令懷 創業小聚新創線召集人 曾令懷

騎車、拍照、寫寫稿。

2011年起《數位時代》開始以Meet社群品牌推動創業家們的交流連結。從新創團隊的採訪報導、創業小聚月會的分享、產業沙龍的分享, 提供創新與創業社群相互分享與媒合的平台。

新創團隊採訪請來信:vincent.tseng@bnext.com.tw

使用會員功能前,請先登入

  • 收藏文章
了解更多關於創業小聚的資訊,歡迎透過以下服務: