微軟機器學習專案Project Oxford推出語者、影片識別API

外部轉載 36 氪 2015-12-16

據微軟部落格消息，繼開放圖像、人臉、語音、文字識別API預覽版之後，微軟研究院的機器學習專案Project Oxford剛剛又開放了語者、表情與影片識別API。

Image title

機器學習是巨頭近年來的競爭熱點。這種競爭體現在了開源上，今年以來Facebook、Google、微軟、IBM等均先後開源了自己的機器學習系統。開源當然可以造福開發者，但是這背後也有巨頭想打造自身生態體系和吸引人才的動機。

不過，這種開源吸引的是專業開發者，為了壯大生態體系，科技公司還需要靠易用的API和有趣的應用程式吸引開發者和用戶。例如今年風靡全球的How-Old.net傳照片猜年齡的應用就很有趣，吸引了許多媒體關注和使用者參與。

微軟今年在Build 2015大會發佈的Project Oxford就是一個針對應用程式開發者的機器學習開源專案，它提供了一系列的文字、圖像、語音、影片識別的API與SDK，裡面使用的模型都是透過微軟現有其它產品中使用的深度學習和機器學習技術訓練得到的，開發者可以很方便地將功能植入到自己的應用程式裡面。

Project Oxford開放的API包括三大類：視覺、語音與語言。其中視覺方面之前開放預覽的API包括電腦圖像識別、人臉識別，此次新增了表情識別與影片識別。表情識別可透過分析人臉分辨其情緒是快樂、驚喜還是悲傷等；影片識別則可以進行動作識別與影片靜態化處理。

語音辨識在原有的語音辨識基礎上增加了語者識別，即不僅可以知道說的是什麼，還能知道說話者是誰；以及自訂智慧識別服務（CRIS），可針對不同的語言和聲音進行定制識別。語言方面包括了拼寫檢查和語言理解智慧服務（LUIS），後者可為應用程式提供自然語言命令識別服務。

此次新增的兩項API還是有不少可挖掘的應用程式場景。比方說，語者識別API可透過語音辨識使用者或客戶，這可以用來輔助進行用戶身分驗證的工作，提高系統的安全性。或者也可以應用到客服方面，透過通話識別客戶，增強客服效率和客戶體驗。而影片識別API顯然有助於進行影片分析與自動化編輯，比方說檢測影片中的人臉和動作然後進行相應處理等。

感興趣的可到Project Oxford網站試試。

文章授權轉載自：36 氪