You are now offline.

微軟語音辨識技術突破重大里程碑:對話辨識能力達人類水準!

紀品志
紀品志 2016-10-19
微軟語音辨識技術突破重大里程碑:對話辨識能力達人類水準!
分享
收藏
已完成
已取消

微軟公司語音辨識技術近日跨越了重大里程碑,在對話字詞辨識的能力已達到與人類相當的水準。

微軟人工智慧團隊週一發表了一篇語音辨識系統的論文。報告中指出,微軟語音技術在 Switchboard 對話語音辨識的詞錯率為 5.9%(Switchboard 是美國國防高級研究計劃局資助蒐集的電話對話語料庫,常用於語言研究),比上月破紀錄的成果 6.3% 又再降低,已與專業人工聽寫的錯誤率相當。

微軟首席語音科學家黃學東表示:「我們已達到與人類相當的能力,這是歷史上的重大成就。」當日凌晨 3 時 30 分,電腦首度在對話字詞辨識達到與人類相同水準,對於研究語音辨識超過三十載的黃學東而言,這一刻是夢想成真。

語音辨識技術的突破,也將會大大增進 Xbox、語音轉文字輔助工具、以及個人數位助理 Cortana 等應用產品的功能。

限編輯使用_微軟語音辨識研究團隊_06-research-team-20161013-lowres-
微軟語音辨識研究團隊 微軟官網

神經網路及微軟開源工具 CNTK 推進語音辨識技術發展

語音及對話研究團隊負責人 Geoffrey Zweig 認為,成功的原因在有計劃地將最新神經網路技術用於系統各個層面。團隊使用了微軟計算網路工具包(Computational Network Toolkit,CNTK),是微軟自家開發的深度學習研究工具,已在 GitHub 開源釋出。黃學東也表示,CNTK 能跨多部電腦 GPU 快速處理深度學習演算,大幅加速了研究進行的速度。

儘管語音辨識技術近年突飛猛進,仍然有許多方面尚待突破。Zweig 說,研究人員正著手研究如何讓語音辨識在真實環境下(例如在派對或高速公路上等背景噪音很大的環境)也能順利運作。此外,也將研究多人說話時,分別標示各個說話者姓名的方法,以及辨識不同年齡、口音等各種類型的聲音。

人工智慧長期目標:從「辨識」到「理解」

長遠來說,研究人員不只是要教電腦辨識人口中發出的聲音訊號,而是要讓電腦能真正理解人所說的話,使人工智慧能夠依指示回答問題或進行動作。

微軟人工智慧研究副總監 Harry Shum 說,我們漸漸從「我們必須了解電腦」的世界,走向「電腦必須了解我們」的世界。不過,他也提到,我們離真正的人工智慧還很遠。如果要讓電腦能真正理解所說所見,仍然有很長一段路要走。

本文授權載自:數位時代,參考來源:MicrosoftarXiv
文章代表圖:Jamin Gray

推薦閱讀:

本文作者 紀品志 紀品志

《數位時代》外電編譯

使用會員功能前,請先登入

  • 收藏文章
了解更多關於創業小聚的資訊,歡迎透過以下服務: