使用者、文字工作者注意！Dropbox 推出深度學習結合 OCR 讓你提早下班

36氪 2017-04-14

ShutterStock

雲端共享及同步檔案服務商 Dropbox 今天披露了更多支援光學字元識別（Optical Character Recognition, OCR）功能的技術細節，已經為 Dropbox Business 付費的企業員工可以在Android和iOS應用程式中使用該功能。

根據批露細節，使用者的使用流程將會使用行動裝置上的相機掃描文件檔案後，光學字元識別功能將會啟動。應用程式會根據需要裁剪或旋轉文檔，然後將其保存為 Dropbox 中的 PDF 檔案形式。

其實早在去年 8 月，Dropbox 表示正在使用電腦視覺來檢測應用程式掃描文件檔案。

與 AI 深度學習結合的 OCR 技術已經不是新鮮事，GitHub 上的開源軟體可以用於兩者結合，Google 在Google 街景圖像中也運用了機器學習和 OCR 技術。

OCR 系統的初代版本採用市售軟體開發工具包（SDK）。Dropbox 選擇使用自己的數據包以節省資金並提高準確性，因為市售系統主要是為實際的硬體掃描器打造，而不是為行動裝置上使用相機的掃描器。

Dropbox 利用使用者數據訓練系統

Dropbox 的軟體工程師 Brad NeubergNeuberg 表示，Dropbox 需要收集使用者上傳一部分圖像或文件，例如收據、發票、信件等。為了收集這些資料數據，公司事先徵得使用者的同意。如果使用者同意，那麼這些文件及相關資料一定會被保密。

Dropbox 對使用者捐贈的數據採取各種安全措施，比如絕不會將數據保留在本地部署的伺服器上，保持持續並廣泛的蒐集分析資料、部署強大的身份驗證訪問數據措施等。

為了預測文檔中特定單字的剪切文本，Dropbox 透過卷積神經網路，然後是雙向長時間短期記憶（LSTM）網路發送圖像，最後連接時間分類（CTC）系統。該系統部分依賴於 Google 的 TensorFlow 開源深入學習架構。為了加強這個系統，Dropbox 以虛構的數據做為參考，然後以簡單的方式進行了轉換。

Dropbox 已經脫離了亞馬遜網路服務（AWS）的公共雲端，並使用自己的數據中心基礎架構。此外，Dropbox 已經開始使用圖形處理單元（GPU）加速的 G2 虛擬機（VM）實例對其模型進行了培訓，並儲存儲了一些數據在 AWS S3 服務中。為了進一步改進模型，Dropbox 訓練了小數量的圖像單詞。然後，從預測單字跳轉到處理整個文檔。

本文授權自《36 氪》，作者：韩旭
原文標題：估值40亿美元的Dropbox又为用户带来新功能：AI识别扫描文档