Amazon用AI提高曲線文本辨識,測試準確度超過83%
德江 / 鄭寧編譯
2019-12-27 15:30

(示意圖/來源為Pixabay)

光學文字辨識(OCR),即將手寫或列印文本的圖像轉換為機器可讀文本,是一門可追溯到70年代早期的技術。

但是長期以來OCR演算法一直很難辨識出與水平面不平行的字元,於是Amazon的研發人員開發了一項叫「TextTubes」的技術。這是一個自然圖像中曲線文本的檢測器,可將文本建模為圍繞其中軸線的管狀。在一篇描述他們工作的論文中,合作者聲稱他們的方法在一個通用的OCR基準上達到了最先進的結果。

正如研究人員所解釋的,場景文本通常被分成兩個連續的任務:文本檢測和文本辨識。第一個涉及使用上下文線索來定位字元、單詞和行,第二個是轉錄其內容。兩者都說起來容易做起來難,自然環境中的文本不僅受到變形的影響,而且還會受到視點變化和字體的影響。

該團隊的解決方案是利用文本參考框架的「管狀」表現形式,利用目標文本通常是大小相似的字串聯而成的事實,從而捕獲大部分可變性。與使用易於重疊和容易產生雜訊的矩形和四邊形來捕獲文本資訊的傳統方法相比,它被公式化為一種數學函數,能夠訓練機器學習場景文本檢測器。

研究人員在CTW-1500上評估了TextTubes的性能。CTW-1500是一個資料庫,該資料庫由從自然場景和圖像庫中收集的1500張圖像(每個圖像至少一個曲線實例),超過10000個文本實例組成。同時在Total-Text上進行了評估,Total-Text包含大約1255次訓練圖像、300個測試圖像以及一個或多個曲線文本實例。他們報告說,他們在CTW-1500上以83.65%準確度取得了行業領先的結果,而最接近的方法的準確度為75.6%。

「對一個實例的中間軸和平均半徑進行建模……可捕獲有關實例整體的資訊。」該論文的合著者寫道。「在由單個單詞組成的資料庫上,例如Total-Text,我們的模型能夠實現最先進的性能。在具有行級注釋的資料集上,例如CTW-1500,我們的模型能夠更好地捕獲實例中各個單詞的文本資訊。」

假設有一天,TextTubes能夠投入使用,對於那些高度依賴OCR技術開展業務的企業來說,這可能是一個好消息。據估計,超過80%的數位流程中仍保留著紙張;大約有97%的小企業仍在使用紙質支票。據Grand View Research的資料顯示,這或許就是為什麼到2025年,OCR解決方案市場的價值預計將達到138.8億美元原因。

本文為雷鋒網授權刊登,原文標題為「Amazon研究人員用AI提高曲線文本識別,測試準確度超過83%