光學字符識別(英語:Optical Character Recognition,縮寫:OCR)是指對包含文本內容的圖像或視頻進行處理和識別,並提取其中所包含的文字及排版信息的過程。例如,一個常見的應用是將包含文檔圖像的不可編輯狀態的 PDF 文檔通過 OCR 技術識別後,轉換為可編輯狀態的 Word 格式文檔[1]。
通常來說,根據不同文本內容的特性而言,OCR 技術的應用場景大致可分為以下幾類:
- 印刷文本識別:印刷文本通常指報刊、雜誌、文檔、小票等使用現代計算機字體編排並印刷的文本內容。這類文本內容通常具有清晰一致的字體、間距等,因此識別技術相對成熟,並被廣泛應用於紙質檔案、報刊的數字化上[2]。
- 手寫文本識別:相較於具有固定字體的印刷文本而言,手寫文本往往根據不同的書寫者以及書寫工具會具有極大的變化,因此其識別難度相較於印刷文本而言要更高。手寫體識別可以幫助用戶快速將手寫的筆記內容數字化輸入到計算機中,也被用在一些電子備忘錄中來對用戶的手寫筆記內容進行檢索[3]。此外,由手寫文本識別進一步衍生的一個應用則是簽名筆跡認證,這類方法用於比對簽名的真實性。
- 公式文本識別:數學公式通常由大量符號及數字組成,由於根式,分式等規則的存在,數學公式往往存在二維結構,即並不能保證識別的順序一定符合固定的閱讀順序。因此,數學公式的 OCR 模型往往顯著有別於常規的自然語言文本 OCR 處理技術。通常來說,數學公式的 OCR 識別需要藉助使用 LaTeX 等結構化的文檔標記語言來實現,即,OCR 給出的輸出是一組 LaTeX 標記符號[4]。
- 場景文本識別:場景文本識別,有時也被稱作通用文本識別技術。這類識別技術能夠對任意場景下的圖片中包含的任意形式的文本進行識別,包括但不僅限於:街邊商鋪的招牌、超市內商品中的文本、合影中人物衣着上的文本、城市建築上的商標名稱等等。這類技術已經被應用到了許多應用中,例如智能手機中允許搜索或提取相冊中帶有文本內容的圖像[5][6],聊天軟件中允許直接複製對方發送圖片中的文本內容等[7]。
- 古籍文本識別:古籍文檔與現代印刷的排版和布局通常具有很大的差別,例如,閱讀順序可能自上而下,自右向左等。因此,使用基於現代文檔數據開發的 OCR 技術和模型在包含這些內容的圖像上的識別效果往往不夠好。因此,在對大量古籍進行數字化保護的過程中,催生了專門針對該類型文檔內容進行識別的 OCR 技術[8]。
過程
對於不同的圖像格式,有着不同的存儲格式、不同的壓縮方式,目前有OpenCV、CxImage等。
如今數碼攝像頭拍攝的圖片,大多數是彩色圖像,彩色圖像所含信息量巨大,較為不適用於OCR技術。
對於圖片的內容,我們可以簡單的分為前景與背景,為了讓計算機更快的、更好地進行OCR相關計算,我們需要先對彩色圖進行處理,使圖片只剩下前景信息與背景信息。二值化也可以簡單地將其理解為「黑白化」。
對於不同的圖像,噪點的定義可能不同,根據噪點的特徵進行去噪的過程,稱為降噪。
由於一般用戶,在拍照文檔時,難以拍攝得完全符合水平平齊與豎直平齊,因此拍照出來的圖片不可避免的產生傾斜,這就需要圖像處理軟件進行校正。
將文檔圖片分段落,分行的過程稱為版面分析,由於實際文檔的多樣性、複雜性,此步驟目前仍待優化。
由於拍照、書寫條件的限制,經常造成字符粘連、斷筆,直接使用此類圖像進行OCR分析將會極大限制OCR性能。因此需要進行字符切割,即:將不同字符之間分割開。
早期以模板匹配為主,後期以特徵提取為主。由於文字的位移、筆畫的粗細、斷筆、粘連、旋轉等因素的影響,極大地影響特徵提取難度。
人們希望識別後的文字,仍然像原始文檔圖片那樣排列,段落、位置、順序不變地輸出到Word文檔、PDF文檔等,這一過程稱為版面還原。
根據特定的語言上下文的關係,對識別結果進行校正。
將識別出的字符以某一格式的文本輸出。
發展歷史
OCR的概念是在1929年由德國科學家Tausheck最先提出來,並申請了專利。[來源請求]後來美國科學家Handel也提出了利用技術對文字進行識別的想法。[來源請求]中國最早的OCR商業應用是由科學家王慶人教授在南開大學開發出來的,並在美國市場投入商業使用。[來源請求]日本在20世紀60年代開始研究OCR識別理論,開發了郵政編碼識別系統。[來源請求]
主流實現
參考來源
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.