OCR(文字認識)プラグインについて
イメージページの文字は、そのままでは選択したりコピーしたりできません。OCR(文字認識)プラグインを使用してテキストデータに変換すると、その結果を検索したりコピーしたりできます。
OCR(文字認識)プラグインでは、次のファイルをOCR処理できます。
- DocuWorksファイルのイメージページ
- PDF文書
複数のファイルを選択して処理できます。DocuWorksファイルとPDF文書を同時に選択することもできます。
OCRソフトとの連携について
DocuWorksファイルの場合は、DocuWorksに内蔵されているOCR機能だけではなく、市販のOCRソフトと連携してOCR(文字認識)プラグインを実行できます。使用できるOCRソフトは、WinReader
PROです。使用するOCRソフトをインストールしてから、DocuWorksのユーザーの個別設定で使用するOCRソフトに設定してください。
PDF文書の場合は、内蔵のOCR機能だけを使用できます。
補足
動作を確認しているWinReader PROのバージョンについては、『リリースノート』を参照してください。
OCR(文字認識)プラグインについて
ここでは、内蔵OCRについて説明します。
インストール時にOCRエンジンをインストールしなかった場合は、OCR(文字認識)プラグインで内蔵OCRが使用できません。
OCR(文字認識)では、次の操作ができます。
- OCR処理の前処理として、文字が読める向きに回転するように設定できます。また、OCR処理はしないで、回転だけ実行することもできます。
- 処理時に文字を認識しやすくするため、ノイズ除去および傾き補正をするように設定できます。ノイズ除去および傾き補正結果は、処理後の文書には反映されません。
- 処理中に、認識処理の経過を表示できます。
- 認識領域を設定できます。
- カラーおよびグレースケールのイメージを処理するときに、認識率と速度のどちらを優先するか選択できます。2色(白黒)のイメージページは、常に速度を優先して処理されます。認識率を優先した処理は、白抜きの文字や淡い色の文字、背景の上にレイアウトされた文字などの文字認識に有効です。ただし、速度優先よりもOCR(文字認識)処理に時間がかかることがあります。
- 認識した結果を、テキスト形式、RTF形式、Excel形式、およびCSV形式のファイルとして保存できます。
補足
OCR処理はViewerでもできます。また、ViewerではOCR結果を編集できます。