OCR(文字認識)プラグインを実行する
OCR(文字認識)プラグインを使用して、文書のイメージページの文字を認識しテキストデータに変換する方法を説明します。バインダーの操作も同じです。
OCR(文字認識)を実行する
手順
1.
Deskで文書を選択して、ツールバーまたはお仕事バーの[OCR(文字認識)]プラグインボタンをクリックします。複数の文書を選択できます。
補足
2.
[設定]をクリックします。
3.
各項目を設定します。必要に応じて[OCRの詳細設定]をクリックします。
[OCRの詳細設定]ダイアログボックスが表示されます。
4.
各項目を設定して、[OK]をクリックします。
[OCR(文字認識)設定]ダイアログボックスに戻ります。
5.
[OK]をクリックします。
[OCR(文字認識)]ダイアログボックスに戻ります。
6.
[開始]をクリックします。
処理が始まり、[OCR(文字認識)]ダイアログボックスに処理状況が表示されます。
OCR処理を中止すると、中止時に処理中の文書は元の文書に戻ります。すでに処理が終了している文書は、元に戻りません。
[OCRの詳細設定]ダイアログボックスで[領域を指定して認識する]にチェックマークを付けると、[認識領域の指定]ダイアログボックスが表示されます。[レイアウト解析]をクリックして自動レイアウト解析をするか、または手動で領域を指定して、[認識開始]をクリックします。
[OCRの詳細設定]ダイアログボックスで[認識処理の経過を表示する]にチェックマークを付けると、認識の経過を表します。
補足
- 読み取り専用フォルダー内の文書またはバインダーに対しても実行できます。
- [前処理のみ実行する]のチェックマークを外して[読める方向にページを自動回転する]にチェックマークを付けた場合は、アノテーションが貼り付けられているページは回転およびOCR(文字認識)されず、次のページの処理へ進みます。
- OCR(文字認識)を実行中は、Deskの操作はできません。
- OCR(文字認識)済みのページは、新しい認識結果が上書きされ、元の認識結果は破棄されます。
- 一度に認識できる文字数は、1ページあたり2万文字までです。2万文字を超えた場合は、エラーになり処理が中止されます。この場合は、OCR処理をする前にノイズ除去をしたり、[領域を指定して認識する]ダイアログボックスでノイズやイメージの部分を領域から外すと、問題なく処理できることがあります。
- 実行中にエラーが発生した場合は、メッセージが表示されます。エラーの内容によって、処理を中止する場合と次の処理へ進む場合があります。実行中に処理しなかったページの情報は、全処理終了後、[OCR(文字認識)]ダイアログボックスの[状態]に表示されます。
以下の場合は、処理を中止します。
- ディスクの空き容量が不足している場合
- メモリーが不足している場合
- OCRソフトのエラーの場合
- 書き込み禁止の文書の場合
- アノテーションが貼ってあるページの場合
([読める方向にページを自動回転する]を設定しているときのみ)
- 文書の編集と転記が禁止されているDocuWorks文書の場合
- パスワードで保護されたPDF文書の場合
- PDFポートフォリオの場合
- DocuWorksファイルでもPDF文書でもない場合
認識領域を指定する
OCR処理する領域を、自動、または手動で指定できます。
[OCRの詳細設定]ダイアログボックスの[領域を指定して認識する]にチェックマークを付けて、OCR(文字認識)プラグインを実行します。
手順
1.
OCR(文字認識)を開始すると、[領域を指定して認識する]ダイアログボックスが表示されます。
認識領域を自動的に指定する場合は、[レイアウト解析]をクリックします。
表示されている文書のイメージに、自動的に枠が表示されます。
認識領域を手動で指定する場合は、イメージの上でドラッグして枠を作成します。
自動、または手動で枠を作成したあとで、枠を選択してドラッグすると、移動したりサイズを変更したりできます。
2.
[開始]をクリックします。
認識結果を保存する
[OCRの詳細設定]ダイアログボックスの[ファイル出力]タブで[認識結果をファイルとして出力する]にチェックマークを付け、OCR(文字認識)プラグインを実行します。
保存できるファイル形式は、テキスト、RTF、Excel、CSV、Wordです。