OCRについて
イメージページの文字は、そのままでは選択したり、コピーしたりできません。イメージをOCR(文字認識)処理してテキストデータに変換すると、その結果を検索したり、コピーしたりできます。
DocuWorksに内蔵されているOCR機能だけではなく、市販のOCRソフトと連携してOCRを実行できます。使用できるOCRソフトは、WinReader PROです。使用するOCRソフトをインストールしてから、
DocuWorksユーザー個別設定を起動して、使用するOCRに「WinReader PRO」を選択してください。
ここでは、内蔵OCRについて説明します。
補足
動作を確認しているWinReader PROのバージョンについては、「リリースノート」を参照してください。
OCR処理について
- 処理時に文字を認識しやすくするため、ノイズ除去および傾き補正をするように設定できます。ノイズ除去および傾き補正結果は、処理後の文書には反映されません。
- 認識領域を設定できます。
- カラーおよびグレースケールのイメージを処理するときに、認識率と速度のどちらを優先するか選択できます。2色(白黒)のイメージページは、常に速度を優先して処理されます。認識率を優先した処理は、白抜きの文字や淡い色の文字、背景の上にレイアウトされた文字などの文字認識に有効です。ただし、速度優先よりもOCR処理に時間がかかることがあります。
補足
OCRは、Deskのプラグインでもできます。複数の文書、およびバインダーに対してOCRをする場合や、文字が読める向きにページを回転してからOCRを実行する場合は、プラグインが便利です。
OCR処理を実行する
手順
1.
2.
各項目を設定して、[OCR(文字認識)]ダイアログボックスの[開始]をクリックします。
[領域を指定して認識]ダイアログボックスが表示された場合は、
認識領域を指定します。
[OCR(文字認識)]ダイアログボックスで[OCR結果を確認する]にチェックマークを付けた場合は、処理後にインフォビューの[OCR結果]タブに処理結果が表示されます。
補足
- ページイメージが傾いていたり読める方向に表示されていない場合、認識率が低くなることがあります。あらかじめ、回転、傾き補正をしておくと、よい結果が得られることがあります。
- OCR済みのページに対してOCRを実行すると、処理を続けてよいか確認するメッセージが表示されます。処理を続けると、すでにページに埋め込まれている認識結果は破棄され、新しい認識結果が上書きされます。
- 一度に認識できる文字数は2万文字までです。2万文字を超えた場合は、エラーになり処理が中止されます。この場合は、OCR処理をする前にノイズ除去をしたり、[領域を指定して認識する]ダイアログボックスでノイズやイメージの部分を領域から外すと、問題なく処理できることがあります。
認識領域を指定する方法
手順
1.
[OCRの詳細設定]ダイアログボックスの[領域を指定して認識する]にチェックマークを付けて、[OK]をクリックします。
2.
[OCR(文字認識)]ダイアログボックスの[開始]をクリックします。
3.
認識領域を自動的に指定する場合は、[レイアウト解析]をクリックします。
表示されている文書のイメージに、自動的に枠が表示されます。
認識領域を手動で指定する場合は、イメージの上でドラッグして枠を作成します。
自動、または手動で認識枠を作成したあとで、枠を選択してドラッグすると、認識枠を移動したり、サイズを変更したりできます。
4.
[開始]をクリックします。
OCR処理が始まります。
OCR結果を編集する
OCR結果を表示して編集できます。文字列を選択して、コピー/切り取り/貼り付け/削除したり、入力したりできます。編集結果は、テキスト選択モードまたはマルチモードでコピーしたときや検索したときに反映されます。
手順
1.
OCR済みのページを文書表示形式で表示して、インフォビューの[OCR結果]タブを選択します。
インフォビューが表示されていない場合は、[表示]メニューの[インフォビュー]を選択します。
OCR処理の結果が表示されます。
2.
表示されているOCR結果を編集します。
OCR結果を選択すると、Viewerの該当箇所が反転表示されます。

文字列を選択して、コピー/切り取り/貼り付け/削除したり、文字を入力できます。ただし、改行の追加や削除はできません。
テキストを編集すると、自動的に編集内容が表示ページに埋め込まれます。
[クリア]をクリックすると、OCR結果がすべて削除されてOCRをしていない状態に戻ります。