OCRについて(Viewer)

イメージページの文字は、そのままでは選択したり、コピーしたりできません。イメージをOCR（文字認識）処理してテキストデータに変換すると、その結果を検索したり、コピーしたりできます。

DocuWorksに内蔵されているOCR機能だけではなく、市販のOCRソフトと連携してOCRを実行できます。使用できるOCRソフトは、WinReader PROです。使用するOCRソフトをインストールしてから、DocuWorksユーザー個別設定を起動して、使用するOCRに｢WinReader PRO｣を選択してください。

ここでは、内蔵OCRについて説明します。

OCR処理について

処理時に文字を認識しやすくするため、ノイズ除去および傾き補正をするように設定できます。ノイズ除去および傾き補正結果は、処理後の文書には反映されません。
認識領域を設定できます。
カラーおよびグレースケールのイメージを処理するときに、認識率と速度のどちらを優先するか選択できます。2色（白黒）のイメージページは、常に速度を優先して処理されます。認識率を優先した処理は、白抜きの文字や淡い色の文字、背景の上にレイアウトされた文字などの文字認識に有効です。ただし、速度優先よりもOCR処理に時間がかかることがあります。

OCRは、Deskのプラグインでもできます。複数の文書、およびバインダーに対してOCRをする場合や、文字が読める向きにページを回転してからOCRを実行する場合は、プラグインが便利です。

OCR処理を実行する

［詳細設定］をクリックして表示される、［OCRの詳細設定］ダイアログボックスで、認識する原稿の言語、段組み、認識領域の指定、および傾き補正を行うかどうかなどを設定できます。

［領域を指定して認識］ダイアログボックスが表示された場合は、認識領域を指定します。
［OCR(文字認識)］ダイアログボックスで［OCR結果を確認する］にチェックマークを付けた場合は、処理後にインフォビューの［OCR結果］タブに処理結果が表示されます。

ページイメージが傾いていたり読める方向に表示されていない場合、認識率が低くなることがあります。あらかじめ、回転、傾き補正をしておくと、よい結果が得られることがあります。
OCR済みのページに対してOCRを実行すると、処理を続けてよいか確認するメッセージが表示されます。処理を続けると、すでにページに埋め込まれている認識結果は破棄され、新しい認識結果が上書きされます。
一度に認識できる文字数は2万文字までです。2万文字を超えた場合は、エラーになり処理が中止されます。この場合は、OCR処理をする前にノイズ除去をしたり、［領域を指定して認識する］ダイアログボックスでノイズやイメージの部分を領域から外すと、問題なく処理できることがあります。

認識領域を指定する方法

認識領域を手動で指定する場合は、イメージの上でドラッグして枠を作成します。
自動、または手動で認識枠を作成したあとで、枠を選択してドラッグすると、認識枠を移動したり、サイズを変更したりできます。

OCR結果を編集する

OCR結果を表示して編集できます。文字列を選択して、コピー/切り取り/貼り付け/削除したり、入力したりできます。編集結果は、テキスト選択モードまたはマルチモードでコピーしたときや検索したときに反映されます。

OCR済みのページを文書表示形式で表示して、インフォビューの［OCR結果］タブを選択します。
インフォビューが表示されていない場合は、［表示］メニューの［インフォビュー］を選択します。

文字列を選択して、コピー/切り取り/貼り付け/削除したり、文字を入力できます。ただし、改行の追加や削除はできません。
テキストを編集すると、自動的に編集内容が表示ページに埋め込まれます。
［クリア］をクリックすると、OCR結果がすべて削除されてOCRをしていない状態に戻ります。