[OCRの詳細設定]ダイアログボックス
[OCR(文字認識)設定]ダイアログボックスの[OCRの詳細設定]、[環境設定]ダイアログボックスの[DocuWorks Deskの設定]にある[スキャン取り込み]の[OCRの詳細設定]をクリックすると、表示されるダイアログボックスです。DocuWorksの内蔵OCRを使用している場合に表示されます。
OCR(文字認識)処理の詳細な設定をします。
OCR(文字認識)処理の詳細な設定をします。
[全般]タブ
[認識モード]
認識の速度と、認識の精度の優先度を選択します。
初期値は[標準]です。
初期値は[標準]です。
[認識文字]
[認識言語]
認識する言語の種類を設定します。
初期値はDocuWorksの表示言語と[英語]です。
初期値はDocuWorksの表示言語と[英語]です。
補足
表示言語が中国語(簡体字)または中国語(繁体字)の場合、[中国語(簡体)]と[中国語(繁体)]の両方にチェックマークが付きます。
[空白文字を挿入する]
[言語]で[日本語]のみを選択した場合に有効になる項目です。チェックマークを付けると、原稿にスペースやタブがある場合に空白文字を挿入します。
英語を認識する場合は、常に単語と単語の間に自動的に空白文字を挿入します。
初期値は、チェックマークが付いています。
英語を認識する場合は、常に単語と単語の間に自動的に空白文字を挿入します。
初期値は、チェックマークが付いています。
[英、数、記号を半角で出力する]
[言語]で[日本語]のみを選択した場合に有効になる項目です。チェックマークを付けると、原稿の英字、数字、記号を半角文字で出力します。
初期値は、チェックマークが付いています。
初期値は、チェックマークが付いています。
[原稿レイアウト]
[構成]
認識する原稿を構成する要素を指定します。
初期値は[自動判別]です。
初期値は[自動判別]です。
[段組み]
認識する原稿の段組を指定します。
初期値は[自動判別]です。
初期値は[自動判別]です。
[認識処理の経過を表示する]
認識の経過を表します。
初期値は、チェックマークが付いています。
初期値は、チェックマークが付いています。
[領域を指定して認識する]
ページの認識領域を指定するかしないかを設定します。指定する場合は、文字認識処理の途中で[認識領域の指定]ダイアログボックスが表示され、認識領域を指定できます。OCR(文字認識)の自動レイアウト解析機能によって領域指定を部分的に変更する場合にも利用できます。
[自動的に傾き補正を行う]
認識の前処理として、傾き補正をするかしないかを設定します。傾き補正の結果は文書には反映されません。
初期値は、チェックマークが付いています。
初期値は、チェックマークが付いています。
[ファイル出力]タブ
このタブは、[環境設定]ダイアログボックスの[DocuWorks Deskの設定]にある[スキャン取り込み]で、[詳細設定]をクリックして表示した場合のダイアログボックスには、表示されません。
[認識結果をファイルとして出力する]
OCRの認識結果を、指定のファイル形式でファイルに保存します。
初期値は、チェックマークが付いていません。
初期値は、チェックマークが付いていません。
[出力形式]
認識結果をファイルに出力するときの、ファイル形式を指定します。
初期値は、[RTF (*.rtf)]です。
初期値は、[RTF (*.rtf)]です。
[保存オプション]
[画像出力]
OCR処理時に図領域とした範囲を出力します。[出力形式]で[RTF (*.rtf)] / [Excel (*.xlsx)] / [Word (*.docx)]を選択している場合に、指定できます。
初期値は、チェックマークが付いています。
初期値は、チェックマークが付いています。
[レイアウトを再現する]
テキストボックスを利用して、レイアウトを再現します。[出力形式]で[RTF (*.rtf)]または[Word (*.docx)]を選択している場合に、指定できます。チェックマークを付けない場合は、文字サイズを保持したプレーンテキストが出力されます。このとき、[画像出力]にチェックマークが付いている場合は、画像はページの最後に出力されます。
初期値は、チェックマークが付いています。
初期値は、チェックマークが付いています。
[罫線出力]
認識結果に含まれる罫線をファイルに出力します。[出力形式]に[RTF (*.rtf)]または[Word (*.docx)]を選択している場合で、[レイアウトを再現する]にチェックマークが付いているときに指定できます。
初期値は、チェックマークが付いています。
初期値は、チェックマークが付いています。
補足
下線(アンダーライン)や「表領域」として、設定されていない枠線などが出力されます。表領域の罫線は、チェックマークの有無に関係なく出力されます。
「表領域」とは、[全般]タブの[原稿レイアウト]の[構成]を、[自動判別]、または[表]に指定した場合に表として認識される領域のことをいいます。
「表領域」とは、[全般]タブの[原稿レイアウト]の[構成]を、[自動判別]、または[表]に指定した場合に表として認識される領域のことをいいます。
[ファイルの保存先]
- [OCR処理時に指定する]
1つの文書のすべてのページのOCR処理が完了したあとに、[名前を付けて保存]ダイアログボックスが表示されます。出力ファイル保存先を指定します。
ただし、[ファイル出力単位]で[ページごとに出力]を選択した場合は、1ページのOCR認識処理が完了するごとに[名前を付けて保存]ダイアログボックスが表示されます。
初期値は、チェックマークが付いています。 - [フォルダを指定して保存]
あらかじめ指定したフォルダーにファイルを保存します。
ファイル名は、処理対象の文書のファイル名から拡張子を除いた文字列に、指定の出力フォーマットの拡張子を付けたファイル名になります。
[ファイル出力単位]で[ページごとに出力]を選択した場合は、1ページのOCR認識処理が完了するごとに指定のフォルダーにファイルが保存されます。2ページ目以降は、[環境設定]ダイアログボックスの[DocuWorks Deskの設定]にある[文書操作]の、[文書名末尾の区切り文字]と[文書名末尾の数字の桁数]で設定したファイル名になります。
[ファイル出力単位]
- [文書ごとに出力]
文書1ファイルに対して1ファイル出力します。
初期値は、チェックマークが付いています。 - [ページごとに出力]
文書1ページに対して1ファイル出力します。