执行 OCR(文字识别)插件

说明使用 OCR(文字识别) 插件、对文档的图像页面的文字进行识别、转换为文本数据的方法。对活页夹,也可以相同方式进行操作。

执行 OCR(文字识别) 的方法

步骤
1.
在 Desk 中选择文档,单击工具栏或任务工具栏的 [OCR(文字识别)] 插件按钮。
补充
任务工具栏的[有用功能(版本9)]选项卡的[执行OCR并转换为Word文档]是在 [OCR高级设置] 对话框中将[输出格式]设置为[Word(*.docx)]的按钮。
2.
单击 [设置]。
3.
设置各项目。根据需要单击 [OCR 的详细设置]。
显示 [OCR高级设置] 对话框。
4.
选择所需选项,单击 [确定]。
返回 [OCR(文字识别) 设置] 对话框。
5.
单击 [确定]。
显示 [OCR(文字识别)] 对话框。
6.
单击 [开始]。
开始处理,在[OCR(文字识别)]对话框显示处理情况。
 
中止OCR处理后,中止时正在处理的文档恢复为原来的文档。已经结束处理的文档不能恢复。
[OCR高级设置] 中选中[指定区域并识别]时,将显示[指定区域并识别]对话框。单击[版面分析],开始自动分析版面,或手动指定区域之后,单击[开始]。
如果在 [OCR高级设置] 对话框中选中 [显示OCR处理的进度],则显示以下对话框,用于显示识别的进度。
补充
  • 也可以对只读文件夹内的文档或活页夹执行。
  • 执行 OCR(文字识别) 时,不能进行 Desk 的操作。
  • 经过 OCR(文字识别) 的页面,保存新的识别结果,放弃原来的识别结果。
  • 一次可识别的字符数在 2 万个字符以内。超过 2 万个字符时将出现错误,处理被中止。此时,如果在进行 OCR 处理之前去除噪声,或者利用 [指定区域并识别] 对话框去除图像或噪声,有时可以正常处理。
  • 执行中发生错误时,显示信息。根据错误类型的不同,您可以取消处理或跳至文档下一页进行处理。执行中未处理的页面的信息,全部处理结束后,在[OCR(文字识别)]对话框的[状态]中显示。
    以下情况将中止处理。
  • 磁盘可用空间不足时
  • 内存不足时
  • OCR 软件出错时
  • 在以下情况下将移至下一页或下一文档处理:
  • 禁止读写的文档时
  • 注释被附加到页上
    (仅限设定为 [使页面自动旋转至可阅读的方向] 时)
  • 禁止文档编辑和转载的DocuWorks文档时
  • 有密码保护的PDF文档时
  • PDF包时
  • DocuWorks文件和PDF文档以外时

指定识别区域

可以指定进行 OCR 处理的区域。
请在 [OCR高级设置] 对话框中选中 [指定区域并识别],然后启动 OCR(文字识别)插件。
步骤
1.
启动OCR(文字识别)时,显示[指定区域并识别]对话框。
如果要自动指定识别区域,则单击[版面分析]。
在显示的文档图像中,自动显示框。
如果手动指定识别区域,则在图像上拖拽创建框。
自动或手动创建框后,选择该框并且拖拽时,可以移动该框的位置或变更该框的尺寸。
2.
单击[开始]。

保存识别结果

请在 [OCR高级设置] 对话框的 [输出到文件] 选项卡中选中 [输出识别结果为文件],然后启动 OCR(文字识别)插件。
可以保存的文件格式包括:文本文件、RTF、Excel 及 CSV、word 文件。