关于 OCR(文字识别)插件

图像页面的字符不能直接选择或复制。使用 OCR(文字识别)插件转换为文本数据后,可以对其结果进行查找或复制。
可以通过OCR(文字识别)插件对下列文件进行OCR处理。
  • DocuWorks文件的图像页
  • PDF文档
可以选择多个文件进行处理。也可以同时选择DocuWorks文件和PDF文档。
下面说明内置 OCR 程序。
如果安装时没有安装 OCR 引擎,将无法在 OCR 插件中使用内置 OCR。
OCR 可用来执行以下操作:
  • 可以指定旋转文档,以便在执行 OCR 之前能够阅读文本。也可以指定旋转文档,而不执行 OCR。
  • 可以选择进行噪声去除和倾斜修正,使字符在 OCR 过程中更加清晰可辨。注意,噪声去除和倾斜修正的结果不会反映到处理后的文档中。
  • 处理中可以显示识别处理的进行情况。
  • 可以指定识别部分。
  • 在处理彩色或灰阶图像时,可以指定是识别率优先还是速度优先。双色(黑白)图像页面的处理总是以速度优先。识别率优先的 OCR 处理适合于反白的文字或颜色较淡的文字以及位于背景上的文字。但与速度优先相比,其 OCR 处理需要更长时间。
  • 可以将 OCR 结果保存在 RTF 格式、Excel 格式或 CSV 格式的文件中。
补充
在 Viewer 中也可以进行 OCR 处理。另外,还可以在 Viewer 中编辑 OCR 结果。