关于 OCR

图像页面中的文字不能直接选择或复制。可以使用 OCR 将图像页面转换成文本数据,然后在结果中进行查找或复制。

OCR 处理

  • 可以选择进行噪声去除和倾斜修正,使字符在 OCR 过程中更加清晰可辨。注意,噪声去除和倾斜修正的结果不会反映到处理后的文档中。
  • 可以指定识别部分。
  • 在处理彩色或灰阶图像时,可以指定是识别率优先还是速度优先。双色(黑白)图像页面的处理总是以速度优先。识别率优先的 OCR 处理适合于反白的文字或颜色较淡的文字以及位于背景上的文字。但与速度优先的 OCR 处理相比,这种方式需要更长时间。
补充
也可以使用 Desk 中的插件执行 OCR。在处理多个 DocuWorks 文件或活页夹,或在沿可读方向旋转页面后执行 OCR 处理时,插件功能十分有用。

执行OCR处理

步骤
1.
在文档显示格式下,选择[页]菜单中的[OCR(文字识别)]。
通过单击[详细设置]显示[OCR高级设置]对话框,可以设置识别的文档语言、文档列数、指定识别区域以及是否进行倾斜修正等。
2.
设置各项目,单击[OCR(文字识别)]对话框中的[开始]。
如果显示[指定区域并识别]对话框,则指定识别区域
在[OCR(文字识别)]对话框中选中[确认OCR结果]时,处理完毕后,将在信息浏览的[OCR 结果]选项卡中显示处理结果。
补充
  • 页面图像倾斜或未在可读的方向显示时,有时识别率会下降。如果事先进行旋转、倾斜修正,有时可以得到较好结果。
  • 对于经过OCR的页面执行OCR时,将显示确认是否继续处理的信息。如果继续处理,已经嵌入页面的识别结果会被放弃,保存新的识别结果。
  • 一次处理过程所能识别的最大字符数为20,000个。如果试图处理20,000个以上的字符,就会出错并中止处理。此时,如果在进行OCR处理之前去除噪声,或者在[指定区域并识别]对话框中将噪声及图像部分排除在区域之外,有时可以正常处理。

指定识别区域

步骤
1.
在[OCR高级设置]对话框中选中[指定区域并识别],然后单击[确定]。
2.
单击[OCR(文字识别)]对话框中的[开始] 。
3.
如果要自动指定识别区域,则单击[版面分析]。
在显示的文档图像中,自动显示框。
如果手动指定识别区域,则在图像上通过拖拽建立框。
自动或手动建立识别框后,选择该框并且拖拽时,可以移动该框的位置或变更该框的尺寸。
4.
单击[开始]。
开始OCR处理。

编辑OCR结果

可以显示OCR结果并进行编辑。可以选择字符串,进行复制/剪切/粘贴/删除,或输入字符串。在文本选择模式或灵活模式下复制或查找时反映编辑结果。
步骤
1.
在文档显示格式下,打开经OCR处理的页面,在信息浏览中选择[OCR结果]选项卡。
如果未显示信息浏览,请选择[显示]菜单中的[信息浏览]。
显示OCR处理的结果。
2.
编辑显示的OCR结果
选择一个OCR结果后,Viewer的对应区域将反转显示
Viewer的对应区域将反转显示的图像
可以选择字符串,进行复制/剪切/粘贴/删除,或输入字符。但不能增加和删除换行。
编辑文本后,编辑內容将自动嵌入显示页中。
单击[清除]将删除所有OCR结果,恢复至执行OCR处理前的状态。