1992属猴哪一年结婚好:图片文字提取方法

来源:百度文库 编辑:中财网 时间:2024/05/02 08:50:29
 现在许多网站都有电子书下载,常见的格式有exe、chm、pdf等。为了保护作者的权益,这些电子书可以看,但是其中的内容却不能进行复制,因为它就像一幅图片一样。如果我们需要使用这些资料中的文本内容的话,是不是就一定要重新输入一遍呢?当然不用这么麻烦。下面就为大家介绍将这些内容从资料中提取出来的方法。

第一种方法:用SnagIt工具进行文字提取。

      首先使用SnagIt的文字捕捉功能将文字提取出来。SnagIt当前版本为7.02,大小为8903KB,下载地址可以在http://www.skycn.com/soft/2290.html找到,汉化补丁可以在http://www.skycn.com/soft/2291.html找到。启动SnagIt,选择菜单“输入/区域”,选择菜单“工具/文字捕获”,然后我们打开要捕捉的文件窗口,按下捕捉快捷键,选定捕捉区域即可捕捉到文字。

       接着用相应工具重排文字。此时我们发现提取的文字可能会有很多空格或段落错乱等现象,而且字号、字体等不合自己的心意。这时我们可以用熟悉的WPS或Word软件进行重新编排。我们以WPSOffice2003为例看看如何对付提取后文章的编排。

       用WPSOffice2003打开提取文章;然后选择“工具”菜单下的“文字”/“段落重排”,这时你会看到提取文章重新进行排版;接下来选择“工具”菜单下的“文字”/“删除段首空格”命令,使得文章的每段参差不齐的行首空格被删除;再选择“工具”菜单下的“文字”/“增加段首空格”,文章变为正常的书写格式;提取文章一般都留有空段,为删除这些空段,继续选择“工具”菜单下的“文字”/“删除空段”命令,这时文章完全变为我们所要的形式;用你熟悉的界面任意编辑文章吧。

第二种方法:用屏幕截图然后让OCR软件识别。

       打开带有文字的图片或电子书籍,翻到你希望提取的页面,点击键盘上的打印屏幕键(PrintScreen)进行屏幕捕获;打开Windows自带的画图工具,将刚才捕获的屏幕截图,粘贴进去,保存为一个.bmp文件;接着打开刚才保存的文件,在编辑器中进行修正,根据你所要提取的文字进行裁剪,尽量去除不要的部分;最后启动OCR软件,在OCR中打开刚才保存的修改文件,进行文字识别,然后可随心所欲进行编辑。

(耿方圆 中国网友报)资料引用:http://www.knowsky.com/442277.html

OCR软件可以轻易实现,比如清华文通慧视小灵鼠,百度一下即有下载。另外有个尚书七号也不错,引用一下他人给出的下载地址:http://www.4004.cn/abce/image/SHOCR70.zip

使用方法:(来源:http://www.chinaocr.net/show_hdr.php?xname=TVKUIV0&dname=CJQ0JV0&xpos=28)

随着扫描仪的逐渐普及,文档扫描已作为扫描仪的一项主要用途越来越被用户所常用,现在市场上的文档识别软件也有好多种。对识别软件不了解,往往会导致用户朋友事倍功半。下边我们就以中晶 ScanMaker 4850ii随机附送的尚书七号为例,为大家简单介绍一下该类软件的正确使用方法。

图1

    首先,尚书七号将整个OCR的过程明确化了,通过程序的菜单,我们就能够知道整个OCR的过程,主要分为:“文件”、“编辑”、“识别”、“输出”等步骤。

    在文件菜单中,您可以调用扫描仪,或者选择将已经扫描好的图像文件打开。得到图像文件后,用户的工作,就是“编辑“菜单里面所提示的“图像页面的处理”,其中包括图像页的倾斜校正(提供自动和手动实现方法)及旋转等功能。

图2

  处理完毕后,就可以进入“识别过程”,该过程核心是“版面分析”。现在尚书七号的自动版面分析功能很强,面对报纸杂志等复杂情况的版面,也能保持很高的分析正确率。不再需要以往尚书六号里面那样的建议手工划识别范围。也正是这点,大大降低了使用者的工作量。为了方便用户的使用,在“识别”菜单下,也提供了用户在自动版面分析后,通过修改识别范围框的属性,来决定需要识别否的功能。当然,用户还是可以习惯的按尚书六号那样,自己来设定识别区域。当用户设置好后,就可以直接点击“开始识别”的按钮进行文字识别了。

图3

    自动识别完毕,识别结果的“文本窗口”都会弹出,这个窗口能够提供识别结果的校对,为了校对的方便,尚书七号增加了光标跟随显示原图像行的校对方法(如图3出现的黄色提示行的出现)。

    这样提供校对的方法,一眼就能够看到图像原文和识别出文本的差别,方便了用户,降低了用户校对的工作疲劳感。当检查过后确认没有错误,用户就可以选择识别结果的“输出”了,指定的文件格式有:RTF、HTML、XLS、TXT,用户这里可以根据自己的需要选择对应的格式。如果用户是想得到类似原文的识别结果,请选择RTF格式。把RTF格式输出的文件用WORD打开后,会发现几乎保留了原文的所有痕迹,包括原来页面中的彩色图像,都已经保留在WORD中了。原稿效果见图4:

图4

    识别结束后,存为RTF格式保存,WORD打开后的情况见图5:

图5

    通过上面的正确使用习惯,我们便可利用尚书七号或其他OCR软件大幅度提高工作的效率。

图6

    此外,多数OCR软件同尚书七号一样,均提供有多图像页面的处理功能。用户就可以放心的将好几页的文章,统一进行版面处理(只要选择“识别”菜单下的“选择全部文件”就可以做到批处理),识别的结果输出在同一个文件当中,更便于管理和保存。

    另外根据笔者较长时间的使用经验,总结得出的一个技巧与各位分享,希望能对各位有所帮助。如无特殊需求,一般用户只要在扫描驱动软件中,设定分辨率是300dpi,不管是彩色、256阶灰度还是黑白两值,尚书七号或其他OCR软件都可以轻松的识别,且效果最为理想。同时,如果用户只是需要黑白文档,在彩色、256阶灰度方式的扫描,尚书七号也可以自动的转化成黑白两值图做识别,这样的识别效果会更好。