东关街酒店:国内外六款常用OCR识别软件比较

来源:百度文库 编辑:中财网 时间:2024/04/25 23:42:19
国内外六款常用OCR识别软件比较2011-03-10 10:28

OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。

国内:

汉王 PDF OCR 

汉王PDF OCR V8.1对软件进行全面升级,是汉王 OCR 6.0 和尚书七号的升级版,是一个带有 PDF 文件处理功能的 OCR 软件;具有识别正确率高,识别速度快的特点。有批量处理功能,避免了单页处理的麻烦;支持处理灰度、彩色、黑白三种色彩的BMP、TIF、JPG、PDF多种格式的图像文件;可识别简体、繁体和英文三种语言;具有简单易用的表格识别功能;具有TXT、RTF、HTM和XLS多种输出格式,并有所见即所得的版面还原功能。新增打开与识别PDF文件功能,支持文字型PDF的直接转换和图像型PDF的OCR识别,既可以采用OCR的方式将PDF文件转换为可编辑文档,也可以采用格式转换的方式直接转换文字型PDF文件为RTF文件或文本文件。

清华紫光OCR(TH-OCR)

  TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。

TH-OCR的突出特点:
汉英双语同时混排,识别率最高,居世界领先水平;可以识别黑白、灰度、彩色图像,可以读取多种图像格式;首创对识别结果进行电子文档版面复原功能,所见即所得;首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。

赛酷OCR网络版识别软件

《赛酷OCR网络版》是赛酷科技推出的国内首款网络OCR软件,集复杂版面分析、文字识别,表格识别,公式识别多项专有技术于一体,充分满足了政府公务员、企业经营管理人员、教师学生、科研人员、编辑记者等日常文档录入的需要,极大地提高了工作效率和质量。

国外:

ABBYY Finereader

智能OCR 可以把静态纸文件和 PDF文件转换成可管理的电子数据,可以大大节省时间和精力。关键是这款软件可以识别包括中文在内的186种语言,对翻译行业非常有用,尤其是其中的 PDF 转换功能,可以将纸面和电子的 PDF 转换成 Word 文件,并且文件的原始版面可以很好地保留下来。

Nuance Omnipage Professional

   要将纸张和PDF转换为您能够以最喜爱的PC应用编辑的文件,OmniPage Professional 是最快捷、最准确的方式。利用OmniPage Professional ,可能要花费几个小时重新录入和排版的纸张文件在数秒内即可转变为标准格式的文本文件。对于您获得的文本文件,它可进行更多的处理。不论你希望创建PDF文件的批处理、从填写的电子表格中收集数据还是出于加密目的自动控制文本区域,OmniPage都可以帮您执行这些任务。OmniPage提供转换、编辑、存储和共享所有纸张及PDF文件所需的语音和质量。它是机关工作人员、法律事务所、保险公司以及金融、政府、教育及所有医疗机构的理想选择。
   请勿浪费时间重新创建纸张文件。OmniPage兼备行业领先的99%的准确率、字符准确性以及改进的页面格式识别,使文件格式看上去与源文件恰好相同,并包括完整的文本、表格和图形。您只需要花费更少的时间纠正文件错误,因此有更多的时间来完成其他必要工作。OmniPage利用卓越的准确度来精确识别文件格式,以便您可轻松修改。
     OmniPage是世界上最精确的OCR软件,包括世界上最通用的桌面文件管理软件PaperPort。此外,您可获得该行业的的标准PDF创建软件PDF Create。两种软件无缝整合为全面的文件解决方案。
     利用OmniPage,您可将纸张格式转换为电子版PDF格式,然后收集数据。OmniPage可对所有填写的表格进行批处理,不论是PDF还是纸张打印格式,并且创建一个数据文件,该文件可在电子数据表和数据库程序中打开。电子表格比纸张表格更加便于分发、填写和处理——OmniPage让一切变得轻而易举。

Readiris Corporate

Readiris 是一个文字识别软件,可识别到超过120种不同的语言。迅速转换您的文件或PDF文件成可编辑的文本文件,您可以编辑,共享和存储!简单地用扫描仪、高速扫描仪扫描您的任何文件或导入您的PDF和图像,在较短的时间内获得你喜欢的文字处理、电子表格应用或许多可用的输出应用之一;这样您的纸张文件完全为可编辑的扫描的纸面文档、PDF文件和图像文件的副本工程。

差异:

1、国内的比国外的更新周期长,对于新字体的字体识别较差,易形成乱码,对于新文档格式支持较差。
2、国外的更新快,充分利用当前计算机硬件多核处理器的优势,改进的超线程和新型并行处理算法大幅度缩短页面处理时间,速度令人难以置信地提高。
3、无论哪种,尤其国外的,对两种以上语言混编文档,非主选OCR语言部分识别易产生乱码!
4、若文档中文字经过编码加密或者模糊处理,或者含有表格、数理公式等其他特殊结构的文本文档,所有的OCR识别软件没有一个全能手(包括上述未列出的OCR软件)!
5、ABBYY Finereader与Nuance Omnipage Professional的最大区别是对含简繁中文元素的文档 OCR 识别的准确率上,前者更强些!

使用技巧:
1、对于文档文字经过编码加密或渲染处理的可考虑先转成图片,再找屏幕捕捉识别软件识别。
2、对于文档文字经过模糊处理的可用其他软件转化为某种可调文字对比度的文档,使文字清晰显示后再识别。
3、各个OCR识别软件都有专长,根据文档的结构编码特点选择合适的OCR识别软件。
4、一般的著名的PDF编辑软件自带OCR识别和文档转换功能。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
ABBYY FineReader 10 Corporate Edition 特别版
http://hi.baidu.com/风渡无痕/blog/item/3f1d9cede0e63926269791a8.html
ABBYY FineReader 11 Professional Edition 特别版
http://hi.baidu.com/%B7%E7%B6%C9%CE%DE%BA%DB/blog/item/58b657614448a65feaf8f84e.html
ABBYY FineReader 11 Corporate Edition20110819 特别版
http://hi.baidu.com/风渡无痕/blog/item/a1213325e302be28c9955930.html
ABBYY FineReader 11 Corporate Edition 201101102特别版于2011年11月7日free pardon
http://hi.baidu.com/风渡无痕/blog/item/79b85c58a6823a362934f004.html