OCR(光学字符识别,也称文本识别)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在该识别过程中会将文档的文本以及字符转换为可用于数据处理的代码。无论是打印的文字还是手写文字,都能使用OCR进行识别。
如果您收到杂志报纸、书籍或合同,想将它们输入到电脑,那您可选择通过OCR进行快速识别转换,这样您就无需手动输入。另外,如果您收到的PDF文件是由扫描仪输入的,即使您将其转换为Word格式,您也不能进行文字编辑,它实际上就是一张图片。为了从扫描的文档、相机图像或仅包含图像的PDF中提取数据并重新使用数据,您需要借助专业的OCR软件。
OCR背后的操作原理
当您使用OCR文字识别软件进行识别时,它会先分析文档图像的结构,将页面划分为多个板块,比如文本块、表格、图像等。当完成单词、字符的分类后,程序会将它们与一组图像进行比较并提出众多的假设。通过处理概率假设之后,程序最终会作出决定,向您展示可识别的文本。
OCR在识别字符时是基于以下两种算法:
- 模式识别 — 向OCR软件提供各种字体和格式的文本示例,然后与扫描文档中的字符进行比较。
- 特征检测 — OCR软件中具有特定字母或数字特征的规则,以此来识别扫描文档/图片中的字符。其中的特征规则可以包括字符中用于比较的斜线、交叉线或曲线的数量。例如,大写字母“ A”可以存储为两条斜线,它们与中间的水平线相交。
OCR技术的最大优点是节省时间,可避免手动输入文字的错误并减少工作量。它可解决纸质文件无法进行进一步编辑的问题,例如文件压缩、合并、删除文字、新增图片等。将纸质文件进行数字化处理,可以更好地对数据进行管理和保存,安全性更高。
OCR可以使工作流程更加简化和易于处理,因此大多数公司都将使用OCR软件。如何选择一个好的OCR软件?本文将介绍9款免费好用的OCR文字识别软件,它们可以帮助您快速地处理文件。
都叫兽™ PDF转换软件集成先进的OCR(光学支字符识别)技术,可将扫描所得的PDF转为可编辑的文档格式,获取更多可编辑的文件信息,大大提升工作效率。都叫兽™ PDF转换软件可将PDF格式的文件转换为Word / Excel / PowerPoint / EPUB / Image / HTML / TXT等常见格式,速度高达200页/分钟。除了PDF文件,都叫兽™ PDF转换软件还能将图片文件中的文字转换成文本格式,也支持一键批量转换。
此外,都叫兽™PDF转换软件还支持英/法/德/意/西/葡/中/韩/日等语言文字的转换,在OCR模式下,选择对应的识别语言,可大大提高字符识别的正确率,转换效率极高,即使是电脑初学者也能够轻松搞定。
支持的操作系统:Windows 10/8.1/8/7/Vista/XP(32位和64位)。
优点:
- 可支持多种语言文字,安装新语言也十分简单。
- 支持PDF文件和图片识别。
- 可批量处理文件。
- 文字识别精准度高。
- PDF编辑功能。
缺点:
- 只支持Windows系统。
Microsoft OneNote是一个免费的跨平台办公程序,主要是用于记录笔记。用户可以随意输入文字、创建表格甚至是插入图片。创建的笔记还可以与其他授权的OneNote用户进行共享。值得注意的是,OneNote还支持使用OCR功能。通过该OCR功能,您可以识别、复制图片中的文本,并将其粘贴在笔记中,以便您可以对字词进行修改。
在实际操作时,您需将图片插入到OneNote中,然后右键单击图片,然后单击“复制图片中的文本”。这样OneNote就已经将文本保存到剪贴板,在需要粘贴的位置上按 Ctrl + V即可。如果您是要从打印输出的文件中提取文本,操作也是相同的,右键单击页面,点击“复制此打印输出页中的文本”即可。
支持的操作系统:Windows 10/8.1/8/7/Vista/XP、Mac系统。
优点:
- 处理简单文本图像时,精度达到90%以上。
- 支持识别扫描的 PDF和图像。
- 易于使用。
- 免费使用。
缺点:
- 读取表格图像或其他复杂文件中的文本时,精准度低。
- 不能批量处理文件。
- 有时会无故崩溃。
SimpleOCR是一个不错的OCR识别软件,可轻松将扫描的图像转换为文本或Word文档。这是一款免费的OCR识别软件,对于扫描、打印的图片,它是不设限制,可做到完全免费。但是,如果是手写文字的图像则会有限制,它只提供14天的免费试用期。SimpleOCR有一个内置的拼写检查器,可辅助您检查转换后的文本。另外,您还可以将软件设置为直接从扫描仪读取,该软件输出的文档格式可选DOC或TXT。
与Microsoft OneNote一样,SimpleOCR识别的精准度受图片的质量影响。图片质量越高,识别精准度就越高;反之,在识别模糊不清的图片时,出错率会比较高。
支持的操作系统:Windows 10 / 7 /8 /XP /Vista。
优点:
- 具有拼写检查器,可逐个文字进行修订。
- 支持单个文件和批量文件两种处理模式。
- 免费使用。
缺点:
- 不支持直接复制/粘贴,仅支持导出到Word或文本文档。
- 用户操作界面简陋过时。
- 只能识别三种语言。
- 没有字体和格式检测。
- 只支持输入图片(TIFF,JPG,BMP)进行识别,不支持输入PDF。
Boxoft Free OCR是免费的OCR识别软件,可帮助您从各种图像中提取文本,转换为可编辑的电子文档。它支持多种语言,包括英语,西班牙语,意大利语,荷兰语,德语,法语,葡萄牙语,巴斯克语等等。另外,它还可以与多种类型的扫描仪进行直接连接,这样您可通过扫描纸质文档,然后直接从扫描出的图像中提取文本。
Boxoft Free OCR有内置的文本编辑器,即使在没有Microsoft Office软件的情况下,您也可以通过它来编辑OCR识别出来的文本。该软件还提供了校正PDF页面、修剪、旋转等优化功能。
支持的操作系统:Windows 2000/2003 / XP / Vista / 7 / 8 / 10。
优点:
- 可定义输出的页面范围。
- 操作简单,易于使用。
- 识别多种语言的字符。
- 可并排窗口直观地编辑OCR文本。
缺点:
- 仅支持Windows系统。
- 最近几年未更新,用户体验已过时。
- 该软件无法识别手写图片的内容。
- 不支持PDF文件。
Free OCR是Windows OCR程序,是使用由HP创建并由Google维护的Tesseract引擎,OCR文字识别精准度较高。它除了可以很好地识别PDF扫描件之外,还支持TWAIN设备,例如数码相机和图像扫描仪。此外,它支持几乎所有已知的图像类型、传真文档和多页TIFF文件。该软件的操作界面简洁,简单易用。Free OCR软件支持的输出文本类型是纯文本,因此您只能是将文本复制到要粘贴的文档中。
支持的操作系统:Windows 2000/2003 / XP / Vista / 7 / 8 / 10
优点:
- 免费使用。
- 可以与任何类型的扫描仪一起使用。
- 它允许放大图像中的局部区域。
- Tesseract OCR引擎具有良好的准确性。
缺点:
- 只能识别PDF文档的首页。
- 每小时限制上传10张图片/文档。
- 仅支持文本输出。
- 不保留文本格式。
Easy Screen OCR是一款简单易用的PC屏幕截图OCR识别软件,其配备了强大的Google OCR引擎,可更为准确快速地将图片转换为可编辑的文本。与其他软件不同的一点是您无需上传任何内容,只需捕获屏幕的一部分内容,就可将其识别并复制其中的文本。另外,您还可以将其翻译为其他的语言。
该软件可支持识别全球100多种语言,支持20种语言的翻译。需要注意的是,该软件的最新版本(1.4.2及更高版本)在使用20次后需要付费。但是,该软件的旧版本仍然可以免费使用。
支持系统:Windows 10/8.1/8/7/Vista/XP、Mac系统。
优点:
- 易于使用。
- 支持两种OCR模式,在Google OCR模式下可识别100种OCR语言。
- 可将识别的文本直接翻译为其他语言。
缺点:
- 该OCR识别仅支持软件捕获的屏幕截图。
- 无法将提取的文本转换为其他文档格式。
gImageReader是Google OCR引擎tesseract的一个简单的Gtk / Qt前端,在使用该软件前,您还需下载并安装Tesseract。该软件可以对打印的文档和手写内容进行识别,同时您也可以选择手动或自动识别。该软件支持批量处理图片和文档。另外,在识别完成后,它会在旁边显示识别的文本图像,这样您可实时比较和修正。除此之外,它还提供了多种工具,比如拼写检查器等,方便您在后期对文本进行细致的检查。
支持的操作系统:Linux、Windows。
优点:
- Tesseract OCR引擎具有良好的精准度。
- 可以手动选择和调整OCR区域。
- 支持JPEG,GIF,PNG,TIFF图像、PDF文件输入。
缺点:
- 仅支持TXT文本输出。
- 不支持Mac系统。
- 需要安装新语言时,操作会比较复杂。
Free OCR to Word软件是一个简单易用并具有基础功能的OCR程序,文本识别的精准度较高。它将纸质文档/图像转换为完全可编辑和可搜索的Word文档。而且它可以与所有主流类型的扫描仪相连接,使您可以直接将所有纸质文档,杂志,报告和表格扫描到该软件中,以进行图像到文本的转换。数字化文档后,可以方便您备份和共享文档。该软件支持从多种图像中提取文本甚至是不常见的图像格式,其中包括JPG / JPEG,TIF / TIFF,BMP,GIF,PNG,EMF,WMF,JPE,ICO,JFIF,PCX,PSD,PCD,TGA等。
支持的操作系统:Windows、Mac系统。
优点:
- 操作界面简洁,易于使用。
- 可以与所有主要类型的扫描仪连接。
缺点:
- 没有文字格式识别。
- 不支持PDF和多页文件。
- 无法设定文字语言,仅支持英语。
PDFMate PDF Converter是一款免费的PDF格式转换器,除了转换PDF格式之外,它还提供OCR识别功能。使用该OCR功能,您可将扫描的文件转换为可编辑的文本或Microsoft Word文件。在将扫描的PDF文件或图像添加到软件时,您需移至高级设置中以启用OCR。需要注意的是,该OCR功能是有限制的,只能识别不超过3页的文档。PDFMate PDF Converter软件还提供创建,编辑,转换和合并PDF文件的功能,以帮助您提高工作效率。
支持的操作系统:Windows、Mac系统。
优点:
- 支持批量转换,转换速度较快。
- 支持识别多国语言。
- 提供其他PDF编辑功能。
缺点:只能识别3页以内的文档
上面已介绍了多种OCR软件,您可按照自身需求来选择其中一种。下面将以都叫兽™PDF转换软件为例,介绍PDF扫描件与图片转换成文字的具体操作步骤。
1、将PDF扫描件转换成可编辑的文件格式
具体的操作步骤如下:
① 安装好软件后,点击“转换PDF”。
② 点击“添加文件”,导入扫描的PDF文件。
③ 点击要转换的文档格式,如“Word”。然后选择软件左下角的“启用OCR”,然后选择一种OCR文字识别模式,例如“A:识别图片或者PDF扫描件里的文字”。
Tips选择启用OCR后,都叫兽™ PDF转换软件会提供三种OCR文字识别模式,您需选择其中一种:
- A:识别图片或者PDF 扫描件里的文字:这个选项就默认PDF页面的文字都是在图片/扫描图上,程序会直接使用OCR功能(选择对应的语言效果会更佳)识别文件上的文字然后转输出。
- B:识别内置字体(避免乱码):这个选项默认PDF页面的文字都是使用内嵌字体,程序会将这些字体转成图片,再使用OCR功能(选择对应的语言效果会更佳)识别文件的文字转换输出。
- A+B(更慢):程序自动识别文件内的字体是图片还是PDF内嵌字体,然后再进行转换输出。但是识别比较耗时,转换的时间也会更加长。
④ 最后,选择文件的保存位置,点击“转换”即可完成操作。
2、将图片转换成可编辑的文件格式
具体的操作步骤如下:
① 同样的进入步骤,选择“PDF转换”后,直接点击“OCR”功能。
② 点击“添加文件”,添加要转换的图片,然后在输出设置下,选择输出文件的保存位置。
③ 点击“OCR语言”,选择与图片所相应的语言;还有选择图片方向。
④ 最后,点击“转换”。该软件默认转换的文档格式为TXT格式。
总结
本文总共介绍了9款免费的OCR文字识别软件,每个软件自身都存在着一定的优势和劣势。但是在功能多样性与文字识别准确率上,都叫兽™PDF转换软件相比其他OCR文字识别软件要更加优秀。如果您还需要转换PDF文件格式或编辑PDF文件,那都叫兽™PDF转换软件也能提供帮助。