免费的在线OCR识别工具：如何识别PDF的扫描件？

吴川 2020-5-28 华南区技术负责人

最近由张娜在 2021-2-18进行了更新

概要
您想要将PDF的扫描件快速转换成可编辑的文档格式吗？那就须通过OCR软件进行转换！本文将详细说明什么是OCR技术，以及介绍免费的在线OCR识别软件。

一、关于OCR

1、什么是OCR
2、使用OCR技术的好处
3、OCR技术的应用

二、PDF的扫描件与普通PDF文件

三、免费的OCR在线转换工具

1、ocr.space
2、NewOCR.com
3、Convertio
4、PDF2Go
5、OCRConvert

四、更专业的OCR识别转换软件

1、PDF的扫描件识别
2、图片识别

五、额外提示：更多更专业的PDF修复、编辑和优化操作

一、关于OCR

1、什么是OCR

OCR （Optical Character Recognition，光学字符识别），是一种可以将图片甚至是手写内容转换为文本的技术。OCR技术是在1990年代初开始流行，主要用于对历史报纸进行数字化处理。如今，很多OCR识别软件的识别技术都可以提供近乎完美的文字识别精准度，比如都叫兽™ PDF转换软件之类的软件，它们已经可以很好地处理较为复杂的文档。

使用OCR文字识别软件进行文档分析时会将其中的字体与数据库中的字体进行比较，除了字体识别，也会识别其中的字符。虽然OCR技术十分便利，但是其精准度仍然很难达到100％，在识别完成后，您可能还需要进行检查修改。

2、使用OCR技术的好处

现在，OCR识别已经广泛用于文档处理。其实，OCR技术不仅仅是简单地从扫描的文档或图像中读取文字，它还可以识别文档中的换行符，拆分列和图形，并允许您通过关键字搜索文本，允许文档编辑等等。使用OCR技术的最大好处是可以节省时间，文字识别过程是比较简单的，有时仅需几秒钟就能完成。另外，如果您需查找某些内容，文字查找会比图片查找更为方便。

如果是从事律师、医生或教师行业的，日常工作中会有大量的手写资料或笔记，使用OCR能提供很好的帮助。

3、OCR技术的应用

OCR技术最著名的应用案例是将纸质文档转换为计算机可读可编辑的文本文档。纸质文档在经过OCR处理后，可变为Microsoft Word或Google Docs等文字编辑软件可以直接编辑的文档格式。这项技术可能不是每个人都常用，但不可否认的是它已经渗透于我们日常生活中的各种服务和领域。

比如以下常见的应用场景：

商业文件的数据输入，例如支票、护照、发票、银行对账单和收据。
自动车牌识别。
在机场，用于护照识别和信息提取。
将名片信息提取到联系人列表中。
搜索引擎的索引文档。
需提取报纸或书面文件的文字内容。

在对OCR技术有一定的了解后，您应该可以理解它为何可识别PDF的扫描件了吧。普通PDF文件可直接转换为Word等可编辑文件格式，但若是扫描件就只能通过OCR技术。它们两者之间有何差别，请继续查看下面的介绍。

二、PDF的扫描件与普通PDF文件

PDF文档的创建来源可以有很多，它可通过不同的设备或软件创建，因此并不是每个PDF文件性质是相同的。PDF文档主要分两种类型，一种是使用PDF创建软件以电子方式创建的文档，另一种是通过扫描仪或其他照相成像设备创建的文档。

PDF的扫描件是一个典型示例，虽然它看上去与由Word文档创建的普通PDF文件并无差别，但实际上，当您扫描转换文件时，整个内容是被视为图片。该PDF文档中的文字内容是不能被复制的，在这种情况下，如果要将它转换为可编辑和可文字搜索的Word文档，则需要选择正确的PDF转换软件。要识别PDF的扫描件，您可以借助相关的OCR文字识别软件进行识别并转换。最后，有什么方法可以快速区分PDF的扫描件与普通的PDF文件呢？下面将说明三种简单的分辨方法：

1、选择文字

若是扫描的PDF文件，您是不能从其中选择任何文本的，只能选择图像的一个区域；若是普通的PDF文件，您是可以随意选择和复制文本的。

2、放大PDF页面

请尝试逐渐放大PDF文件，若是PDF的扫描件则它的内容将会显得模糊不清或像素化。但若是普通PDF文件，无论您将文档放大到多大，文本也可以一直保持相同的清晰度。

3、检查文档属性

最后一种方法是在Adobe Reader中打开PDF文件，并查看它们的文档属性。扫描的PDF文档在打开后，在文档属性上是没有字体信息显示的，因为该PDF文档输出的内容只能是图像，而不是可编辑的文字内容。相对的，普通的PDF文档在打开后，则可以在“文档属性”中看到文档有使用的字体。

最后，若您要识别PDF的扫描件，可通过以下介绍的在线OCR软件进行快速识别。

三、免费的OCR在线转换工具

OCR在线转换工具可帮助您快速识别PDF扫描件和图像中的文字，并可将其导出为文字的形式。在线转换工具的最大优势是无需下载软件即可转换，但是同时也存在着一些不能忽视的局限性和缺点。

OCR在线转换工具的缺点：

文字识别准确性低。
上传的文件大小有限制。
转换速度慢。
上传的文件存在着被泄露的可能性。

1、ocr.space

ocr.space 在线转换工具是免费使用的，您无需注册就能使用。它支持JPG，PNG，GIF图像或PDF文档的转换，以及支持二十多种OCR语言。您需要注意的是，上传的文件不能大于5MB。

OCR转换链接：https://ocr.space/

2、NewOCR.com

NewOCR.com可提供免费的OCR文字识别服务，除了支持PDF文件识别，还支持JPEG，JFIF，PNG，GIF，BMP，PBM，PGM，PPM，PCX等文件格式的识别。输出的文件格式可选TXT、Word或PDF。在上传PDF文件后，您可预览识别效果、或旋转页面等。

OCR转换链接：https://www.newocr.com/

3、Convertio

Convertio可以有效帮助您将扫描的PDF文件转换为Word、TXT、Excel等十多种文档格式。在操作时，您可从计算机、Google云端硬盘、URL等途径上传PDF，然后选择对应的识别语言和输出格式，最后转换下载即可。但是，该在线工具支持转换10个页面，超出数量您需进行注册。

OCR转换链接：https://convertio.co/ocr/

4、PDF2Go

PDF2Go是一项便捷的服务，您可以上传PDF文件或图片，点击“Start”即可快速将其转换为TXT文本。转换过程可能会比较长，您需要耐心等候。如果您还有其他编辑需求，也可在转换完成后进行进一步编辑，该工具也提供一些基础的编辑功能。

OCR转换链接：https://www.pdf2go.com/pdf-to-text

5、OCRConvert

OCRConvert.com是一个免费的OCR在线工具，可快速帮助您将扫描的PDF文件或图片转换为文本文档。该工具支持PDF，GIF，BMP，JPEG，PNG格式的文件转换。与其他OCR在线转换工具一样，上传的文件有限制，您不能上传超过5MB的文件，并且每次最多允许上传5个文件。该操作界面十分简洁，操作也十分简单。

OCR转换链接：https://www.ocrconvert.com/

若以上在线OCR转换工具不能满足您更高的PDF编辑需求，您可尝试下面介绍的都叫兽™ PDF转换软件。

四、更专业的OCR识别转换软件

都叫兽™ PDF转换软件集成先进的OCR（光学支字符识别）技术，可将扫描所得的PDF转为指定的文档格式，获取更多可编辑的文件信息，大大提升工作效率。都叫兽™ PDF转换软件可将PDF格式的文件转换为Word / Excel / PowerPoint / EPUB / Image / HTML / TXT等常见格式，速度高达80页/分钟。除了PDF文件，都叫兽™ PDF转换软件还能将单独的图片文件中的文字转换成文本格式。

在OCR模式下，您需选择对应的识别语言，这样可以大大提高字符识别的正确率。该软件支持英/法/德/意/西/葡/中/韩/日等语言文字的转换，并支持安装新语言。都叫兽™PDF转换软件的操作界面简洁，即使是电脑小白也能够轻松完成操作。毫无疑问，相比于上述的在线转换工具，都叫兽™PDF转换软件的安全性更高，而且并不限制PDF文件的大小，转换效率也极高。在开始以下操作前，您需先将软件安装到您的电脑上。

支持的操作系统：Windows 10/8.1/8/7/Vista/XP（32位与64位）

都叫兽™PDF转换器 - 高精准度的OCR文字识别功能

OCR功能 识别扫描的PDF以及图片并转换为文本。

操作简单 新手用户也能快速搞定。

批量转换 一键转换多个PDF，转换率高达200页/分钟。

支持转换多种格式 可转换为Excel/PowerPoint/Text等。

多种编辑功能 加密/解密/分割/合并/水印等。

OCR功能 识别转换扫描的PDF以及图片

操作简单 新手能快速操作。

批量转换 转换率高达200页/分钟。

免费试用免费试用我们已有3199位用户免费体验！

1、PDF的扫描件识别

具体的操作步骤如下：

① 安装好软件后，点击“转换PDF”。

② 点击“添加文件”，导入扫描的PDF文件。

③ 点击要转换的文档格式，如“Word”。然后勾选软件左下角的“启用OCR”＞“A：识别图片或者PDF扫描件里的文字”。

Tips选择启用OCR后，都叫兽™PDF转换软件会提供三种OCR文字识别模式，您需选择其中一种：

A：识别图片或者PDF 扫描件里的文字：这个选项就默认PDF页面的文字都是在图片/扫描图上，程序会直接使用OCR功能（选择对应的语言效果会更佳）识别文件上的文字然后转输出。
B：识别内置字体（避免乱码）：这个选项默认PDF页面的文字都是使用内嵌字体，程序会将这些字体转成图片，再使用OCR功能（选择对应的语言效果会更佳）识别文件的文字转换输出。
A+B（更慢）：程序自动识别文件内的字体是图片还是PDF内嵌字体，然后再进行转换输出。但是识别比较耗时，转换的时间也会更加长。

④ 最后，选择文件的保存位置，点击“转换”即可完成操作。

2、图片识别

如果需要转换的文件是图片可直接选择“OCR”功能。

具体的操作步骤如下：

① 同样的进入步骤，选择“PDF转换”后，直接点击“OCR”功能。

② 点击“添加文件”，添加要转换的图片，然后在输出设置下，选择输出文件的保存位置。

③ 点击“OCR语言”，选择与图片所相应的语言；还有选择图片方向。

④ 最后，点击“转换”。该软件默认转换的文档格式为TXT格式。

五、额外提示：更多更专业的PDF修复、编辑和优化操作

都叫兽™PDF转换软件共有两大功能板块，其一是可以将PDF文件转换成其他常用的文件格式；其二是可以满足对PDF文件的基本编辑操作。该软件的“PDF工具集”可提供多种的PDF编辑与修复功能，比如修复损坏文件、优化大文件加载时长、实现多页面文件的分割、将多个指定页面合成为一个PDF文件、调整文件的显示角度等，还可以加密/解密PDF文件、给专属文件添加个人水印等。

注意：以下所述的编辑功能都囊括在PDF工具集中。

1、修复异常的PDF文件

操作不当的行为很可能会导致PDF文件出现各种问题，例如无法打开或损坏。都叫兽™PDF转换软件的“修复”功能就主要是针对以上两种问题，帮助您快速修复。

● 模式1：提供高效率的损坏修复，适合要求快速度修复的客户。

● 模式2：更加准确、深层次地修复文件，修复时间会较长。

2、优化PDF文件

有时会遇到较大的PDF文件，那么在打开文件时所花费的时间就会相对较长。为了节约时间，您可使用“优化”功能，将大文件的PDF进行压缩，从而快速打开。

● 在线页面加载速度（linearize）：此优化选项，适合网页PDF加载更加流畅。

● 压缩图片：压缩PDF文件中的图片。

● 压缩数据流：压缩PDF文件数据流。（PDF文件容量变得更加小）

3、分割PDF文件

分割PDF文件，就是将一个多页面的PDF，按照需求分割成多个小PDF文件；又或者是去除多余页面，只分割出指定的页面。

分割模式：

● 分割成多个更小的文件。

● 保留指定页面（去除不需要的）。

4、合并PDF文件

合并PDF文件，顾名思义就是将多个PDF文件合并成一个PDF。在合并前，您可选择指定页面进行合并或直接合并所有。点击所有选择“使用生成器”，您可进行更详细的页面合并选择。

5、旋转PDF文件

如果PDF文件打开后发现角度不正确，您还可通过该软件进行调整。调整PDF文件显示角度，角度选择有90、180、270。

6、加密/解密PDF文件

在加密PDF文件选项中，您可给文件添加密码保护，保证不会被第三者直接打开和查阅。另外，您可以设定该加密PDF文件的相关编辑与打印权限，比如是否允许打印、修改、提取文字和图片、注释、填写表单和签名。

另外，若您忘记了PDF文件的密码，那您也可以通过点击“解密PDF”选项进行快速解密。

7、PDF添加水印

为保护PDF文件不被他人窃取使用，保护文件的所有权，可在PDF中添加个人水印。通过都叫兽™PDF转换软件中，您可为PDF文件添加前景水印/背景水印，水印可以选择图片和PDF文件。

在添加时，您可以选择增加水印（覆盖表面）与增加背景水印。（即前景水印与背景水印），最后点击“转换”即可。

8、图片转PDF

该软件中的“图片转PDF”功能，指的是将多个或单个图片转换成一个或多个PDF文件。

● 合并到一个文件：将所有添加的图片生成到一个PDF文件中，一张图片生成一页。

● 一张图一个PDF文件：一张图片生成一个PDF文件。