Skip to content
首页 » 博客 » 使用 Python 识别扫描 PDF 中的文本

使用 Python 识别扫描 PDF 中的文本

  • by
  • Uncategorized

由于缺乏可搜索或可编辑的文本,扫描的 PDF 文档通常难以使​​用。然而,借助光学字符识别 (OCR) 技术的强大功能,从扫描的 PDF 中提取文本并将其转换为可搜索或可编辑的格式已成为现实。在这篇博文中,您将学习如何在 Python 中使用 OCR 执行 PDF 文本识别。我们还将探索如何从扫描的 PDF 文件中提取文本,将其转换为可搜索或可编辑的 PDF,并通过 .NET 库使用 Aspose.OCR for Python 释放 Python OCR 功能的潜力。

使用 OCR 识别扫描 PDF 中的文本 – Python API 安装
使用 Python 中的 OCR 识别 PDF 中的文本
使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索或可编辑的 PDF
使用 OCR 识别扫描 PDF 中的文本 – Python API 安装

光学字符识别 (OCR) 是一种将图像或扫描文档转换为机器可读文本的技术。通过分析图像中字符的形状和图案,OCR 算法识别和识别文本,从而可以提取和处理其中包含的信息。在开始之前,您需要通过 .NET 从新版本页面下载安装 Aspose.OCR for Python,或者通过运行以下安装命令从 PyPi 进行配置:

pip 安装 aspose-ocr-python-net

使用 Python 中的 OCR 识别 PDF 中的文本

您可以使用 Python 中的 OCR 识别或提取 PDF 中的文本。它将有效地从扫描的 PDF 文档中提取文本,以下步骤概述了使用 Python 中的 OCR 识别 PDF 中的文本的简单过程:

实例化 AsposeOcr 类的对象。
加载扫描的 PDF 文件。
使用 OCR 识别文本并将输出打印到控制台。

下面的示例代码展示了如何使用 Python 中的 OCR 识别 PDF 中的文本:

将 aspose.ocr 导入为 ocr

# 初始化AsposeOcr类的对象
api = ocr.AsposeOcr()

# 加载扫描的PDF文件
输入 = ocr.OcrInput(ocr.InputType.PDF)
input.add(“源文件.pdf”)

# 使用 OCR 识别文本
结果 = api.recognize(输入)

# 将输出文本打印到控制台
打印(结果[0].recognition_text)

使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索或可编辑的 PDF

扫描的 PDF 文件包含无法搜索文本的图像,因此您需要将其转换为可搜索的 PDF 文档,以使文档可供机器读取并进行相应的进一步处理。请按照以下步骤将其转换为Python中可搜索或可编辑的PDF文档:

创建 AsposeOcr 类的对象。
初始化 [RecognitionSettings][5] 类实例并设置所需的属性。
加载 PDF 文件并设置 OCR 识别的页面范围。
保存输出的可搜索 PDF 文件。

以下示例代码展示了如何使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索的 PDF 文档:

将 aspose.ocr 导入为 ocr

api = ocr.AsposeOcr()

# 初始化识别设置
设置 = ocr.RecognitionSettings()
设置.auto_denoising = True
设置.auto_contrast = True

# 指定PDF文档作为输入
输入 = ocr.OcrInput(ocr.InputType.PDF)

# 访问扫描的PDF并设置页码和总页数
input.add(“源文件.pdf”, 0, 1)

# 处理 PDF 文件以使用 OCR 进行文本识别
结果= api.recognize(输入,设置)

# 保存可搜索的输出 PDF 文件
api.save_multipage_document(“searchable.pdf”, ocr.SaveFormat.PDF, 结果)

值得注意的是,您可以对 PDF 文档中的任何范围的页面进行 OCR。例如,仅在页面索引从零开始且最后一个参数是要使用 API 处理的页面数的情况下识别特定页面中的文本。此外,您可以设置不同的识别设置来对源文件进行预处理,例如消除噪音、设置对比度、检查输入页面的倾斜度等,以增强 OCR 对文本的精确识别。

获取免费评估许可证

您可以请求免费的临时许可证来评估 API,没有任何评估限制。

总结

借助 OCR 技术和 Python 的强大功能,从扫描的 PDF 中提取文本并将其转换为可搜索或可编辑的格式变得非常容易。这里我们探索了Python中使用OCR进行PDF文本识别的过程。我们讨论了安装过程、从扫描的 PDF 中提取文本、OCR 实施以及将扫描的 PDF 转换为可搜索或可编辑的格式。通过利用 OCR 功能并采用先进技术,您可以释放扫描 PDF 的全部潜力,并使其在您的项目中更易于访问和通用。如有任何疑问或疑问,请通过免费支持论坛与我们联系。

另请参阅
使用 Python 比较图像上的文本
Python 中的汽车车牌识别

Leave a Reply

Your email address will not be published. Required fields are marked *