使用 Python 识别扫描 PDF 中的文本

由于缺乏可搜索或可编辑的文本，扫描的 PDF 文档通常难以使用。然而，借助光学字符识别 (OCR) 技术的强大功能，从扫描的 PDF 中提取文本并将其转换为可搜索或可编辑的格式已成为现实。在这篇博文中，您将学习如何在 Python 中使用 OCR 执行 PDF 文本识别。我们还将探索如何从扫描的 PDF 文件中提取文本，将其转换为可搜索或可编辑的 PDF，并通过 .NET 库使用 Aspose.OCR for Python 释放 Python OCR 功能的潜力。

使用 OCR 识别扫描 PDF 中的文本 – Python API 安装
使用 Python 中的 OCR 识别 PDF 中的文本
使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索或可编辑的 PDF
使用 OCR 识别扫描 PDF 中的文本 – Python API 安装

光学字符识别 (OCR) 是一种将图像或扫描文档转换为机器可读文本的技术。通过分析图像中字符的形状和图案，OCR 算法识别和识别文本，从而可以提取和处理其中包含的信息。在开始之前，您需要通过 .NET 从新版本页面下载安装 Aspose.OCR for Python，或者通过运行以下安装命令从 PyPi 进行配置：

pip 安装 aspose-ocr-python-net

使用 Python 中的 OCR 识别 PDF 中的文本

您可以使用 Python 中的 OCR 识别或提取 PDF 中的文本。它将有效地从扫描的 PDF 文档中提取文本，以下步骤概述了使用 Python 中的 OCR 识别 PDF 中的文本的简单过程：

实例化 AsposeOcr 类的对象。
加载扫描的 PDF 文件。
使用 OCR 识别文本并将输出打印到控制台。

下面的示例代码展示了如何使用 Python 中的 OCR 识别 PDF 中的文本：

将 aspose.ocr 导入为 ocr

# 初始化AsposeOcr类的对象
api = ocr.AsposeOcr()

# 加载扫描的PDF文件
输入 = ocr.OcrInput(ocr.InputType.PDF)
input.add(“源文件.pdf”)

# 使用 OCR 识别文本
结果 = api.recognize(输入)

# 将输出文本打印到控制台
打印（结果[0].recognition_text）

使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索或可编辑的 PDF

扫描的 PDF 文件包含无法搜索文本的图像，因此您需要将其转换为可搜索的 PDF 文档，以使文档可供机器读取并进行相应的进一步处理。请按照以下步骤将其转换为Python中可搜索或可编辑的PDF文档：

创建 AsposeOcr 类的对象。
初始化 [RecognitionSettings][5] 类实例并设置所需的属性。
加载 PDF 文件并设置 OCR 识别的页面范围。
保存输出的可搜索 PDF 文件。

以下示例代码展示了如何使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索的 PDF 文档：

将 aspose.ocr 导入为 ocr

api = ocr.AsposeOcr()

# 初始化识别设置
设置 = ocr.RecognitionSettings()
设置.auto_denoising = True
设置.auto_contrast = True

# 指定PDF文档作为输入
输入 = ocr.OcrInput(ocr.InputType.PDF)

# 访问扫描的PDF并设置页码和总页数
input.add(“源文件.pdf”, 0, 1)

# 处理 PDF 文件以使用 OCR 进行文本识别
结果= api.recognize（输入，设置）

# 保存可搜索的输出 PDF 文件
api.save_multipage_document(“searchable.pdf”, ocr.SaveFormat.PDF, 结果)

值得注意的是，您可以对 PDF 文档中的任何范围的页面进行 OCR。例如，仅在页面索引从零开始且最后一个参数是要使用 API 处理的页面数的情况下识别特定页面中的文本。此外，您可以设置不同的识别设置来对源文件进行预处理，例如消除噪音、设置对比度、检查输入页面的倾斜度等，以增强 OCR 对文本的精确识别。

获取免费评估许可证

您可以请求免费的临时许可证来评估 API，没有任何评估限制。

总结

借助 OCR 技术和 Python 的强大功能，从扫描的 PDF 中提取文本并将其转换为可搜索或可编辑的格式变得非常容易。这里我们探索了Python中使用OCR进行PDF文本识别的过程。我们讨论了安装过程、从扫描的 PDF 中提取文本、OCR 实施以及将扫描的 PDF 转换为可搜索或可编辑的格式。通过利用 OCR 功能并采用先进技术，您可以释放扫描 PDF 的全部潜力，并使其在您的项目中更易于访问和通用。如有任何疑问或疑问，请通过免费支持论坛与我们联系。

另请参阅
使用 Python 比较图像上的文本
Python 中的汽车车牌识别

Leave a Reply Cancel reply