使用 Python 中的 OCR 将扫描的 PDF 转换为 Word

将扫描的 PDF 转换为 Word 文档具有多种优势，例如编辑文档中的文本，可以轻松进行更改或更新。它还支持文本搜索，这对于大型文档或进行研究时非常有价值。此外，您还可以在 Python 中执行 OCR 时执行拼写检查以纠正任何拼写错误或拼写错误的单词。因此，本文介绍了如何使用 Aspose.OCR for Python 通过 .NET 库使用 Python 中的 OCR 将扫描的 PDF 转换为 Word 文档。

使用 OCR 将 PDF 转换为 Word – Python API 安装
使用 Python 中的 OCR 将扫描的 PDF 转换为 Word
使用 Python 中的 OCR 和拼写检查将 PDF 转换为 Word
使用 OCR 将 PDF 转换为 Word – Python API 安装

在我们深入研究文本识别之前，让我们确保我们已经设置了在 Python 中运行 OCR 所需的环境。确保您的系统上安装了 Python，最好是 3.x 或更高版本，以及可靠的代码编辑器或集成开发环境 (IDE)，例如 Visual Studio Code 或 IDLE 等。然后，您需要通过 .NET 为 Python 配置 Aspose.OCR，同时使用以下安装命令从新版本部分或 PyPi 访问它：

pip 安装 aspose-ocr-python-net

使用 Python 中的 OCR 将扫描的 PDF 转换为 Word

您可以按照以下步骤使用 OCR 将扫描的 PDF 转换为 Word：

使用 AsposeOcr 类初始化 API。
为识别设置不同的设置。
使用 OCR 识别文本并保存输出 DOCX Word 文件。

以下代码片段演示了如何在 Python 中使用 OCR 将扫描的 PDF 转换为 Word：

将 aspose.ocr 导入为 ocr

api = ocr.AsposeOcr()

# 初始化识别设置
设置 = ocr.RecognitionSettings()
设置.auto_denoising = True
设置.auto_contrast = True

输入 = ocr.OcrInput(ocr.InputType.PDF)
input.add(路径 + “源文件.pdf”, 0, 1)

结果= api.recognize（输入，设置）

api.save_multipage_document(“searchable.docx”, ocr.SaveFormat.DOCX, 结果)

打印（结果[0].recognition_text）

使用 Python 中的 OCR 和拼写检查将 PDF 转换为 Word

OCR 引擎有时可能会产生不准确的结果，尤其是在处理复杂的布局、手写或低质量扫描时。在这种情况下，拼写纠正对于提高转换文本的准确性起着至关重要的作用。本节特别讨论使用 OCR 和 Python 中的拼写检查功能将 PDF 转换为 Word。您需要按照以下步骤来满足这些要求：

初始化 AsposeOcr 类的实例。
使用 RecognitionSettings 类设置不同的属性。
使用 OCR 识别 PDF 并对提取的字符串进行拼写检查。
以 DOCX 格式导出输出 Word 文档。

下面的示例代码说明了如何在 Python 中使用 OCR 将 PDF 转换为 Word 文档：

将 aspose.ocr 导入为 ocr

api = ocr.AsposeOcr()

# 初始化识别设置
设置 = ocr.RecognitionSettings()
设置.auto_denoising = True
设置.auto_contrast = True

输入 = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + “拼写检查 OCR PDF.pdf”, 0, 1)

结果= api.recognize（输入，设置）

已更正 = api. Correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# 打印拼写更正后的文本
打印（已更正）

# 单独保存每个页面并进行拼写更正
结果[0].save(“test.docx”, ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

获取免费评估许可证

您可以获得免费的临时许可证，以避免任何评估限制和水印。

总结

在这篇博文中，我们探讨了如何使用 Python 中的 OCR 将扫描的 PDF 转换为 Word 文档。我们讨论了 OCR 的重要性及其优点，提供了设置环境、使用不同方法从 PDF 文档中提取文本并指定多个设置并将其保存到 Word 文档的分步指南。本指南使您能够使用 Python 和 OCR 自动将扫描的 PDF 转换为可编辑的 Word 文档，从而开启数据提取和操作的可能性世界。如果您需要讨论任何问题，请随时在免费支持论坛上给我们写信。

另请参阅
使用 Python 识别扫描 PDF 中的文本
使用 Python 比较图像上的文本

使用 Python 中的 OCR 将扫描的 PDF 转换为 Word

Leave a Reply Cancel reply