Skip to content
首页 » 博客 » 使用 Python 中的 OCR 将扫描的 PDF 转换为 Word

使用 Python 中的 OCR 将扫描的 PDF 转换为 Word

  • by
  • Uncategorized

将扫描的 PDF 转换为 Word 文档具有多种优势,例如编辑文档中的文本,可以轻松进行更改或更新。它还支持文本搜索,这对于大型文档或进行研究时非常有价值。此外,您还可以在 Python 中执行 OCR 时执行拼写检查以纠正任何拼写错误或拼写错误的单词。因此,本文介绍了如何使用 Aspose.OCR for Python 通过 .NET 库使用 Python 中的 OCR 将扫描的 PDF 转换为 Word 文档。

使用 OCR 将 PDF 转换为 Word – Python API 安装
使用 Python 中的 OCR 将扫描的 PDF 转换为 Word
使用 Python 中的 OCR 和拼写检查将 PDF 转换为 Word
使用 OCR 将 PDF 转换为 Word – Python API 安装

在我们深入研究文本识别之前,让我们确保我们已经设置了在 Python 中运行 OCR 所需的环境。确保您的系统上安装了 Python,最好是 3.x 或更高版本,以及可靠的代码编辑器或集成开发环境 (IDE),例如 Visual Studio Code 或 IDLE 等。然后,您需要通过 .NET 为 Python 配置 Aspose.OCR,同时使用以下安装命令从新版本部分或 PyPi 访问它:

pip 安装 aspose-ocr-python-net

使用 Python 中的 OCR 将扫描的 PDF 转换为 Word

您可以按照以下步骤使用 OCR 将扫描的 PDF 转换为 Word:

使用 AsposeOcr 类初始化 API。
为识别设置不同的设置。
使用 OCR 识别文本并保存输出 DOCX Word 文件。

以下代码片段演示了如何在 Python 中使用 OCR 将扫描的 PDF 转换为 Word:

将 aspose.ocr 导入为 ocr

api = ocr.AsposeOcr()

# 初始化识别设置
设置 = ocr.RecognitionSettings()
设置.auto_denoising = True
设置.auto_contrast = True

输入 = ocr.OcrInput(ocr.InputType.PDF)
input.add(路径 + “源文件.pdf”, 0, 1)

结果= api.recognize(输入,设置)

api.save_multipage_document(“searchable.docx”, ocr.SaveFormat.DOCX, 结果)

打印(结果[0].recognition_text)

使用 Python 中的 OCR 和拼写检查将 PDF 转换为 Word

OCR 引擎有时可能会产生不准确的结果,尤其是在处理复杂的布局、手写或低质量扫描时。在这种情况下,拼写纠正对于提高转换文本的准确性起着至关重要的作用。本节特别讨论使用 OCR 和 Python 中的拼写检查功能将 PDF 转换为 Word。您需要按照以下步骤来满足这些要求:

初始化 AsposeOcr 类的实例。
使用 RecognitionSettings 类设置不同的属性。
使用 OCR 识别 PDF 并对提取的字符串进行拼写检查。
以 DOCX 格式导出输出 Word 文档。

下面的示例代码说明了如何在 Python 中使用 OCR 将 PDF 转换为 Word 文档:

将 aspose.ocr 导入为 ocr

api = ocr.AsposeOcr()

# 初始化识别设置
设置 = ocr.RecognitionSettings()
设置.auto_denoising = True
设置.auto_contrast = True

输入 = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + “拼写检查 OCR PDF.pdf”, 0, 1)

结果= api.recognize(输入,设置)

已更正 = api. Correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# 打印拼写更正后的文本
打印(已更正)

# 单独保存每个页面并进行拼写更正
结果[0].save(“test.docx”, ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

获取免费评估许可证

您可以获得免费的临时许可证,以避免任何评估限制和水印。

总结

在这篇博文中,我们探讨了如何使用 Python 中的 OCR 将扫描的 PDF 转换为 Word 文档。我们讨论了 OCR 的重要性及其优点,提供了设置环境、使用不同方法从 PDF 文档中提取文本并指定多个设置并将其保存到 Word 文档的分步指南。本指南使您能够使用 Python 和 OCR 自动将扫描的 PDF 转换为可编辑的 Word 文档,从而开启数据提取和操作的可能性世界。如果您需要讨论任何问题,请随时在免费支持论坛上给我们写信。

另请参阅
使用 Python 识别扫描 PDF 中的文本
使用 Python 比较图像上的文本

Leave a Reply

Your email address will not be published. Required fields are marked *