中文内容

已翻译official company source英文原文2026-05-18

Back to Articles

PaddleOCR 3.5：使用 Transformers 后端运行 OCR 与文档解析任务

团队文章发布于 2026 年 5 月 18 日

Upvote

正文：36

正文：+30

有哪些变化？为何重要快速开始何时应使用 Transformers 后端？立即试用资源致谢 PaddleOCR 3.5 让 OCR 和文档解析任务更接近 Hugging Face 生态系统。通过此次发布，受支持的 PaddleOCR 模型可通过设置以下内容，使用 Hugging Face Transformers 作为推理后端运行：

engine="transformers"

PaddleOCR 继续提供 PP-OCRv5 等 OCR 模型系列，以及 PaddleOCR-VL 1.5 等文档解析模型系列；与此同时，Transformers 成为运行这些模型的受支持后端之一。

在 Hugging Face Spaces 上试用实时演示：https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

有哪些变化？

PaddleOCR 3.5 引入了更灵活的推理引擎接口。开发者可以通过 engine 参数选择后端，并通过 engine_config 传递特定于后端的选项。

在实践中，这意味着：

这些任务背后的流水线由 PaddleOCR 管理，因此开发者无需手动调用每个内部组件。
Transformers 成为运行受支持 PaddleOCR 模型的受支持推理后端之一。
开发者可以通过 engine_config 配置与后端相关的选项，例如 dtype、设备放置和 attention 实现。

理解该技术栈的一种简单方式：

Layer What it means Examples Application layer Applications that use OCR and document parsing outputs RAG, agents, Document AI... Model layer OCR and document parsing capabilities PP-OCRv5, PaddleOCR-VL 1.5... Inference backend layer Runtime used to run supported models Paddle static graph, Paddle dynamic graph, Transformers

此次发布主要聚焦于推理后端层：PaddleOCR 继续提供 OCR 和文档解析能力，而 Transformers 为受支持的 PaddleOCR 模型提供了另一种后端选择，可自然融入以 Hugging Face 为中心的环境。更大的 Document AI 工作流仍由开发者和应用构建者掌控。

为何重要

对于 RAG、Document AI 和文档智能体应用而言，难点往往在 LLM 之前就已经开始。

开发者首先需要将 PDF、扫描文档、截图、表格、图表、公式和复杂页面布局转换为可靠的结构化数据。如果这一摄取步骤薄弱，下游 LLM 工作流可能会遗漏关键信息、检索错误上下文，或产生不可靠的答案。

PaddleOCR 通过提供 PP-OCRv5 等 OCR 系列模型，以及 PaddleOCR-VL-1.5 等文档解析系列模型，帮助应对这一文档摄取挑战。

借助 PaddleOCR 3.5，这些能力现在更容易与以 Transformers 为中心的技术栈连接。受支持的 PaddleOCR 模型可以使用 Transformers 后端运行，而 PaddleOCR 继续在后台管理 OCR 或文档解析流水线。

对于开发者而言，这意味着更少的集成摩擦，并能更自然地将文档衔接到下游 RAG、智能体、搜索、分析或自动化工作流。

快速开始

安装 PaddleOCR 3.5、PaddleX、Transformers，以及与你的硬件兼容的 PyTorch 构建版本。

例如，在 CUDA 12.6 环境中：

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

对于 CPU、ROCm 或其他环境，请安装与你目标硬件匹配的 PyTorch 构建版本。

从命令行运行：

paddleocr ocr \
  -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
  --device gpu:0 \
  --engine transformers

或使用 Python API：

from paddleocr import PaddleOCR

pipeline = PaddleOCR(
    device="gpu:0",
    engine="transformers",
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine_config={
        "dtype": "float32",
    },
)

results = pipeline.predict(
    "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png"
)

for result in results:
    print(result)

Hugging Face Space 使用 float32 以实现广泛兼容。对于你自己的硬件，可以通过 engine_config 调整特定于后端的选项：

engine_config = {
    "dtype": "bfloat16",
    "device_type": "gpu",
    "device_id": 0,
    "attn_implementation": "sdpa",
}

最佳配置取决于你的模型、硬件和部署环境。

何时应使用 Transformers 后端？

当你希望 PaddleOCR 的 OCR 和文档解析能力更自然地融入以 Hugging Face 为中心的技术栈时，可以使用 Transformers 后端。

如果你正在构建 RAG、Document AI、搜索、分析或智能体应用，并且已经依赖 PyTorch / Transformers 基础设施进行模型加载、实验、部署或模型工件管理，这一点尤其有用。

当你希望获得以下能力时，Transformers 后端是合适的选择：

为已经使用 Transformers 的团队提供更熟悉的开发体验，
为受支持的 PaddleOCR 模型提供与 Hub 兼容的模型发现和分发，
更容易与现有 PyTorch / Transformers 服务集成。

当优先目标是最大化 OCR 或文档解析吞吐量时，通常推荐选择 PaddleOCR 默认的 paddle_static 后端。

此次发布并不是用一个后端替代另一个后端，而是为开发者提供更多灵活性：使用 PaddleOCR 获得 OCR 和文档解析能力，并选择最适合自身技术栈的推理后端。

立即试用

在 Hugging Face Spaces 上试用 PaddleOCR 3.5 Transformers 演示：

正文：https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

在 Hub 上探索 PaddleOCR 模型：

正文：https://huggingface.co/PaddlePaddle/models

PaddleOCR 3.5 让 OCR 和文档解析能力更接近以 Transformers 为中心的工作流，同时让开发者可以围绕这些能力自由构建更大的 Document AI 应用。

资源

PaddleOCR 文档：https://www.paddleocr.ai/
GitHub 上的 PaddleOCR：https://github.com/PaddlePaddle/PaddleOCR
Hugging Face 上的 PaddlePaddle 组织：https://huggingface.co/PaddlePaddle
Spaces 上的 PaddleOCR 3.5 Transformers 演示：https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

致谢

我们衷心感谢支持 PaddleOCR 3.5 Transformers 集成的 Hugging Face 工程师。

特别感谢 Anton Vlasjuk 的端到端参与，包括审查并合并所有相关 pull request。

我们也感谢 Raushan Turganbay 和 Yoni Gozlan 对 PR 的宝贵审查和反馈。

他们的指导帮助提升了面向 Hugging Face 社区的集成质量、文档和开发者体验。

本文提到的 Spaces：1

已暂停

智能体

正文：9

正文：Paddleocr 3.5 Transformers Demo

👁

正文：9

使用 PaddleOCR 3.5 和 Transforformers 运行 OCR 与文档解析

PaddleOCR 3.5：使用 Transformers 后端运行 OCR 与文档解析任务

中文内容

PaddleOCR 3.5：使用 Transformers 后端运行 OCR 与文档解析任务

有哪些变化？

为何重要

快速开始

何时应使用 Transformers 后端？

立即试用

资源

致谢

本文提到的 Spaces：1

正文：Paddleocr 3.5 Transformers Demo

原文标题