元鉴
返回中文阅读流

Hugging Face Blog

PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务

Hugging Face Blog 最新公开更新。

中文内容

已翻译official company source英文原文2026-05-18

PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务

团队 文章 发布于 2026 年 5 月 18 日

有哪些变化?为何重要 快速开始 何时应使用 Transformers 后端?立即试用 资源 致谢 PaddleOCR 3.5 让 OCR 和文档解析任务更接近 Hugging Face 生态系统。通过此次发布,受支持的 PaddleOCR 模型可通过设置以下内容,使用 Hugging Face Transformers 作为推理后端运行:

engine="transformers"

PaddleOCR 继续提供 PP-OCRv5 等 OCR 模型系列,以及 PaddleOCR-VL 1.5 等文档解析模型系列;与此同时,Transformers 成为运行这些模型的受支持后端之一。

在 Hugging Face Spaces 上试用实时演示:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

有哪些变化?

PaddleOCR 3.5 引入了更灵活的推理引擎接口。开发者可以通过 engine 参数选择后端,并通过 engine_config 传递特定于后端的选项。

在实践中,这意味着:

  • 这些任务背后的流水线由 PaddleOCR 管理,因此开发者无需手动调用每个内部组件。
  • Transformers 成为运行受支持 PaddleOCR 模型的受支持推理后端之一。
  • 开发者可以通过 engine_config 配置与后端相关的选项,例如 dtype、设备放置和 attention 实现。

理解该技术栈的一种简单方式:

Layer What it means Examples Application layer Applications that use OCR and document parsing outputs RAG, agents, Document AI... Model layer OCR and document parsing capabilities PP-OCRv5, PaddleOCR-VL 1.5... Inference backend layer Runtime used to run supported models Paddle static graph, Paddle dynamic graph, Transformers

此次发布主要聚焦于推理后端层:PaddleOCR 继续提供 OCR 和文档解析能力,而 Transformers 为受支持的 PaddleOCR 模型提供了另一种后端选择,可自然融入以 Hugging Face 为中心的环境。更大的 Document AI 工作流仍由开发者和应用构建者掌控。

为何重要

对于 RAG、Document AI 和文档智能体应用而言,难点往往在 LLM 之前就已经开始。

开发者首先需要将 PDF、扫描文档、截图、表格、图表、公式和复杂页面布局转换为可靠的结构化数据。如果这一摄取步骤薄弱,下游 LLM 工作流可能会遗漏关键信息、检索错误上下文,或产生不可靠的答案。

PaddleOCR 通过提供 PP-OCRv5 等 OCR 系列模型,以及 PaddleOCR-VL-1.5 等文档解析系列模型,帮助应对这一文档摄取挑战。

借助 PaddleOCR 3.5,这些能力现在更容易与以 Transformers 为中心的技术栈连接。受支持的 PaddleOCR 模型可以使用 Transformers 后端运行,而 PaddleOCR 继续在后台管理 OCR 或文档解析流水线。

对于开发者而言,这意味着更少的集成摩擦,并能更自然地将文档衔接到下游 RAG、智能体、搜索、分析或自动化工作流。

快速开始

安装 PaddleOCR 3.5、PaddleX、Transformers,以及与你的硬件兼容的 PyTorch 构建版本。

例如,在 CUDA 12.6 环境中:

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

对于 CPU、ROCm 或其他环境,请安装与你目标硬件匹配的 PyTorch 构建版本。

从命令行运行:

paddleocr ocr \
  -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
  --device gpu:0 \
  --engine transformers

或使用 Python API:

from paddleocr import PaddleOCR

pipeline = PaddleOCR(
    device="gpu:0",
    engine="transformers",
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine_config={
        "dtype": "float32",
    },
)

results = pipeline.predict(
    "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png"
)

for result in results:
    print(result)

Hugging Face Space 使用 float32 以实现广泛兼容。对于你自己的硬件,可以通过 engine_config 调整特定于后端的选项:

engine_config = {
    "dtype": "bfloat16",
    "device_type": "gpu",
    "device_id": 0,
    "attn_implementation": "sdpa",
}

最佳配置取决于你的模型、硬件和部署环境。

何时应使用 Transformers 后端?

当你希望 PaddleOCR 的 OCR 和文档解析能力更自然地融入以 Hugging Face 为中心的技术栈时,可以使用 Transformers 后端。

如果你正在构建 RAG、Document AI、搜索、分析或智能体应用,并且已经依赖 PyTorch / Transformers 基础设施进行模型加载、实验、部署或模型工件管理,这一点尤其有用。

当你希望获得以下能力时,Transformers 后端是合适的选择:

  • 为已经使用 Transformers 的团队提供更熟悉的开发体验,
  • 为受支持的 PaddleOCR 模型提供与 Hub 兼容的模型发现和分发,
  • 更容易与现有 PyTorch / Transformers 服务集成。

当优先目标是最大化 OCR 或文档解析吞吐量时,通常推荐选择 PaddleOCR 默认的 paddle_static 后端。

此次发布并不是用一个后端替代另一个后端,而是为开发者提供更多灵活性:使用 PaddleOCR 获得 OCR 和文档解析能力,并选择最适合自身技术栈的推理后端。

立即试用

在 Hugging Face Spaces 上试用 PaddleOCR 3.5 Transformers 演示:

正文:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

在 Hub 上探索 PaddleOCR 模型:

正文:https://huggingface.co/PaddlePaddle/models

PaddleOCR 3.5 让 OCR 和文档解析能力更接近以 Transformers 为中心的工作流,同时让开发者可以围绕这些能力自由构建更大的 Document AI 应用。

资源

  • PaddleOCR 文档:https://www.paddleocr.ai/
  • GitHub 上的 PaddleOCR:https://github.com/PaddlePaddle/PaddleOCR
  • Hugging Face 上的 PaddlePaddle 组织:https://huggingface.co/PaddlePaddle
  • Spaces 上的 PaddleOCR 3.5 Transformers 演示:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

致谢

我们衷心感谢支持 PaddleOCR 3.5 Transformers 集成的 Hugging Face 工程师。

特别感谢 Anton Vlasjuk 的端到端参与,包括审查并合并所有相关 pull request。

我们也感谢 Raushan Turganbay 和 Yoni Gozlan 对 PR 的宝贵审查和反馈。

他们的指导帮助提升了面向 Hugging Face 社区的集成质量、文档和开发者体验。

原文标题

PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend