中文内容
PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务
有哪些变化?为何重要 快速开始 何时应使用 Transformers 后端?立即试用 资源 致谢 PaddleOCR 3.5 让 OCR 和文档解析任务更接近 Hugging Face 生态系统。通过此次发布,受支持的 PaddleOCR 模型可通过设置以下内容,使用 Hugging Face Transformers 作为推理后端运行:
engine="transformers"
PaddleOCR 继续提供 PP-OCRv5 等 OCR 模型系列,以及 PaddleOCR-VL 1.5 等文档解析模型系列;与此同时,Transformers 成为运行这些模型的受支持后端之一。
在 Hugging Face Spaces 上试用实时演示:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo
有哪些变化?
PaddleOCR 3.5 引入了更灵活的推理引擎接口。开发者可以通过 engine 参数选择后端,并通过 engine_config 传递特定于后端的选项。
在实践中,这意味着:
- 这些任务背后的流水线由 PaddleOCR 管理,因此开发者无需手动调用每个内部组件。
- Transformers 成为运行受支持 PaddleOCR 模型的受支持推理后端之一。
- 开发者可以通过 engine_config 配置与后端相关的选项,例如 dtype、设备放置和 attention 实现。
理解该技术栈的一种简单方式:
此次发布主要聚焦于推理后端层:PaddleOCR 继续提供 OCR 和文档解析能力,而 Transformers 为受支持的 PaddleOCR 模型提供了另一种后端选择,可自然融入以 Hugging Face 为中心的环境。更大的 Document AI 工作流仍由开发者和应用构建者掌控。
为何重要
对于 RAG、Document AI 和文档智能体应用而言,难点往往在 LLM 之前就已经开始。
开发者首先需要将 PDF、扫描文档、截图、表格、图表、公式和复杂页面布局转换为可靠的结构化数据。如果这一摄取步骤薄弱,下游 LLM 工作流可能会遗漏关键信息、检索错误上下文,或产生不可靠的答案。
PaddleOCR 通过提供 PP-OCRv5 等 OCR 系列模型,以及 PaddleOCR-VL-1.5 等文档解析系列模型,帮助应对这一文档摄取挑战。
借助 PaddleOCR 3.5,这些能力现在更容易与以 Transformers 为中心的技术栈连接。受支持的 PaddleOCR 模型可以使用 Transformers 后端运行,而 PaddleOCR 继续在后台管理 OCR 或文档解析流水线。
对于开发者而言,这意味着更少的集成摩擦,并能更自然地将文档衔接到下游 RAG、智能体、搜索、分析或自动化工作流。
快速开始
安装 PaddleOCR 3.5、PaddleX、Transformers,以及与你的硬件兼容的 PyTorch 构建版本。
例如,在 CUDA 12.6 环境中:
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"
对于 CPU、ROCm 或其他环境,请安装与你目标硬件匹配的 PyTorch 构建版本。
从命令行运行:
paddleocr ocr \
-i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
--device gpu:0 \
--engine transformers
或使用 Python API:
from paddleocr import PaddleOCR
pipeline = PaddleOCR(
device="gpu:0",
engine="transformers",
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine_config={
"dtype": "float32",
},
)
results = pipeline.predict(
"https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png"
)
for result in results:
print(result)
Hugging Face Space 使用 float32 以实现广泛兼容。对于你自己的硬件,可以通过 engine_config 调整特定于后端的选项:
engine_config = {
"dtype": "bfloat16",
"device_type": "gpu",
"device_id": 0,
"attn_implementation": "sdpa",
}
最佳配置取决于你的模型、硬件和部署环境。
何时应使用 Transformers 后端?
当你希望 PaddleOCR 的 OCR 和文档解析能力更自然地融入以 Hugging Face 为中心的技术栈时,可以使用 Transformers 后端。
如果你正在构建 RAG、Document AI、搜索、分析或智能体应用,并且已经依赖 PyTorch / Transformers 基础设施进行模型加载、实验、部署或模型工件管理,这一点尤其有用。
当你希望获得以下能力时,Transformers 后端是合适的选择:
- 为已经使用 Transformers 的团队提供更熟悉的开发体验,
- 为受支持的 PaddleOCR 模型提供与 Hub 兼容的模型发现和分发,
- 更容易与现有 PyTorch / Transformers 服务集成。
当优先目标是最大化 OCR 或文档解析吞吐量时,通常推荐选择 PaddleOCR 默认的 paddle_static 后端。
此次发布并不是用一个后端替代另一个后端,而是为开发者提供更多灵活性:使用 PaddleOCR 获得 OCR 和文档解析能力,并选择最适合自身技术栈的推理后端。
立即试用
在 Hugging Face Spaces 上试用 PaddleOCR 3.5 Transformers 演示:
正文:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo
在 Hub 上探索 PaddleOCR 模型:
正文:https://huggingface.co/PaddlePaddle/models
PaddleOCR 3.5 让 OCR 和文档解析能力更接近以 Transformers 为中心的工作流,同时让开发者可以围绕这些能力自由构建更大的 Document AI 应用。
资源
- PaddleOCR 文档:https://www.paddleocr.ai/
- GitHub 上的 PaddleOCR:https://github.com/PaddlePaddle/PaddleOCR
- Hugging Face 上的 PaddlePaddle 组织:https://huggingface.co/PaddlePaddle
- Spaces 上的 PaddleOCR 3.5 Transformers 演示:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo
致谢
我们衷心感谢支持 PaddleOCR 3.5 Transformers 集成的 Hugging Face 工程师。
特别感谢 Anton Vlasjuk 的端到端参与,包括审查并合并所有相关 pull request。
我们也感谢 Raushan Turganbay 和 Yoni Gozlan 对 PR 的宝贵审查和反馈。
他们的指导帮助提升了面向 Hugging Face 社区的集成质量、文档和开发者体验。




