PaddleOCR 是由百度 PaddlePaddle(飞桨)团队开源的领先 OCR(光学字符识别) 工具包,被誉为业界高性能、轻量级的文字识别与文档智能解决方案。
它不仅能将图片或 PDF 中的文字提取出来,还能进行复杂的文档结构化解析,输出适合 AI 应用(如 RAG、LLM)的 JSON、Markdown 等结构化数据,已成为许多开发者处理文档数字化、智能办公、知识提取等场景的首选工具。
主要特点
高精度与高效:支持超轻量级模型(早期中文模型仅 8.6MB),兼顾准确率和推理速度。最新版本在真实场景(扫描、倾斜、弯曲、屏摄、复杂光照等)下表现突出,许多基准测试中达到 SOTA(State-of-the-Art)水平。
多语言支持:覆盖 100+ 语言(包括简中、繁中、英文、日文、韩文,以及阿拉伯语、印地语、泰语等),还支持手写体、印刷体、竖排文字、古籍等复杂情况。
全流程能力:从文本检测、方向分类、识别,到版面分析、表格/公式/图表识别、印章识别、阅读顺序还原,一站式完成。
文档解析强项:最新 PaddleOCR-VL(基于 0.9B 参数的紧凑视觉语言模型 VLM)在处理复杂文档时特别出色,能精准解析表格、数学公式、图表,并保留排版结构。
工程友好:支持服务器、移动端、边缘设备部署;提供 Python API、命令行工具、模型量化压缩;兼容 CPU/GPU,甚至支持国产加速器(如昆仑芯、昇腾)。
生态集成:GitHub 星标超过 6 万(部分数据提及 60k+ 或更高),已被 MinerU、RAGFlow 等知名项目深度集成。
核心模型与版本亮点(截至 2026 年初)
PP-OCRv5:通用场景文字识别,单模型支持简/繁中、英文、日文、拼音等多种文字类型,精度较前代提升约 13 个百分点,特别适合多语言混合文档。
PaddleOCR-VL / VL-1.5(0.9B 参数):面向真实场景的文档解析 SOTA 模型,支持 109~111 种语言,强化文本定位、复杂元素(表格、公式、图表)识别、新增印章识别等能力,资源消耗低,可在普通硬件上高效运行。
PP-StructureV3:复杂文档解析方案,能高精度处理多版式、多场景的 PDF/图片,转为结构化输出。
PP-ChatOCRv4 等:结合大模型(如 ERNIE 4.5),进一步提升关键信息提取准确率。
这些模型不断迭代,2025 年以来重点加强了文档理解和多模态能力。
应用场景
办公自动化:发票、合同、身份证、收据等证件/票据识别。
文档数字化:PDF/扫描件转可编辑文本、Markdown 或结构化数据,用于知识库构建、RAG 系统。
教育/科研:数学试卷、论文公式、手写笔记解析。
其他:车牌、路牌、产品标签、智慧交通、博物馆古籍等场景文字提取。
如何使用
安装:通过 pip 安装 paddleocr 包(需先安装 PaddlePaddle 框架)。
快速体验:GitHub 上提供丰富示例,支持一行代码进行预测。
在线试用:可访问 PaddleOCR 官网(www.paddleocr.com)进行在线体验、API 调用或 MCP 服务(适合不想本地部署的用户)。
本地部署:支持模型导出、量化、Serving 服务化部署,文档详尽(包括训练、微调指南)。
官方资源:
GitHub 主仓库:https://github.com/PaddlePaddle/PaddleOCR (推荐直接查看 README 获取最新信息)
AI Studio 在线平台:https://aistudio.baidu.com/paddleocr
[image-20260329110952328](tcmz05ykc.hd-bkt.clouddn.com/test/image-20260329110952328.png)
机械工程图纸(预绞式防振锤组件装配图,国网110/220kV通用设计)内容丰富,包含装配图、零件明细表(BOM表)、技术要求、图号/修订信息、印章等典型工程图纸元素。
PaddleOCR 非常适合处理这类工程图纸,尤其是最新版本的 PaddleOCR-VL(或 PP-StructureV3 + PaddleOCR-VL-1.5)在复杂文档、表格、公式(这里主要是尺寸标注和技术参数)和多语言(纯中文)场景下表现突出,能实现高精度文字提取 + 结构化解析(输出 Markdown / JSON / HTML 表格等)。
推荐使用方案(优先级从高到低)
最佳方案:PaddleOCR-VL(推荐)
模型:PaddleOCR-VL-0.9B / VL-1.5(0.9B 参数紧凑 VLM)
优势:端到端文档理解,一次性识别文本 + 表格结构 + 版面布局,支持表格自动转 HTML/Markdown,适合工程图纸的 BOM 表和技术要求列表。
特别适合:复杂版面(图纸中有多个视图、标注、表格混合)、倾斜文字、密集标注。
输出:高质量 Markdown(保留排版)、结构化 JSON(便于后续 RAG 或数据库入库)。
传统流水线方案:PP-StructureV3 + 表格识别产线
先用版面分析(PP-DocLayout)定位区域(表格、文本、图片)。
再用 SLANet / SLANeXt 表格结构识别模型处理零件明细表。
最后用 PP-OCRv5 识别文字。
适合需要精细控制每个模块的场景。
简单快速:标准 PaddleOCR + 表格模式
from paddleocr import PPStructure 或直接用 PaddleOCR(use_angle_cls=True, lang="ch") + 表格参数。
实际识别效果预期(基于这张图的特点)
零件明细表(红色框内):表格识别能力强,能输出接近原结构的 HTML 表格或 Markdown 表格。列包括:序号、代号、名称、数量、材料、单件重量、总计重量、备注等。
技术要求(右侧列表):能识别为有序列表或段落,保留编号 1~12。
装配图标注(尺寸 171、322、53、860 等,A型/B型、预绞丝等):文字检测 + 识别准确率高,但纯 OCR 可能丢失空间关系;VLM 版本能更好理解上下文。
标题、图号、日期、印章(如“量产 2026 年 1 月 8 日”、“受控”、“浙江泰昌实业有限公司”):能精准提取,包括手写签名/印章区域。
挑战点:密集的引线标注、箭头、小字号文字、图纸线框干扰。最新 VL 模型对这些有明显优化。
https://grok.com/share/bGVnYWN5_65d7d659-6d74-4da7-8aa3-53e81e0a00b1