PaddleOCR 是基于百度飞桨开发的超轻量级、工业级开源文字识别工具库,支持100多种语言,提供从模型训练到多端部署的全流程能力。
Doc2X 全场景文档解析器,Doc2X 提供最先进与快捷的PDF解析无损还原PDF中的文字,图像,表格,公式,排版 一键还原成Markdown, Latex, 微软Word, HTML