PDF转结构化格式的利器:Dolphin,字节跳动开源文档解析框架,专注于将复

爱生活爱珂珂 2025-08-08 09:29:44

PDF 转结构化格式的利器:Dolphin,字节跳动开源文档解析框架,专注于将复杂 PDF 转换为 Markdown、HTML、LaTeX 和 JSON,助力 LLM 友好数据生成。

• 两阶段解析流程:先全页布局分析,后基于异构锚点和任务专属提示并行解析元素

• 支持文本段落、表格、公式等多种文档元素,顺序符合自然阅读习惯

• 轻量高效架构,支持批量并行处理,兼容 Hugging Face Transformer 生态

• 多页 PDF 解析、新增 TensorRT-LLM 和 vLLM 加速推理支持

• 完全开源,预训练模型、演示代码一应俱全,便于集成与二次开发

适合科研、AI文档理解、自动化处理等多场景,解决传统 PDF 解析格式破坏和内容错乱难题。

源码与模型获取👉 github.com/bytedance/Dolphin

试用演示见项目主页

文档解析 PDF转换 多模态AI 开源项目 机器学习

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注