PDF 转结构化格式的利器:Dolphin,字节跳动开源文档解析框架,专注于将复杂 PDF 转换为 Markdown、HTML、LaTeX 和 JSON,助力 LLM 友好数据生成。
• 两阶段解析流程:先全页布局分析,后基于异构锚点和任务专属提示并行解析元素
• 支持文本段落、表格、公式等多种文档元素,顺序符合自然阅读习惯
• 轻量高效架构,支持批量并行处理,兼容 Hugging Face Transformer 生态
• 多页 PDF 解析、新增 TensorRT-LLM 和 vLLM 加速推理支持
• 完全开源,预训练模型、演示代码一应俱全,便于集成与二次开发
适合科研、AI文档理解、自动化处理等多场景,解决传统 PDF 解析格式破坏和内容错乱难题。
源码与模型获取👉 github.com/bytedance/Dolphin
试用演示见项目主页
文档解析 PDF转换 多模态AI 开源项目 机器学习