What is Marker?
处理各种文档格式(PDF、图像、PPTX、DOCX 等)可能非常令人头疼,尤其是在您需要提取数据、重新格式化内容或将其集成到不同的系统时。Marker 旨在消除这一痛点。它是一款强大的工具,可将各种文档准确地转换为 Markdown、JSON 和 HTML 格式,从而节省您宝贵的时间和精力。
主要特性:
🔄 广泛的格式支持: 转换任何语言的 PDF、图像、PPTX、DOCX、XLSX、HTML 和 EPUB 文件。
📝 精确的格式化: 保留关键的文档元素,如表格、表单、公式、行内数学公式、链接、参考文献和代码块。
🖼️ 图像提取: 自动从文档中提取并保存图像。
🧹 伪影移除: 智能地移除页眉、页脚和其他不需要的元素,以获得干净的输出。
🛠️ 可扩展性: 使用您自己的代码自定义格式和逻辑,使 Marker 能够满足您的特定需求。
🚀 LLM 驱动的准确性(可选): 通过可选集成大型语言模型 (LLM),如 Gemini 或 Ollama 模型,来提高转换准确性。这对于复杂的布局、表格和行内数学公式尤其有效。
⚡ 高性能: Marker 经过速度优化,可以在 GPU、CPU 或 MPS 上运行。与许多云服务相比,它提供更快的处理速度,尤其是在批量模式下。(预计在 H100 上的吞吐量为每秒 122 页)。
使用案例:
用于分析的数据提取: 想象一下,您收到一份 PDF 格式的复杂财务报告。借助 Marker,您可以快速将其转换为 JSON,同时保留表格结构。这使您可以轻松地将数据导入到您的分析工具或数据库中,而无需手动数据输入或复杂的脚本编写。
内容再利用: 您有一个演示文稿 (PPTX),想要以博文的形式分享。Marker 将演示文稿转换为 Markdown,同时保留格式并提取图像。然后,您可以轻松地将内容发布到您的网站或博客上,从而省去手动重新创建内容的麻烦。
存档和标准化: 您的组织拥有大量各种格式的文档存档。Marker 可以帮助您将这些文档标准化为一致的格式(如 HTML 或 Markdown),从而使其更易于搜索、索引和长期管理。
常见问题解答:
问:如果我的 PDF 包含乱码文本怎么办?
答: Marker 有一个
force_ocr标志,可确保您的 PDF 通过光学字符识别 (OCR) 运行,即使它包含一些数字文本。这有助于纠正错误并提高准确性。问:我可以一次处理多个文件吗?
答: 是的!Marker 擅长批量处理。您可以使用单个命令转换整个文件夹的文档,并使用
--workers标志来指定并行进程的数量,以加快转换速度。问:Marker 可以用于商业用途吗?
答: Marker 可免费用于研究和个人用途。对于商业用途,在最近 12 个月期间总收入低于 500 万美元且终身 VC/天使融资低于 500 万美元且与 Datalab API 无竞争关系的组织可免费使用。对于较大的组织或需要删除 GPL 许可要求的组织,可以使用双重许可选项。
问:在使用命令行之前,我可以交互式地试用 Marker 吗?
答: 是的,Marker 包含一个 Streamlit 应用程序 (
marker_gui),可让您在交互式环境中尝试基本选项。问:如何提高表格提取的准确性?
答: 使用
--use_llm标志。基准测试表明,在使用 LLM 时,表格识别准确性显著提高(在一项测试中从 81.6% 提高到 90.7%)。问:Marker 与 Llamaparse 和 Mathpix 等云服务相比如何?
答:基准测试表明 Marker 的性能良好,通常在速度和准确性方面都优于云服务,尤其是在批量模式下运行时。它也比领先的云竞争对手便宜得多(托管 API 的价格是其 1/4)。
结论:
Marker 为文档转换提供了一个强大、灵活且高效的解决方案。无论您是研究人员、开发人员还是商业专业人士,Marker 都可以通过准确地将文档转换为您需要的格式来简化您的工作流程。其高性能、可扩展性和可选的 LLM 集成使其成为任何处理各种文档类型的人员的宝贵工具。





