Marker

What is Marker?

处理各种文档格式（PDF、图像、PPTX、DOCX 等）可能非常令人头疼，尤其是在您需要提取数据、重新格式化内容或将其集成到不同的系统时。Marker 旨在消除这一痛点。它是一款强大的工具，可将各种文档准确地转换为 Markdown、JSON 和 HTML 格式，从而节省您宝贵的时间和精力。

🔄 广泛的格式支持： 转换任何语言的 PDF、图像、PPTX、DOCX、XLSX、HTML 和 EPUB 文件。
📝 精确的格式化： 保留关键的文档元素，如表格、表单、公式、行内数学公式、链接、参考文献和代码块。
🖼️ 图像提取： 自动从文档中提取并保存图像。
🧹 伪影移除： 智能地移除页眉、页脚和其他不需要的元素，以获得干净的输出。
🛠️ 可扩展性： 使用您自己的代码自定义格式和逻辑，使 Marker 能够满足您的特定需求。
🚀 LLM 驱动的准确性（可选）： 通过可选集成大型语言模型 (LLM)，如 Gemini 或 Ollama 模型，来提高转换准确性。这对于复杂的布局、表格和行内数学公式尤其有效。
⚡ 高性能： Marker 经过速度优化，可以在 GPU、CPU 或 MPS 上运行。与许多云服务相比，它提供更快的处理速度，尤其是在批量模式下。（预计在 H100 上的吞吐量为每秒 122 页）。

用于分析的数据提取： 想象一下，您收到一份 PDF 格式的复杂财务报告。借助 Marker，您可以快速将其转换为 JSON，同时保留表格结构。这使您可以轻松地将数据导入到您的分析工具或数据库中，而无需手动数据输入或复杂的脚本编写。
内容再利用： 您有一个演示文稿 (PPTX)，想要以博文的形式分享。Marker 将演示文稿转换为 Markdown，同时保留格式并提取图像。然后，您可以轻松地将内容发布到您的网站或博客上，从而省去手动重新创建内容的麻烦。
存档和标准化： 您的组织拥有大量各种格式的文档存档。Marker 可以帮助您将这些文档标准化为一致的格式（如 HTML 或 Markdown），从而使其更易于搜索、索引和长期管理。

常见问题解答：

答： Marker 有一个 force_ocr 标志，可确保您的 PDF 通过光学字符识别 (OCR) 运行，即使它包含一些数字文本。这有助于纠正错误并提高准确性。

答： Marker 可免费用于研究和个人用途。对于商业用途，在最近 12 个月期间总收入低于 500 万美元且终身 VC/天使融资低于 500 万美元且与 Datalab API 无竞争关系的组织可免费使用。对于较大的组织或需要删除 GPL 许可要求的组织，可以使用双重许可选项。

答：基准测试表明 Marker 的性能良好，通常在速度和准确性方面都优于云服务，尤其是在批量模式下运行时。它也比领先的云竞争对手便宜得多（托管 API 的价格是其 1/4）。

Marker 为文档转换提供了一个强大、灵活且高效的解决方案。无论您是研究人员、开发人员还是商业专业人士，Marker 都可以通过准确地将文档转换为您需要的格式来简化您的工作流程。其高性能、可扩展性和可选的 LLM 集成使其成为任何处理各种文档类型的人员的宝贵工具。

Launched

Pricing Model

Free

Starting Price

Global Rank

Month Visit

<5k

Marker was manually vetted by our editorial team and was first featured on 2025-03-20.