OneFileLLM

(Be the first to comment)
OneFileLLM:一款命令行工具,旨在统一大型语言模型(LLM)所需的数据。支持 GitHub、ArXiv、网页抓取等多种数据来源,可输出 XML 格式并进行 Token 计数。告别繁琐的数据整理工作! 0
访问

What is OneFileLLM?

将来自多个来源的复杂信息输入到大型语言模型(Large Language Models)通常涉及繁琐的手工工作——在开始编写提示词之前,需要查找、下载、转换和组合数据。OneFileLLM 是一款专门用于自动化此数据聚合流程的命令行实用工具。它可以智能地获取、处理和整合来自本地文件、代码仓库、学术论文、Web文档等的内容,并将单个结构化的文本文件直接传送到您的剪贴板,以便与 LLM 进行交互。这使您可以减少在处理数据上花费的时间,从而有更多的时间从您的 AI 助手那里获取价值。

主要特性

  • 🌐 统一不同的来源: 自动获取和处理来自本地文件/目录、GitHub 仓库(包括特定的 PR 和 issue)、ArXiv 论文、Sci-Hub 论文(通过 DOI/PMID)、YouTube 视频文本和网页的数据。

  • ✨ 自动检测来源: 只需提供路径、URL 或标识符,OneFileLLM 就能智能地确定来源类型并应用正确的处理逻辑。

  • 📄 处理多种文件格式: 原生处理项目中和研究中常见的各种文件类型,包括 .py.js.md.html.ipynb (Jupyter Notebooks)、.pdf 等,并提取相关的文本内容。

  • 🕸️ 抓取 Web 文档: 不仅从起始 URL 抓取内容,还从链接的页面抓取内容,抓取深度可配置 (max_depth)。

  • ⚙️ 智能预处理文本: 提供文本清理选项,包括停用词删除和小写转换,并提供压缩(清理)和未压缩的输出。

  • 🏷️ 使用 XML 结构化输出: 将聚合的内容封装在清晰的 XML 标签中,指示每个数据块的来源和类型。

  • 📋 自动将输出复制到剪贴板: 将完整的、未压缩的文本输出直接放到您的系统剪贴板上。

  • 📊 报告 Token 计数: 计算并显示压缩和未压缩输出的估计 token 计数(使用 tiktoken)。

  • 🚫 排除不需要的内容: 配置模式以排除特定的文件(如自动生成的代码或测试文件)和整个目录的处理。

用例

  1. 为开发者理解代码库: 您需要理解一个复杂的 GitHub 仓库才能贡献修复或功能。无需手动浏览文件,只需在仓库 URL 上运行 OneFileLLM。它会收集代码文件(尊重您配置的扩展名和排除项)、自述文件以及潜在的相关文档,并将所有内容放入您的剪贴板。然后,您可以使用聚合的上下文向 LLM 提问,例如“解释 XYZ 模块的主要用途”或“用户身份验证在哪里处理?”。

  2. 为学者分析研究论文: 您正在探索一个新的研究领域,并且在本地存储了多篇 ArXiv 论文和 PDF。将 OneFileLLM 指向每个 ArXiv URL、DOI 或本地 PDF 文件路径,或者将它们组合在一个目录中。该工具会从每篇论文中提取文本,将其连接起来,并为您提供可用于 LLM 的文本。然后,您可以提示 LLM“总结这些论文中关于主题 Y 的主要发现”或“确定这些研究中使用的方法”。

  3. 通过文档和 issue 进行故障排除: 您正在调试与特定 GitHub 库相关的问题。向 OneFileLLM 提供相关 GitHub issue 的 URL。它可以提取 issue 描述、评论相关的仓库代码,为您的 LLM 提供全面的上下文,以帮助诊断问题或根据讨论和实际代码库结构提出解决方案。

结论

停止在为大型语言模型准备上下文时与分散的数据源作斗争。OneFileLLM 充当您高效的数据聚合助手,将来自不同位置的代码、研究、文档和讨论整合到一个随时可用的软件包中。通过自动化获取、处理和格式化,它可以节省您宝贵的时间,并允许您构建更明智、上下文丰富的提示,最终帮助您更有效地利用 LLM 的全部功能。


More information on OneFileLLM

Launched
Pricing Model
Free
Starting Price
Global Rank
Follow
Month Visit
<5k
Tech used
OneFileLLM was manually vetted by our editorial team and was first featured on 2025-04-18.
Aitoolnet Featured banner
Related Searches

OneFileLLM 替代方案

更多 替代方案
  1. MarkItDown 是一个轻量级的 Python 工具,旨在将各种文件转换为 Markdown 格式,以便用于 LLM 以及相关的文本分析流程。

  2. LlamaParse 是一款能够将复杂文档中的数据提供给大型语言模型(LLMs)的解决方案。它能够处理表格、图表等复杂数据,支持自定义解析,具备多语言支持能力,易于进行 API 集成,并且符合 SOC 2 标准。

  3. LLxprt Code:一款面向多模型大语言模型的通用AI命令行界面。您可以通过终端轻松访问 Google、OpenAI、Anthropic 等众多模型。助力您提升编程、调试及自动化能力。

  4. Code2LLM 是一款 CLI 工具,它使用 GPT-4o 和 Claude-3.5 Sonnet 等先进模型,让您能够轻松地与代码库进行交互,无需 API 密钥,帮助开发人员提高生产力。

  5. Unstract:一个开源、无代码的LLM平台,专为高精度非结构化数据提取而设计。助您从复杂文档中高效提取可靠、可审计的数据。