OneFileLLM

(Be the first to comment)
OneFileLLM:為 LLM 整合資料的 CLI 工具。支援 GitHub、ArXiv、網頁爬取等功能。提供 XML 輸出與 token 數量計算。告別繁瑣的資料整理! 0
訪問

What is OneFileLLM?

要將來自多個來源的複雜資訊提供給大型語言模型(Large Language Models,LLM),往往需要繁瑣的手動操作,包括尋找、下載、轉換和合併資料,才能開始設計提示詞。OneFileLLM 是一個專為自動化此資料彙整流程而設計的命令列工具。它可以智慧地提取、處理和整合來自本地檔案、程式碼儲存庫、學術論文、網路文件等內容,並將單一結構化的文字檔案直接傳送到您的剪貼簿,以便與 LLM 互動。這樣,您就可以減少在資料整理上花費的時間,並從 AI 助理獲得更多價值。

主要功能

  • 🌐 整合不同來源: 自動提取和處理來自本地檔案/目錄、GitHub 儲存庫(包括特定 PR 和 issue)、ArXiv 論文、Sci-Hub 論文(透過 DOI/PMID)、YouTube 影片文字稿和網頁的資料。

  • ✨ 自動偵測來源: 只需提供路徑、URL 或識別碼,OneFileLLM 就能智慧地判斷來源類型,並應用正確的處理邏輯。

  • 📄 處理多種檔案格式: 原生處理專案和研究中常見的各種檔案類型,包括 .py.js.md.html.ipynb(Jupyter Notebooks)、.pdf 等,並提取相關的文字內容。

  • 🕸️ 爬取網路文件: 不僅從起始 URL 抓取內容,還能從連結的頁面抓取內容,深度可配置(max_depth)。

  • ⚙️ 智慧預處理文字: 提供文字清理選項,包括停用詞移除和小寫轉換,並提供壓縮(已清理)和未壓縮的輸出。

  • 🏷️ 使用 XML 結構化輸出: 將彙整的內容封裝在清晰的 XML 標籤中,指示每個資料區塊的來源和類型。

  • 📋 自動將輸出複製到剪貼簿: 將完整的未壓縮文字輸出直接放置到您的系統剪貼簿中。

  • 📊 報告 Token 數量: 計算並顯示壓縮和未壓縮輸出的估計 token 數量(使用 tiktoken)。

  • 🚫 排除不需要的內容: 配置模式以排除特定檔案(如自動產生的程式碼或測試檔案)和整個目錄的處理。

使用情境

  1. 開發人員的程式碼庫理解: 您需要了解一個複雜的 GitHub 儲存庫才能貢獻修復程式或功能。無需手動瀏覽檔案,只需在儲存庫 URL 上執行 OneFileLLM。它會收集程式碼檔案(遵守您配置的副檔名和排除項)、README 和潛在的相關文件,並將所有內容放置到您的剪貼簿中。然後,您可以使用彙整的上下文向 LLM 提出問題,例如「解釋 XYZ 模組的主要用途」或「程式碼庫中在哪裡處理使用者驗證?」

  2. 學術研究人員的研究論文分析: 您正在探索一個新的研究領域,並在本地儲存了幾篇 ArXiv 論文和 PDF。將 OneFileLLM 指向每個 ArXiv URL、DOI 或本地 PDF 檔案路徑,依序或將它們組合在一個目錄中。該工具會從每篇論文中提取文字,將其串連起來,並提供給您的 LLM。然後,您可以提示 LLM「總結這些論文中關於主題 Y 的主要發現」或「確定這些研究中使用的方法」。

  3. 使用文件和 Issue 進行疑難排解: 您正在偵錯與特定 GitHub 程式庫相關的問題。向 OneFileLLM 提供相關 GitHub issue 的 URL。它可以提取 issue 描述、評論相關的儲存庫程式碼,為您的 LLM 提供全面的上下文,以幫助診斷問題或根據討論和實際程式碼庫結構提出解決方案。

結論

停止在為大型語言模型準備上下文時,與分散的資料來源搏鬥。OneFileLLM 作為您高效的資料彙整助理,將程式碼、研究、文件和討論從不同的位置提取到一個單一的、可立即使用的套件中。透過自動化提取、處理和格式化,它可以節省您寶貴的時間,並允許您建構更明智、上下文更豐富的提示詞,最終幫助您更有效地利用 LLM 的全部功能。


More information on OneFileLLM

Launched
Pricing Model
Free
Starting Price
Global Rank
Follow
Month Visit
<5k
Tech used
OneFileLLM was manually vetted by our editorial team and was first featured on 2025-04-18.
Aitoolnet Featured banner
Related Searches

OneFileLLM 替代方案

更多 替代方案
  1. MarkItDown 是一個輕量級的 Python 工具,用於將各種檔案轉換為 Markdown 格式,以便用於 LLM 和相關的文本分析流程。

  2. LlamaParse 是一個解決方案,能讓大型語言模型(LLMs)讀取複雜文件中的資料。它能處理表格、圖表等內容,提供客製化剖析功能、多語言支援、簡易的 API 整合,並且符合 SOC 2 標準。

  3. LLxprt Code:專為多模型大型語言模型打造的通用型AI命令列介面。讓您能透過終端機,輕鬆存取Google、OpenAI、Anthropic等眾多平台服務。加速您的程式開發、除錯與自動化流程。

  4. Code2LLM 是一個 CLI 工具,讓您可以輕鬆地使用 GPT-4o 和 Claude-3.5 Sonnet 等進階模型與您的程式碼庫互動,無需 API 金鑰,幫助開發人員提高生產力。

  5. Unstract:開源、無程式碼的大型語言模型平台,專為高準確度的非結構化資料萃取而設計。輕鬆從複雜文件中擷取可靠、可稽核的資料。