What is OneFileLLM?
要將來自多個來源的複雜資訊提供給大型語言模型(Large Language Models,LLM),往往需要繁瑣的手動操作,包括尋找、下載、轉換和合併資料,才能開始設計提示詞。OneFileLLM 是一個專為自動化此資料彙整流程而設計的命令列工具。它可以智慧地提取、處理和整合來自本地檔案、程式碼儲存庫、學術論文、網路文件等內容,並將單一結構化的文字檔案直接傳送到您的剪貼簿,以便與 LLM 互動。這樣,您就可以減少在資料整理上花費的時間,並從 AI 助理獲得更多價值。
主要功能
🌐 整合不同來源: 自動提取和處理來自本地檔案/目錄、GitHub 儲存庫(包括特定 PR 和 issue)、ArXiv 論文、Sci-Hub 論文(透過 DOI/PMID)、YouTube 影片文字稿和網頁的資料。
✨ 自動偵測來源: 只需提供路徑、URL 或識別碼,OneFileLLM 就能智慧地判斷來源類型,並應用正確的處理邏輯。
📄 處理多種檔案格式: 原生處理專案和研究中常見的各種檔案類型,包括
.py、.js、.md、.html、.ipynb(Jupyter Notebooks)、.pdf等,並提取相關的文字內容。🕸️ 爬取網路文件: 不僅從起始 URL 抓取內容,還能從連結的頁面抓取內容,深度可配置(
max_depth)。⚙️ 智慧預處理文字: 提供文字清理選項,包括停用詞移除和小寫轉換,並提供壓縮(已清理)和未壓縮的輸出。
🏷️ 使用 XML 結構化輸出: 將彙整的內容封裝在清晰的 XML 標籤中,指示每個資料區塊的來源和類型。
📋 自動將輸出複製到剪貼簿: 將完整的未壓縮文字輸出直接放置到您的系統剪貼簿中。
📊 報告 Token 數量: 計算並顯示壓縮和未壓縮輸出的估計 token 數量(使用
tiktoken)。🚫 排除不需要的內容: 配置模式以排除特定檔案(如自動產生的程式碼或測試檔案)和整個目錄的處理。
使用情境
開發人員的程式碼庫理解: 您需要了解一個複雜的 GitHub 儲存庫才能貢獻修復程式或功能。無需手動瀏覽檔案,只需在儲存庫 URL 上執行 OneFileLLM。它會收集程式碼檔案(遵守您配置的副檔名和排除項)、README 和潛在的相關文件,並將所有內容放置到您的剪貼簿中。然後,您可以使用彙整的上下文向 LLM 提出問題,例如「解釋
XYZ模組的主要用途」或「程式碼庫中在哪裡處理使用者驗證?」學術研究人員的研究論文分析: 您正在探索一個新的研究領域,並在本地儲存了幾篇 ArXiv 論文和 PDF。將 OneFileLLM 指向每個 ArXiv URL、DOI 或本地 PDF 檔案路徑,依序或將它們組合在一個目錄中。該工具會從每篇論文中提取文字,將其串連起來,並提供給您的 LLM。然後,您可以提示 LLM「總結這些論文中關於主題 Y 的主要發現」或「確定這些研究中使用的方法」。
使用文件和 Issue 進行疑難排解: 您正在偵錯與特定 GitHub 程式庫相關的問題。向 OneFileLLM 提供相關 GitHub issue 的 URL。它可以提取 issue 描述、評論和相關的儲存庫程式碼,為您的 LLM 提供全面的上下文,以幫助診斷問題或根據討論和實際程式碼庫結構提出解決方案。
結論
停止在為大型語言模型準備上下文時,與分散的資料來源搏鬥。OneFileLLM 作為您高效的資料彙整助理,將程式碼、研究、文件和討論從不同的位置提取到一個單一的、可立即使用的套件中。透過自動化提取、處理和格式化,它可以節省您寶貴的時間,並允許您建構更明智、上下文更豐富的提示詞,最終幫助您更有效地利用 LLM 的全部功能。





