What is Kreuzberg?
Kreuzberg 是一個 Python 函式庫,能簡化從 PDF、圖片、辦公室文件等多種來源提取文字的過程。無論您是要建構 Retrieval Augmented Generation (RAG) 系統、分析資料,還是自動化文件工作流程,Kreuzberg 都能讓您擺脫處理多種工具和 API 的麻煩。它的設計著重於在本機端運行,節省您的時間和資源,同時保有對資料的完全掌控。
主要功能
✨ 通用文字提取
透過單一、整合的介面,從 PDF(可搜尋和掃描)、圖片和辦公室文件中提取文字。無需為了不同格式而使用不同的工具。
🚀 智慧處理
自動偵測文字檔案的編碼,並對掃描文件應用 OCR,確保結果準確,無需手動干預。
💻 本機處理
在本機上處理檔案,無需依賴外部 API 或雲端服務。這能確保您的資料安全並減少延遲。
📦 資源效率
Kreuzberg 輕巧且經過最佳化,運行順暢,不需要 GPU 或大量的系統資源。
🐍 現代 Python 設計
Kreuzberg 採用 async/await 和全面的型別提示建構而成,能無縫整合到現代 Python 應用程式中。詳細的錯誤處理和除錯支援使其適用於生產環境。
使用案例
1. 建構 RAG 應用程式
如果您正在開發 Retrieval Augmented Generation 系統,Kreuzberg 能簡化從各種文件格式提取文字的過程,讓您專注於語意搜尋和 AI 整合。
2. 資料分析和研究
從 Excel 試算表、Jupyter Notebooks 或 BibTeX 檔案中提取結構化資料,以進行分析或視覺化。Kreuzberg 能處理 CSV、JSON 等格式,節省您準備資料的時間。
3. 文件自動化
自動從 PDF、Word 或 PowerPoint 等格式的發票、合約或報告中提取文字。Kreuzberg 的本機處理能確保符合資料隱私權法規。
為什麼 Kreuzberg 能脫穎而出
與許多需要 API 呼叫或複雜設定的商業解決方案不同,Kreuzberg 是開源的、輕巧的,並且專為重視簡潔和效率的開發人員而設計。它在現代 Python API 下整合了 Tesseract OCR 和 Pandoc 等值得信賴的工具,使其成為任何文字提取任務的可靠選擇。
快速入門
安裝 Python 套件
pip install kreuzberg
安裝系統相依性
Pandoc 用於文件格式轉換。
Tesseract OCR 用於圖片和 PDF 的 OCR。
支援的格式
Kreuzberg 支援多種格式,包括:
文件: PDF、Word、PowerPoint、OpenDocument、EPUB、LaTeX。
文字和標記: HTML、Markdown、純文字、reStructuredText、Org-mode。
資料: Excel、CSV、Jupyter Notebooks、BibTeX、EndNote XML。
圖片: JPEG、PNG、TIFF、BMP、WebP 等。
結論
Kreuzberg 是開發人員友善的解決方案,可從任何文件格式中提取文字。它的本機處理、全面的格式支援和現代 Python 設計使其成為 RAG 應用程式、資料分析和文件自動化不可或缺的工具。
常見問題
Q: Kreuzberg 需要網際網路連線嗎?
A: 不,Kreuzberg 在本機處理檔案,因此不需要網際網路連線。
Q: 我可以使用 Kreuzberg 處理掃描的 PDF 嗎?
A: 可以,Kreuzberg 會自動應用 OCR 從掃描的 PDF 和圖片中提取文字。
Q: Kreuzberg 適合大規模處理嗎?
A: 當然。Kreuzberg 具有記憶體效率,專為生產使用而設計,可以輕鬆處理大量檔案。
Q: 支援哪些 Python 版本?
A: Kreuzberg 支援 Python 3.8 及以上版本,與現代 Python 最佳實踐保持一致。
有了 Kreuzberg,文字提取不再是瓶頸,而是您工作流程中無縫的一部分。立即試用,體驗差異!





