What is LEANN?
LEANN是一款创新的向量数据库,旨在让高性能、个性化人工智能触手可及。它通过将您的个人设备转变为强大的检索增强生成(RAG)系统,巧妙地解决了传统向量解决方案在复杂性和成本方面面临的关键挑战。对于处理海量私有数据的开发者和个人AI用户而言,LEANN能够提供快速、准确且100%私密的RAG功能,实现零云成本并带来无与伦比的效率。
主要特性
LEANN的架构以效率和隐私为核心,旨在消费级硬件上实现企业级的搜索能力。
💾 最小向量索引与极致存储节省
LEANN在设计之初就以最小化资源消耗为目标,相较于传统向量数据库,它在不损失任何搜索精度的前提下,实现了惊人的97%存储空间减少。这种高效性得益于基于图的按需选择性重计算 (Graph-based Selective Recomputation)——一项创新技术,它按需计算嵌入,而非存储海量的静态嵌入向量,从而彻底消除了巨大的存储开销。
🔒 100% 私密RAG,零云成本
确保完全的数据主权。LEANN将您的RAG应用程序完全运行在您的个人笔记本电脑上,这意味着您的敏感数据绝不会离开您的设备。这种彻底的本地化消除了对外部云服务、第三方API(如 OpenAI)及相关成本的依赖,从而确保零云开销和无虞的隐私保护。
📚 全面RAG:包罗万象的数据摄入
LEANN将各种分散的个人数据源转化为一个统一、可搜索的知识库。它支持对标准文档(.pdf、.txt、.md)、专有通信记录(Apple Mail, WeChat, iMessage)、网页历史记录以及复杂的代理记忆(ChatGPT/Claude对话)进行RAG,让您能够轻松查询您的全部数字足迹。
💻 面向开发者的智能代码分块
对于开发者而言,LEANN提供了原生的Claude Code集成和智能的AST感知代码分块 (AST-Aware Code Chunking)功能。这项功能能够自动理解并保留Python、Java和TypeScript等语言中代码的语义边界(函数、类和方法),从而实现高度准确、语境感知的语义代码搜索与辅助。
⚙️ 灵活配置与可扩展后端
LEANN提供了一个简洁的Python API和一个强大的命令行界面(CLI),支持对嵌入模型、搜索策略和数据处理进行灵活的参数配置。它兼容主流的LLM后端(HuggingFace, Ollama, 以及任何兼容OpenAI的API),并允许用户选择HNSW(默认)和DiskANN等可插拔的索引后端。
应用场景
LEANN助力用户从最私密、最复杂的数据集中挖掘出即时且富有洞察力的信息。
1. 个人知识统一与搜索
将您多年来分散的数字通信——无论是Apple Mail和iMessage对话、浏览器历史记录,还是存档文档——整合到一个统一的语义搜索引擎中。您可以基于自己完整的数字足迹提出复杂问题,并获得高度相关的答案,真正实现像Google一样搜索您的生活。
2. 高级代码库导航与语境感知辅助
开发者可以索引庞大的代码仓库,并即时地在其整个代码库中执行语义搜索。AST感知分块功能确保在请求上下文或调试帮助时,RAG系统能够检索到完整、语义相关的函数或类,从而提供高度准确、语境感知的辅助,且无需手动注入上下文。
3. 精细化数据管理与过滤
利用内置的元数据过滤系统,您可以精确管理和查询已索引的数据。例如,您可以按特定日期或类型过滤文档,或按文件扩展名执行高度目标化的代码搜索。这使得查找上个月在某个特定项目中编写的所有Python函数,或使用附带的Grep Search选项快速定位精确短语等复杂用例成为可能。
总结
LEANN是高性能、私密且经济高效的个人AI的终极解决方案。通过利用创新的基于图的重计算技术,它在确保完整数据隐私和最小资源占用的同时,提供了可扩展向量数据库的强大功能。





