Ktransformers

(Be the first to comment)
KTransformers 是由清华大学 KVCache.AI 团队和 QuJing Tech 共同开发的开源项目,旨在优化大型语言模型的推理过程。它能够降低硬件门槛,在 24GB 显存的单 GPU 上运行 6710 亿参数的模型,并提升推理速度(预处理速度高达 286 tokens/s,生成速度高达 14 tokens/s),适用于个人、企业和学术用途。 0
访问

What is Ktransformers?

KTransformers 是一个以 Python 为中心的框架,旨在优化资源受限硬件上的大型语言模型 (LLM) 推理。通过集成内核级优化、战略性卸载和灵活的注入系统,它使用户能够在配备低至 24GB 显存的台式机上运行 DeepSeek-Coder-V3 (671B 参数) 等最先进的模型。

KTransformers 的重要性

在本地运行大型语言模型通常需要昂贵的 GPU 和广泛的技术专业知识。KTransformers 通过以下方式应对这些挑战:

  • 降低硬件门槛:在消费级硬件上执行大型模型,而不会影响性能。

  • 提高速度:与传统方法相比,预填充速度提高高达 28 倍,解码速度提高 3 倍。

  • 简化部署:利用基于 YAML 的模板注入优化的内核,并轻松管理复杂的配置。

无论您是开发人员、研究人员还是企业用户,KTransformers 都能让您以较低的成本和复杂性来试验前沿模型。

主要特性

高效的内核优化
利用高性能 CPU 和 GPU 内核(如 Marlin 和 Llamafile)进行量化模型处理,在矩阵计算中实现高达 3.87 倍的加速

灵活的注入框架
使用简单的 YAML 模板将原始 PyTorch 模块替换为优化的变体。无缝组合多个优化,以探索它们的协同效应。

异构计算支持
智能地在 GPU 和 CPU 之间卸载计算密集型任务,从而减少显存使用,同时保持高吞吐量。

RESTful API 和 Web UI 兼容性
将 KTransformers 与 OpenAI/Ollama API 集成,或部署类似于 ChatGPT 的 Web 界面以供本地使用。

即将到来的开源贡献
诸如 AMX 优化和选择性专家激活等功能将很快开源,从而促进社区驱动的创新。

真实用例

1. 使用 VSCode Copilot 进行本地开发

只需 24GB 显存,即可在桌面上运行 GPT-4 级别的代码助手。开发人员可以通过其 OpenAI 兼容的 API 将 KTransformers 集成到 VSCode 中,从而实现实时的代码建议和补全,而无需依赖云服务。

2. 长序列文本处理

高效地处理冗长的文档或分析广泛的代码库。借助英特尔 AMX 驱动的 CPU 优化,KTransformers 实现了 286 个 tokens/s 的预填充速度,从而将处理时间从几分钟缩短到几秒钟。

3. 企业级本地部署

部署 DeepSeek-Coder-V2 等大型模型,用于客户支持聊天机器人或内容生成工具等内部应用。通过在本地运行这些模型,企业可以节省云成本,同时确保数据隐私。


结论

KTransformers 弥合了强大的 LLM 和易于访问的硬件之间的差距。其创新的优化、易用性和对可扩展性的关注使其成为开发人员、研究人员和企业的理想选择。无论您是构建个人 AI 助手还是部署企业级解决方案,KTransformers 都能确保您充分利用硬件。

立即在 GitHub 上浏览该项目。

常见问题解答

问:运行 KTransformers 需要什么硬件?
答:KTransformers 支持在显存低至 24GB 且具有足够 DRAM 的系统上进行本地部署(例如,DeepSeek-Coder-V2 为 136GB)。

问:我可以将 KTransformers 与非 MoE 模型一起使用吗?
答:可以,KTransformers 与各种架构兼容,包括 MoE 和密集模型。

问:KTransformers 是否完全开源?
答:核心框架可作为预览二进制发行版使用。AMX 优化等即将推出的功能将在 0.3 版本中开源。

问:KTransformers 与 vLLM 相比如何?
答:虽然 vLLM 侧重于大规模部署,但 KTransformers 专门优化资源受限环境的本地推理。


More information on Ktransformers

Launched
Pricing Model
Free
Starting Price
Global Rank
Follow
Month Visit
<5k
Tech used
Ktransformers was manually vetted by our editorial team and was first featured on 2025-02-18.
Aitoolnet Featured banner
Related Searches

Ktransformers 替代方案

更多 替代方案
  1. Transformer Lab:一个开源平台,无需编码即可在本地构建、微调和运行大型语言模型 (LLM)。下载数百个模型,跨硬件微调,聊天,评估等等。

  2. 持续研究大规模的训练 Transformer 模型

  3. OLMo 2 32B:开源大型语言模型,媲美 GPT-3.5!免费提供代码、数据和权重。助力研究、定制并构建更智能的 AI。

  4. MonsterGPT:聊天即刻微调与部署定制AI模型。让复杂的LLM与AI任务变得轻而易举。轻松访问60多款开源模型。

  5. Kolosal AI是一个开源平台,允许用户在笔记本电脑、台式机甚至树莓派等本地设备上运行大型语言模型(LLMs),其优先考虑速度、效率、隐私和环保。