Ktransformers

What is Ktransformers?

KTransformers 是一个以 Python 为中心的框架，旨在优化资源受限硬件上的大型语言模型 (LLM) 推理。通过集成内核级优化、战略性卸载和灵活的注入系统，它使用户能够在配备低至 24GB 显存的台式机上运行 DeepSeek-Coder-V3 (671B 参数) 等最先进的模型。

在本地运行大型语言模型通常需要昂贵的 GPU 和广泛的技术专业知识。KTransformers 通过以下方式应对这些挑战：

无论您是开发人员、研究人员还是企业用户，KTransformers 都能让您以较低的成本和复杂性来试验前沿模型。

✨ 高效的内核优化
利用高性能 CPU 和 GPU 内核（如 Marlin 和 Llamafile）进行量化模型处理，在矩阵计算中实现高达 3.87 倍的加速。

✨ 灵活的注入框架
使用简单的 YAML 模板将原始 PyTorch 模块替换为优化的变体。无缝组合多个优化，以探索它们的协同效应。

✨ 异构计算支持
智能地在 GPU 和 CPU 之间卸载计算密集型任务，从而减少显存使用，同时保持高吞吐量。

✨ RESTful API 和 Web UI 兼容性
将 KTransformers 与 OpenAI/Ollama API 集成，或部署类似于 ChatGPT 的 Web 界面以供本地使用。

✨ 即将到来的开源贡献
诸如 AMX 优化和选择性专家激活等功能将很快开源，从而促进社区驱动的创新。

只需 24GB 显存，即可在桌面上运行 GPT-4 级别的代码助手。开发人员可以通过其 OpenAI 兼容的 API 将 KTransformers 集成到 VSCode 中，从而实现实时的代码建议和补全，而无需依赖云服务。

高效地处理冗长的文档或分析广泛的代码库。借助英特尔 AMX 驱动的 CPU 优化，KTransformers 实现了 286 个 tokens/s 的预填充速度，从而将处理时间从几分钟缩短到几秒钟。

部署 DeepSeek-Coder-V2 等大型模型，用于客户支持聊天机器人或内容生成工具等内部应用。通过在本地运行这些模型，企业可以节省云成本，同时确保数据隐私。

KTransformers 弥合了强大的 LLM 和易于访问的硬件之间的差距。其创新的优化、易用性和对可扩展性的关注使其成为开发人员、研究人员和企业的理想选择。无论您是构建个人 AI 助手还是部署企业级解决方案，KTransformers 都能确保您充分利用硬件。

立即在 GitHub 上浏览该项目。

问：运行 KTransformers 需要什么硬件？
答：KTransformers 支持在显存低至 24GB 且具有足够 DRAM 的系统上进行本地部署（例如，DeepSeek-Coder-V2 为 136GB）。

问：我可以将 KTransformers 与非 MoE 模型一起使用吗？
答：可以，KTransformers 与各种架构兼容，包括 MoE 和密集模型。

问：KTransformers 是否完全开源？
答：核心框架可作为预览二进制发行版使用。AMX 优化等即将推出的功能将在 0.3 版本中开源。

问：KTransformers 与 vLLM 相比如何？
答：虽然 vLLM 侧重于大规模部署，但 KTransformers 专门优化资源受限环境的本地推理。

Launched

Pricing Model

Free

Starting Price

Global Rank

Month Visit

<5k

Ktransformers was manually vetted by our editorial team and was first featured on 2025-02-18.