Ktransformers

(Be the first to comment)
KTransformers 是由清華大學 KVCache.AI 團隊與 QuJing Tech 共同開發的開源專案,旨在優化大型語言模型的推論過程。它能降低硬體門檻,讓使用者僅需配備 24GB 顯示記憶體的單張 GPU,即可運行 6710 億參數的模型。此外,它還能大幅提升推論速度(預處理階段最高可達每秒 286 個 tokens,生成階段最高可達每秒 14 個 tokens),非常適合個人、企業以及學術機構使用。 0
訪問

What is Ktransformers?

KTransformers 是一個以 Python 為中心的框架,旨在最佳化資源受限硬體上的大型語言模型 (LLM) 推論。透過整合核心層級的最佳化、策略性卸載和彈性的注入系統,它讓使用者能夠在配備僅 24GB VRAM 的桌上型電腦上執行 DeepSeek-Coder-V3 (671B 參數) 等最先進的模型。

為什麼 KTransformers 很重要

在本地端執行大型語言模型通常需要昂貴的 GPU 和廣泛的技術專業知識。KTransformers 透過以下方式解決這些挑戰:

  • 降低硬體門檻:在消費級硬體上執行大型模型,而不會影響效能。

  • 提高速度:與傳統方法相比,實現高達 28 倍的更快前置填充速度和 3 倍的更快解碼速度。

  • 簡化部署:利用基於 YAML 的範本來注入最佳化的核心,並輕鬆管理複雜的配置。

無論您是開發人員、研究人員還是企業使用者,KTransformers 都能讓您以低成本和低複雜度的方式試用最先進的模型。

主要功能

高效的核心最佳化
利用高效能的 CPU 和 GPU 核心,例如 Marlin 和 Llamafile,用於量化模型,在矩陣計算中實現高達 3.87 倍的加速

彈性的注入框架
使用簡單的 YAML 範本將原始 PyTorch 模組替換為最佳化的變體。無縫結合多個最佳化,以探索它們的協同效應。

異質運算支援
智慧地卸載 GPU 和 CPU 之間計算密集型任務,減少 VRAM 使用量,同時保持高輸送量。

RESTful API 和 Web UI 相容性
將 KTransformers 與 OpenAI/Ollama API 整合,或部署類似 ChatGPT 的 Web 介面以供本地使用。

即將推出的開源貢獻
AMX 最佳化和選擇性專家激活等功能將很快開源,以促進社群驅動的創新。

真實世界的用例

1. 使用 VSCode Copilot 進行本地開發

僅使用 24GB VRAM,即可在您的桌上型電腦上執行 GPT-4 等級的程式碼助手。開發人員可以透過其與 OpenAI 相容的 API 將 KTransformers 整合到 VSCode 中,從而實現即時程式碼建議和完成,而無需依賴雲端服務。

2. 長序列文字處理

有效率地處理冗長的文件或分析廣泛的程式碼庫。借助 Intel AMX 支援的 CPU 最佳化,KTransformers 實現了 286 tokens/s 的前置填充速度,將處理時間從幾分鐘縮短到幾秒鐘。

3. 企業規模的本地部署

部署大型模型 (例如 DeepSeek-Coder-V2) 用於內部應用程式,例如客戶支援聊天機器人或內容生成工具。透過在本地端執行這些模型,企業可以節省雲端成本,同時確保資料隱私。


結論

KTransformers 彌合了功能強大的 LLM 和可訪問的硬體之間的差距。其創新的最佳化、易用性和對可擴展性的關注使其成為開發人員、研究人員和企業的理想選擇。無論您是建立個人 AI 助理還是部署企業級解決方案,KTransformers 都能確保您充分利用您的硬體。

立即在 GitHub 上探索該專案。

常見問題解答

問:我需要什麼硬體才能執行 KTransformers?
答:KTransformers 支援在 VRAM 僅 24GB 且具有足夠 DRAM 的系統上進行本地部署 (例如,DeepSeek-Coder-V2 為 136GB)。

問:我可以將 KTransformers 與非 MoE 模型一起使用嗎?
答:可以,KTransformers 與各種架構相容,包括 MoE 和密集模型。

問:KTransformers 是完全開源的嗎?
答:核心框架可以作為預覽二進位發行版使用。AMX 最佳化等即將推出的功能將在 0.3 版本中開源。

問:KTransformers 與 vLLM 相比如何?
答:雖然 vLLM 側重於大規模部署,但 KTransformers 專注於最佳化資源受限環境的本地推論。


More information on Ktransformers

Launched
Pricing Model
Free
Starting Price
Global Rank
Follow
Month Visit
<5k
Tech used
Ktransformers was manually vetted by our editorial team and was first featured on 2025-02-18.
Aitoolnet Featured banner
Related Searches

Ktransformers 替代方案

更多 替代方案
  1. Transformer Lab:一個開源平台,讓您可在本地端建構、微調和執行大型語言模型 (LLM),無需編碼。下載數百個模型,跨硬體微調,聊天、評估等等。

  2. 持續研究訓練 Transformer 模型的規模

  3. OLMo 2 32B:開源大型語言模型,足以媲美 GPT-3.5!免費提供程式碼、資料與權重,供您研究、客製化,並打造更智慧的 AI。

  4. MonsterGPT:透過對話輕鬆微調並部署專屬AI模型。讓複雜的大型語言模型(LLM)與人工智慧(AI)任務變得更簡單。輕鬆存取超過 60 個開源模型。

  5. Kolosal AI 是一個開放原始碼平台,讓使用者能於個人裝置上,例如筆電、桌機,甚至樹莓派,本地執行大型語言模型 (LLM),並優先考量速度、效率、隱私及環保。