What is StreamingLLM?

StreamingLLM 是一個高效的框架，可讓大型語言模型 (LLM) 部署在串流應用程式中，而不會犧牲效率和效能。它解決了在解碼過程中快取前一個 token 的金鑰和值狀態 (KV)、以及熱門的 LLM 無法概括長度超過訓練序列的較長文字的挑戰。StreamingLLM 透過引入注意力匯集器並保留初始 token 的 KV，讓使用有限長度注意力視窗訓練的 LLM 在不微調的情況下，就能處理無限序列長度。它比滑動視窗重新計算基準高出 22.2 倍的加速。

關鍵特色：

1. 高效部署：StreamingLLM 可讓 LLM 用於串流應用程式，而不會影響效率或效能。

2. 注意力匯集器：StreamingLLM 透過將初始 token 的 KV 保留為注意力匯集器，即使文字長度超過快取大小，也能恢復視窗注意力的效能。

3. 概括至無限序列長度：有了 StreamingLLM，LLM 能夠處理任何長度的輸入，而不需要快取重置或犧牲一致性。

4. 改進串流部署：在預訓練期間加入一個佔位符 token 作為專用的注意力匯集器，可進一步增強串流部署。

5. 速度最佳化：在串流設定中，StreamingLLM 可實現比滑動視窗重新計算基準高出 22.2 倍的加速。

用例：

1. 多回合對話：StreamingLLM 針對模型需要持續運作、且不大量使用記憶體或依賴過去資料的場景進行最佳化，這使其非常適合多回合對話。

2. 基於 LLM 的日常助理：有了 StreamingLLM，日常助理可以持續運作，並根據最近的對話產生回應，而不需要快取重新整理或耗時的重新計算。

StreamingLLM 是一個高效的框架，可在保持高性能和效率的同時，將 LLM 部署在串流應用程式中。StreamingLLM 透過引入注意力匯集器並保留初始 token 的 KV，讓 LLM 在不微調的情況下，就能處理無限序列長度。它特別適用於多回合對話和基於 LLM 的日常助理，與傳統方法相比，它提供了改進的串流部署和顯著的速度最佳化。

More information on StreamingLLM

Launched

Pricing Model

Free

Starting Price

Global Rank

Country

Month Visit

<5k

Tech used

StreamingLLM was manually vetted by our editorial team and was first featured on September 4th 2024.

StreamingLLM 替代方案

更多替代方案

vLLM
0

Visit Site

LLM 的高通量及記憶體用量有效推論與服務引擎

Compare
OneLLM
0

Visit Site

OneLLM 是您的端對端無程式碼平台，用於建置和部署 LLM。

Compare
useLLM
6

Visit Site

使用 useLLM 將大型語言模型（例如 ChatGPT）與 React 應用程式整合。串流訊息並設計提示，以利 AI 驅動的功能。

Compare
WizardLM
0

Visit Site

優化語言模型，提升效能，取得準確的結果。WizardLM 是編碼、數學和 NLP 任務的終極工具。

Compare
LLM Spark
6

Visit Site

釋放 LLM Spark 的所有潛力，這是一款能簡化 AI 應用程式建置的強大 AI 應用程式。輕鬆執行測試、比較和部署。

Compare

StreamingLLM

What is StreamingLLM?

關鍵特色：

用例：

More information on StreamingLLM

StreamingLLM 替代方案

vLLM

OneLLM

useLLM

WizardLM

LLM Spark