2025年最好的 LightEval 替代方案
-

使用 OpenAI 格式呼叫所有 LLM API。使用 Bedrock、Azure、OpenAI、Cohere、Anthropic、Ollama、Sagemaker、HuggingFace、Replicate(100 多個 LLM)
-

Huggingface 的 Open LLM Leaderboard 目標是促進語言模型評估的開放合作與透明度。
-

-

-

-

-

-

-

BenchLLM:評估大型語言模型 (LLM) 回應,建立測試套件,自動化評估流程。透過全面的效能評估,提升 AI 系統效能。
-

-

PromptTools 是一個開放原始碼平台,協助開發者透過實驗、評估和回饋來建構、監控及改進大型語言模型 (LLM) 應用程式。
-

-

LiveBench 是一個大型語言模型基準測試,每月從不同來源獲得新問題和客觀答案,以進行準確評分。目前包含 6 個類別的 18 個任務,並將陸續增加更多任務。
-

Transformer Lab:一個開源平台,讓您可在本地端建構、微調和執行大型語言模型 (LLM),無需編碼。下載數百個模型,跨硬體微調,聊天、評估等等。
-

Deepchecks:大型語言模型(LLM)的端對端評估平台。 從開發到上線,有系統地測試、比較並監控您的AI應用程式。 有效降低幻覺,並加速產品上市。
-

-

-

LazyLLM: 專為多代理式LLM應用程式打造的低程式碼平台。快速建構、疊代並部署複雜的AI解決方案,從原型開發到正式部署一氣呵成。將重心放在演算法的創新,而非繁瑣的工程細節。
-

LlamaEdge 專案讓您輕鬆在本機端執行 LLM 推論應用程式,並為 Llama2 系列的 LLM 建立與 OpenAI 相容的 API 服務。
-

使用 RagMetrics 評估並改善您的 LLM 應用程式。自動化測試、衡量效能,並優化 RAG 系統,以獲得可靠的結果。
-

-

GLM-4.5V:賦予您的 AI 卓越視覺能力。可從螢幕截圖生成網頁程式碼、自動化圖形使用者介面,並能運用深度推理,精準分析文件與影片。
-

LLaMA Factory 是一個開源低代碼大型模型微調框架,它整合了業界廣泛使用的微調技術,並透過 Web UI 介面支援大型模型的零代碼微調。
-

使用 LitServe,閃電般快速部署 AI 模型!輕鬆擴展的服務,支援 PyTorch、TensorFlow、JAX 等多種框架。降低成本,專注於 AI 研發。立即開始使用!
-

-

-

Lightly 是一款強大的機器學習數據策展工具組。它能協助您篩選寶貴數據、預訓練模型、自動化流程並獲得深刻見解,進而提升模型效能並降低成本。深受企業信賴。
-

-

-

LM Studio 是一款操作簡便的桌面應用程式,讓您能輕鬆體驗本地與開源的大型語言模型(LLM)。這款 LM Studio 跨平台桌面應用程式,讓您可以從 Hugging Face 下載並運行任何 ggml-相容的模型,並提供簡潔而強大的模型配置與推論介面。該應用程式會盡可能地運用您的 GPU 資源。
