AI2 WildBench Leaderboard
Berkeley Function-Calling Leaderboard| Launched | |
| Pricing Model | Free |
| Starting Price | |
| Tech used | |
| Tag | Llm Benchmark Leaderboard,Data Analysis,A/B Testing |
| Launched | |
| Pricing Model | Free |
| Starting Price | |
| Tech used | Google Analytics,Google Tag Manager,cdnjs,Fastly,Google Fonts,Bootstrap,GitHub Pages,Gzip,Varnish,YouTube |
| Tag | Llm Benchmark Leaderboard,Data Analysis,Data Visualization |
| Global Rank | |
| Country | |
| Month Visit |
| Global Rank | |
| Country | |
| Month Visit |
Estimated traffic data from Similarweb
LiveBench - LiveBench es un punto de referencia para LLM con nuevas preguntas mensuales de diversas fuentes y respuestas objetivas para una puntuación precisa, actualmente con 18 tareas en 6 categorías y más por venir.
ModelBench - Lanza productos de IA más rápido con evaluaciones LLM sin código. Compara más de 180 modelos, crea prompts y prueba con confianza.
BenchLLM by V7 - BenchLLM: Evalúe las respuestas de LLM, cree conjuntos de pruebas, automatice las evaluaciones. Mejore los sistemas impulsados por IA con evaluaciones de rendimiento integrales.
Web Bench - Web Bench es un conjunto de datos de evaluación comparativa (benchmark) novedoso, abierto e integral, diseñado específicamente para evaluar el rendimiento de los agentes de IA de navegación web en tareas complejas y del mundo real, que abarcan una amplia diversidad de sitios web activos.
xbench - xbench: El referente de IA que mide la utilidad en entornos reales y las capacidades de vanguardia. Obtenga una evaluación precisa y dinámica de los agentes de IA con nuestro sistema de doble vía.