AI2 WildBench Leaderboard
ModelBench| Launched | |
| Pricing Model | Free |
| Starting Price | |
| Tech used | |
| Tag | Llm Benchmark Leaderboard,Data Analysis,A/B Testing |
| Launched | 2024-05 |
| Pricing Model | Free Trial |
| Starting Price | 49 $ Monthly |
| Tech used | Google Tag Manager,Amazon AWS CloudFront,Google Fonts |
| Tag | A/B Testing,Data Analysis,Data Visualization |
| Global Rank | |
| Country | |
| Month Visit |
| Global Rank | 7783759 |
| Country | India |
| Month Visit | 1971 |
Estimated traffic data from Similarweb
LiveBench - LiveBench 是一款 LLM 基准测试,每月从不同来源收集新的问题,并提供客观答案以进行准确评分。目前涵盖 6 个类别中的 18 个任务,并将不断增加更多任务。
BenchLLM by V7 - BenchLLM:评估LLM响应,构建测试套件,自动化评估。通过全面的性能评估来增强AI驱动系统。
Web Bench - Web Bench 是一个全新、开放、全面的基准数据集,旨在专门评估 AI 网络浏览智能体在涵盖广泛多样的实时网站的复杂真实世界任务上的性能。
xbench - xbench: 追踪人工智能在现实世界中的实际效用与前沿能力的基准测试。借助我们独有的双轨系统,为AI智能体提供精准、动态的评估。