AI2 WildBench Leaderboard| Launched | 2023-07 |
| Pricing Model | Free |
| Starting Price | |
| Tech used | Framer,Google Fonts,HSTS |
| Tag | Test Automation,Llm Benchmark Leaderboard |
| Launched | |
| Pricing Model | Free |
| Starting Price | |
| Tech used | |
| Tag | Llm Benchmark Leaderboard,Data Analysis,A/B Testing |
| Global Rank | 12812835 |
| Country | United States |
| Month Visit | 961 |
| Global Rank | |
| Country | |
| Month Visit |
Estimated traffic data from Similarweb
LiveBench - LiveBench 是一款 LLM 基准测试,每月从不同来源收集新的问题,并提供客观答案以进行准确评分。目前涵盖 6 个类别中的 18 个任务,并将不断增加更多任务。
ModelBench - 无需编码即可快速推出 AI 产品,并对大型语言模型 (LLM) 进行评估。比较 180 多个模型,精心设计提示词,并充满信心地进行测试。
Deepchecks - Deepchecks:LLM端到端评估平台。系统地测试、比较和监控您的AI应用,涵盖从开发到生产的全过程。减少模型幻觉,加速产品交付。
Confident AI - 各规模的公司都使用 Confident AI 来证明为什么他们的 LLM 值得投入生产。