Agent Eval Benchmark V2 发布:覆盖 12 个场景 300+ 测试用例
社区驱动的新版 Agent 评估基准,覆盖代码生成、数据分析、工具调用等 12 大场景。
Hugging Face·2026年4月19日
要点
- Agent Eval V2 覆盖 12 个场景,300+ 测试用例
- 新增工具调用正确率、多步推理一致性指标
- 提供自动化评测脚本,一行命令跑完
- 排行榜已上线 Hugging Face Spaces
场景覆盖
代码生成、数据分析、文档问答、网页交互、API 调用、多轮对话、RAG 检索、安全审计、内容创作、任务规划、错误恢复、多语言
对 Skill 开发者的意义:可以用这套基准验证你的 Skill 在真实场景中的表现。