Agent Eval Benchmark V2 发布:覆盖 12 个场景 300+ 测试用例

社区驱动的新版 Agent 评估基准,覆盖代码生成、数据分析、工具调用等 12 大场景。

Hugging Face·2026年4月19日

要点

  • Agent Eval V2 覆盖 12 个场景,300+ 测试用例
  • 新增工具调用正确率、多步推理一致性指标
  • 提供自动化评测脚本,一行命令跑完
  • 排行榜已上线 Hugging Face Spaces

场景覆盖

代码生成、数据分析、文档问答、网页交互、API 调用、多轮对话、RAG 检索、安全审计、内容创作、任务规划、错误恢复、多语言

对 Skill 开发者的意义:可以用这套基准验证你的 Skill 在真实场景中的表现。

查看原文返回资讯列表
API2D🇨🇳 国内推荐

国内直连 OpenAI/Claude API,无需科学上网,按量计费

立即体验 →

推广链接