Agent Eval Benchmark V2 发布：覆盖 12 个场景 300+ 测试用例

社区驱动的新版 Agent 评估基准，覆盖代码生成、数据分析、工具调用等 12 大场景。

Hugging Face·2026年4月19日

要点

代码生成、数据分析、文档问答、网页交互、API 调用、多轮对话、RAG 检索、安全审计、内容创作、任务规划、错误恢复、多语言

对 Skill 开发者的意义：可以用这套基准验证你的 Skill 在真实场景中的表现。

API2D🇨🇳 国内推荐

国内直连 OpenAI/Claude API，无需科学上网，按量计费

推广链接