什么:都不做就能得分 智能|体基准测试出现大问题

2025-07-23 14:18:10      来源:扬州网

机器之心报道

都在研究考生,考卷出问题了。

基准测试在评估人工智能系统的优势与局限性方面具有基础性作用,是引导科研与产业发展的关键工具。

随着AI智能体从研究原型逐步走向关键任务的实际应用,研究人员和从业者开始构建用于评估AI智能体能力与局限性的基准测试。

这和常规模型的评估方式产生了很大不同。由于智能体的任务通常需要一个真实场景,并且任务缺乏标准答案,针对AI智能体的基准测试在任务设计和评估方式上要远比传统AI基准测试要复杂。

显然,现有的智能体基准测试并没有达到一个可靠的状态。

举几个例子:

在被OpenAI等机构用于评估AI智能体网页交互能力的基准测试WebArena中,在某个路径时长计算任务中,AI智能体给出的答案是「45+8分钟」,而正确答案应为「63分钟」,WebArena竟将其判定为正确答案。

τ-bench是一个评估AI智能体在真实世界环境中可靠性的基准测试。而其将一个「无操作」的智能体在航班任务中判有38%正确率。尽管该智能体对机票政策毫无理解,结果却错误地评估了其能力。

近期加入英伟达担任首席研究科学家的BanghuaZhu发推评论这一现象,认为一个什么都不做的智能体就可以取得高达38%分数的现象「非常有趣」。

此外,在目前常用的10个AI智能体基准测试中(如SWE-bench、OSWorld、KernelBench等),研究在其中8个基准中发现了严重的问题,有些情况下甚至会导致对AI智能体能力100%的误判。

这些数据传达出一个明确的信息:

现有智能体基准测试存在大问题。若要准确理解AI智能体的真实能力,必须以更严谨的方式构建基准测试。

在一个来自伊利诺伊大学香槟分校、斯坦福大学、伯克利大学、耶鲁大学、普林斯顿大学、麻省理工学院、Transluce、MLCommons、亚马逊和英国AISI的研究者们共同完成的最新工作中,研究人员系统性地剖析了当前AI智能体基准的常见失效模式,并提出了一套清单,用于最大限度降低基准测试被「投机取巧」的可能性,确保其真正衡量了智能体的能力。

论文标题:EstablishingBestPracticesforBuildingRigorousAgenticBenchmarks

现有的AI智能体基准测试

问题出在哪?

在AI智能体的基准测试中,智能体通常需要端到端地完成复杂任务,例如修复大型代码仓库中的问题,或制定旅行计划。

这一广泛而现实的任务范围带来了两项传统AI基准测试中较少遇到的挑战:

模拟环境脆弱:任务通常运行在模拟或容器化的网站、计算机或数据库中。如果这些空间存在漏洞或版本过旧,AI智能体可能会利用捷径绕过任务要求,或因系统问题而根本无法完成任务。

缺乏明确的「标准答案」:任务的解答可能是代码、API调用,或是篇幅较长的计划文本,难以适用统一的答案模板,评估标准主观性强。

针对上述挑战,本文提出了两个对AI智能体基准测试尤为关键的有效性判据:

任务有效性:该任务是否仅在智能体具备特定能力时才可解?

结果有效性:评估结果是否真实反映了任务完成情况?

AI智能体评估的操作流程与概念机制中,任务有效性与结果有效性至关重要,它们共同保障了基准测试结果能真实反映智能体系统的能力水平。

本文研究:AI智能体基准测试检查单

本文整理并发布了AI智能体基准测试检查清单(ABC),该清单包含43项条目,基于来自主流AI机构使用的17个AI智能体基准测试提炼而成。

ABC主要由三个部分组成:结果有效性检查项、任务有效性检查项,以及在理想有效性难以实现的情况下用于补充说明的基准报告指南。

完整、适合打印的检查清单已公开发布,可参阅以下文档。

运用ABC的研究发现

本文将ABC检查清单应用于当前主流的十个AI智能体基准测试中,包括SWE-benchVerified、WebArena、OSWorld等。

将ABC运用在10个广泛应用的智能体基准测试中的结果

在这10个基准中,发现:

7/10含有可被AI智能体「投机取巧」的捷径或根本无法完成的任务;

7/10不符合结果有效性标准,即评估结果不能真实反映任务完成情况;

8/10未公开其已知问题,缺乏透明度。

以下是在当前用于评估前沿AI智能体系统(如ClaudeCode与OpenAIOperator)的基准测试中识别出的问题:

SWE-bench与SWE-benchVerified借助手动编写的单元测试,用于验证AI智能体生成的代码补丁是否正确。然而,这些补丁可能仍然存在未被单元测试覆盖的错误。

对这些基准测试中的单元测试进行扩充后,排行榜结果出现了明显变化:SWE-benchLite中有41%的智能体排名发生变动,SWE-benchVerified中则有24%的智能体受影响。

IBMSWE-1.0智能体生成了一个错误的解决方案,但该错误未被SWE-bench检测出来,因为其单元测试未覆盖代码中的红色分支路径。

KernelBench采用带有随机值的张量来评估AI智能体生成的CUDA核函数代码的正确性。与SWE-benchVerified类似,这种基于随机值张量的测试方法可能无法发现生成代码中的某些错误,特别是涉及内存访问或张量形状的缺陷。

τ-bench则通过子字符串匹配与数据库状态匹配来评估智能体的表现,这使得一个「无操作」智能体竟然能通过38%的任务。以下示例展示了其中一类任务,即使智能体什么都不做,也能通过评估。

τ-bench中一个示例任务

WebArena采用严格的字符串匹配和一个较为原始的LLM评判器(LLM-judge)来评估智能体的行为与输出是否正确,这导致在绝对指标上对智能体性能产生了1.6%至5.2%的误判。

OSWorld的智能体评估部分基于已过时的网站构建,因而在绝对指标上造成了28%的性能低估。在下列示例中,智能体所交互的网站已移除search-date这一CSS类,但评估器仍依赖过时的选择器,最终将智能体本应正确的操作判定为错误。

OSWorld的评估器仍在查找已过时的类名search-date和search-segment-cities__city,从而导致智能体失败。

SWE-Lancer未能安全地存储测试文件,这使得智能体可以覆盖测试内容,从而「通过」全部测试。

ABC的后续方向

本文构建了ABC,旨在提供一个可操作的评估框架,以帮助:

基准测试开发者排查潜在问题,或展示其评估工作的严谨性;

智能体/模型开发者深入理解评估基准的本质,而非仅停留在报告「最先进性能数字」层面。

  曾文莉认为,在职业选手商业价值充分释放后,其成功效应才会吸引更多的人群尤其是青少年从事网球运动,而这是中国网球经济发展的根基。

责编:林孟富编辑

伊朗开始逐步亮出杀手锏

  8月28日上午,中国煤矿文工团召开干部大会,宣布文工团领导任命决定。经文化和旅游部研究决定,任命靳东为中国煤矿文工团(中国安全生产艺术团)团长。

孟羽童回应一手好牌打得稀烂

  陈政高于1970年担任辽宁省海城县革委会政工组办事员;1978年任大连海运学院团委书记;1982年任辽宁省大连团市委常委、学校部部长;1985年任辽宁省大连市长海县副县长;1988年任辽宁省大连市西岗区委常委、副区长(主持工作);1993年任辽宁省大连市副市长;1997年任辽宁省省长助理;1998年任辽宁省副省长;2003年任辽宁省沈阳市委副书记、市长;2008年任辽宁省委副书记、省长。

肖战给化妆师发红包

  进一步改进工作作风,严格要求自己,求真务实,真抓实干,坚持以人民为中心的创作导向,强化“国家队”意识,努力以优秀作品向着艺术“高峰”不断攀登。

伊朗用美军基地地图回应美空袭威胁

  受高空低槽东移影响,16日河南省有分散性阵雨、雷阵雨,雨量分布不均,中西部局部中雨或大雨,并伴有短时强降水、雷暴大风等强对流天气。

北大浙大隐藏升学通道

  对抗旱工作作出安排部署。印发《关于做好当前抗旱工作的紧急通知》《关于切实做好抗旱播种保苗工作的紧急通知》等文件,就抗旱播种、田间管理、旱情监测、水源调度等提出要求。严格落实以气象预报为先导的应急响应联动机制,组织相关部门滚动开展旱情会商,分析研判旱情发展趋势。及时启动省级抗旱应急四级响应,14个省辖市先后启动本地区抗旱应急响应机制,全省进入抗旱应急状态。

大补货后黄牛发声

  据四川省政府官网介绍,四川是国家系统推进全面创新改革试验的八个区域之一,拥有中国(四川)自由贸易试验区、成都国家自主创新示范区、天府新区、绵阳科技城、攀西战略性资源创新开发试验区等多个重大区域创新平台。/p>

以伊大规模冲突

  家住北京朝阳区的资深网球爱好者张先生在接受《环球时报》记者采访时感慨,“原来就不好预约的网球场,在郑钦文夺冠后,更不好约了。”他说:“我经常打球的球馆最早预约时间是提前一周的早上七点,但是现在到点就秒没,手一慢就显示预约完毕。”/p>

肖战给化妆师发红包

  另外,近些年受经济下行、大规模减税降费、楼市土地市场低迷等影响,地方财政收入受到一定冲击,而刚性支出有增无减。在财政收支矛盾不断加大的背景下,地方政府也有更大的动力加强征管,查漏补缺,依法依规征收该征收的税费。当然,税务部门也要同时落实落细减税降费政策,坚守不收“过头税费”红线。