全部 AI 动态 · AI 热点

6月30日

12:19

lmarena.ai@lmarena_ai

Arena 是一个从 UC Berkeley 研究项目起步的 AI 评估平台。推出评估产品仅8个月后，其年化收入运行率突破1亿美元。平台推出 Agent Arena，用于评估长期运行的智能体在复杂现实任务中的表现，包括工具使用、任务完成率和幻觉率。目前 Arena 拥有数千万用户。

AI产品 Arena Agent Arena UC Berkeley 智能体评估 AI评测

推荐理由：Arena 8个月做到1亿美元年收入，它的 Agent Arena 能测 AI 智能体在真实任务里的表现，比传统投票评测更硬核。

原文

6月23日

11:03

arXiv cs.AI@Yikun Fu, Bowen Fu, Zhenyu Wu, Shuang Cheng, Xiaowei Sun, Bowen Yang, Zehao Li, Yibo Zhao, Zichen Ding, Zhoumianze Liu, Shijie Wang, Biqing Qi, Bowen Zhou

MacAgentBench新基准包含676个任务覆盖25个macOS应用，近60%任务需要同时操作GUI和命令行。采用确定性规则评估并引入细粒度多检查点评分。实验在3个框架和16个模型上进行，最优配置Claude Opus 4.6 on OpenClaw达到73.7% Pass@1，优势主要来自技能库而非框架设计。细粒度指标显示相同Pass@1的模型在子目标完成上差异显著。

论文 MacAgentBench OpenClaw Claude Opus 4.6 桌面自动化智能体评估

推荐理由：这篇论文发布了MacAgentBench，一个包含676个macOS桌面任务的智能体基准。它用细粒度评分发现Claude Opus 4.6配合OpenClaw能拿到73.7%的正确率，而且不同模型表面分一样但实际完成能力差很多，值得研究智能体的去看。

原文

6月18日

06:26

Harrison Chase@hwchase17

harbor是一个用于运行长时间、有状态智能体评估的框架，目前支撑Terminal Bench 2。LangSmith Sandboxes现已原生集成harbor，成为一等环境。用户只需安装harbor[langsmith]并设置LANGSMITH_API_KEY即可运行评估。该集成覆盖Daytona、E2B和Modal等沙箱环境。

AI产品 harbor LangSmith LangChain 智能体评估

推荐理由：LangChain老大强推harbor框架跑复杂智能体评估，现在直接集成LangSmith沙箱，一行代码搞定环境，省心。

原文

04:01

lmarena.ai@lmarena_ai

Agent Arena 发布了一篇博客介绍其因果追踪方法论，该方法用于分析智能体在竞技场中的行为归因。博客详细解释了如何通过干预模型内部表示来定位影响输出的关键组件。该技术可帮助研究者理解Agent在复杂任务中的决策路径。

论文 Agent Arena 因果追踪智能体评估可解释性

推荐理由：想搞懂Agent决策是怎么归因的？Agent Arena这篇博客把因果追踪的方法讲得很清楚，适合做智能体评估的研究者。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:20

arXiv cs.AI@Xiaoyuan Liu, Jianhong Tu, Yuqi Chen, Siyuan Xie, Sihan Ren, Tianneng Shi, Gal Gantar, Evan Sandoval, Donghyun Lee, Daniel Miao, Peter J. Gilbert, Nick Hynes, Mauro Staver, Warren He, David Marn, Andrew Low, Xi Zhang, Elron Bandel, Michal Shmueli-Scheuer, Siva Reddy, Alexandre Drouin, Alexandre Lacoste, Ramayya Krishnan, Elham Tabassi, Yu Su, Victor Barres, Chenguang Wang, Wenbo Guo, Dawn Song

AgentBeats 提出了一种全新的智能体评估框架 AAA（Agentified Agent Assessment），由智能体担任裁判，通过 A2A 和 MCP 标准化协议与待测智能体交互，取代传统依赖 LLM 的固定测试框架。该方法统一了评估接口，解决了现有基准测试集成成本高、测试与生产环境不匹配、跨设计公平比较难的问题。研究通过五个月开放竞赛（298 个裁判智能体、467 个参赛智能体）和编程智能体案例验证，证明 AAA 在覆盖度、实用性和保真度上均表现优异。AgentBeats 为智能体评估提供了开放、标准化、可复现的路径。

论文智能体评估 A2A/MCP协议标准化框架可复现性 AgentBeats

推荐理由：做智能体评测或基准测试的团队终于有了一个通用框架——AgentBeats 用智能体评估智能体，解决了传统测试碎片化、难复现的痛点，建议做 Agent 平台或竞赛的开发者点开看看。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

13:10

arXiv cs.AI@Mingxian Lin, Shengju Qian, Yuqi Liu, Yi-Hua Huang, Yiyu Wang, Wei Huang, Yitang Li, Fan Zhang, Zeyu Hu, Lingting Zhu, Xin Wang, Xiaojuan Qi

72°

OmniGameArena 是一个基于 Unreal Engine 5 构建的实时游戏基准测试，包含 12 个新游戏，覆盖单人、PvP 和合作模式，并统一了动作接口。它解决了现有基准测试只报告单次尝试分数、缺乏统一协议评估不同 VLM 智能体的问题。该基准引入了改进动态曲线（IDC），通过反射机制让智能体在多轮迭代中自主优化技能提示，从而揭示智能体的学习能力和泛化表现。研究对 12 个 VLM 智能体进行了冷启动排行榜测试，并对 4 个顶级智能体应用了 IDC 分析。这项工作为评估和比较 VLM 游戏智能体的真实能力提供了更全面的框架。

论文 VLM智能体游戏基准 Unreal Engine 5 改进动态曲线智能体评估

推荐理由：做游戏 AI 或 VLM 智能体评估的团队，终于有了一个能同时看冷启动能力和学习改进曲线的统一基准，比单次分数更有参考价值，做智能体训练的值得点开。

原文

6月5日

08:25