全部 AI 动态 · AI 热点

AITOP

6月27日

12:53

lmarena.ai@lmarena_ai

AI模型 Agent Arena 智能体评测基准开源模型实验室

推荐理由：想看看谁家的智能体最强？Agent Arena排行榜刚上线，可以按开源模型和实验室筛选，挺方便。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

12:05

arXiv cs.AI@Shiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue

精选

论文提出 Benchmark Agent，一个全自动构建 LLM/MLLM 评测基准的智能体系统。它从用户需求分析、子任务设计到数据标注和质量控制，全流程自动化。作者用它生成了 15 个覆盖文本理解、多模态理解和领域推理的基准，经人类评估和 LLM 评判验证，质量高且无需人工参与。该系统解决了传统基准构建劳动密集、易饱和的问题，能持续生成新基准以区分顶尖模型。代码和预览已公开。

论文评测基准智能体自动化 LLM MLLM

推荐理由：做 LLM 评测的团队终于有了自动化工具——Benchmark Agent 能持续生成新基准，避免模型性能饱和，建议做模型评估的开发者直接试试。

原文

5月19日

12:55

arXiv: OpenAI@Tanmay Asthana, Aman Saksena, Divyansh Sahu

精选76°

研究人员发布了针对深度研究代理（DRA）在管理咨询场景下的评测基准，包含42个专家撰写的任务，每个任务有平均13.8个确定性验证器和五维度0-3分专家评分。评测了Claude Opus 4.6、OpenAI o3-deep-research和Google Gemini 3.1 Pro，三者通过联合阈值（专家评分≥2.5且验证器通过率≥80%）的接受率均很低：Gemini 21.4%，o3和Claude仅9.5%。各模型失败模式不同：Claude输出最可靠但虚构最多，o3推理最清晰但遗漏章节和传播算术错误，Gemini表现两极分化。该基准通过嵌入认知陷阱来惩罚表面模式匹配，揭示了当前前沿DRA在专业分析任务上的严重不足。

论文评测基准深度研究代理管理咨询 Claude OpenAI o3 Gemini 认知陷阱

推荐理由：管理咨询团队和依赖AI做深度分析的开发者会震惊——三个最先进的DRA在专家级任务中通过率不到22%，且各有致命短板。想避免被AI的自信输出误导，建议仔细看这篇评测的失败模式分析。

原文

5月16日

23:54

Geek@geekbb

精选

阿里巴巴发布了面向工业领域的大语言模型知识评测集 IndustryBench，包含 2049 道题目，题目来源为中国国家标准摘要和结构化工业产品记录。该评测集横跨 7 个能力维度和 10 个行业类别，旨在评估 LLM 在工业领域的知识掌握和推理能力。这是首个系统覆盖中国工业标准的评测基准，对工业智能化应用具有重要参考价值。

AI模型评测基准工业领域 LLM 阿里国家标准

推荐理由：做工业 AI 应用或评测的团队终于有了本土化的标准测试集——2049 道题覆盖 10 个行业，直接对标中国国家标准，建议做工业大模型落地的同学点开看看。

原文