全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

12:50

12:50

arXiv cs.AI@Pu Ning, Quan Chen, Kun Tao, Xinyu Tang, Tianshu Wang, Qianggang Cao, Xinyu Kong, Zujie Wen, Zhiqiang Zhang, Jun Zhou

72°

SearchSwarm 提出了一种新范式，让主智能体通过分解任务并委托给子智能体来应对无限增长的上下文需求，从而解决长时深度研究任务。该团队设计了一个引导框架，生成高质量的任务分解和委托轨迹，并用这些数据微调模型，将委托智能内化到模型权重中。SearchSwarm-30B-A3B 在 BrowseComp 和 BrowseComp-ZH 上分别取得 68.1 和 73.3 的成绩，是同等规模模型中的最佳结果。这项工作填补了开源社区在委托智能训练数据合成方面的空白，并计划开源相关资源。

论文委托智能长时任务深度研究 SearchSwarm 开源/仓库

推荐理由：做长时深度研究或复杂任务自动化的开发者，终于有了一个能高效委托子任务的模型——SearchSwarm 用30B参数就超越了更大模型，值得直接试试它的开源实现。

5月21日

11:01

11:01

arXiv cs.AI@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma

精选72°

DeepWeb-Bench 是一个新的深度研究基准，旨在评估 AI 模型在开放网络上进行复杂研究的能力。与现有基准不同，该基准要求模型进行大规模证据收集、跨来源整合和长链条多步推理，难度显著提升。研究对九个前沿模型进行了评估，发现检索并非主要瓶颈（仅占12-14%错误），而推导和校准失败占70%以上。强模型和弱模型的失败模式不同：强模型主要因推导不完整出错，弱模型则因虚假精确性出错。该基准还揭示了模型在领域上的真实专长差异，跨模型一致性仅为0.61。

论文基准测试深度研究推理模型评估方法 DeepWeb-Bench

推荐理由：做 AI 评估或研究基准的团队会发现，DeepWeb-Bench 揭示了现有基准无法区分的模型能力差异——尤其是推导和校准的短板。建议关注其分能力族评估和来源溯源设计，这对理解模型真实研究能力很有帮助。

5月18日

12:00

12:00

arXiv cs.AI@Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, Xinyu Wang

精选76°

Argus 提出了一种新的深度研究方法，通过 Searcher 和 Navigator 两个智能体协作，将研究任务视为拼图组装而非暴力并行搜索。Navigator 维护共享证据图，验证缺失信息并调度 Searcher 收集，最终生成带来源追踪的答案。在 35B-A3B MoE 模型上，单 Searcher 提升 5.5 分，8 个并行 Searcher 提升 12.7 分，64 个 Searcher 在 BrowseComp 上达到 86.2，超越所有专有智能体，且 Navigator 推理上下文保持在 21.5K tokens 以内。该方法解决了并行搜索中证据重复和上下文超限的问题。

论文深度研究智能体并行搜索证据组装强化学习

推荐理由：做深度研究智能体或搜索系统的团队，终于有了解决并行搜索证据重复和上下文瓶颈的方案——Argus 用拼图式组装替代暴力搜索，效率提升明显，值得在复杂信息检索任务中尝试。