AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:深度研究×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
03:09
03:09Aravind Srinivas@AravSrinivas
精选
Perplexity 宣布其智能体框架 Computer 原生集成了 Deep Research 能力,用户无需再单独切换模式。该功能基于“搜索即代码”架构,模型自动编写代码来组织搜索流程,并行执行数千次检索步骤,针对每个问题定制化搜索。在多个基准测试中,其性能超越了传统的 Deep Research 方案。这标志着智能体工具在深度研究自动化方面迈出了重要一步。
AI产品智能体搜索即代码深度研究Perplexity自动化

推荐理由:做深度调研或竞品分析的团队终于有了一个能自动并行搜索的智能体——Perplexity Computer 把 Deep Research 变成原生技能,不用再手动切换模式,建议试试看能否替代你现有的研究流程。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
01:59
01:59rohanpaul_ai@rohanpaul_ai
72°
Apodex-1.0-H 是一个用于深度研究的重型智能体团队,通过将网络研究任务分配给多个智能体,并在生成答案前审计每条证据链,声称达到 SOTA 结果。它将深度研究视为 AI 智能体的分布式系统问题:一个编排器分配子智能体不同的上下文和工具,然后事实核查、冲突审查和草稿审查智能体测试薄弱声明。真正的亮点在于,Apodex 展示了一条可能的“推理时扩展”路径,即更好的答案不是来自更大的模型,而是来自多个协调的搜索智能体、持久追踪和独立的验证层。
AI产品智能体深度研究推理时扩展分布式系统Apodex

推荐理由:做深度研究或复杂信息检索的开发者,值得关注 Apodex 的分布式智能体思路——它可能改变“大模型=好答案”的惯性认知,用多智能体协作+验证层来提升结果可信度。
原文
6月9日
12:50
12:50arXiv cs.AI@Pu Ning, Quan Chen, Kun Tao, Xinyu Tang, Tianshu Wang, Qianggang Cao, Xinyu Kong, Zujie Wen, Zhiqiang Zhang, Jun Zhou
72°
SearchSwarm 提出了一种新范式,让主智能体通过分解任务并委托给子智能体来应对无限增长的上下文需求,从而解决长时深度研究任务。该团队设计了一个引导框架,生成高质量的任务分解和委托轨迹,并用这些数据微调模型,将委托智能内化到模型权重中。SearchSwarm-30B-A3B 在 BrowseComp 和 BrowseComp-ZH 上分别取得 68.1 和 73.3 的成绩,是同等规模模型中的最佳结果。这项工作填补了开源社区在委托智能训练数据合成方面的空白,并计划开源相关资源。
论文委托智能长时任务深度研究SearchSwarm开源/仓库

推荐理由:做长时深度研究或复杂任务自动化的开发者,终于有了一个能高效委托子任务的模型——SearchSwarm 用30B参数就超越了更大模型,值得直接试试它的开源实现。
原文
5月25日
23:22
23:22berryxia@berryxia
78°
一个开源团队发现,传统深度研究系统中调度器拥有搜索权限会导致浅尝辄止,因此他们设计了一个反直觉的架构:调度器只能分解任务和评估报告,不能上网搜索。这个名为Onyx的系统在DeepResearch Bench上登顶,超越Claude和ChatGPT。Onyx采用两层架构,上层纯策略调度器,下层最多6个独立研究agent,三阶段流水线确保高质量输出。它还能接入企业内部知识库,完全开源,任何人都可以复现。
AI产品深度研究开源/仓库智能体Onyx反直觉设计

推荐理由:这个反直觉的设计戳穿了AI Agent的常见毛病,做深度研究或自动化任务的开发者可以直接跑起来试试,效果比大厂方案还强。
原文
5月23日
00:12
00:12NVIDIA AI@NVIDIAAI
NVIDIA 发布了开源 AI-Q 智能体技能包,将构建深度研究管线的流程封装为可移植技能。用户可将该技能包直接放入智能体框架中,智能体即可将研究任务委派给本地或托管的 AI-Q 服务器,并返回带有引用的详细报告。该技能包支持主流智能体框架,降低了构建复杂研究管线的门槛。在 Codex 等环境中演示了其便捷性,适合需要自动化深度研究的开发者和团队。
AI产品智能体开源/仓库深度研究NVIDIAAI-Q

推荐理由:NVIDIA 把深度研究能力打包成即插即用的技能,做智能体开发或自动化研究的团队可以直接集成,省去从零搭建管线的麻烦。
原文
5月21日
11:01
11:01arXiv cs.AI@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma
精选72°
DeepWeb-Bench 是一个新的深度研究基准,旨在评估 AI 模型在开放网络上进行复杂研究的能力。与现有基准不同,该基准要求模型进行大规模证据收集、跨来源整合和长链条多步推理,难度显著提升。研究对九个前沿模型进行了评估,发现检索并非主要瓶颈(仅占12-14%错误),而推导和校准失败占70%以上。强模型和弱模型的失败模式不同:强模型主要因推导不完整出错,弱模型则因虚假精确性出错。该基准还揭示了模型在领域上的真实专长差异,跨模型一致性仅为0.61。
论文基准测试深度研究推理模型评估方法DeepWeb-Bench

推荐理由:做 AI 评估或研究基准的团队会发现,DeepWeb-Bench 揭示了现有基准无法区分的模型能力差异——尤其是推导和校准的短板。建议关注其分能力族评估和来源溯源设计,这对理解模型真实研究能力很有帮助。
原文
5月18日
12:00
12:00arXiv cs.AI@Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, Xinyu Wang
精选76°
Argus 提出了一种新的深度研究方法,通过 Searcher 和 Navigator 两个智能体协作,将研究任务视为拼图组装而非暴力并行搜索。Navigator 维护共享证据图,验证缺失信息并调度 Searcher 收集,最终生成带来源追踪的答案。在 35B-A3B MoE 模型上,单 Searcher 提升 5.5 分,8 个并行 Searcher 提升 12.7 分,64 个 Searcher 在 BrowseComp 上达到 86.2,超越所有专有智能体,且 Navigator 推理上下文保持在 21.5K tokens 以内。该方法解决了并行搜索中证据重复和上下文超限的问题。
论文深度研究智能体并行搜索证据组装强化学习

推荐理由:做深度研究智能体或搜索系统的团队,终于有了解决并行搜索证据重复和上下文瓶颈的方案——Argus 用拼图式组装替代暴力搜索,效率提升明显,值得在复杂信息检索任务中尝试。
原文
精选全部日报登录