全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月14日

07:52

07:52IT之家（博客/媒体）

谷歌在AI模式中推出搜索智能体功能，将传统搜索引擎转为后台静默运行的主动式助手。首批信息智能体全天候监测博客、新闻平台、社交媒体等数据源，覆盖金融行情、商品库存等。用户输入“持续关注”等指令即可设置，如筛选房源或监测球鞋上架。该功能仅向谷歌AI Ultra订阅用户开放，月费99.99美元或199.99美元，计划夏季下放至AI Pro档位。

AI产品谷歌搜索智能体 AI模式智能体信息监测

推荐理由：谷歌让搜索变主动，帮你24小时盯全网

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

09:53

rohanpaul_ai@rohanpaul_ai

精选72°

Harness-1 提出一种新方法，将搜索智能体的记忆管理工作从模型中剥离，交给一个外部辅助系统（harness）处理。传统搜索智能体需要在有限的上下文窗口中同时进行搜索决策和记忆所有文档、线索、失败路径等，导致认知负担过重。Harness-1 让模型专注于语义选择（如搜索什么、验证什么），而 harness 负责可恢复状态（如候选池、证据链接、去重观察等）。实验表明，一个 20B 模型通过减少内部记忆负担，在搜索任务上表现显著提升，且在未见过的基准测试上增益更大，说明模型学到了可复用的搜索策略而非领域记忆。

论文搜索智能体记忆外置强化学习 Harness-1 20B模型

推荐理由：做搜索智能体或 RAG 系统的开发者，Harness-1 的思路能帮你解决模型上下文窗口瓶颈，让智能体在复杂搜索中更高效，值得参考其状态外置设计。

原文

6月2日

10:01

AK@_akhaliq

精选

GrepSeek 是一种新型搜索智能体训练方法，旨在让 AI 直接与语料库进行交互，而非依赖传统检索管道。它通过强化学习训练模型学会自主搜索、定位和提取信息，显著提升在复杂查询中的准确性和效率。该方法解决了现有搜索系统在长尾、多步推理任务中的局限性，为信息检索和问答系统提供了新范式。实验表明，GrepSeek 在多个基准测试上优于传统检索增强生成（RAG）方法。

论文搜索智能体强化学习语料库交互信息检索 GrepSeek

推荐理由：做搜索或问答系统的开发者值得关注——GrepSeek 让 AI 学会自己翻语料库，比 RAG 更灵活，建议看看它怎么绕过传统检索瓶颈。

原文

6月1日

10:11

arXiv cs.LG@Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li

精选

LongTraceRL 是一种新方法，旨在解决大语言模型在长上下文推理中难以定位和整合关键信息的问题。它通过知识图谱随机游走生成多跳问题，并利用搜索智能体的轨迹构建高混淆度的干扰文档，使训练上下文更具挑战性。同时，它提出了一种基于实体级过程监督的“评分奖励”，只对正确答案的推理过程进行细粒度评估，避免奖励作弊。在 4B 到 30B 的多个推理模型上，LongTraceRL 在五个长上下文基准测试中持续优于强基线，并促进了基于证据的推理。代码、数据集和模型已开源。

论文长上下文推理强化学习搜索智能体奖励设计开源/仓库

推荐理由：长上下文推理是当前大模型的瓶颈，LongTraceRL 用搜索轨迹和细粒度奖励解决了干扰项和奖励稀疏的问题，做推理模型训练或长文档理解的团队可以直接用开源代码复现。

原文

5月28日

11:32

arXiv cs.AI@HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu

精选72°

研究团队发现，基于LLM的搜索智能体在BrowseComp基准测试中，高达44.5%的问题无需工具即可回答，超过一半的搜索查询来自内部假设而非检索线索，表现出对内在知识的依赖而非真正的证据驱动搜索。当移除支持答案的外部证据后，智能体表现甚至不如闭卷基线。为此，团队推出了LiveBrowseComp，一个包含335个依赖90天内发布事实的问题的深度搜索基准，所有智能体在该基准上的闭卷准确率低于2%，搜索增强得分比BrowseComp下降25-40点，且模型排名不再可靠。该基准旨在评估智能体超越内在知识覆盖的真实搜索能力。

论文搜索智能体基准测试内在知识依赖 LLM评估 LiveBrowseComp

推荐理由：这项研究戳穿了搜索智能体的真实能力——它们可能只是在验证已知信息而非真正搜索。做搜索Agent或评估AI检索能力的团队，值得看看LiveBrowseComp这个新基准，避免被静态测试误导。

原文

5月20日

02:11

02:11IT之家（博客/媒体）

76°

谷歌在 2026 I/O 大会上宣布搜索业务迎来 25 年来最大改版，核心是用 AI 全面重塑搜索入口与交互方式。用户从“输关键词”转向“描述完整需求”，由 Gemini 3.5 Flash 模型提供快速响应。新版搜索支持多模态输入（文本、图片、视频、文件等），AI Overview 支持连续追问，形成聊天式交互。此外，谷歌计划推出 24 小时后台运行的搜索智能体，可追踪公寓、球鞋发售等目标，并在夏季上线。个人智能功能扩展到 98 种语言、近 200 个国家，可连接 Gmail、Google Photos 等个人数据。

AI产品谷歌搜索 AI 搜索 Gemini 3.5 Flash 搜索智能体多模态

推荐理由：谷歌搜索这次改版彻底改变了搜索方式，从关键词到完整需求，做内容、做运营、做产品的团队都该关注——搜索流量和用户行为即将发生根本变化，建议尽早了解并调整策略。

原文