全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

18:09

AI Will@FinanceYF5

Matthew Berman评测发现该模型能自主工作数小时，消耗大量token。任务越复杂，模型投入越多。当前尚未摸到时间上限。该模型在长时任务方面表现突出。

AI模型 Matthew Berman 自主工作长时任务 token消耗

推荐理由：这个模型能自己干好几个小时，任务越难它越来劲，跟其他模型不一样。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:35

Mark Chen (OpenAI 研究)@markchen90

英国 AI 安全研究所（UK AISI）发布了一项针对前沿模型的长时智能体能力评估，测试了模型在复杂、多步骤任务中的自主执行能力。结果显示，Claude 5.5 与 Mythos 在该评估中表现相似，均展现出较高的智能体能力。该评估强调了前沿模型在长期自主任务中可能带来的风险，但同时也指出通过有效的缓解措施，可以安全地部署这些模型供用户使用。这一测试对于理解模型在实际应用中的安全边界具有重要意义。

AI模型 Claude 5.5 Mythos 智能体 AI 安全长时任务

推荐理由：UK AISI 的这项评估直接关系到前沿模型的安全部署，做 AI 安全或智能体开发的团队值得关注——它揭示了长时任务中的真实风险，也展示了缓解措施的有效性。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

12:50

arXiv cs.AI@Pu Ning, Quan Chen, Kun Tao, Xinyu Tang, Tianshu Wang, Qianggang Cao, Xinyu Kong, Zujie Wen, Zhiqiang Zhang, Jun Zhou

72°

SearchSwarm 提出了一种新范式，让主智能体通过分解任务并委托给子智能体来应对无限增长的上下文需求，从而解决长时深度研究任务。该团队设计了一个引导框架，生成高质量的任务分解和委托轨迹，并用这些数据微调模型，将委托智能内化到模型权重中。SearchSwarm-30B-A3B 在 BrowseComp 和 BrowseComp-ZH 上分别取得 68.1 和 73.3 的成绩，是同等规模模型中的最佳结果。这项工作填补了开源社区在委托智能训练数据合成方面的空白，并计划开源相关资源。

论文委托智能长时任务深度研究 SearchSwarm 开源/仓库

推荐理由：做长时深度研究或复杂任务自动化的开发者，终于有了一个能高效委托子任务的模型——SearchSwarm 用30B参数就超越了更大模型，值得直接试试它的开源实现。

原文

6月5日

12:00

arXiv cs.AI@Yasmine Omri, Ziyu Gan, Zachary Broveak, Robin Geens, Zexue He, Alex Pentland, Marian Verhelst, Tsachy Weissman, Thierry Tambe

精选72°

该论文首次对 LLM 智能体的记忆系统进行系统性表征，提出了面向系统的四轴分类法，并构建了阶段感知的性能分析工具。研究覆盖了 10 个代表性记忆系统在两个基准套件上的行为，揭示了设计选择如何影响写入和读取路径的代价。最终给出了 10 条系统设计建议，涵盖构建调度、能力下限、查询量摊销、新鲜度-延迟权衡及集群管理。这项工作为构建高效、可扩展的长期记忆智能体提供了关键指导。

论文智能体记忆系统系统表征长时任务性能分析

推荐理由：做智能体系统架构的团队终于有了第一份记忆系统性能基准——10 条设计建议直接指导工程决策，建议做 Agent 框架或记忆中间件的开发者点开细读。

原文

5月28日

10:40

rohanpaul_ai@rohanpaul_ai

Figure AI CEO Brett Adcock 表示团队每周工作到深夜、周末无休，目标是在2026年底前将机器人部署到家庭中，并能够执行较长周期的任务。这标志着人形机器人从工业场景向家庭场景的关键跨越，展示了公司对技术突破的紧迫感和信心。Adcock 的言论反映了当前人形机器人领域的激烈竞争和快速迭代节奏。

AI产品人形机器人 Figure AI 家用机器人 2026 长时任务

推荐理由：人形机器人进入家庭是行业里程碑，关注家用机器人落地的开发者和投资者值得了解Figure AI的最新时间表。

原文

5月21日

08:01

LangChain@LangChainAI

LangChain 的 Palash Shah 分享了一种针对长时运行 AI Agent 的评估方法。核心思路是将复杂的评估任务拆解成更小、更易处理的子任务，这样不仅便于人类理解，也更容易让 LLM 自身进行评估。他举例说明，对于运行超过 30 分钟的 Agent，通过从追踪中提取推理过程，找出特定行为的根本原因，然后重建简化版的评估场景。这种方法可以快速测试提示词调整的效果，而无需每次都运行完整的长时间评估。

AI产品 LangChain AI Agent 评估方法提示词优化长时任务

推荐理由：做长时 AI Agent 评估的开发者终于有了实用技巧——拆解任务后评估效率大幅提升，建议直接参考这个流程优化你的评估策略。

原文