全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

18:09

18:09

AI Will@FinanceYF5

Matthew Berman评测发现该模型能自主工作数小时，消耗大量token。任务越复杂，模型投入越多。当前尚未摸到时间上限。该模型在长时任务方面表现突出。

AI模型 Matthew Berman 自主工作长时任务 token消耗

推荐理由：这个模型能自己干好几个小时，任务越难它越来劲，跟其他模型不一样。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:35

12:35

Mark Chen (OpenAI 研究)@markchen90

英国 AI 安全研究所（UK AISI）发布了一项针对前沿模型的长时智能体能力评估，测试了模型在复杂、多步骤任务中的自主执行能力。结果显示，Claude 5.5 与 Mythos 在该评估中表现相似，均展现出较高的智能体能力。该评估强调了前沿模型在长期自主任务中可能带来的风险，但同时也指出通过有效的缓解措施，可以安全地部署这些模型供用户使用。这一测试对于理解模型在实际应用中的安全边界具有重要意义。

AI模型 Claude 5.5 Mythos 智能体 AI 安全长时任务

推荐理由：UK AISI 的这项评估直接关系到前沿模型的安全部署，做 AI 安全或智能体开发的团队值得关注——它揭示了长时任务中的真实风险，也展示了缓解措施的有效性。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月28日

10:40

10:40

rohanpaul_ai@rohanpaul_ai

Figure AI CEO Brett Adcock 表示团队每周工作到深夜、周末无休，目标是在2026年底前将机器人部署到家庭中，并能够执行较长周期的任务。这标志着人形机器人从工业场景向家庭场景的关键跨越，展示了公司对技术突破的紧迫感和信心。Adcock 的言论反映了当前人形机器人领域的激烈竞争和快速迭代节奏。

AI产品人形机器人 Figure AI 家用机器人 2026 长时任务

推荐理由：人形机器人进入家庭是行业里程碑，关注家用机器人落地的开发者和投资者值得了解Figure AI的最新时间表。

5月21日

08:01

08:01

LangChain@LangChainAI

LangChain 的 Palash Shah 分享了一种针对长时运行 AI Agent 的评估方法。核心思路是将复杂的评估任务拆解成更小、更易处理的子任务，这样不仅便于人类理解，也更容易让 LLM 自身进行评估。他举例说明，对于运行超过 30 分钟的 Agent，通过从追踪中提取推理过程，找出特定行为的根本原因，然后重建简化版的评估场景。这种方法可以快速测试提示词调整的效果，而无需每次都运行完整的长时间评估。

AI产品 LangChain AI Agent 评估方法提示词优化长时任务

推荐理由：做长时 AI Agent 评估的开发者终于有了实用技巧——拆解任务后评估效率大幅提升，建议直接参考这个流程优化你的评估策略。