18:09AI Will@FinanceYF5Matthew Berman评测发现该模型能自主工作数小时,消耗大量token。任务越复杂,模型投入越多。当前尚未摸到时间上限。该模型在长时任务方面表现突出。AI模型Matthew Berman自主工作长时任务token消耗推荐理由:这个模型能自己干好几个小时,任务越难它越来劲,跟其他模型不一样。原文
12:35Mark Chen (OpenAI 研究)@markchen90英国 AI 安全研究所(UK AISI)发布了一项针对前沿模型的长时智能体能力评估,测试了模型在复杂、多步骤任务中的自主执行能力。结果显示,Claude 5.5 与 Mythos 在该评估中表现相似,均展现出较高的智能体能力。该评估强调了前沿模型在长期自主任务中可能带来的风险,但同时也指出通过有效的缓解措施,可以安全地部署这些模型供用户使用。这一测试对于理解模型在实际应用中的安全边界具有重要意义。AI模型Claude 5.5Mythos智能体AI 安全长时任务1 个信源在谈推荐理由:UK AISI 的这项评估直接关系到前沿模型的安全部署,做 AI 安全或智能体开发的团队值得关注——它揭示了长时任务中的真实风险,也展示了缓解措施的有效性。原文
10:40rohanpaul_ai@rohanpaul_aiFigure AI CEO Brett Adcock 表示团队每周工作到深夜、周末无休,目标是在2026年底前将机器人部署到家庭中,并能够执行较长周期的任务。这标志着人形机器人从工业场景向家庭场景的关键跨越,展示了公司对技术突破的紧迫感和信心。Adcock 的言论反映了当前人形机器人领域的激烈竞争和快速迭代节奏。AI产品人形机器人Figure AI家用机器人2026长时任务推荐理由:人形机器人进入家庭是行业里程碑,关注家用机器人落地的开发者和投资者值得了解Figure AI的最新时间表。原文
08:01LangChain@LangChainAILangChain 的 Palash Shah 分享了一种针对长时运行 AI Agent 的评估方法。核心思路是将复杂的评估任务拆解成更小、更易处理的子任务,这样不仅便于人类理解,也更容易让 LLM 自身进行评估。他举例说明,对于运行超过 30 分钟的 Agent,通过从追踪中提取推理过程,找出特定行为的根本原因,然后重建简化版的评估场景。这种方法可以快速测试提示词调整的效果,而无需每次都运行完整的长时间评估。AI产品LangChainAI Agent评估方法提示词优化长时任务推荐理由:做长时 AI Agent 评估的开发者终于有了实用技巧——拆解任务后评估效率大幅提升,建议直接参考这个流程优化你的评估策略。原文