01:55Decoder@Jonathan Kemper精选智谱AI推出开源模型GLM-5.2,采用MIT许可证,支持稳定100万token上下文。在FrontierSWE编码基准测试中,GLM-5.2以1个百分点之差落后于Anthropic的Claude Opus 4.8。该模型在推理能力上仍显著落后于闭源竞争对手。AI模型GLM-5.2智谱AIClaude Opus开源模型编码助手10 个信源在谈推荐理由:智谱AI的GLM-5.2在长时间编码任务上只比Claude Opus 4.8差1%,还是开源免费,码农可以试试。原文
11:35rohanpaul_ai@rohanpaul_ai精选72°斯坦福、MIT、NVIDIA、Google 等顶尖实验室联合发布 AutoLab 基准测试,包含 36 个任务,要求智能体从弱代码出发,在固定时间内改进。测试 17 个强模型后发现,最佳结果并非源于初始想法好,而是模型持续测试、利用反馈。Claude Opus 4.6 因坚持迭代而领先,其他前沿模型常因过早放弃或过度思考而失败。该研究揭示了当前 AI 智能体在长周期研究中的关键短板。论文智能体基准测试长周期研究Claude Opus坚持迭代10 个信源在谈推荐理由:做 AI 研究和智能体开发的团队会看到,坚持比聪明更重要——AutoLab 的发现直接点出了当前智能体在长任务中的致命弱点,值得反思自己的智能体设计。原文
10:58shao__meng@shao__meng精选Claude Code 作者 Boris Cherny 分享了让 Claude Opus 持续运行数小时甚至数天的 5 条实战建议,包括启用自动权限模式、使用动态工作流编排子 Agent、通过 /goal 或 /loop 指令推动任务完成、优先使用云端版本避免本地关机中断,以及确保端到端自我验证能力。这些建议同样适用于 Codex、GPT-5.5 等其他模型,核心在于减少人工干预、提升任务连续性和验证有效性。对于需要长时间自主执行复杂任务的开发者来说,这些技巧能显著提升效率并避免 token 浪费。AI产品Claude OpusClaude Code自主运行动态工作流端到端验证3 个信源在谈推荐理由:Boris Cherny 的 5 条建议直击长时自主运行的痛点,做自动化任务编排的开发者可以直接套用到 Codex 或 GPT-5.5 上,尤其是端到端自我验证这条能帮你省下大量无效 token 消耗,值得收藏实践。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……