23:09rohanpaul_ai@rohanpaul_ai精选76°Meta 最新论文发现,编码智能体在复用过去尝试的简短摘要(而非原始日志)时,性能显著提升。研究表明,更强的编码智能体不仅需要更多尝试,更需要更好的记忆方式。论文提出将每次完整尝试转化为紧凑摘要,包含主要猜测、部分进展和失败点,然后利用这些摘要选择最佳尝试并指导新尝试。在 SWE-Bench Verified 基准上,Claude 4.5 Opus 从 70.9% 提升至 77.6%,在 Terminal-Bench v2.0 上从 46.9% 提升至 59.1%。核心结论是:长编码任务的测试时扩展瓶颈不在于生成更多尝试,而在于以智能体可复用的形式存储经验。论文Meta编码智能体测试时扩展摘要复用SWE-Bench推荐理由:这篇论文戳中了编码智能体效率低下的核心痛点——不是试得不够多,而是记不住经验。做 AI 编程工具或智能体开发的团队,可以直接借鉴其摘要复用和锦标赛选择方法,值得点开看看。原文
02:10腾讯混元 Tencent Hunyuan@TencentCloud腾讯云与复旦大学联合发布了CYANSQL,一种新的测试时扩展框架,用于复杂自然语言转SQL任务。该框架在BIRD数据集上取得了87.22%的召回率(行业领先)和73.47%的准确率,已被ICDE 2026接收。CYANSQL将驱动腾讯云的TCDataAgent,旨在引领AI原生大数据时代。AI模型NL2SQLCYANSQL腾讯云复旦测试时扩展推荐理由:NL2SQL是数据库查询的痛点,CYANSQL的高召回率意味着更少漏查,做数据分析或数据库开发的团队值得关注这一新框架。原文
21:55AK@_akhaliqTMAS(多智能体协同扩展测试时计算)是一种新方法,通过让多个AI智能体协同工作来提升模型推理能力,类似于OpenAI o1的“思考链”扩展。该技术无需修改模型参数,仅通过集成多个智能体在测试时分配计算资源,在数学、编程等复杂任务上取得显著效果。这意味着推理模型可能迎来无需大规模训练的升级路径,为资源有限的研究团队提供新思路。论文推理模型智能体多模态协同计算测试时扩展8 个信源在谈推荐理由:TMAS探索了多智能体协同扩展测试时计算的范式,无需额外训练即可提升模型性能,对推理模型和智能体系统的发展具有参考价值。原文