01:56elvis@omarsar0精选这篇论文提出了一种部署感知的上下文策略选择方法,将检索、压缩和全上下文等策略统一建模为成本-性能优化问题。通过引入对数效用函数和复用参数 N,揭示了不同策略在不同部署条件下的最优切换点。在 5000 个 HotpotQA 实例上,该方法在相同性能下减少了约 25% 的有效 Token 使用,高性能场景下压缩策略比全上下文便宜 50% 以上。这项工作为 AI 代理的上下文管理提供了理论指导,避免了孤立基准测试的误导。论文上下文管理效率前沿检索/压缩AI代理成本优化推荐理由:做 AI 代理和长上下文应用的团队终于有了选策略的理论依据——不用再盲从基准测试结果,直接按自己的复用频率和成本预算选最优方案,建议点开看看怎么算你的 N 值。原文
16:47Stanford AI Lab@StanfordAILab精选斯坦福SAIL与ETH合作研究表明,在极难任务中,使用丰富反馈的强化学习(RL)显著优于传统标量奖励方法。该研究通过对比实验,验证了多维度反馈信号能更有效地引导智能体学习复杂策略。这一发现对AI训练范式有重要启示,尤其适用于需要精细控制的机器人、游戏AI等领域。研究团队已公开部分代码和实验细节,供社区复现和进一步探索。论文强化学习反馈机制斯坦福SAILETH复杂任务推荐理由:这项研究为强化学习训练提供了新思路,做RL或机器人控制的开发者值得关注——丰富反馈可能成为突破复杂任务瓶颈的关键。原文
16:46Stanford AI Lab@StanfordAILab斯坦福AI实验室(SAIL)发布了新基准Theory of Space,旨在测试基础模型是否能够通过主动探索来构建、修正和利用空间信念(即心智地图),而不仅仅是被动处理给定的观察数据。该基准挑战AI在未知环境中主动导航、推理空间关系并更新认知模型的能力。这一研究对于推动AI在机器人、自动驾驶等需要空间理解领域的自主性具有重要意义。论文空间推理基准测试主动探索心智地图斯坦福AI实验室推荐理由:做机器人或空间AI的开发者值得关注——这个基准直接测试模型能否像人类一样主动探索并建立空间认知,而不是被动接收数据,看完会对当前模型的局限性有更清晰的认识。原文
16:45Stanford AI Lab@StanfordAILab斯坦福人工智能实验室(SAIL)发布博客文章,介绍其最新研究VAGEN。VAGEN是一个强化学习框架,旨在训练视觉语言模型(VLM)智能体通过明确的视觉状态推理来构建内部世界模型。该框架使智能体能够更好地理解环境动态,从而在复杂任务中做出更合理的决策。这一进展对于提升AI在机器人、自动驾驶等需要环境理解的领域中的表现具有重要意义。论文强化学习VLM智能体世界模型视觉推理斯坦福SAIL推荐理由:VAGEN解决了VLM智能体在复杂环境中缺乏内部世界模型的问题,做机器人或自动驾驶研究的团队值得关注,它可能让AI的决策更接近人类推理。原文
16:44Stanford AI Lab@StanfordAILab斯坦福AI Lab在ICLR 2026上公布了其论文列表,涵盖LLM推理、智能体系统、AI安全、机器人、空间智能、视频生成等多个前沿方向。这些论文代表了该实验室在AI领域的最新研究成果,对学术界和工业界均有重要参考价值。参会者可以现场交流,未参会者也可在线查看论文详情。论文ICLR 2026斯坦福AI LabLLM推理智能体AI安全推荐理由:斯坦福AI Lab的论文列表是了解AI前沿趋势的绝佳窗口,做LLM推理、智能体或AI安全的研究者值得点开看看,说不定能找到灵感或合作方向。原文
11:34elvis@omarsar0精选72°一项新研究提出了有效反馈计算(EFC)指标,用于衡量智能体实际可用的反馈量,替代传统的原始token和工具调用计数。实验表明,原始计数只能解释33%-42%的智能体失败原因,而EFC的解释力达到99%。在相同计算预算下,仅通过按有效反馈重新分配资源,就能将智能体成功率从0.27提升至0.90。该研究将智能体框架设计从猜测转变为可预测的科学。论文智能体有效反馈计算Scaling LawsAgent Harness性能优化推荐理由:做智能体框架或Agent Harness的开发者,终于有了一个可量化的优化指标——EFC能让你用相同算力把成功率翻三倍,值得点开论文细读。原文
01:21Fei-Fei Li@drfeifei斯坦福大学教授李飞飞团队推出GPIC(Giant Permissive Image Corpus),这是一个专为大规模生成模型设计的视觉生成基准数据集。该数据集包含1亿对VLM标注的图文训练对和100万对基准测试对,总计约28万亿像素。所有数据均完全开放用于研究和商业用途,并集中托管。GPIC旨在解决现有数据集在规模、许可和标注质量上的不足,为视觉生成领域提供标准化评估平台。论文视觉生成基准数据集GPIC李飞飞开放许可推荐理由:做视觉生成模型的研究者终于有了一个大规模、开放许可的标准化基准,可以直接用来训练和评估模型,省去自己收集和清洗数据的麻烦。原文
18:55rohanpaul_ai@rohanpaul_ai一篇新论文提出“效率前沿”框架,系统比较 LLM 在不同部署场景下的上下文策略。研究发现,在保持答案质量的前提下,选择合适的方法可将 token 消耗降低约 25%,在重复使用记忆的场景下甚至可节省超过 50%。该框架将答案质量与 token 成本联合优化,而非分开评估。实验基于 5000 个 HotpotQA 问题,结果表明:低复用场景轻量检索最优,高复用场景记忆压缩更佳,而全上下文提示仍是追求最高准确率的必要手段。论文LLM上下文管理效率优化token成本检索增强推荐理由:做 LLM 部署优化的团队终于有了量化工具——这篇论文告诉你何时该用检索、何时该用记忆压缩,直接帮你省 token 成本,建议做推理优化的工程师点开看具体方法。原文
17:41rohanpaul_ai@rohanpaul_ai精选72°微软提出 SkillOpt 方法,将智能体技能文档视为可训练的外部程序,而非手工编写或一次性生成。该方法通过一个更强的优化器模型,在智能体执行任务后分析成功与失败案例,对技能文档进行小幅度编辑,并仅在通过验证集测试时采纳修改。在 6 个基准、7 个目标模型和 3 种智能体设置(包括直接对话、Codex 和 Claude Code)的测试中,SkillOpt 在全部 52 个案例中表现最佳或持平,在 GPT-5.5 上直接对话准确率平均提升 23.5 个百分点。最终产出是一个可读、可移植、低成本复用的技能文件,无需重新训练模型即可提升智能体跨任务表现。论文智能体技能优化微软GPT-5.5Claude Code推荐理由:做智能体开发的团队终于有了靠谱的技能优化方案——SkillOpt 解决了手工调技能越调越差的痛点,而且最终产物是一个可读文件,部署零成本。做 prompt 工程或 Agent 框架的开发者值得细读。原文
16:56rohanpaul_ai@rohanpaul_ai76°AI 智能体的能力不仅取决于模型本身,更依赖于其周围的系统(称为“harness”),包括记忆、工具、上下文、路由、检查和权限。当前许多智能体被误判为仅由模型驱动,而实际行为受这些系统组件影响更大。论文指出,进步应来自扩展 harness 的三个部分:更好的上下文控制、更可信的记忆、以及更优的工具或辅助智能体路由。长上下文不等于可用上下文,记忆多不等于可信,工具多不等于知道何时使用。两个智能体可能得出相同答案,但一个可能消耗更多 token、做出更冒险的工具调用或携带损坏的记忆。未来前沿不是单纯扩展模型,而是扩展系统纪律。论文智能体系统扩展harness模型评测记忆管理推荐理由:这篇论文点破了智能体评测的常见误区——只看模型不看系统,做智能体开发的团队值得读,能帮你重新思考系统架构的优先级。原文
10:24Clement Delangue@ClementDelangue精选72°Hugging Face CEO Clément Delangue指出,当前大多数人在用强化学习训练智能体LLM时,存在一个静默的bug:单轮RL表现完美,但加入工具调用后,损失函数会无故飙升,最终出现形状不匹配错误。根本原因在于,每次解析模型输出以检测工具调用时,重新对更新后的对话进行token化,可能导致梯度落在模型从未实际采样的序列上,从而产生无用的梯度信号。修复方法很简单:永远不要重新编码已经解码的token,将采样的token保存在一个缓冲区中,避免重新渲染。团队已发布深度分析,包括对主流开源模型家族的审计,显示大多数聊天模板已支持该修复。论文强化学习智能体Token编码训练陷阱开源模型推荐理由:做多轮RL训练智能体LLM的团队,这个静默bug可能正在破坏你的训练曲线,看完这篇分析能直接修复,省下大量调试时间。原文
10:13Gary Marcus@GaryMarcusGary Marcus 指出,大语言模型(LLM)产生“胡扯”(bullshit)的根本原因并非训练数据中的错误,而是系统概率性重构信息的方式。即使训练数据完全干净,LLM 仍会因概率机制产生幻觉,法律引用幻觉是典型例子。这一观点挑战了“幻觉源于不良训练数据”的常见认知,强调模型架构本身的局限性。Marcus 认为,减少训练数据中的错误只能部分缓解问题,无法根除。论文LLM幻觉概率重构Gary MarcusAI 安全推荐理由:Marcus 戳破了“幻觉只靠清洗数据就能解决”的迷思,做 AI 安全或法律 AI 的团队值得深思——模型概率本质才是硬伤。原文
09:56rohanpaul_ai@rohanpaul_ai精选Yann LeCun 团队的新论文揭示了自监督模型 LeJEPA 何时能真正学到隐藏的世界变量。研究发现,只有当这些隐藏变量呈平衡的高斯分布时,LeJEPA 才能可靠地恢复它们。论文从数学上证明,当真实隐藏变量是独立高斯变量且配对视图来自稳定噪声过程时,LeJEPA 的最优解必然能恢复这些变量(至多相差一个旋转或翻转)。这为理解自监督 AI 模型何时是在学习世界结构、而非仅生成恰好有用的特征提供了理论依据。论文自监督学习世界模型LeJEPA高斯分布Yann LeCun推荐理由:这篇论文给自监督学习社区一个清晰的数学答案:什么条件下模型真的在学世界模型。做表征学习或世界模型研究的开发者,看完会对 LeJEPA 的能力边界有更硬核的理解。原文
08:04elvis@omarsar0精选FluxMem 提出将智能体记忆视为异构图不断演化的拓扑结构,而非传统存储。其工作流程分为三个阶段:初始连接形成、反馈驱动优化、以及将成功路径固化为可复用程序回路。执行时能自动修复缺失链接、剪枝干扰并调整抽象粒度。该方法在 LoCoMo、Mind2Web 和 GAIA 三个不同记忆场景下均达到当前最优。论文已公开,适合关注智能体记忆架构的研究者和开发者。论文智能体记忆架构图拓扑FluxMem论文1 个信源在谈推荐理由:FluxMem 把智能体记忆从静态存储升级为动态拓扑,解决了长期任务中记忆碎片化和干扰问题。做智能体系统或记忆建模的团队值得看看这个新范式,可以直接参考其论文思路。原文
03:07NVIDIA AI@NVIDIAAI72°NVIDIA 研究团队的 CVPR2026 论文 LocateAnything 在 HuggingFace 上成为趋势第一。该模型是一种视觉语言检测模型,创新性地并行解码边界框,而非传统的一次一个坐标。在 1.38 亿高质量样本上训练,显著提升了定位精度和吞吐量,适用于 AI 智能体和机器人等需要快速精准视觉定位的场景。项目页面已公开。论文视觉检测边界框预测NVIDIACVPR2026HuggingFace4 个信源在谈推荐理由:做视觉检测或机器人感知的团队,LocateAnything 的并行解码思路能直接提升实时性,值得点开看看项目页。原文
00:33AK@_akhaliq该研究提出了一种名为对比分布匹配(Contrastive Distribution Matching)的新方法,用于改进离散扩散模型中的摊销序贯蒙特卡洛(Amortized Sequential Monte Carlo)采样。该方法通过对比学习优化分布匹配,显著提升了离散扩散模型的采样效率和质量。实验表明,该方法在多个基准任务上优于现有技术,为离散扩散模型的实用化提供了新思路。论文离散扩散对比学习序贯蒙特卡洛采样优化生成模型推荐理由:离散扩散模型在文本、图结构等离散数据生成中至关重要,但采样效率一直是瓶颈。这篇论文提出的对比分布匹配方法直接解决了这个问题,做生成模型研究的开发者值得关注。原文
23:48AK@_akhaliq该研究提出了一种名为 Agent Explorative Policy Optimization (AEPO) 的新方法,用于优化多模态智能体的推理策略。通过探索性策略优化,智能体能够在复杂多模态环境中更有效地进行推理和决策。实验表明,AEPO 在多个基准测试上显著提升了智能体的性能,尤其是在需要多步推理和跨模态理解的任务中。这项工作为构建更强大的多模态智能体提供了新的训练范式。论文智能体多模态推理模型强化学习AEPO推荐理由:多模态智能体推理是当前 AI 的前沿方向,AEPO 为开发者提供了一种可落地的训练优化思路,做智能体或多模态应用的团队值得关注。原文
23:42AK@_akhaliqMRT(Masked Region Transformer)是一种用于大规模分层图像生成与编辑的新方法。它通过掩码区域机制,能够对图像中的特定区域进行精确的生成或修改,同时保持整体图像的连贯性。该方法在图像编辑任务中表现出色,支持复杂的分层操作,如对象替换、背景修改等。MRT的提出为图像生成和编辑领域提供了更灵活、高效的解决方案,尤其适用于需要精细控制的大规模图像处理场景。论文图像生成图像编辑Transformer掩码区域分层处理推荐理由:MRT解决了图像编辑中区域精确控制与整体连贯性的矛盾,做图像生成和编辑的开发者可以直接尝试,尤其适合需要分层操作的项目。原文
20:05rohanpaul_ai@rohanpaul_ai76°德克萨斯大学的一篇重要论文指出,AI 智能体在部署后会逐渐变得不可靠,即使底层模型本身没有变化。问题在于,智能体在持续运行中会总结旧对话、存储记忆、更新事实和执行维护,这些步骤中的每一个都可能悄悄“腐烂”,导致信息丢失、混淆或过时。例如,药物剂量可能被简化为“每日用药”,两个相似客户的信息可能混淆,已取消的订阅可能仍被视为有效。论文提出了 AgingBench 基准测试,用于评估智能体在多轮会话中的可靠性,并指出“给更多记忆”往往不是正确的修复方法。该研究将部署后的智能体重新定义为“老化的基础设施”,而非静态模型。论文智能体老化记忆管理AgingBench可靠性推荐理由:这篇论文戳中了 AI 智能体部署后的核心隐患——性能会随时间悄悄下降,做智能体运维或长期对话系统的团队值得细读,看完会重新审视记忆管理策略。原文
19:58rohanpaul_ai@rohanpaul_ai研究发现图像扩散Transformer训练效率低下的根源在于残差连接,而非注意力或编码器。残差连接导致信号膨胀、梯度消失和特征冗余,尤其不适合扩散模型这种多步去噪任务。作者提出扩散自适应路由(Diffusion-Adaptive Routing),让每层根据去噪时间步动态选择前层输出,从而在相同图像质量下减少8.75倍训练迭代。该工作没有引入新数据集或注意力机制,而是质疑了从语言Transformer继承的残差结构。论文扩散模型Transformer残差连接训练加速DiT推荐理由:扩散模型研究者终于找到了训练瓶颈的隐藏位置——残差连接,8.75倍加速意味着更低的训练成本,做图像生成的团队值得关注这个新路由方案。原文
11:36AK@_akhaliq精选72°Gamma-World 是一种生成式多智能体世界建模方法,超越了传统双玩家(如双人博弈)的限制,能够模拟多个智能体在复杂环境中的交互。该模型通过生成式框架学习智能体间的动态关系,适用于游戏、机器人协作等场景。研究展示了其在多智能体环境下的强大建模能力,为更复杂的群体智能研究提供了新工具。论文多智能体世界模型生成式模型AI研究Gamma-World推荐理由:多智能体系统开发者终于有了能处理超过两个智能体的世界模型——Gamma-World 解决了传统双玩家建模的瓶颈,做游戏 AI 或机器人协作的团队值得关注。原文
10:40rohanpaul_ai@rohanpaul_ai精选研究发现,长时间运行的语言智能体如果定期暂停并整合记忆,性能会更好。当前Transformer模型随着上下文增长,注意力机制需要检查更多历史token,导致推理变慢且成本增加。论文提出在模型中引入“睡眠阶段”:暂停推理,多次重读近期上下文,将有用信息写入固定大小的记忆层,然后清空短期注意力缓存。这样,模型在睡眠时进行额外计算,而正常推理仍保持单次前向传播的高效。实验表明,睡眠时间越长,模型在需要深度推理的复杂任务上表现越好,尤其当旧信息已不在注意力缓存中时。论文智能体长上下文记忆整合注意力机制推理模型推荐理由:长时运行智能体终于有了解决上下文膨胀问题的思路——做Agent或长链推理的开发者值得关注,它可能改变你处理长期记忆的方式。原文
10:30Martin Fowler@martinfowler精选Birgitta Böckeler 在关于编程智能体传感器的系列文章中,重点探讨了测试套件作为回归传感器的作用,并深入分析了变异测试在此场景中的价值。文章指出,变异测试能更精准地检测代码变更是否破坏了原有功能,从而提升智能体编程的可靠性。这对于依赖自动化测试的 AI 编程工具和开发者具有重要参考意义。论文编程智能体变异测试回归测试测试套件AI编程推荐理由:做 AI 编程工具或智能体开发的团队,这篇文章帮你理解如何用变异测试提升代码质量,值得一读。原文
01:55elvis@omarsar0一项新研究提出了 AgingBench,一个纵向可靠性基准,用于评估 AI 智能体在部署数月后的性能退化。研究将智能体“衰老”分为四种机制,包括压缩衰老和干扰衰老,并测量退化形式和修复目标。即使模型权重不变,智能体的有效状态也会因历史压缩、记忆检索、事实更新等持续变化。该基准揭示了部署后智能体可靠性随时间下降的关键问题,为工程化维护提供了方向。论文智能体可靠性基准测试AgingBench工程维护推荐理由:做智能体部署和运维的团队终于有了衡量长期可靠性的工具——AgingBench 能告诉你智能体何时、如何退化以及该修哪里,建议做 agentic 工程的开发者点开看看。原文
19:46Latent.Space@latentspacepodPoolside 发布了 Laguna M.1 和 Laguna XS.2 的技术报告,详细介绍了模型工厂、预训练数据、分布式训练、后训练、智能体强化学习、量化和评估等关键环节。该报告在 Latent Space 论文俱乐部活动中由 @vibhuuuus 进行解读。这是对开源大模型训练流程的一次深度公开,为研究者和开发者提供了宝贵的实践参考。论文技术报告模型工厂分布式训练智能体强化学习Poolside推荐理由:这份报告把大模型从数据到部署的全链路细节都摊开了,做模型训练或智能体开发的团队可以直接参考其中的 Model Factory 和 Agent RL 实践,值得细读。原文
11:08AI Will@FinanceYF5精选一项基于2691人的实验揭示了AI使用的三层认知偏差:人们实际使用AI的频率高于自我报告,且对AI节省时间的预期高于实际效果。使用AI后,这些偏差反而会加深,形成认知反馈循环。研究指出,AI在简单任务中的收益被显著高估。论文效率增益幻觉认知偏差用户行为研究论文推荐理由:看看你高估AI多少原文
09:35宝玉@dotey83°微软联合上海交大、复旦、同济等机构提出SkillOpt框架,将Agent Skills的优化过程自动化。该框架通过独立的优化器模型对Skill进行编辑操作,并设计harness闭环流程,只有通过验证集分数提升的修改才会被合并。实验表明,每一步设置4到8个编辑操作预算效果最佳,最终最佳Skill仅包含1到4个核心修改。该框架使GPT-5.5的直接对话准确率提升23.5%,标志着提示词工程正式进入机器学习领域。论文SkillOpt提示词工程Agent微软自动化优化推荐理由:做Agent框架或提示词工程的开发者,终于有了系统级的方法来优化Skills,不用再靠手动瞎改和调试了。建议直接看论文实验数据,特别是编辑预算的设置,对实际落地很有参考价值。原文
06:20DeepLearning.AI@DeepLearningAI卡内基梅隆大学和斯坦福大学的研究人员发现,当前AI智能体基准测试主要聚焦于软件开发任务,而美国劳动力市场的工作种类更为多样。研究将智能体测试中的任务映射到美国劳工统计局的职业数据,结果显示测试内容与大多数人的实际工作存在显著不匹配。这意味着现有基准可能高估了AI在某些领域的表现,同时低估了其在其他经济价值任务中的潜力。该研究呼吁开发更全面的评估方法,以真实反映AI智能体的经济影响。论文智能体基准测试劳动力市场CMU斯坦福推荐理由:这项研究戳破了AI基准测试的盲区——如果你在评估智能体工具或做AI产品,会发现现有测试可能误导了你的判断,建议点开看看如何修正评估标准。原文
04:08elvis@omarsar0精选该论文提出一种睡眠压缩机制,让模型每N步进行离线递归处理将上下文写入持久快速权重,然后清除KV缓存。在细胞自动机、多跳图检索和数学推理任务上,该方法比纯Transformer和SSM-Attention混合模型效果更好,睡眠时间越长性能提升越大。这为长时智能体提供了替代方案,通过压缩和遗忘原始token来避免注意力二次计算开销。论文DAIR.AI智能体长上下文推理模型状态空间模型推荐理由:智能体睡一觉,推理更强原文
03:35NVIDIA AI@NVIDIAAINVIDIA AI 官方账号在 X 平台发布 Nemotron Labs 的最新研究成果,聚焦文本扩散模型与弹性推理技术。文本扩散模型是一种新型生成式 AI 方法,能够更高效地处理文本生成任务,而弹性推理则旨在优化推理过程中的计算资源分配,提升模型在复杂任务中的表现。该技术有望降低大模型的部署成本,并提高推理速度,对 AI 研究和应用开发者具有重要参考价值。论文文本扩散弹性推理NVIDIANemotron Labs推理优化2 个信源在谈推荐理由:NVIDIA 在文本生成和推理效率上的新突破,做 NLP 或大模型部署的团队值得关注,能直接启发你优化模型性能。原文
01:37rohanpaul_ai@rohanpaul_ai研究发现,长上下文AI模型并非被大量错误信息逐渐削弱,而是仅需10%的误导性段落就能造成近58%的性能损失,这种现象被称为“第一滴墨水效应”。误导信息之所以危险,是因为它们与问题高度相关但错误,在注意力机制中会挤占正确答案的空间。在128K token的Qwen2.5实验中,前10%的硬干扰项解释了97%的干扰压力。这意味着过滤文档时,移除坏内容不如缩短整个上下文有效。该研究对构建长上下文AI系统的开发者具有重要警示意义。论文长上下文注意力机制误导信息第一滴墨水效应Qwen2.5推荐理由:做长上下文AI应用或RAG系统的团队,这个发现会颠覆你对上下文管理的认知——不是堆更多文档就能提升效果,少而精才是关键,建议点开看看具体实验数据。原文
23:22berryxia@berryxia83°CMU和UMD的研究团队发现,Transformer大模型在处理超长任务时注意力机制会因上下文长度二次方爆炸而性能下降。他们提出“sleep-like consolidation”机制,让模型在“睡眠”期间将最近上下文转化为持久fast weights并清空KV cache,从而将短期记忆转为长期记忆。实验表明,增加睡眠深度或时长能显著提升睡眠后的推理能力。该方案完全开源,颠覆了传统靠堆显存扩展上下文的做法。论文Transformer长上下文记忆固化开源/仓库推理优化推荐理由:这个研究用“睡觉”这种生物启发机制解决了长上下文推理的显存和速度瓶颈,做长序列AI应用的开发者可以直接参考开源方案,比堆显存更聪明。原文
23:21berryxia@berryxia76°CMU和UMD的研究者发现,大模型在多跳推理任务中表现不佳的根本原因不是内存容量,而是缺乏将上下文转化为可用内部表示的“巩固”过程。他们提出“睡眠”机制:在清空KV缓存前,让模型对当前上下文多次前向传播,将记忆沉淀进fast weights。实验显示,这一方法使多跳推理准确率提升52%,且推理延迟不变。这与当前行业狂加上下文窗口和test-time compute的方向不同,更接近人脑的睡眠记忆巩固机制。论文推理模型多跳推理睡眠机制CMUUMD推荐理由:做深度推理项目的开发者终于有了新思路——不用堆算力,而是给模型“离线整理”时间,准确率直接拉升52%,值得一试。原文
23:02rohanpaul_ai@rohanpaul_ai72°Meta、斯坦福、谷歌等顶级实验室联合提出AutoResearchClaw,一种将自动化科研从“生产流水线”转变为“受控循环”的新框架。该框架允许AI在研究中失败、恢复并在适当时机向人类求助,将失败视为证据而非错误。在ARC-Bench基准上,AutoResearchClaw比AI Scientist v2提升54.7%,尤其在结果分析环节表现突出。实验显示,完全自主的科研接受率仅25%,而人类协作模式(CoPilot)达到87.5%,说明过度监督和缺乏判断都会损害科研质量。论文揭示了当前AI科研系统的关键边界:机器能验证数字的真实性,但人类仍能识别实验是否在问正确的问题。论文AI科研AutoResearchClaw人机协作自动化研究失败恢复推荐理由:做AI科研自动化的团队会发现,这个框架把失败变成了系统的一部分,而不是bug——CoPilot模式87.5%的接受率值得所有做AI Scientist的人点开看看。原文
23:01rohanpaul_ai@rohanpaul_ai76°Meta、CMU 等机构发表新论文,提出 Self-Play SWE-RL 方法,让编码智能体通过自我制造和修复真实项目中的 bug 来训练自己,不再依赖人类编写的任务数据。该方法将学习单元从标注任务转变为可执行场景:一个模型版本在真实代码库中弱化测试、注入有意义的 bug 并留下测试工件,另一个版本则通过恢复测试行为来修复系统。在 SWE-bench Verified 上取得 +10.4 分、SWE-bench Pro 上 +7.8 分的提升,且评估仍使用自然语言问题,表明模型学到了比问题措辞更深层的东西。论文指出,编码智能体的下一个瓶颈可能不再是更多人类编写的任务,而是让智能体遭遇、创造、承受并从失败中学习的更多方式。论文编码智能体自我对弈强化学习MetaCMU推荐理由:Self-Play SWE-RL 解决了编码智能体依赖人类标注数据的瓶颈,做 AI 编程助手或智能体训练的团队值得关注——它展示了智能体自我进化的新路径,看完会对训练数据来源有全新认识。原文
06:36rohanpaul_ai@rohanpaul_ai72°Google 新论文指出,大语言模型的幻觉问题根源不在于回答错误,而在于错误时仍显得过于自信。论文提出应将目标从追求完美事实性转向让模型诚实表达自身不确定性,即“忠实的不确定性”。作者认为,模型缺乏的不是知识,而是对自身认知的元认知能力。对于智能体而言,不确定性感知能决定何时搜索、何时信任来源、何时停止,比工具本身更重要。论文LLM幻觉不确定性元认知Google推荐理由:这篇论文点破了 LLM 幻觉的核心矛盾——不是知识不够,而是不知道什么时候该说“不确定”。做 AI 产品、智能体或对话系统的团队,看完会对“诚实比正确更重要”有更深理解,建议直接读原文。原文
04:52rohanpaul_ai@rohanpaul_ai72°Meta、斯坦福和伊利诺伊大学联合发表了一篇综述论文,核心观点是:当代码成为AI智能体的主要工作层时,智能体表现更优。论文指出,仅靠LLM做文本预测,长任务容易丢失状态、隐藏错误,将计划转化为行动的方式也很脆弱。真正的进步不是“AI写代码”,而是“AI把代码当作它思考的环境”。作者将围绕模型构建的工具、记忆、沙箱、检查和反馈循环称为“智能体马具”,而代码应处于这个马具的中心,因为代码可以被运行、检查、保存、编辑和共享。论文总结了一个跨领域的模式:代码帮助智能体通过可执行步骤推理、通过工具调用或控制程序行动、通过测试、追踪、日志、仓库和模拟器建模环境。论文智能体代码即环境Meta斯坦福论文推荐理由:这篇论文为AI智能体架构提供了一个清晰的设计原则——用代码作为核心工作层,做智能体系统或工具链的开发者值得一读,能帮你理解为什么代码比纯文本更适合作为智能体的“思考环境”。原文
01:28elvis@omarsar0精选76°微软研究院提出 SkillOpt,一种将智能体技能文档视为可训练外部状态的新方法。该方法通过一个优化器模型对技能文件进行验证门控的增删改编辑,并引入文本学习率控制改写强度,而智能体本身保持不变。在 52 个(模型、基准、工具)组合上,SkillOpt 均达到最佳或并列最佳,在 GPT-5.5 上直接聊天提升 23.5 点,与 Codex 配合提升 24.8 点,与 Claude Code 配合提升 19.1 点,且零额外推理成本。学到的技能可跨模型和工具迁移,效果优于人工编写技能、TextGrad、GEPA 和 EvoSkill。论文智能体技能优化微软SkillOpt推理模型推荐理由:做智能体开发的工程师别再手写技能文档了——SkillOpt 证明自动优化技能文件能带来显著性能提升,且零推理开销,值得在你的 Agent 工作流中尝试。原文
00:52Milvus@milvusio精选RAG 管道常犯一个错误:把语义相似度当成相关性,导致返回主题相近但实际不匹配的结果。CRAG(Corrective RAG)通过引入评估步骤,在检索后对文档进行相关性评分,并分三条路径处理:正确则精炼使用,模糊则补充网络搜索,错误则丢弃并回退搜索。评估器使用微调后的 T5-Large 模型,比通用 LLM 更快更精准。CRAG 能有效拦截 Apache 指南回答 Nginx 配置这类错误,确保生成只基于真正相关的内容。论文RAGCRAG检索增强生成相关性评估Milvus推荐理由:做 RAG 系统的团队终于有了解决检索错配的实用方案——CRAG 在检索后加一道评估关卡,直接过滤掉相似但不相关的文档。做知识库问答或搜索增强应用的开发者,值得看看这个改进管道的方法。原文
12:05AI Will@FinanceYF5精选ZEDA是一种针对混合专家模型(MoE)的后训练方法,通过自蒸馏技术让模型学会在推理时跳过半数专家,从而大幅降低计算成本。与传统的剪枝不同,ZEDA赋予模型“算力预算意识”,使其能根据每个token的重要性动态决定是否投入计算资源。该方法在保持性能的同时显著提升效率,为大规模MoE模型的部署提供了新思路。论文已发布在arXiv上。论文MoE/混合专家模型压缩/加速自蒸馏算力优化ZEDA推荐理由:做MoE模型部署或推理优化的团队,ZEDA直接解决了算力浪费问题——跳过一半专家还能保持效果,值得一试。原文