09:46arXiv cs.AI@Ishaan Kelkar, Nebras Alam, Vikram Kakaria, Madhur Panwar, Vasu Sharma, Maheep Chaudhary精选研究发现,使用现成的“怀疑”或“审视”人设向量,可以将模型的谄媚行为(即盲目同意用户错误观点)减少到CAA(对比激活添加)效果的68%至98%,且不会在用户正确时牺牲准确性。与CAA不同,这些向量并非针对谄媚数据训练,而是来自通用角色扮演。此外,人设向量与谄媚方向在激活空间中几乎正交,表明谄媚更像是一种人设级属性而非单一可操控方向。研究还发现,向“顺从”人设引导并不会镜像增加谄媚。代码已开源。论文模型对齐谄媚行为人设向量CAA开源/仓库推荐理由:做AI对齐和模型安全的研究者值得关注——用现成人设向量替代CAA,既减少谄媚又保持准确性,省去标注谄媚数据的麻烦。建议直接看代码和实验细节。原文
09:46arXiv cs.AI@Yan Xia, Zhuangzhuang Pan, Amirrudin Kamsin, Chee Seng Chan精选多方面情感分析(ATSA)中,现有模型要么为每个方面重新编码句子,要么静态使用深层表示,导致计算冗余和适应性不足。DABS 提出单次推理框架,仅对句子编码一次,构建可复用的深度排序基板,每个方面通过查询该基板选择性读取相关 token 和抽象层级,无需重新编码。在四个基准测试中,DABS 在保持竞争性能的同时,将端到端计算量减少高达 60%,尤其在否定和对比等复杂语言场景中优势明显。代码已开源。论文情感分析单次推理深度选择性读取计算效率开源/仓库推荐理由:做情感分析或文本分类的团队,DABS 用单次编码解决了多方面的计算冗余问题,直接复用编码结果能省 60% 算力,建议试试这个轻量方案。原文
09:46arXiv cs.AI@Bo Ye, Xinyu Cui, Jian Zhao, Tong Wei, Min-Ling Zhang精选自回归长视频生成通常采用有界内存流式处理,结合局部窗口和静态早期帧汇(sink)来保持长期连续性。但静态帧汇在视觉状态大幅变化后仍缓存早期帧,丢弃了可能更相关的中间历史,导致生成偏向过时内容,甚至引发注意力坍塌。DySink 提出基于检索的动态帧汇框架,维护紧凑记忆库并选择视觉相关的历史帧作为动态汇,同时引入异常检测门控抑制坍塌。实验表明,DySink 在分钟级视频上持续提升动态度指标,并实现更高时间质量。代码和模型权重将开源。论文长视频生成自回归模型动态帧汇注意力机制开源/仓库推荐理由:长视频生成长期受困于静态帧汇导致的注意力坍塌问题,DySink 用检索式动态帧汇解决了这个痛点,做视频生成或自回归模型的团队可以直接参考其开源代码。原文
15:36arXiv cs.AI@Guangzhi Xiong, Qiao Jin, Sanchit Sinha, Zhiyong Lu, Aidong Zhang精选大型视觉语言模型在医疗应用中潜力巨大,但其回答缺乏视觉证据的可信归因,引发临床信任问题。现有归因方法无法验证是否真正反映模型决策依据,因为缺乏内部推理的真实标注。研究者开发了因果评估框架,通过反事实编辑验证专家标注区域是否因果影响模型预测,并测试了11种归因方法、6个开源LVLM和两种输出模式。结果发现现有方法常无法识别模型使用的视觉证据。为此提出MedFocus,基于不平衡最优传输定位临床解剖区域,并通过定向干预测量因果效应,在空间、概念和词元层面显著优于现有方法。数据和代码已开源。论文视觉归因医学影像因果评估LVLM开源/仓库推荐理由:医疗AI的信任危机终于有了可验证的归因方案——MedFocus让医生能看清模型到底看了哪里才下诊断,做医学影像AI的团队值得试试这个因果框架。原文
11:24arXiv cs.LG@Emaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker精选76°Toto 2.0 是一系列开源时间序列基础模型,参数规模从 4M 到 2.5B,展示了单一训练配方即可实现预测质量的可靠提升。该模型家族在 BOOM、GIFT-Eval 和 TIME 三个基准上刷新了最先进水平。研究团队详细描述了架构、训练数据、超参数迁移管道等设计决策。所有五个基础检查点均以 Apache 2.0 许可证开源。这项工作标志着时间序列预测领域正式进入规模扩展时代。论文时间序列预测基础模型开源/仓库规模扩展Toto 2.0推荐理由:时间序列预测终于有了可扩展的基础模型,做金融、能源、运维等预测任务的团队可以直接用开源权重,值得关注。原文
10:53arXiv: DeepSeek@Aman Desai精选RooAgent 是一个基于 LLM 的自然语言接口,专为高能物理领域的 Root 数据分析设计。它将物理分析函数封装为工具,让 LLM 智能体根据自然语言指令调用,支持直方图检查、事件选择、运动学分布可视化、拟合和显著性估计等任务。该工具提供两种运行模式:基于 LangGraph 的智能体(兼容 GPT-4.1 和 DeepSeek-V3),以及 MCP 服务器模式(用于 Anthropic Claude CLI)。通过 Monte Carlo 模拟和 ATLAS 开放数据测试,RooAgent 展示了在多任务信号-背景工作流中的有效性。代码已开源在 GitHub 并可通过 PyPI 安装。AI产品LLM智能体高能物理Root数据分析开源/仓库MCP/工具10 个信源在谈推荐理由:高能物理研究者终于有了一个能用自然语言操作 Root 数据的智能体,省去手动写脚本的繁琐,做粒子物理分析的团队可以直接试试。原文
10:44arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li精选GoLongRL 是一个完全开源的长上下文强化学习训练方案,包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法,覆盖 9 种任务类型,每个任务配有自然评估指标,数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下,GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集,且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外,论文提出 TMN-Reweight 方法,通过任务级均值归一化和难度自适应加权,解决异构奖励优化问题,进一步提升平均性能并保持通用能力。论文长上下文强化学习开源/仓库RLVR多任务对齐推荐理由:长上下文 RL 训练的数据构建和奖励设计一直是个难题,GoLongRL 提供了开源数据集和优化方法,做长上下文模型训练的团队可以直接复用,省去大量数据构造工作。原文
10:40arXiv cs.AI@Franco Terranova, Guillermo Bernardez, Albert Cabellos-Aparicio, Nina Miolane, Abdelkader Lahmadi精选图组合优化(GCO)问题因NP难特性而难以精确求解,现有基于强化学习(RL)和图神经网络(GNN)的方法在泛化性和计算可扩展性上存在局限。本文提出Projection Agents,直接在连续GNN动作嵌入空间中预测潜在动作,并通过单次前向传播解码为有效离散动作,避免了传统逐步搜索的开销。该方法在多个基准上实现最高16.2倍推理加速和40%更好的泛化性能,尤其适用于超线性决策空间。同时,作者开源了LaGCO-RL库,支持自动构建潜在动作空间并兼容现有RL-GCO方案,便于复现和适配新问题。论文图组合优化强化学习图神经网络潜在动作空间开源/仓库推荐理由:做图组合优化或RL求解NP-hard问题的研究者,这篇论文解决了泛化差和扩展性瓶颈,16倍加速和40%泛化提升值得一试,开源库还能直接复用。原文
10:31arXiv cs.AI@Wen Shi, Zhe Wang, Huafei Huang, Qing Qing, Ziqi Xu, Qixin Zhang, Xikun Zhang, Renqiang Luo, Feng Xia精选TERGAD 是一种新型图异常检测框架,通过大语言模型将节点拓扑属性转化为自然语言描述,生成高维语义嵌入,再与原始节点特征自适应融合。该方法解决了现有文本增强方法忽略节点结构上下文的问题,能检测由内容与拓扑不一致导致的复杂异常。在六个真实数据集上,TERGAD 持续优于现有基线,消融实验验证了结构语义引导和门控融合机制的有效性。代码已开源。论文图异常检测大语言模型结构语义增强门控融合开源/仓库推荐理由:做图异常检测的研究者终于有了一个能同时利用结构语义和文本特征的框架——TERGAD 用 LLM 把拓扑信息翻译成自然语言,比纯数值特征更易捕捉异常模式,建议做 GAD 的团队直接跑一下开源代码。原文
10:14arXiv cs.AI@Jinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan精选OpenComputer 是一个基于验证器的框架,用于构建可验证的软件世界,以评估和训练计算机使用智能体。它集成了四个组件:应用状态验证器、自进化验证层、任务生成管道和评估工具。目前覆盖 33 个桌面应用和 1000 个任务,包括浏览器、办公工具、创意软件等。实验表明,硬编码验证器比 LLM 作为裁判更准确,尤其在细粒度状态依赖的任务中。前沿模型在端到端完成上仍显吃力,开源模型表现下降,暴露了计算机自动化中的持续差距。论文计算机使用智能体验证框架桌面自动化评估基准开源/仓库推荐理由:OpenComputer 解决了计算机使用智能体评估缺乏可靠验证的问题,做智能体开发和自动化研究的团队可以直接用它来测试和训练模型,比 LLM 裁判更靠谱。原文
14:48arXiv cs.LG@Aashna P. Shah, Michelle M. Li, Yash Lal, Seffi Cohen, Liat F. Antwarg, Morgan Sanchez, James A. Diao, Chirag J. Patel, Ben Y. Reis, Ran D. Balicer, Noa Dagan, Arjun K. Manrai精选血液生物标志物是临床诊断的关键,但传统参考区间基于固定人群,忽略了个体间稳定变异,可能掩盖偏离基线的异常。研究者利用北美、中东和东亚超过160万人的近20亿条纵向实验室数据发现,纯个性化参考区间会将高达68%的测量值标记为异常,且与不良临床结局无关。为此,他们提出NORMA,一个基于条件Transformer的框架,通过结合患者历史数据和人群正常变异生成参考区间。NORMA在预测死亡率、急性肾损伤和慢性疾病等结局上精度更高,优于纯个性化或纯人群方法。模型、代码和交互界面已公开,旨在推动实验室检测的个性化解释。论文血液生物标志物个性化参考区间条件Transformer临床诊断开源/仓库推荐理由:NORMA解决了实验室检测中过度个性化导致的假阳性问题,做临床诊断或健康监测的医生、研究者可以直接用这个开源模型来提升异常检测的准确性。原文
14:43arXiv cs.LG@Miguel Farinha, Ronald Clark精选PIXLRelight 提出了一种前馈式单图像重光照方法,通过共享的内在条件(反照率、漫反射阴影和非漫反射残差)桥接物理渲染与学习图像合成。训练时从多光照照片分解出条件,推理时从用户指定 PBR 光源下的粗 3D 重建渲染中计算相同条件,再由基于 Transformer 的神经渲染器应用目标光照。该方法支持任意 PBR 风格的光照控制,重光照质量达到最先进水平,且每张图像处理时间不到 0.1 秒。代码和模型已开源。论文重光照物理渲染内在条件Transformer开源/仓库推荐理由:做图像编辑、3D 重建或影视后期的人终于有了一个又快又可控的重光照工具——PIXLRelight 在 0.1 秒内实现物理级光照控制,比传统方法省去大量优化时间,建议直接试玩开源代码。原文
11:43arXiv cs.AI@Xinpeng Dong, Min Zhang, Kairong Han, Xu Tan, Fei Wu, Kun Kuang精选多模态大语言模型(MLLMs)在融合视觉与文本信息方面取得显著进展,但现有方法存在两个关键问题:视觉信息被当作普通文本token处理,削弱了其独特贡献;随着生成长度增加,模型对视觉信息的依赖逐渐减弱,导致视觉-语言对齐恶化。为此,研究者提出Vision Inference Former(VIF),一个轻量级架构模块,在推理解码阶段持续注入视觉语义,确保生成内容与视觉语义一致。在14个基准任务上的实验表明,VIF能在不同架构上稳定提升性能,且额外开销极小。代码已开源。论文多模态大模型视觉一致性轻量模块推理优化开源/仓库推荐理由:多模态模型开发者常遇到生成内容偏离图像的问题,VIF用极简模块解决了视觉一致性衰减的痛点,想提升MLLM可靠性的团队可以直接试。原文
11:38arXiv cs.AI@Haoyu Zhang, Qiaohui Chu, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie精选MARS 是一个多模态智能体推理系统,专为 EgoVis 2026 的 CASTLE 挑战赛设计。该挑战要求回答 185 个关于四天活动、15 个同步视角、官方转录及多种辅助模态(如个人照片、热成像、心率数据)的封闭式问题。MARS 将任务视为多模态证据选择问题,通过构建视频和转录等主要来源以及辅助来源的证据记忆,并使用 DeepSeek 压缩长视频,最后通过 GPT-5.4 决策代理选择继续推理、请求缺失模态或生成答案。该系统在最终排行榜上获得第二名,代码已开源。AI模型多模态推理智能体视频理解开源/仓库GPT-5.4推荐理由:多模态推理是 AI 落地的关键瓶颈,MARS 展示了如何整合视频、转录、热成像等异构数据做智能体决策,做多模态 AI 或视频理解的团队值得参考其开源代码。原文
11:11arXiv cs.LG@Stefano Riva, Yantao Luo, Carolina Introini, Antonio Cammipyforce 是一个用于多物理场问题数据驱动降阶建模的 Python 包,主要面向核工程领域。它是 ROSE 项目的一部分,旨在降低多物理场模型复杂度、优化传感器位置并集成实测数据以提升系统认知。1.0.0 版本完全重写,改用 pyvista 作为后端处理网格、积分和可视化,并将函数存储为 numpy 数组以提升易用性。新版本支持任何能导出 VTK 格式的求解器,大幅扩展了适用性。AI产品降阶模型多物理场核工程pyvista开源/仓库推荐理由:核工程和计算物理领域的团队终于有了一个更易用的降阶建模工具——pyforce 1.0.0 摆脱了对特定求解器的依赖,做多物理场仿真的开发者可以直接集成到现有工作流中。原文
10:57arXiv cs.LG@Md Hasan, Nyvenn Castro, Daiqi Liu, Lukas Mulzer, Jana Hutter, Jonghye Woo, Moritz Zaiss, Andreas Maier, Paula A. Perez-Toro精选SIREM是一种新型的语音引导MRI重建框架,通过同步语音作为跨模态先验来改善实时语音MRI(rtMRI)的图像质量。该方法将每帧图像建模为音频驱动和MRI驱动成分的融合,利用语音预测发音器结构,同时从k空间数据重建互补内容。SIREM还引入了可学习的螺旋臂软加权机制,实现k空间采样与语音信息融合的差异化研究。在USC语音rtMRI基准上,SIREM在保持解剖学合理性的同时,显著优于传统方法(如网格化、小波压缩感知和全变分),实现了更高吞吐量的重建。代码已开源。论文语音MRI跨模态重建k空间采样开源/仓库先验融合推荐理由:语音MRI研究者终于有了一个利用语音信号本身来提升成像质量的新思路——SIREM把音频作为先验,解决了传统rtMRI在分辨率与速度间的权衡问题,做语音科学或临床评估的团队可以直接用开源代码试试。原文
10:28arXiv: Anthropic@Aman Desai精选RooAgent 是一个基于 LLM 的智能体,为高能物理领域的 Root 数据分析提供自然语言接口。它将物理分析功能封装为工具,LLM 根据用户自然语言指令调用这些工具。支持两种模式:基于 LangGraph 的 Agent(兼容 GPT-4.1 和 DeepSeek-V3),以及 MCP 服务器模式(兼容 Claude Sonnet 4.6)。功能包括直方图检查、事件选择、运动学分布可视化、拟合和显著性估计。已在多个模拟和 ATLAS 开放数据上验证,代码开源在 GitHub。AI产品RooAgent高能物理LLM AgentRoot分析开源/仓库推荐理由:高能物理研究者终于可以用自然语言做 Root 分析了——RooAgent 把复杂的 PyRoot 操作封装成 LLM 可调用的工具,做粒子物理数据分析的团队可以直接试,省去手写大量脚本的麻烦。原文
10:06arXiv cs.AI@Mingyang Rao, Kehua Feng, Zhihui Zhu, Jiangzhen Fu, Hao Yu, Keyan Ding, Huajun Chen精选大模型在理解化学反应图方面存在视觉缺陷和语义脱节两大瓶颈。ChemVA框架通过视觉锚点机制和语义对齐方法,将化学结构图转化为模型能理解的实体名称,显著提升理解能力。在OCRD-Bench基准测试中,ChemVA实现92%的结构识别准确率,并在9种不同大模型上平均提升约20个百分点,使开源模型在复杂化学推理任务上媲美闭源系统。论文大模型化学推理视觉理解开源/仓库ChemVA推荐理由:做化学信息学或AI辅助药物研发的团队,终于有了让大模型真正看懂反应图的方法——开源框架可直接用,效果提升明显。原文
12:07arXiv cs.AI@Arquimedes Canedo精选论文提出了一种名为paper.json的轻量级JSON文件约定,旨在解决LLM智能体阅读学术论文时的常见问题,如子声明无法细粒度引用、范围过度扩展、图表命令隐藏在代码库中。该约定包含五个核心约定:稳定声明ID(C1)、明确的不声明列表(C2)、精确的每图shell命令(C3)、稳定定义ID(C5),以及最低可行合规性(C4)。作者声称,为已完成的论文手动编写符合规范的JSON文件可在1小时内完成。论文本身已实现合规,并通过了验证测试。该工作开源在GitHub上,为AI驱动的论文阅读和自动化提供了标准化接口。论文LLM智能体论文阅读结构化数据开源/仓库学术自动化推荐理由:做AI论文阅读工具或学术自动化智能体的开发者,这个约定能解决子声明引用和范围误判的痛点,值得直接参考或贡献。原文
12:01arXiv cs.AI@Xavier Theimer-Lienhard, Mushtaha El-Amin, Fay Elhassan, Sahaj Vaidya, Victor Cartier-Negadi, David Sasu, Lars Klein, Mary-Anne Hartley精选Fully Open Meditron 是首个完全开放的临床大语言模型(LLM)构建管道,解决了现有“开放”模型仅开放权重、缺乏数据来源和训练流程透明性的问题。该管道包含经临床医生审核的训练语料库、可复现的数据构建和训练框架,以及对齐临床使用的评估协议。语料库整合了8个公开医学QA数据集,并扩展了三种临床医生验证的合成数据:考试式QA、基于46,469条临床实践指南的QA和临床小案例。评估采用LLM作为裁判的协议,校准了204名人类评分员。在五个全开放基座模型上应用后,所有MeditronFO变体均优于基座,其中Apertus-70B-MeditronFO在医学综合基准上提升6.6个百分点,达到53.8%,创下全开放模型的新纪录。结果表明,全开放管道可以在不牺牲可审计性和可复现性的前提下实现领域内最先进性能。论文临床LLM全开放管道可审计性医学QA开源/仓库推荐理由:做临床AI或医疗NLP的团队终于有了一个可审计、可复现的完整管道,不用再猜数据来源和训练细节——直接拿来用或参考构建自己的CDSS,值得点开看具体实现。原文
09:52arXiv cs.AI@Zhigao Huang, Zhengqing Hu, Dong Chen, Shaohan Zhang, Zhao Jin, Bo Zhang, Han Wu, Mingliang Xu精选针对现代战场环境下传统作战规划生成不可行、验证不充分的问题,研究者提出IFPV框架。该框架包含多视角分层智能体(MPHA)用于生成可执行的多平台战术动作序列,以及对抗认知仿真引擎(ACSE)用于高保真验证。ACSE引入带有定制世界模型的对手,能预测关键平台未来演化并动态对抗候选计划。在非对称作战战术模拟器(ACTS)中,IFPV相比单步大语言模型基线,任务成功率提升19.4%,作战成本降低41.7%;相比传统规则验证器,平均压制率提高31.8%。代码已开源。论文多智能体作战规划仿真验证开源/仓库IFPV推荐理由:军事AI和仿真验证领域的团队终于有了一个可落地的多智能体框架——IFPV不仅生成计划,还能通过对抗仿真找出漏洞,做作战规划或复杂系统验证的开发者可以直接用开源代码复现。原文
19:12arXiv cs.AI@Jose E. Aguilar Escamilla, Lingdong Zhou, Xiangqi Zhu, Huazheng Wang精选极端天气和波动的电力批发市场给居民用户带来巨大财务风险,但配电网级别的需求响应尚未被充分利用。DR-Gym 是一个开源、兼容 Gymnasium 的在线环境,从电力公司视角训练和评估需求响应策略。它通过状态切换的批发价格模型(校准自真实极端事件)和基于物理的建筑需求曲线,模拟定价信号与用户接受度之间的动态反馈。该环境支持可配置的多目标奖励函数,并已通过基线策略验证其可学习性。论文强化学习需求响应电网优化开源/仓库能源AI推荐理由:电力公司终于有了一个能模拟用户行为反馈的强化学习训练场,做电网调度或能源 AI 的团队可以直接用这个开源环境来优化需求响应策略,减少居民电费风险。原文
19:12arXiv cs.AI@Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye精选75°计算机使用智能体(CUA)在同时使用原子GUI操作(如点击、输入)和高级工具调用(如API文件操作)时,常因无法判断何时切换而导致执行路径次优。为解决这一问题,研究者提出ToolCUA,一种端到端智能体,通过分阶段训练范式学习最优GUI-工具路径选择。其核心包括:利用静态GUI轨迹合成工具库的轨迹缩放流水线、结合单步强化学习的工具引导GUI RFT,以及在线智能体强化学习优化。在OSWorld-MCP基准上,ToolCUA达到46.85%准确率,相比基线提升约66%,并比纯GUI设置提升3.9%,证明了混合动作空间训练的有效性。项目已开源。论文计算机使用智能体GUI自动化工具调用强化学习开源/仓库推荐理由:做GUI自动化或智能体开发的团队,这个工作解决了混合动作空间路径选择的痛点——不用手动收集真实工具轨迹也能训练出高效智能体,建议点开看看方法细节。原文
19:11arXiv: Anthropic@Michael A. Riegler, Inga Strümke75°研究者开发了开源对抗测试框架swarm-attack,利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%,产生49个严重漏洞,而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞,表明此前需限制发布的能力可在零成本下复现,关键因素是系统框架本身补偿了小模型的推理限制。论文AI安全多智能体/协同越狱攻击漏洞发现开源/仓库推荐理由:该研究揭示了AI安全政策应聚焦系统而非模型本身,因为小模型通过协调框架即可实现高危险能力,这对当前以模型为中心的安全管控思路提出了重要挑战。原文
19:11arXiv: Anthropic@Xinyu Zhang, Zhicheng Dou, Deyang Li, Jianjun Tao, Shuo Cheng, Ruifeng Shi, Fangchao Liu, Enrui Hu, Yangkai Ding, Hongbo Wang, Qi Ye, Xuefeng Jin, Zhangchun Zhao随着AI工程从单智能体转向多智能体协调工程,如何将多智能体协作协议编码为可移植资产成为关键瓶颈。Swarm Skills 提出了一种扩展自 Anthropic Skills 标准的可移植规范,将多智能体工作流(包括角色、流程、执行边界和自进化语义结构)变为一等公民。配套的自进化算法基于有效性、利用率和新鲜度等多维评分,自动从成功执行轨迹中提炼新技能并修补现有技能,无需人工干预。通过架构兼容性分析和 JiuwenSwarm 参考实现案例,展示了零适配器的跨智能体可移植性,避免框架锁定。该工作为多智能体系统提供了可分享、可自我改进的协作基础。论文智能体多智能体系统协调工程自进化开源/仓库4 个信源在谈推荐理由:解决了多智能体协作无法跨系统共享和自主改进的核心问题,为协调工程提供标准化的可移植规范和自进化机制,对构建灵活、自适应的多智能体系统具有实际指导意义。原文
19:11arXiv cs.AI@Tz-Huan Hsu, Jheng-Hong Yang, Jimmy Lin本研究探讨了在构建深度研究系统时,是否仅需词汇检索器BM25配合更强的大型语言模型即可实现高效结果。研究者提出了Pi-Serini搜索智能体,它具备检索、浏览和阅读文档三个工具。在测试集B-Plus上,Pi-Serini搭配gpt-5.5达到了83.1%的答案准确率和94.7%的证据召回率,超过了使用稠密检索的代理。通过调整BM25参数和增加检索深度,答案准确率提升了18.0%,证据召回率提升了11.1%和25.3%。这表明在推理能力更强的LLM辅助下,传统词汇检索仍能发挥重要作用。代码已开源。论文搜索代理检索增强BM25大型语言模型开源/仓库推荐理由:该研究挑战了稠密检索在深度搜索中不可或缺的假设,为构建轻量、高效、不依赖外挂向量库的搜索代理提供了新思路,值得关注推理模型与经典检索技术的结合。原文
19:11arXiv: OpenAI@Sietse Schelpe70°本预印本实证分析了检索增强生成管道中字节级块去重的效果,涵盖三种不同模式:干净学术检索(22.2M BeIR段落字节减少0.16%)、构造企业模式(24.03%减少)和多轮对话AI(80.34%减少)。通过跨供应商5评委校准面板评估,使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API,应用五类别人工噪声去除协议,证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明,无需牺牲评估级模型质量即可实现大量推理计算节省。论文RAG去重/优化推理效率质量评估开源/仓库推荐理由:该研究为RAG系统提供了一种确定性、无质量折损的优化方法,直接减少了推理计算成本,对实际部署具有明确指导意义。原文
19:11arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-MaloneyGLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型,专门用于识别42种个人身份信息(PII)实体类型,支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题,研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中,该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源,旨在促进PII检测的研究和实际部署。论文个人信息提取多语言开源/仓库合成数据隐私安全4 个信源在谈推荐理由:该模型以较小参数量在PII提取任务上达到领先性能,并采用合成数据方法规避隐私风险,为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。原文
19:10arXiv cs.AI@Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan ShiShepherd提出了一种函数式编程模型,将元Agent对目标Agent的操作形式化为函数,并通过Lean实现核心操作。该系统记录每个Agent-环境交互作为类型化事件,形成类似Git的执行轨迹,支持分叉和重放任意历史状态。实验表明,Shepherd的分叉速度比Docker快5倍,重放时提示缓存复用率超过95%。在运行时干预中,实时监督将配对编码通过率从28.8%提升至54.7%;在反事实元优化中,分支探索在四个基准上提升最多11个百分点,同时减少高达58%的壁钟时间;在树强化学习中,选择性地分叉展开将TerminalBench-2性能从34.2%提升至39.4%。Shepherd为元Agent编程提供了高效基础设施,并已开源。论文智能体元Agent形式化验证运行时追踪开源/仓库推荐理由:该工作为元Agent的运行时追踪和干预提供了一种形式化、高性能的解决方案,尤其适合需要细粒度回溯和优化的复杂Agent系统开发。其Lean形式化和Git式执行轨迹的设计对AI安全与调试有实际参考价值。原文
19:03arXiv: OpenAI(学术论文)华东师范大学推出ECNUClaw开源框架,通过构建包含认知、行为、情感、元认知和情境的五维学习者画像,实现K-12个性化学习。系统从学生与学伴的每一轮对话中提取信号,更新画像,并实时调整指导强度、鼓励频率和布鲁姆认知分类脚手架。该框架参考了国内教育技术理论(如张氏数字肖像三层框架、教育脑模型、人机协同智商概念),适配七种中文大模型提供商,代码已开源。论文个性化教育学习者画像自适应学习K-12开源/仓库推荐理由:该框架将学习者画像与自适应策略引擎深度耦合,为K-12教育中利用LLM实现个性化辅导提供了可复用的技术路线,值得关注其在真实课堂场景中的效果验证。原文