arXiv cs.AI@Zhigao Huang, Zhengqing Hu, Dong Chen, Shaohan Zhang, Zhao Jin, Bo Zhang, Han Wu, Mingliang Xu精选58针对现代战场环境下传统作战规划生成不可行、验证不充分的问题,研究者提出IFPV框架。该框架包含多视角分层智能体(MPHA)用于生成可执行的多平台战术动作序列,以及对抗认知仿真引擎(ACSE)用于高保真验证。ACSE引入带有定制世界模型的对手,能预测关键平台未来演化并动态对抗候选计划。在非对称作战战术模拟器(ACTS)中,IFPV相比单步大语言模型基线,任务成功率提升19.4%,作战成本降低41.7%;相比传统规则验证器,平均压制率提高31.8%。代码已开源。论文多智能体作战规划仿真验证开源/仓库IFPV推荐理由:军事AI和仿真验证领域的团队终于有了一个可落地的多智能体框架——IFPV不仅生成计划,还能通过对抗仿真找出漏洞,做作战规划或复杂系统验证的开发者可以直接用开源代码复现。
arXiv cs.AI@Jose E. Aguilar Escamilla, Lingdong Zhou, Xiangqi Zhu, Huazheng Wang精选40极端天气和波动的电力批发市场给居民用户带来巨大财务风险,但配电网级别的需求响应尚未被充分利用。DR-Gym 是一个开源、兼容 Gymnasium 的在线环境,从电力公司视角训练和评估需求响应策略。它通过状态切换的批发价格模型(校准自真实极端事件)和基于物理的建筑需求曲线,模拟定价信号与用户接受度之间的动态反馈。该环境支持可配置的多目标奖励函数,并已通过基线策略验证其可学习性。论文强化学习需求响应电网优化开源/仓库能源AI推荐理由:电力公司终于有了一个能模拟用户行为反馈的强化学习训练场,做电网调度或能源 AI 的团队可以直接用这个开源环境来优化需求响应策略,减少居民电费风险。
arXiv cs.AI@Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye精选75计算机使用智能体(CUA)在同时使用原子GUI操作(如点击、输入)和高级工具调用(如API文件操作)时,常因无法判断何时切换而导致执行路径次优。为解决这一问题,研究者提出ToolCUA,一种端到端智能体,通过分阶段训练范式学习最优GUI-工具路径选择。其核心包括:利用静态GUI轨迹合成工具库的轨迹缩放流水线、结合单步强化学习的工具引导GUI RFT,以及在线智能体强化学习优化。在OSWorld-MCP基准上,ToolCUA达到46.85%准确率,相比基线提升约66%,并比纯GUI设置提升3.9%,证明了混合动作空间训练的有效性。项目已开源。论文计算机使用智能体GUI自动化工具调用强化学习开源/仓库推荐理由:做GUI自动化或智能体开发的团队,这个工作解决了混合动作空间路径选择的痛点——不用手动收集真实工具轨迹也能训练出高效智能体,建议点开看看方法细节。
arXiv: Anthropic@Michael A. Riegler, Inga Strümke75研究者开发了开源对抗测试框架swarm-attack,利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%,产生49个严重漏洞,而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞,表明此前需限制发布的能力可在零成本下复现,关键因素是系统框架本身补偿了小模型的推理限制。论文AI安全多智能体/协同越狱攻击漏洞发现开源/仓库推荐理由:该研究揭示了AI安全政策应聚焦系统而非模型本身,因为小模型通过协调框架即可实现高危险能力,这对当前以模型为中心的安全管控思路提出了重要挑战。
arXiv: Anthropic@Xinyu Zhang, Zhicheng Dou, Deyang Li, Jianjun Tao, Shuo Cheng, Ruifeng Shi, Fangchao Liu, Enrui Hu, Yangkai Ding, Hongbo Wang, Qi Ye, Xuefeng Jin, Zhangchun Zhao65随着AI工程从单智能体转向多智能体协调工程,如何将多智能体协作协议编码为可移植资产成为关键瓶颈。Swarm Skills 提出了一种扩展自 Anthropic Skills 标准的可移植规范,将多智能体工作流(包括角色、流程、执行边界和自进化语义结构)变为一等公民。配套的自进化算法基于有效性、利用率和新鲜度等多维评分,自动从成功执行轨迹中提炼新技能并修补现有技能,无需人工干预。通过架构兼容性分析和 JiuwenSwarm 参考实现案例,展示了零适配器的跨智能体可移植性,避免框架锁定。该工作为多智能体系统提供了可分享、可自我改进的协作基础。论文智能体多智能体系统协调工程自进化开源/仓库推荐理由:解决了多智能体协作无法跨系统共享和自主改进的核心问题,为协调工程提供标准化的可移植规范和自进化机制,对构建灵活、自适应的多智能体系统具有实际指导意义。
arXiv cs.AI@Tz-Huan Hsu, Jheng-Hong Yang, Jimmy Lin55本研究探讨了在构建深度研究系统时,是否仅需词汇检索器BM25配合更强的大型语言模型即可实现高效结果。研究者提出了Pi-Serini搜索智能体,它具备检索、浏览和阅读文档三个工具。在测试集B-Plus上,Pi-Serini搭配gpt-5.5达到了83.1%的答案准确率和94.7%的证据召回率,超过了使用稠密检索的代理。通过调整BM25参数和增加检索深度,答案准确率提升了18.0%,证据召回率提升了11.1%和25.3%。这表明在推理能力更强的LLM辅助下,传统词汇检索仍能发挥重要作用。代码已开源。论文搜索代理检索增强BM25大型语言模型开源/仓库推荐理由:该研究挑战了稠密检索在深度搜索中不可或缺的假设,为构建轻量、高效、不依赖外挂向量库的搜索代理提供了新思路,值得关注推理模型与经典检索技术的结合。
arXiv: OpenAI@Sietse Schelpe70本预印本实证分析了检索增强生成管道中字节级块去重的效果,涵盖三种不同模式:干净学术检索(22.2M BeIR段落字节减少0.16%)、构造企业模式(24.03%减少)和多轮对话AI(80.34%减少)。通过跨供应商5评委校准面板评估,使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API,应用五类别人工噪声去除协议,证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明,无需牺牲评估级模型质量即可实现大量推理计算节省。论文RAG去重/优化推理效率质量评估开源/仓库推荐理由:该研究为RAG系统提供了一种确定性、无质量折损的优化方法,直接减少了推理计算成本,对实际部署具有明确指导意义。
arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-Maloney65GLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型,专门用于识别42种个人身份信息(PII)实体类型,支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题,研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中,该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源,旨在促进PII检测的研究和实际部署。论文个人信息提取多语言开源/仓库合成数据隐私安全推荐理由:该模型以较小参数量在PII提取任务上达到领先性能,并采用合成数据方法规避隐私风险,为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。
arXiv cs.AI@Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan Shi65Shepherd提出了一种函数式编程模型,将元Agent对目标Agent的操作形式化为函数,并通过Lean实现核心操作。该系统记录每个Agent-环境交互作为类型化事件,形成类似Git的执行轨迹,支持分叉和重放任意历史状态。实验表明,Shepherd的分叉速度比Docker快5倍,重放时提示缓存复用率超过95%。在运行时干预中,实时监督将配对编码通过率从28.8%提升至54.7%;在反事实元优化中,分支探索在四个基准上提升最多11个百分点,同时减少高达58%的壁钟时间;在树强化学习中,选择性地分叉展开将TerminalBench-2性能从34.2%提升至39.4%。Shepherd为元Agent编程提供了高效基础设施,并已开源。论文智能体元Agent形式化验证运行时追踪开源/仓库推荐理由:该工作为元Agent的运行时追踪和干预提供了一种形式化、高性能的解决方案,尤其适合需要细粒度回溯和优化的复杂Agent系统开发。其Lean形式化和Git式执行轨迹的设计对AI安全与调试有实际参考价值。
arXiv: OpenAI(学术论文)35华东师范大学推出ECNUClaw开源框架,通过构建包含认知、行为、情感、元认知和情境的五维学习者画像,实现K-12个性化学习。系统从学生与学伴的每一轮对话中提取信号,更新画像,并实时调整指导强度、鼓励频率和布鲁姆认知分类脚手架。该框架参考了国内教育技术理论(如张氏数字肖像三层框架、教育脑模型、人机协同智商概念),适配七种中文大模型提供商,代码已开源。论文个性化教育学习者画像自适应学习K-12开源/仓库推荐理由:该框架将学习者画像与自适应策略引擎深度耦合,为K-12教育中利用LLM实现个性化辅导提供了可复用的技术路线,值得关注其在真实课堂场景中的效果验证。