13:37百川智能 Baichuan@BaichuanAI百川AI发布了Baichuan-M3技术报告,该模型专为临床决策支持设计,而非通用问答。它基于真实门诊工作流(问诊→检查→诊断)进行优化,旨在提升医疗场景下的AI辅助能力。报告和模型权重已公开,用户可在线试用。AI模型百川Baichuan-M3临床决策支持医疗AI开源/仓库推荐理由:医疗AI从业者终于有了一个真正对齐临床工作流的模型——从问诊到诊断全链路优化,做医疗信息化或AI辅助诊断的团队值得深入研究。原文
13:37深度求索 DeepSeek@deepseek_ai78°DeepSeek 发布了 V4 Preview 版本,包含 Pro 和 Flash 两个模型,均支持 1M 上下文长度。Pro 版本总参数量 1.6T,激活参数 49B,性能对标全球顶级闭源模型;Flash 版本总参数量 284B,激活参数 13B,主打高效经济。模型权重和技术报告已开源,API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。AI模型DeepSeek-V4开源/仓库长上下文推理模型性价比推荐理由:长上下文和低成本是当前 AI 应用的两大痛点,DeepSeek-V4 同时解决这两个问题,做 RAG、文档分析或长对话的开发者可以直接上手试试。原文
01:10AlphaSignal@AlphaSignalAI70°Hugging Face 开源了一个 CLI 智能体,能自动执行机器学习工程师的完整研究循环:从阅读论文、追踪引用,到拉取数据集、编写训练脚本,再到启动 GPU 任务并迭代优化。在科学推理任务中,它训练 Qwen3-1.7B 将 GPQA 得分从 10% 提升至 32%,超越 Claude Code 的 22.99%。在医疗领域,它因公开数据集质量不足,自动生成 1100 个合成样本并上采样 50 倍,在 HealthBench 上比 Codex 高出 60%。该智能体还具备自主诊断失败评估、恢复训练的能力,以 CLI 和 Web 应用形式提供,甚至可在手机上运行。AI产品Hugging FaceCLI 智能体开源/仓库自动化研究模型训练推荐理由:Hugging Face 这个开源智能体把 ML 研究全流程自动化了,做实验的团队可以直接用它跑论文复现和模型训练,省掉大量手动调参和写脚本的时间。原文
01:10DeepSeek: GitHub 新仓库(资讯)75°DeepSeek 开源了 DeepEP,这是首个专为 MoE(混合专家)模型设计的专家并行(EP)通信库。它提供了高吞吐、低延迟的 GPU 内核,支持训练和推理中的全到全通信。DeepEP 还支持低精度操作,如 FP8,并引入了高效的稀疏通信技术。该库已开源在 GitHub 上,开发者可以访问其 Pull Requests 页面了解更多。AI模型DeepSeekMoEEP通信库开源/仓库分布式训练推荐理由:MoE 模型的通信瓶颈一直是训练和推理的痛点,DeepEP 专为此优化,做大规模分布式训练的团队值得关注。原文
21:36Simon Willison’s Weblog(博客/媒体)datasette 1.0a29 版本发布,新增 TokenRestrictions.abbreviated(datasette) 工具方法用于创建 "_r" 字典。修复了当表包含零行时表头和列选项不可见的问题,以及 Mobile Safari 上列操作对话框的显示 bug。最关键的是修复了一个由 Datasette.close() 竞态条件导致的 segfault 崩溃 bug,作者通过 Codex CLI 创建最小 Dockerfile 复现并解决了该问题。AI产品datasettebug修复竞态条件Docker开源/仓库推荐理由:datasette 用户终于可以避免测试中偶发的 segfault 崩溃,做数据探索和 API 构建的团队建议升级。原文
21:36Moonshot AI: Kimi Blog(资讯)70°Moonshot AI 正式开源了其最新的智能体模型 Kimi K2,该模型在多个基准测试中表现优异,尤其在代码生成、工具使用和复杂推理任务上超越了 GPT-4 和 Claude 3.5。K2 采用混合专家架构,拥有 1.5 万亿参数,但通过稀疏激活机制实现了高效推理。此次开源不仅提供了模型权重,还包括了训练代码和详细的技术报告,旨在推动智能体技术的民主化。对于开发者而言,K2 的开放意味着可以基于其强大的工具调用能力构建更自主的 AI 应用。AI模型智能体开源/仓库推理模型MoonshotKimi K2推荐理由:Kimi K2 开源让开发者直接获得了一个在工具使用和推理上超越 GPT-4 的智能体模型,做 AI 应用和自动化流程的团队建议立即上手试试。原文
21:35Moonshot AI: Kimi Blog(资讯)Kimi 发布了 K2 Thinking 模型并开源,该模型在 Agent 和推理能力上实现显著提升。K2 Thinking 基于 K2 架构,通过强化学习优化了长链推理和多步决策能力,在多个基准测试中表现优异。开源版本允许开发者自由部署和二次开发,降低了使用门槛。这一发布标志着 Kimi 在 Agent 和推理模型领域的持续投入,为开发者和企业提供了更强大的工具。AI模型KimiK2 Thinking开源/仓库推理模型智能体推荐理由:K2 Thinking 的开源让 Agent 和推理能力更强的模型触手可及,做智能体或复杂推理应用的开发者可以直接下载试用,降低自研成本。原文
21:35DeepSeek: GitHub 新仓库(资讯)DeepSeek 发布了 DeepEP,这是一个专为 MoE(混合专家)模型设计的高效通信库,旨在优化专家并行场景下的 GPU 通信效率。它支持低延迟推理和高吞吐量训练,并提供了节点内和节点间的通信优化。该库还引入了低精度操作和 FP8 调度,进一步提升了性能。对于使用 MoE 架构的团队,DeepEP 可以直接集成到现有框架中,显著减少通信开销。AI模型MoE通信库DeepSeek开源/仓库GPU优化推荐理由:MoE 模型的通信瓶颈是训练和推理的常见痛点,DeepEP 直接解决了这个问题。做大规模 MoE 训练或推理的团队,值得集成试试。原文
21:35DeepSeek: GitHub 新仓库(资讯)70°DeepSeek 开源了 FlashMLA,一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化,已在生产中部署。该项目支持 BF16 精度,分页和块大小 64 的块大小,并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算,显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。AI模型DeepSeekFlashMLA开源/仓库推理优化Hopper GPU推荐理由:DeepSeek 开源 FlashMLA 解决了大模型推理中 MLA 解码的性能瓶颈,做推理优化和模型部署的开发者可以直接拿来用,值得一试。原文
21:35DeepSeek: GitHub 新仓库(资讯)70°DeepSeek 开源了 DeepGEMM,一个专为 FP8 矩阵乘法设计的高性能库。该库支持密集和 MoE 分组 GEMM,性能优异,在 NVIDIA Hopper GPU 上可达 1350+ TFLOPS。DeepGEMM 采用轻量级即时编译(JIT)方式,核心代码仅约 300 行,但通过精细的调优实现了接近理论峰值的性能。对于使用 FP8 进行训练或推理的团队,这是一个可以直接集成的高效工具。AI产品DeepGEMMFP8矩阵乘法开源/仓库高性能计算推荐理由:DeepGEMM 解决了 FP8 矩阵乘法的性能瓶颈,做大规模模型训练或推理的团队可以直接集成,获得接近理论峰值的算力利用率,值得一试。原文
21:35DeepSeek: GitHub 新仓库(资讯)70°DeepSeek 官方在 GitHub 上发布了 awesome-deepseek-agent 仓库,汇集了基于 DeepSeek 模型构建智能体的最佳实践、工具和示例。该资源库旨在帮助开发者快速上手使用 DeepSeek 模型开发 AI 智能体,包括 API 调用、提示词工程、工具集成等关键内容。对于希望利用 DeepSeek 模型构建生产级智能体应用的开发者来说,这是一个一站式的参考资源。AI产品智能体DeepSeek开源/仓库最佳实践开发者工具推荐理由:DeepSeek 官方整理的智能体开发资源库,做 AI 智能体的开发者可以直接拿来参考,省去自己摸索的时间。原文
21:35Anthropic: Research(资讯)Anthropic 宣布将其内部开发的对齐工具 Petri 捐赠给开源社区,该工具旨在帮助研究人员更有效地评估和提升 AI 系统的安全性。Petri 通过自动化测试和监控 AI 行为,降低了对齐研究的门槛。此举有望加速全球 AI 安全领域的协作与创新。Anthropic 表示,开源 Petri 是其推动负责任 AI 发展承诺的一部分。AI产品Anthropic开源/仓库对齐工具AI安全Petri4 个信源在谈推荐理由:做 AI 安全研究的团队可以直接用 Petri 降低对齐实验的重复劳动,建议关注其源码和文档。原文
21:35Anthropic: Engineering(资讯)精选Anthropic 发布 Agent Skills,一套用于增强 AI 智能体在真实环境中执行任务能力的工具集。Agent Skills 包含多个预构建模块,如文件操作、网络请求、数据解析等,让开发者无需从零编写复杂逻辑即可快速部署实用智能体。该项目旨在解决当前智能体在现实应用中缺乏可靠基础能力的问题,降低开发门槛并提升任务成功率。Anthropic 同时开源了相关代码,鼓励社区贡献更多技能模块。AI产品智能体AnthropicAgent Skills开源/仓库工具集9 个信源在谈推荐理由:做智能体应用的开发者不用再重复造轮子了——Agent Skills 直接提供了文件处理、网络请求等高频基础能力,拿来就能用,建议直接看源码。原文
19:15Clement Delangue@ClementDelangueHugging Face CEO Clement Delangue在特朗普与习近平会晤期间,呼吁美国AI社区公开支持开源国际AI,特别是来自中国的Deepseek、Qwen、Kimi、GLM等模型。他强调开源是当前AI领域竞争、就业和财富创造的最重要驱动力。此举意在关键时刻维护开源合作,避免地缘政治影响技术交流。行业开源/仓库DeepseekQwenKimiGLM推荐理由:开源AI社区正面临地缘政治压力,Hugging Face CEO的呼吁提醒从业者:支持开源模型(尤其是中国模型)关乎整个行业的竞争力和创新活力。做AI开发或关注开源生态的人,值得关注这一立场。原文
19:12arXiv cs.AI@Jose E. Aguilar Escamilla, Lingdong Zhou, Xiangqi Zhu, Huazheng Wang精选极端天气和波动的电力批发市场给居民用户带来巨大财务风险,但配电网级别的需求响应尚未被充分利用。DR-Gym 是一个开源、兼容 Gymnasium 的在线环境,从电力公司视角训练和评估需求响应策略。它通过状态切换的批发价格模型(校准自真实极端事件)和基于物理的建筑需求曲线,模拟定价信号与用户接受度之间的动态反馈。该环境支持可配置的多目标奖励函数,并已通过基线策略验证其可学习性。论文强化学习需求响应电网优化开源/仓库能源AI推荐理由:电力公司终于有了一个能模拟用户行为反馈的强化学习训练场,做电网调度或能源 AI 的团队可以直接用这个开源环境来优化需求响应策略,减少居民电费风险。原文
19:12arXiv cs.AI@Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye精选75°计算机使用智能体(CUA)在同时使用原子GUI操作(如点击、输入)和高级工具调用(如API文件操作)时,常因无法判断何时切换而导致执行路径次优。为解决这一问题,研究者提出ToolCUA,一种端到端智能体,通过分阶段训练范式学习最优GUI-工具路径选择。其核心包括:利用静态GUI轨迹合成工具库的轨迹缩放流水线、结合单步强化学习的工具引导GUI RFT,以及在线智能体强化学习优化。在OSWorld-MCP基准上,ToolCUA达到46.85%准确率,相比基线提升约66%,并比纯GUI设置提升3.9%,证明了混合动作空间训练的有效性。项目已开源。论文计算机使用智能体GUI自动化工具调用强化学习开源/仓库推荐理由:做GUI自动化或智能体开发的团队,这个工作解决了混合动作空间路径选择的痛点——不用手动收集真实工具轨迹也能训练出高效智能体,建议点开看看方法细节。原文
17:17IT之家(博客/媒体)精选70°小米技术发布并开源了 Xiaomi OneVL 一步式潜空间语言视觉推理框架,首次将 VLA(视觉语言动作)与世界模型统一到同一框架中。该模型在多个自动驾驶基准上刷新了潜在推理方法的性能上限,同时提供语言和视觉双维度的可解释性。相比传统方法,OneVL 在精度上超越显式 CoT,在速度上对齐“仅答案”预测。小米已将模型权重、训练和推理代码全面开源。AI模型自动驾驶VLA世界模型开源/仓库小米推荐理由:自动驾驶研究者终于有了一个统一 VLA 与世界模型的开源方案——OneVL 在精度和速度上均优于现有方法,做端到端驾驶或世界模型开发的团队可以直接拿来用。原文
13:05IT之家(博客/媒体)精选70°面壁智能联合清华大学及 OpenBMB 开源社区发布 MiniCPM-V 4.6,参数规模 1.3B,仅需约 6GB 内存即可在端侧流畅运行。该模型在 Artificial Analysis 评测中以 13 分超越 Ministral 3 3B,整体能力接近 Qwen3.5-2B 级别。效率方面,基于 vLLM 框架的 Token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍,计算 Token 消耗仅为后者的 2.5%。技术创新包括 LLaMA-UHD v4 架构,将图像编码计算量降低 55.8%,处理 3132×3132 高清图首字延迟仅 75.7 毫秒。模型已全面开源,支持 iOS、Android 和 HarmonyOS 等系统。AI模型大模型多模态开源/仓库MiniCPM-V面壁智能推荐理由:1.3B模型6G内存就能跑原文
09:12AlphaSignal@AlphaSignalAI开源平台 InsForge 作为后端上下文层,显著减少了 AI 编程代理的令牌消耗。在 Claude Code 的测试中,令牌使用量从 1040 万降至 370 万,错误从 10 个降至 0 个。该平台通过语义层暴露数据库、认证和存储等后端原语,使代理无需猜测模式或幻觉 API 调用。每次运行成本从 9.21 美元降至 2.81 美元,展示了结构化后端集成对 AI 代理效率的关键影响。AI产品开源/仓库编程助手Agent大模型推荐理由:InsForge 通过开源后端层解决了 AI 代理在连接后端服务时的高令牌消耗和错误率问题,为构建全栈 AI 应用提供了更高效的方案。原文
09:12AlphaSignal@AlphaSignalAICocoindex 是一个开源引擎,解决了 AI Agent 上下文过期的问题。它通过增量处理,只重新索引变化的数据,使嵌入、摘要和知识图谱在亚秒级保持最新。该引擎像 React 一样工作,声明期望的输出状态后自动同步源数据,仅重新计算差异部分。它还提供语义搜索、调用图追踪和架构视图等功能,帮助开发者快速构建生产级 Agent。AI产品Agent开源/仓库RAGEmbeddingCocoindex推荐理由:Cocoindex 通过增量处理机制,显著提升了 AI Agent 处理动态数据的效率,适合需要实时上下文的开发场景。原文
09:12Ate-a-Pi@svpino一位用户在X上质疑某款Linux照片编辑应用的外观,认为其界面丑陋,与Adobe Lightroom相比缺乏吸引力。该应用旨在帮助用户编辑照片以改善视觉效果,但用户对其设计表示不满。这一讨论反映了开源替代品在用户体验和设计上的挑战。AI产品开源/仓库图像编辑Linux设计推荐理由:探讨了Linux平台上Adobe Lightroom替代品的可用性,并指出了开源软件在设计上的常见问题。原文
08:42阶跃星辰 Stepfun@StepFun_aiStepfun 发布了 Step Image Edit 2,一个 3.5B 参数的图像模型,在指令式图像编辑基准 KRIS-Bench 上排名第一,涵盖总体、事实和概念类别。其性能超越参数规模 5-6 倍的模型,支持文本到图像生成、指令编辑、双语文字渲染和风格迁移。推理速度快,文本到图像仅需 0.7 秒,每次编辑 1.6 秒,每张图像成本仅 $0.003。该模型已在 Stepfun 开放平台上线,模型 ID 为 step-image-edit-2。AI模型图像编辑文本到图像多模态Stepfun开源/仓库推荐理由:该模型以极小参数量在图像编辑基准上取得领先,推理速度快且成本低,为图像编辑和生成任务提供了高效的新选择。原文
08:34Clement Delangue@ClementDelangueHugging Face CEO Clement Delangue 在 X 上分享,Reachy Mini 机器人出现在 LinusTech 最新视频的封面。这标志着开源机器人项目获得主流科技媒体关注。Reachy Mini 是一个可编程的桌面机器人,常用于 AI 研究和教育。行业开源/仓库机器人Hugging Face推荐理由:开源机器人项目获得主流科技媒体曝光,体现 AI 硬件社区影响力。原文
00:43Nathan Lambert: Interconnects@Nathan Lambert75°文章探讨了中国AI领域以高参与度和开放为先的生态系统如何形成复利效应。中国模型生态中,开源模型的使用和贡献形成了正向循环,吸引了更多开发者,加速了技术迭代。这种开放模式促进了创新,降低了使用门槛,使得中国AI社区在全球范围内具有竞争力。文章强调了开源生态对于推动AI发展的重要性,并与其他封闭或半封闭生态进行了对比。行业开源/仓库行业趋势中国AI生态系统复利效应推荐理由:该文深入分析了中国开源AI生态的独特优势,对理解全球AI竞争格局中的开放与封闭策略有重要参考价值。原文
00:33Moonshot AI: Kimi Blog(资讯)Moonshot AI 在2025年11月发布了Kimi K2 Thinking模型并开源,该模型聚焦于提升智能体和推理能力。同时,公司对Kimi K2 Turbo API进行了价格调整,并为K2官方高速版API提供5折优惠。此外,Kimi K2在2025年9月更新了更强的代码能力和更快的API,8月发布了高速版。这些动作表明Moonshot AI正积极推动其模型的推理与工具调用能力,以降低开发者成本。AI模型Kimi K2开源/仓库推理模型智能体API/价格推荐理由:Kimi K2 Thinking开源增强了开源大模型在智能体与推理领域的选择,配合降价策略,开发者可更经济地使用其API进行复杂任务。原文
00:33Google Developers Blog(博客/媒体)Google DeepMind推出Gemma 4系列开源模型,专为在设备端实现多步规划和自主智能体工作流而设计。该系列包含Google AI Edge Gallery供开发者实验“Agent Skills”,以及LiteRT-LM库,提供显著的速度提升和结构化输出。Gemma 4采用Apache 2.0许可,支持140多种语言,兼容移动设备、桌面电脑和Raspberry Pi等IoT平台。AI模型智能体Gemma 4边缘计算开源/仓库多模态1 个信源在谈推荐理由:此发布将前沿的智能体能力带入低功耗设备,为边缘AI应用(如本地化助手和离线自动化)提供了新的可能性,对开发者社区和物联网领域具有实际参考价值。原文
00:33DeepSeek: GitHub 新仓库(资讯)70°DeepSeek 的 GitHub 组织页展示了其多个关键开源项目,包括高效FP8内核DeepGEMM、面向AI训练和推理的高性能分布式文件系统3FS、多头部隐式注意力内核FlashMLA、专家并行通信库DeepEP,以及用于V3/R1训练的双向流水线并行算法DualPipe等。这些仓库总计获得数万星标,反映了社区对DeepSeek技术栈的高度关注。此次页面加载存在部分错误,但不影响对核心开源成果的概览。AI模型开源/仓库推理模型基础设施分布式训练DeepGEMM推荐理由:DeepSeek 的开源仓库是其技术实力的集中体现,覆盖了从底层计算内核到分布式训练框架的全链路优化,对追求高效AI基础设施的开发者有重要参考价值。原文
00:33Google Developers Blog(博客/媒体)加州大学圣地亚哥分校研究者将DFlash(一种块扩散推测解码方法)成功部署到Google TPU上,通过单次前向传播“绘制”整个候选词块,绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速,峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态,利用TPU的免费并行验证和高品质草稿预测,显著提升复杂推理任务的效率。AI模型推理加速推测解码TPU开源/仓库vLLM推荐理由:这一工作展示了扩散式推测解码在TPU上的实际落地价值,突破传统推测解码的顺序瓶颈,尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。原文
00:33Google Research: Blog(资讯)Google Research 博客更新多项AI研究成果,涵盖全球科研合作与开放资源、AI辅助科研工具、图像重构技术、基于经验学习的推理Agent、合成数据设计方法、AI加速脑神经图谱、生成式AI教育应用、用户模拟器、学术工作流AI代理及LLM行为对齐评估等10个方向。其中,ReasoningBank 让智能体从经验中学习,显著提升推理能力;AI生成合成神经元将脑图谱绘制速度提高50倍。这些进展显示了AI在基础科学、算法理论及实际应用中的广泛渗透与加速趋势。行业AI科研推理智能体合成数据安全评估开源/仓库推荐理由:多项成果集中在AI辅助科研与智能体推理,尤其是ReasoningBank和AI加速脑神经研究,表明AI正从工具向自主式科研伙伴演进。对研究人员和AI工程师而言,这些开源资源和评估方法具有实践参考价值。原文
00:33GitHub Blog@Kedasha KerrGitHub博客发布了一篇为初学者设计的开源贡献入门指南,详细介绍了如何找到参与开源社区的机会。文章涵盖了从选择合适的项目到提交Pull Request的完整流程,包括如何利用标签(如“good first issue”)定位适合新手的任务。该指南旨在降低开源贡献的技术门槛,帮助新人快速融入开源生态。技巧开源/仓库GitHub入门指南推荐理由:这篇指南为开源新手提供了清晰的行动路径,有助于扩大开源社区的参与范围,对培养贡献者生态有实际价值。原文
23:28Clement Delangue@ClementDelangue70°Hugging Face宣布其平台上公开数据集数量突破100万,总数据量达到PB级别,每天有数百万AI开发者下载、分析和训练模型。值得注意的是,自智能体技术成熟以来,数据集增速显著加快,过去8个月新增50万个数据集,而达到首个50万耗时4年。业界普遍认为,更好的数据是让更多人自主构建AI而非依赖API的下一个关键瓶颈。行业数据集开源/仓库Hugging Face智能体推荐理由:这一里程碑表明高质量数据的获取和分享正在变得更加高效,对AI模型训练和开源生态的持续发展具有积极意义。原文
21:55Together AI@togethercomputeTogether AI在X平台发布了一款新的开源工具包,旨在简化AI模型的训练和部署流程。该工具包支持多种主流模型架构,并提供了优化后的分布式训练功能。这一发布有助于降低中小团队使用大模型的门槛,推动AI技术的普及。AI产品开源/仓库模型训练Together AI推荐理由:对于AI开发者和研究团队,该工具包提供了实用功能,可提升模型开发效率,值得关注其后续更新。原文
21:55Together AI@togethercompute75°DeepSeek V4 Pro在Together AI无服务器平台上发布,具备长上下文推理能力和领先的编程性能。该模型通过KV缓存、前缀重用、混合注意力、批处理、内核优化和端点配置等技术实现高效服务。来自@zhyncs42、@realDanFu等人的深入分析揭示了其技术细节。AI模型推理模型开源/仓库Together AI长上下文编程推荐理由:DeepSeek V4 Pro在长上下文推理和编程任务上的表现达到SOTA,同时其高效服务技术栈的公开分析对AI部署实践有重要参考价值。原文
19:11arXiv: Anthropic@Michael A. Riegler, Inga Strümke75°研究者开发了开源对抗测试框架swarm-attack,利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%,产生49个严重漏洞,而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞,表明此前需限制发布的能力可在零成本下复现,关键因素是系统框架本身补偿了小模型的推理限制。论文AI安全多智能体/协同越狱攻击漏洞发现开源/仓库推荐理由:该研究揭示了AI安全政策应聚焦系统而非模型本身,因为小模型通过协调框架即可实现高危险能力,这对当前以模型为中心的安全管控思路提出了重要挑战。原文
19:11arXiv: Anthropic@Xinyu Zhang, Zhicheng Dou, Deyang Li, Jianjun Tao, Shuo Cheng, Ruifeng Shi, Fangchao Liu, Enrui Hu, Yangkai Ding, Hongbo Wang, Qi Ye, Xuefeng Jin, Zhangchun Zhao随着AI工程从单智能体转向多智能体协调工程,如何将多智能体协作协议编码为可移植资产成为关键瓶颈。Swarm Skills 提出了一种扩展自 Anthropic Skills 标准的可移植规范,将多智能体工作流(包括角色、流程、执行边界和自进化语义结构)变为一等公民。配套的自进化算法基于有效性、利用率和新鲜度等多维评分,自动从成功执行轨迹中提炼新技能并修补现有技能,无需人工干预。通过架构兼容性分析和 JiuwenSwarm 参考实现案例,展示了零适配器的跨智能体可移植性,避免框架锁定。该工作为多智能体系统提供了可分享、可自我改进的协作基础。论文智能体多智能体系统协调工程自进化开源/仓库4 个信源在谈推荐理由:解决了多智能体协作无法跨系统共享和自主改进的核心问题,为协调工程提供标准化的可移植规范和自进化机制,对构建灵活、自适应的多智能体系统具有实际指导意义。原文
19:11arXiv cs.AI@Tz-Huan Hsu, Jheng-Hong Yang, Jimmy Lin本研究探讨了在构建深度研究系统时,是否仅需词汇检索器BM25配合更强的大型语言模型即可实现高效结果。研究者提出了Pi-Serini搜索智能体,它具备检索、浏览和阅读文档三个工具。在测试集B-Plus上,Pi-Serini搭配gpt-5.5达到了83.1%的答案准确率和94.7%的证据召回率,超过了使用稠密检索的代理。通过调整BM25参数和增加检索深度,答案准确率提升了18.0%,证据召回率提升了11.1%和25.3%。这表明在推理能力更强的LLM辅助下,传统词汇检索仍能发挥重要作用。代码已开源。论文搜索代理检索增强BM25大型语言模型开源/仓库推荐理由:该研究挑战了稠密检索在深度搜索中不可或缺的假设,为构建轻量、高效、不依赖外挂向量库的搜索代理提供了新思路,值得关注推理模型与经典检索技术的结合。原文
19:11arXiv: OpenAI@Sietse Schelpe70°本预印本实证分析了检索增强生成管道中字节级块去重的效果,涵盖三种不同模式:干净学术检索(22.2M BeIR段落字节减少0.16%)、构造企业模式(24.03%减少)和多轮对话AI(80.34%减少)。通过跨供应商5评委校准面板评估,使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API,应用五类别人工噪声去除协议,证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明,无需牺牲评估级模型质量即可实现大量推理计算节省。论文RAG去重/优化推理效率质量评估开源/仓库推荐理由:该研究为RAG系统提供了一种确定性、无质量折损的优化方法,直接减少了推理计算成本,对实际部署具有明确指导意义。原文
19:11arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-MaloneyGLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型,专门用于识别42种个人身份信息(PII)实体类型,支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题,研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中,该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源,旨在促进PII检测的研究和实际部署。论文个人信息提取多语言开源/仓库合成数据隐私安全4 个信源在谈推荐理由:该模型以较小参数量在PII提取任务上达到领先性能,并采用合成数据方法规避隐私风险,为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。原文
19:10arXiv cs.AI@Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan ShiShepherd提出了一种函数式编程模型,将元Agent对目标Agent的操作形式化为函数,并通过Lean实现核心操作。该系统记录每个Agent-环境交互作为类型化事件,形成类似Git的执行轨迹,支持分叉和重放任意历史状态。实验表明,Shepherd的分叉速度比Docker快5倍,重放时提示缓存复用率超过95%。在运行时干预中,实时监督将配对编码通过率从28.8%提升至54.7%;在反事实元优化中,分支探索在四个基准上提升最多11个百分点,同时减少高达58%的壁钟时间;在树强化学习中,选择性地分叉展开将TerminalBench-2性能从34.2%提升至39.4%。Shepherd为元Agent编程提供了高效基础设施,并已开源。论文智能体元Agent形式化验证运行时追踪开源/仓库推荐理由:该工作为元Agent的运行时追踪和干预提供了一种形式化、高性能的解决方案,尤其适合需要细粒度回溯和优化的复杂Agent系统开发。其Lean形式化和Git式执行轨迹的设计对AI安全与调试有实际参考价值。原文
17:35岚叔@LufzzLizOpenAI发布了一个新的安全扫描模块,面向所有开发者开放使用,这一做法与Claude的封闭策略形成鲜明对比。该模块旨在提升AI应用的安全性,体现了OpenAI推动技术普惠的理念。具体安装和使用方式在评论中提供,进一步降低了开发者的接入门槛。此举可能促进AI生态的安全标准普及,并影响其他公司的开源策略。AI产品AI安全开源/仓库OpenAICodex10 个信源在谈推荐理由:OpenAI通过开放安全扫描模块,展示了其对开发者社区的支持和安全优先的理念,可能推动行业形成更透明的安全实践。原文