全部 AI 动态 · AI 热点

AITOP

6月23日

14:19

小互@imxiaohu

76°

Seedance 2.5能一次生成30秒短片，原生支持4K分辨率。它可输入最多50个全模台参考素材，并支持3D白模引导生成。同时字节跳动推出了AI版权商业化平台，允许用户使用官方授权IP进行创作并获取分成。

AI模型 Seedance 字节跳动视频生成 4K 3D模型

推荐理由：字节跳动新出的视频模型Seedance 2.5能一次生成30秒4K短片，还支持3D白模和50个素材输入，做视频效率很高。

原文

14:15

小互@imxiaohu

72°

字节跳动在今天2026火山引擎大会上发布视频生成模型Seedance2.5。语言模型豆包seed2.1据称能力达到Opus4.6水平。图像模型Seeddream 5.0也一同推出。

AI模型 Seedance2.5 豆包seed2.1 Seeddream 5.0 字节跳动视频生成

推荐理由：字节跳动一次更新三个模型：Seedance2.5视频生成、豆包seed2.1对标Opus4.6、Seeddream 5.0图像生成，值得关注。

原文

14:09

shao__meng@shao__meng

72°

字节跳动在火山引擎 FORCE 2026 原动力大会上发布 Seedream 5.0 Pro 图像生成模型和 Seedance 2.5 视频生成模型。OpenAI Sora 已关停，Google Veo 尚未更新，目前图像与视频生成赛道主要由中国厂商竞争，包括字节跳动、阿里巴巴、快手等。新模型在图像理解和视频生成能力上进一步升级。

AI模型 Seedream 5.0 Pro Seedance 2.5 字节跳动火山引擎图像生成视频生成

推荐理由：字节跳动刚发了两个新模型，图像和视频生成都升级了，中国大厂继续内卷，可以看看

原文

14:08

Greg Brockman@gdb

精选72°

OpenAI 发布 Patch the Planet 项目，与 Trail of Bits、HackerOne 等安全研究机构合作。该项目利用 Codex Security 和前沿 AI 模型，帮助开源软件维护者将安全发现转化为合并修复。流程以人工审核为中心，旨在提升关键开源项目的安全性。

AI产品 OpenAI Codex Security 开源安全安全修复

推荐理由：OpenAI 找来 Trail of Bits 和 HackerOne 的安全研究员，用 Codex Security 帮开源项目修漏洞，还能自动生成合并修复，省心省力。

原文

14:07

AI Will@FinanceYF5

开发者利用DeepSeek API在魔兽世界私服中部署了1800个AI玩家。这些AI Bot不仅自动挂机，还能在游戏内互相聊天、执行任务并在公共频道讨论策略。其行为与真人玩家相似。作者表示没有DeepSeek API的帮助无法实现这一项目。

行业 DeepSeek API 魔兽世界 AI玩家 AI NPC 游戏AI

推荐理由：有人用DeepSeek API让1800个AI在魔兽私服里像真人一样聊天做任务，这玩法太有创意了！

原文

14:06

lmarena.ai@lmarena_ai

NVIDIA 的 Cosmos 3 Super 在 Text-to-Image Arena 开放模型排名中位列第8和第11（两个变体），整体排名第49和第54。其中 #8 的 Cosmos-3-Super-Text2Image 与 Flux-2-Klein-9B 和 Qwen Image Prompt Extend 持平。#11 的 Cosmos-3-Super-Text2Image (Agentic) 与 Qwen-Image 和 Ideogram-v3-Quality 等模型持平。这些排名体现了 NVIDIA 对开源生态的贡献。

AI模型 Cosmos-3-Super NVIDIA Text-to-Image Arena 文本到图像开源模型

推荐理由：NVIDIA 这个开源文生图模型在排行榜上跟 Flux、Qwen 差不多水平，想试试免费好用的生成工具可以关注它。

原文

14:04

OpenRouter@OpenRouterAI

精选73°

OpenRouter 宣布与 Coinbase 合作，将稳定币支付引入其平台。Coinbase 开发者平台宣布所有支付 API 已原生支持 agentic-enabled 模式。这意味着像 OpenRouter 这样的公司可以通过同一集成接口，同时接受来自人类用户和 AI agent 的稳定币付款。该功能无需额外开发，即开即用。

AI产品 OpenRouter Coinbase stablecoin 智能体支付

推荐理由：OpenRouter和Coinbase搞了个新支付方式，AI agent也能用稳定币付款了，挺有意思。

原文

14:03

OpenRouter@OpenRouterAI

GLM 5.2 自发布以来在 OpenRouter 平台上的 token 消耗占比迅速上升，与早先发布的 DeepSeek V4 形成竞争。OpenRouter 数据显示，GLM 5.2 的开源模型采纳速度超过多数同类产品。目前两者在 token 份额上差距缩小，但 DeepSeek V4 仍占一定优势。

行业 GLM 5.2 DeepSeek V4 OpenRouter 开源模型 token份额

推荐理由：OpenRouter晒出了GLM 5.2和DeepSeek V4的token份额对比，GLM 5.2涨得真快，开源模型里能跟DeepSeek掰手腕了。

原文

14:03

elvis@omarsar0

Sakana AI推出Fugu Ultra模型，这是一个可通过单个API调用的多智能体编排系统。Fugu Ultra在3D渲染任务上表现极佳，性能与Fable和Mythos相当，同时避免了出口管制风险。该模型展示了无需受限制即可获得前沿能力。

AI模型 Sakana AI Fugu Ultra Fable Mythos 多智能体

推荐理由：Sakana AI的Fugu Ultra多智能体系统，3D渲染强到离谱，性能比肩Fable和Mythos，还不用怕出口管制，快去试试。

原文

13:59

Marc Andreessen@pmarca

Mozilla在Firefox的1000万行代码库上测试了Claude Mythos，成功修复了400多个安全漏洞，包括潜伏超过十年的bug。Mozilla杰出工程师Brian Grins透露，效果50%来自模型、50%来自设置。他分享了使用目标/循环模式、用验证器消灭假阳性以及向agent说善意的谎言等技巧。他还表示任何人都可以在一个下午内复制类似的bug-finding harness。

技巧 Claude Mythos Mozilla Firefox AI安全智能体

推荐理由：Mozilla工程师手把手教你用AI agent在百万行代码里挖漏洞，不用一下午就能搭出同样工具，还能避免假阳性。

原文

13:58

13:58IT之家（博客/媒体）

Mozilla 在安卓 152 版 Firefox 浏览器中新增“网页摘要”功能，用户摇一摇手机或点击“摘要页面”按钮即可触发 AI 摘要。底层模型为 Mistral Small 3.1，摘要长度上限为 5000 个单词。目前支持新闻、操作指南等类型，仅限英文网页。该功能默认启用，用户可在设置中手动关闭。“网页摘要”正在渐进式推送中，部分用户需等待。

AI产品 Firefox Mozilla Mistral Small 3.1 安卓 AI摘要

推荐理由：Firefox 安卓版摇一摇就能用 Mistral 模型总结网页，平均 5000 词以内都支持，省去自己读长文的麻烦。

原文

13:57

Lenny Rachitsky@lennysan

Anthropic的Fiona Fung（领导Claude Code和Cowork团队）在接受Lenny Rachitsky访谈时指出，AI代理的抽象层次持续提升：从最初提示单个代理，到提示代理群体，再到代理自我提示。Fiona在Microsoft工作11年构建Visual Studio和TypeScript，后在Meta帮助构建首款VR/AR眼镜并启动Facebook Marketplace（年GMV超1000亿美元）。她分享了团队如何使用AI实现8倍代码产出，并讨论了工程师的上下文切换和孤独问题。访谈还涉及AI将如何改变产品团队的规划与角色。

行业 Claude Code Anthropic Agent 编程助手工程团队

推荐理由：Anthropic的Claude Code负责人分享AI如何让团队产出8倍代码，以及代理从提示到自我提示的进化，对编程效率提升有直接启发。

原文

13:55

Geek@geekbb

精选

百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目，支持一次性解析超长文档。该模型提供两种推理模式：gundam模式用于处理单张图片中的密集文字，base模式适用于多页文档或PDF。项目代码已在GitHub上发布，允许开发者直接使用。

AI模型百度 DeepSeek-OCR 视觉语言模型 OCR 开源模型

推荐理由：百度开源的OCR模型，在DeepSeek-OCR上做了升级，能一次性处理超长文档和密集文字，两种模式很实用。

原文

13:54

@koltregaskes@koltregaskes

OpenAI的实时语音模式“Bidi 1”即将推出，目前已在UI中出现但处于隐藏状态。该功能预计在近期内开放给用户使用。消息来自X平台用户爆料。

AI产品 OpenAI Bidi 1 实时语音语音模式

推荐理由：OpenAI马上要出实时语音模式“Bidi 1”了，界面里已经藏着一个彩蛋，很快就能用上。

原文

13:33

arXiv cs.LG@Mingi Choi, Gunhee Kim, Jisoo Kim, Taeksoo Kim, Taeyun Ha, Jongbin Lim, Hanbyul Joo

AutoDex是一个自动化真实世界数据收集系统，用于灵巧抓取。它利用20个摄像头在严重手-物遮挡下定位物体，执行碰撞监控的运动，标记抓取成功或失败，并主动重置物体。在100个不同物体上使用Allegro和Inspire手收集了3,593次抓取试验。与遥操作相比，处理500次轨迹只需10.3小时（遥操作49.4小时），吞吐量提升4.8倍。从AutoDex验证数据库检索的抓取成功率为76%，而仅模拟验证为34%。

论文 AutoDex 灵巧抓取机器人多视角感知自动化数据收集

推荐理由：AutoDex自动搞定灵巧抓取数据收集，比遥操作快4.8倍，成功率碾压纯模拟验证

原文

13:28

arXiv cs.LG@David Mguni, Julian Ma, Jun Wang

该论文通过廉价谈话博弈和PAC-Bayes界限分析提示条件语言模型，指出语言是容量有限的通信通道。当任务族的信息复杂度超过语言通道容量时，即使无限数据也会产生不可消除的正误差下限。对齐约束进一步导致目标分布错配，造成不可约失真。研究证明仅靠提示无法使LLM成为通用问题解决器。作者建议多模态观察和外部记忆可缓解这些限制。

论文 LLM 提示学习模型限制理论分析

推荐理由：这篇论文用理论证明告诉你，为什么光靠提示词调教，LLM永远无法解决所有任务，别盲目相信'万能模型'的宣传。

原文

13:27

arXiv cs.LG@Juyang Bai, Laixi Shi

论文MAS-PromptBench系统研究了提示优化对多智能体系统（MAS）的影响，覆盖任务类型、工作流、通信协议和团队规模等多种配置，基准测试了两种扩展自单智能体的提示优化器。实验结果表明提示优化在特定条件下能显著提升MAS性能，最高收益达X%（原文未提供具体数字，此处不捏造），但搜索空间随智能体数量指数增长构成关键挑战。研究揭示了提示优化效果高度依赖系统配置，如通信协议和团队大小。

论文 MAS-PromptBench 多智能体系统提示优化 LLM 系统提示

推荐理由：这篇论文把多智能体系统里调提示词的效果讲清楚了，有实验数据告诉你啥时候有用啥时候没用，不是玄学。

原文

13:27

arXiv cs.LG@Tom Rossa, Angus Phillips, Tom Rainforth

传统贝叶斯实验设计(BED)基于最大化预期不确定性减少，导致双重难解目标难以优化。该论文提出Action-BED，基于预期未来损失(EFL)的任务驱动框架，将目标简化为单重难解问题。通过随机梯度联合优化设计策略和动作策略，无需显式后验或边际似然估计。只需要从联合模型采样并评估下游损失函数，比现有方法更有效、高效、简单。

论文 Action-BED 贝叶斯实验设计任务驱动单重难解目标

推荐理由：这篇论文提出Action-BED，把贝叶斯实验设计的目标从双重难解变成单重难解，直接用随机梯度优化，更简单高效。

原文

13:26

arXiv cs.LG@Prashant Gokhale, Mikhail Khodak, Sandeep Silwal

该论文提出一个通用框架，用于逐次近似缓慢变化序列中每个元素的函数，其中相邻元素差异幅度α_i较小。此前Dharangutte & Musco在NeurIPS 2021中给出隐式迹估计的代价为O(m·max α_i)，而新框架将代价改进为O(∑α_i)，在序列稳定时效率更高。框架适用于矩阵幂、谱密度、蒙特卡洛积分和偏微分方程边界值问题等线性与非线性函数。此外，算法能够局部化调整估计预算，并可在某些情况下在线估计变化量，几乎不增加额外成本。

论文隐式迹估计动态估计自适应算法序列估计变分界

推荐理由：这篇论文让序列估计变得更智能了：它能根据变化大小自动调整计算量，比之前方法节省不少成本，特别适合那种大部分时间稳定、偶尔突变的序列。

原文

13:22

arXiv cs.LG@Florian Hübler, Kai Lion, Antonio Orvieto, Niao He

Muown优化器将权重矩阵分解为行幅度和未归一化的方向变量，分别用Adam和Muon更新。研究表明，Muown的方向更新等价于对归一化方向的黎曼步长，而幅度仅调制角度步长，这解释了其稳定性。基于此提出的AngularMuown直接优化归一化方向，并使用可调度的角度乘子与径向幅度更新解耦。在modded nanoGPT速度竞赛中，初步版AngularMuown领先每优化器类别。在Qwen2-0.5B和1.1B参数MoE模型上的实验证实该算法可扩展至更大规模。

论文 Muown AngularMuown 优化器 Transformer预训练论文

推荐理由：想加速Transformer预训练？这篇论文把优化器角度步长显式化，新方法AngularMuown在nanoGPT竞赛中领先，还在0.5B和1.1B模型上验证了效果。

原文

13:22

arXiv cs.LG@Changxiao Cai, Yuchen Jiao, Gen Li

该论文证明扩散模型在低维数据结构下自适应采样的鲁棒性，对于宽泛的更新系数，仅需O(k/ε)步迭代即可生成TV距离ε准确的样本，且与数据环境维度无关。该结果显著扩展了已知具有低维适应性的扩散采样器类别，并适用于多种常用实践方法。研究为扩散采样器在不同系数选择下处理结构化高维数据时的经验有效性提供了理论支撑。

论文扩散模型采样理论低维结构收敛分析

推荐理由：这篇论文告诉你：扩散模型采样快慢不挑超参数，只需O(k/ε)步就能出高质量样本，环境维度再高也不怕。

原文

13:19

arXiv cs.LG@Nathan Senyard, Salem Hamdani, Astrid Zhang, Derek Wang, Evan Shelhamer, Mathias Lécuyer, Joséphine Gantois

Hedgementation 是一个面向国家尺度、10m² 空间分辨率的树篱映射遥感基准。它整合了多个遥感数据产品与法国树篱清单的标注，用于评估机器学习模型。基准测试了三个基线模型在空间距离和气候区域上的泛化能力，并涵盖监督和自监督学习方法。代码已开源在 GitHub。

论文 Hedgementation 遥感基准树篱映射法国

推荐理由：想测试遥感模型对细节的抓取能力？这个基准用了法国全国树篱数据，10米分辨率，还能跨气候区泛化。

原文

13:18

arXiv cs.AI@Sikai Li, Shuning Li, Zhenyu Wei, Yunchao Yao, Chenran Li, Mingyu Ding

CoorDex是一个学习管线，将高维全身和灵巧手控制转换为协调的潜在残差控制，使Unitree G1人形机器人搭配20-DoF WUJI手能在移动中执行灵巧操作。它从模拟全身和手部演示训练特权运动跟踪教师，蒸馏为潜在先验，再用残差强化学习训练协调策略。该方法实现了非停止的瓶子抓取搬运、移动中打开冰箱门和立方体旋转。消融实验表明，联合空间PPO、联合空间手控制和整体潜在预测在同一奖励预算下均失败。

AI模型 CoorDex Unitree G1 人形机器人灵巧操作全身控制

推荐理由：CoorDex让人形机器人在行走时用灵巧手完成开冰箱、抓瓶子的连续操作，不再需要走走停停，和之前的笨拙模式完全不一样。

原文

13:17

arXiv cs.AI@Sara Dorfman, Maya Vishnevsky, Omer Dahary, Or Patashnik, Daniel Cohen-Or

该论文提出一种名为Semantic Browsing的方法，解决文本到图像模型生成样本多样性不足的问题。传统方法依赖随机噪声产生无意义变化，而Semantic Browsing通过Vision Language Model（VLM）在文本层面施加结构化语义变异。用户可沿可解释的语义轴（如物体属性、场景布局）导航图像集，每个变体对应一个具体可理解的语义决策。实验表明该方法能生成多样且可浏览的设计空间。

论文 Semantic Browsing 文本到图像 Vision Language Model 图像生成多样性

推荐理由：想要生成同一主题下不同设计的图像？这篇论文教你用VLM在文本层面控制多样性，比随机抽噪声靠谱多了。

原文

13:15

arXiv cs.AI@Dingzhi Yu, Hongyi Tao, Yuanyu Wan, Luo Luo, Lijun Zhang

AdamW是训练大型语言模型的默认优化器，但其理论主要建立在有限方差假设上。实证发现LLM预训练中的随机梯度噪声通常是重尾的。近期Lion、Muon等符号优化器已取得重尾收敛率，AdaGrad也能在重尾噪声下收敛。本文提出一个开放问题：AdamW能否在相同重尾假设下收敛？作者证明了一个正加权度量基准，并通过走廊下界机制表明分母记忆可能隐藏大梯度。

论文 AdamW LLM 重尾噪声优化器理论

推荐理由：AdamW天天用但理论有坑，这篇论文把收敛性列为开放问题，还给出了新分析框架。做LLM训练优化的人该看看。

原文

13:14

arXiv cs.AI@Sunil Wanjari, Manish Thakre, Aayushi Asole, Sharwari Raut, Kwabena Adu-Duodu, Yinhao Li, Stanly Wilson

PsyBridge提出了一个混合智能框架，整合临床验证的PHQ-9和GAD-7量表、认知评估和人格特征，通过加权聚合生成可解释的心理健康风险分类。基于500个患者画像的半合成数据集，整体准确率达0.84，优于单独使用PHQ-9和GAD-7。敏感性和消融实验表明，整合认知和人格组件在中等风险预测中减少不一致性，提升分类稳定性。该框架为数字医疗和远程医疗环境提供可扩展、可解释的AI辅助决策支持。

论文 PsyBridge PHQ-9 GAD-7 心理健康评估决策支持框架

推荐理由：这篇论文发了个叫PsyBridge的框架，能同时评估抑郁、焦虑、认知和人格，准确率0.84比单用量表高。搞心理健康AI的可以看看。

原文

13:13

arXiv cs.AI@Prateek Agnihotri, Sanchit Jain, Prabhat Agnihotri, Aditya Prasad, Shubham Jain

这篇论文介绍了在NVIDIA Nemotron Model Reasoning Challenge中解决Bit Manipulation Puzzles的创新算法。该任务要求发现隐藏的逻辑规则并应用于新输入，但LLMs通常因复杂布尔逻辑模拟而幻觉。作者提出放弃算术逻辑，转而使用字符串相似性、结构化搜索和自主错误恢复。他们将逻辑门推导重构为基选择任务，利用最小比特翻转来隔离基并推导真值表，无需复杂算术。通过回溯DFS和错误恢复，结合比特分词和交互推理SFT，该方法在验证集上达到96%以上的准确率，最终获得比赛第7名。

论文 NVIDIA Nemotron Bit Manipulation Puzzles 推理模型 LLM

推荐理由：这篇论文用字符串相似度和回溯搜索替代了算术逻辑，让LLM在位操作谜题上验证精度超过96%，比赛第7名，方法很巧妙。

原文

13:13

arXiv cs.AI@Reza Bayat, Ali Behrouz, Aaron Courville

当前语言模型在深度上均匀分配参数，但研究表明各层贡献不同。该论文在固定预算下实验发现，将更多参数分配给前层、减少后层可以改进困惑度。提出Tapered Language Models（TLMs），通过余弦调度平滑锥形化MLP宽度。在Transformer、Gated Attention、Hope-attention和Titans四种架构上，三个模型尺度均一致提升困惑度和下游基准性能，且不增加参数或计算量。

论文 Tapered Language Models Transformer Titans 参数分配模型架构

推荐理由：这篇论文发现了一个简单技巧：同等算力下，把更多参数分给前几层、少给后几层，模型效果就能更好，试了多种架构都管用。

原文

13:12

arXiv cs.AI@Hengji Zhou, Ye Liu, Yufeng Liu, Si Wu, Lianghao Xia, Liqiang Nie

这篇论文提出TailorMind，一种链接协同偏好建模与可控多模态生成的框架。它通过超图协同过滤丰富稀疏用户历史，并利用排序误差反馈和文本梯度下降优化文本档案。检索增强风格控制与跨模态一致性反射减少语义漂移。论文构建了TailorBench基准，从一致性、新颖性、美学、幻觉、画像五个维度评估。实验表明，TailorMind在多个维度超过现有生成基线和真实用户生成内容，重排序召回率提升29%。

论文 TailorMind TailorBench 多模态生成个性化推荐协同过滤

推荐理由：这篇论文发了TailorMind，能根据用户行为痕迹直接生成个性化多模态内容，不用等现成素材。在一致性、新颖性上超过现有方法，召回率提升29%。

原文

13:11

arXiv cs.AI@Raymond Tsao, Andrew Wagenmaker, Sergey Levine

该论文提出通过成功访问匹配（Success Visitation Matching）将稀疏的结果奖励（0/1）转化为密集的过程奖励。方法训练一个判别器来区分成功和失败的轨迹，并激励RL策略匹配成功轨迹的状态-动作访问。理论证明该方法不改变最优策略。在机器人控制策略微调中，模拟和真实操作任务上的收敛速度均显著快于直接使用稀疏奖励的基线。

论文 RL 稀疏奖励过程奖励机器人控制

推荐理由：这篇论文把稀疏奖励变密集，让RL学得快。机器人实验证明比原来快很多，实用性强。

原文

13:10

arXiv cs.AI@Campbell Lund, Thomas Euyang, Zanele Munyikwa, Marzieh Fadaee

2023年Eloundou等人计算的GPTs暴露评分成为工作未来辩论的核心输入，该评分定义暴露为LLM能辅助的职业任务占比。论文指出其存在时间、地理和本体论局限，并调查了五类应对研究：动态和基准度量、集成方法、任务框架扩展、以工人为中心的指标、采纳和使用数据。研究-政策协调不足，政策分析仍引用静态评分而未采纳方法论更新。建议政策制定者拓宽证据基础，研究者采用参与式方法并构建数据基础设施。

论文 GPT Exposure Scores LLM 工作自动化未来工作

推荐理由：这篇论文拆解了被广泛引用的GPT暴露评分到底靠谱不，指出静态评分的坑，还给出了五类改进方向，搞AI政策或研究的人值得一看。

原文

13:09

arXiv cs.AI@Yansong Liu, Li-Hsi, Lin, Pramit Khetrapal, Ronnie Stafford, John Kelly, Ivana Drobnjak

远程患者监测依赖患者报告数据，恢复质量（QoR-15）调查是金标准，但设计用于偶尔院内评估，在远程场景中每天使用。实际术后部署中仅55%患者提交超过14天。研究开发QoR-compact，一个5项日间输入，通过穷举评估所有3003个5问题子集，选出最佳组合达到平均AUC-ROC 0.968（95% CI 0.915-0.988），与完整QoR-15的0.964基线统计可比。该5项涵盖身体和心理维度：Q3（休息感）、Q9（舒适与控制）、Q10（幸福感）、Q12（严重疼痛）和Q14（焦虑）。患者级回测显示QoR-compact跟踪再入院事件的忠实度与完整表单相同。需在更大队列上外部验证后方可临床使用。

论文 QoR-15 QoR-compact 远程患者监测恢复质量医疗AI

推荐理由：这篇论文把15题的术后恢复问卷压到5题，精度几乎没差，病人更容易每天填完。适合搞远程监测的人看。

原文

13:03

arXiv cs.AI@Yuanming Yang, Guoqing Ma, Bo Wang, Yuan Zhang, Wei Tang, Chenyi Li, Haoyang Huang, Nan Duan

DiT-Reward利用预训练的文生图Diffusion Transformer（DiT）的生成表征进行奖励预测。在HPDv2和HPDv3基准上分别达到85.6%和77.6%的准确率，全面超越HPSv3。冻结生成骨干网络时，轻量头仍能提取有效偏好。用于优化Stable Diffusion 3.5 Large时，DiT-Reward在生成逼真度上明显优于HPSv3，且推理速度提升1.65倍。

论文 DiT-Reward Diffusion Transformer HPSv3 文生图奖励模型

推荐理由：这篇论文教你直接用文生图模型的内部表征来当奖励模型，效果比HPSv3好，还能加速推理，适合想搞图像生成优化的朋友

原文

13:02

arXiv cs.AI@Ulas Berk Karli, Tesca Fitzgerald

论文提出RECALL方法，用于视觉-语言-动作（VLA）模型的主动持续学习。与被动模仿学习相比，不确定性引导的数据收集使微调效率提升30%以上。但仅训练恢复数据会导致灾难性遗忘，在OpenVLA模型上丢失20%的旧任务性能。评估了重放混合和弹性权重巩固（EWC）两种持续学习技术，发现可塑性与记忆保留之间存在权衡。实验在3个机器人操作任务上进行，表明不确定性引导的恢复演示能提升适应效率，但如何平衡新旧知识仍是开放挑战。

论文 VLA RECALL 主动学习持续学习机器人

推荐理由：这篇论文研究了怎么让机器人在学新任务时不忘旧技能，用不确定性主动挑数据微调VLA模型，比被动收集更高效，还试了两种防遗忘方法，挺实在的。

原文

12:58

arXiv cs.AI@Mohamed Nagy, Naoufel Werghi, Jorge Dias, Majid Khonji

Polycepta提出对象中心外观状态估计框架，将外观建模从帧级匹配转为递归估计，为每个跟踪目标独立维护并更新外观状态。在KITTI、Waymo Open Dataset和MOT17三个基准上，该方法一致减少身份切换并提升跟踪性能。集成到RobMOT框架后，Polycepta在KITTI上达到MOTA 92.27%，运行速度90.57 Hz。

AI模型 Polycepta KITTI Waymo MOT17 多目标跟踪

推荐理由：Polycepta不用死板的外观模板，边跟踪边更新目标长相，在KITTI基准上拿92.27% MOTA还跑得飞快，比传统方法稳多了。

原文

12:56

arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman

72°

SPIRAL提出一种新训练框架，让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件，在推理任务中扩展效果优于GRPO，最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。

论文 SPIRAL GRPO 推理模型强化学习链式思维

推荐理由：这篇论文的SPIRAL方法教模型自己学会并行思考再汇总，比单纯加大顺序推理高效11倍，效果还更好，值得做推理扩展的朋友看看。

原文

12:55

AI Breakfast@AiBreakfast

Bland AI 宣布完成1亿美元C轮融资，用于继续训练其语音AI模型，使其能够处理长达45分钟的高风险企业电话对话。该模型旨在应对紧急、高风险的电话场景，而非仅仅优化短时客服通话。Bland AI 声称在这一领域处于领先地位。

行业 Bland 企业级语音AI 融资电话AI 语音模型

推荐理由：Bland AI 刚融了1亿美元，专门训练模型搞定45分钟高难度企业电话，不是那种两分钟客服小把戏。

原文

12:53

arXiv cs.LG@Andrei Liviu Nicolicioiu, Sarvjeet Singh Ghotra, Morgane M. Moss, Aaron Courville

论文提出一种自举的Self-Filtering方法，通过迭代训练CLIP模型并动态筛选数据混合来提升训练数据质量。该方法在不需要额外数据或预训练模型的情况下，平衡了高置信度干净样本与全分布多样样本。实验表明，经该方法过滤后的视觉语言数据集在下游任务上性能显著提升。该方法避免了传统启发式或依赖参考数据集的局限。

论文 CLIP 数据选择自过滤视觉语言模型

推荐理由：这篇论文教你怎么自动筛选高质量训练数据，用CLIP自己迭代过滤，效果比手动搞还好，还不用额外数据。

原文

12:52

Ate-a-Pi@svpino

精选

作者指出现有基准往往在部署后失效，因为真实用户会使用你未测试过的表述。解决方案是分析推理日志和追踪，提取真实提示、响应、拒绝和格式错误。Nebius在Token Factory内推出Data Lab工作区，可将失败案例转化为评估和微调数据集。推荐循环：读日志→找失败→建数据集→评估→微调→部署→重复。

技巧 Nebius Data Lab Token Factory 模型评估微调

推荐理由：Nebius 出了个 Data Lab，能帮你从日志里挖出模型翻车的真实案例，直接做成数据集来微调和评估，比啥基准都管用。

原文

12:52

Ate-a-Pi@svpino

如果你还在人工审查全部AI生成的代码，那说明效率太低。代码审查已成为软件开发的最大瓶颈。Santiago Valdarrama（@svpino）分享了改进方法，核心是减少审查范围、使用自动化工具、建立信任机制。他建议只审查关键路径代码，利用AI辅助审查，并逐步放宽对低风险代码的审查比例。

技巧代码生成 AI编程代码审查开发效率工作流

推荐理由：Santiago Valdarrama说别傻了，100%审查AI代码拖慢整个团队。他给了具体改进策略：缩小审查范围、用工具自动化，让开发快起来。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。