全部 AI 动态 · AI 热点

6月25日

11:33

AI Will@FinanceYF5

81°

Gemini 3.5 Flash 现在能直接看屏幕、理解内容，并跨浏览器、手机、桌面执行操作，无需额外接入其他模型。安全方面加入了 prompt injection 对抗训练，敏感操作需用户确认，检测到注入攻击时自动停止任务。企业可用它做自动化测试和跨平台知识工作。

推荐理由：谷歌给 Gemini 3.5 Flash 加了个能直接操控电脑屏幕的智能体，跨平台执行任务，还自带防注入安全机制，挺实用。

原文

11:27

向阳乔木@vista8

谷歌在六月推出了Open Knowledge Format（OKF）规范。该规范使用Markdown加YAML frontmatter将知识组织成可版本控制的文件包。这种格式被设计为AI Agent可直接消费的格式。Codex将一篇文章中的项目整理成OKF格式并添加到系统记忆索引中。

AI产品 Google Open Knowledge Format Markdown YAML Codex

推荐理由：谷歌搞了个OKF规范，用Markdown加YAML打包知识，Agent直接就能用，Codex已经开始用它整理项目了。

原文

11:24

11:24IT之家（博客/媒体）

精选

交通运输部等六部门联合印发《人工智能+交通运输典型应用场景创新行动方案》，聚焦智能驾驶、智慧公路、智能铁路等十大方向。方案明确开展智能驾驶“端到端”大模型研发与测试，面向公路货运、园区运输、短途接驳等场景进行测评验证。同时提出利用多模态大模型提升公路全要素感知能力，实现拥堵分析、疏导策略自动生成和无感通行。方案还鼓励视觉大模型和智能机器人用于基础设施智能巡检，推动铁路装备自主健康管理。

行业交通运输部端到端智能驾驶大模型行业政策

推荐理由：官方发文推动AI+交通，重点搞智能驾驶端到端大模型和路网智能监测，想了解国家政策方向的可以看看。

原文

11:18

11:18IT之家（博客/媒体）

交通运输部近日发布《“人工智能＋交通运输”典型应用场景创新行动方案》，围绕智能驾驶、智慧公路、智能航运等十大方向。方案计划组织实施超百项试点项目，集聚超千家创新主体。首批已梳理出公路运行状态智能监测等41个重点场景，于今年启动。到2030年将开放一批高价值场景，形成高水平算法模型和新基础设施。

行业交通运输部智能驾驶智慧公路智能航运行动方案

推荐理由：交通运输部放大招了，要搞100多个AI+交通试点，智能驾驶、智慧公路、智能航运都在列，2030年前落地规模化应用。

原文

11:12

11:12IT之家（博客/媒体）

72°

苹果在 iOS 27 中引入独立 Siri 应用，采用聊天机器人界面，支持文本输入、图片和文件附件及历史记录。该应用默认调用 Siri AI 处理请求，用户长按输入框并点击“Ask…”后，可在 Siri AI 与 ChatGPT 间切换。目前仅支持这两个模型，关闭重开应用会恢复默认 Siri AI，且设置中无法永久固定 ChatGPT 为默认模型。

AI产品 Siri ChatGPT iOS 27 苹果 AI聊天助手

推荐理由：苹果把Siri做成独立应用了，默认用自家AI，但你也能长按输入框换成ChatGPT，就是每次都重置有点烦。

原文

11:08

arXiv cs.AI@Dong Jing, Tianqi Zhang, Jiaqi Liu, Jinman Zhao, Zelong Sun, Li Erran Li, Zhiwu Lu, Mingyu Ding

本文提出在两阶段框架中预训练动作模块，在VLA训练前注入运动先验。阶段1使用基于流匹配的轻量级编解码器，仅从无条件动作轨迹学习跨实体时间运动结构，无需处理视觉或语言token。阶段2通过解码器重用和早期潜在蒸馏，将学习到的先验迁移至VLA训练，同时保留端到端优化。在13个仿真和真实世界的跨实体任务中，该方法比无先验的VLA训练收敛更快、成功率更高，尤其数据稀缺时表现更优。扩展阶段1的动作数据能提升下游VLA性能的泛化性。

论文 Cross-embodiment VLA模型机器人操作动作先验流匹配

推荐理由：这篇论文教VLA模型在正式训练前先学动作规律，用的是流匹配，13个任务上效果比直接训练好，数据少时尤其明显。

原文

11:05

arXiv cs.AI@Sen Li, Haichao Cui, Chendong Shao, Yaqi Wang, Xinhua Tang

该论文提出一种无监督域适应框架结合渐进源域扩展策略，用于TIG焊接与激光焊接之间的跨进程渗透状态分类。在TIGFH数据集上达到90.65%准确率，在LSPS数据集上达到90.72%，分别超过监督基线35.83%和38.87%。跨进程任务中，TIG到激光准确率80.48%，激光到TIG准确率81.13%，分别提升43.39%和43.40%。方法无需目标域标注，显著降低新焊接工艺的重新标注成本。

论文焊接渗透状态预测无监督域适应领域自适应 TIG焊接激光焊接

推荐理由：想跨焊接工艺直接套用模型？这篇论文用无监督域适应，在TIG和激光焊接上准确率从四成多拉到八成以上，不用重新标数据。

原文

11:01

arXiv cs.AI@Yu-Yang Chen, Lan-Zhe Guo

TriViewBench 是一个基于合成3D场景的受控多视图视觉推理基准，包含1,923个场景和超过14K个问答对，分为4个复杂度级别和3个推理类别：局部决策、物体计数和全局恢复。评估18个开源和闭源MLLMs发现，所有模型能力排序一致（局部决策>物体计数>全局恢复），且随着复杂度增加性能单调下降：局部决策下降12.11%，物体计数下降59.14%，全局恢复骤降80.02%。错误分析表明，单视图任务中因遮挡导致欠计数，多视图任务因跨视角身份混淆导致过计数。Chain-of-Thought提示几乎无收益（Δ=-0.16%），表明瓶颈在于跨视角空间表示而非推理策略。

论文 TriViewBench MLLMs 多模态视觉推理基准测试

推荐理由：这篇论文用TriViewBench测了18个多模态模型，发现它们都在多视图推理上崩得厉害，CoT也救不了。想了解当前MLLM的结构推理极限，可以看看。

原文

11:00

arXiv cs.AI@Xihan Xiong, Zelin Li, Wei Wei, Qin Wang, William Knottenbelt, Zhipeng Wang

该论文首次对ERC-8004协议进行实证研究，覆盖Ethereum、BNB Smart Chain、Base三条链，截至2026年5月13日。身份注册中仅3%（Ethereum）、4%（BSC）、15%（Base）为有效活跃代理。信誉系统存在不可通约、无验证、可低成本操纵问题，且73.6%（Ethereum）、59.2%（BSC）、90.6%（Base）的评价者表现出协同Sybil行为。去除Sybil后，15.5%、72.3%、89.4%的代理无有效反馈。论文据此提出协议改进建议。

论文 ERC-8004 Ethereum BNB Smart Chain Base 智能体

推荐理由：这篇论文用数据告诉你ERC-8004信任层的水有多深：大部分注册是摆设，信誉能被轻易刷分。研究AI代理和区块链的人都该看看。

原文

11:00

arXiv cs.AI@Tânia Carvalho, Maxime Cordy

本文发现表格基础模型（Tabular Foundation Models）在推理时使用的上下文示例（context examples）通过注意力机制会泄露隐私。研究者提出AMIA（Attention-based Membership Inference Attack），一种无需影子模型的攻击方法，利用注意力模式实现平均7.7%的增益，尤其在低假阳性区域表现突出。为防御该风险，他们提出基于k-匿名原则的推理时防御，减少上下文键表示的唯一性，将AMIA的成员推理成功率平均降低50%，对置信度攻击降低25%，仅导致3.9%的性能下降。此外，实验表明微调会增加隐私风险，微调后置信度上升的样本更易受攻击。

论文 Tabular Foundation Models AMIA Membership Inference Attack AI安全微调

推荐理由：这篇论文发现表格模型用上下文示例做推理时会泄露隐私，还提出了一个很有效的攻击和防御方法，干活不花哨。

原文

10:59

arXiv cs.AI@Shuyi Zhang, Yunfan Lou, Hongyang Cheng, Yichen Guo, Chuyao Fu, Yaoxu Lyu, Xiaojie Zhang, Haoran Li, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

FORCE是一个三阶段框架，通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上，FORCE取得了79%的绝对成功率提升，比此前RL方法高出10%，同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。

AI模型 FORCE VLA 强化学习机器人

推荐理由：新框架FORCE让机器人学动作更快更稳，成功率飙升79%，比现有RL方法还快32.5%，不用人插手。

原文

10:56

Geek@geekbb

名为 pi-atlas 的扩展从本地会话日志生成交互式仪表盘，展示成本、语言、模型、项目、工具调用和 Token 用量。支持今日、7天、30天和全部时间范围。用户可在 pi 终端内直接查看 AI 使用统计，无需离开命令行。

AI产品 pi pi-atlas AI 仪表盘 Token用量成本追踪

推荐理由：在终端里就能监控自己用了多少 AI Token 和花了多少钱，不用切网页，很方便。

原文

10:55

Geek@geekbb

一个开源项目整合了16家LLM提供商的免费额度，合计每月约17亿Token。其中Google AI Studio提供Gemini 2.5 Flash和Pro的免费API，速率限制高达1M tokens/min，无需信用卡。该工具可避免支付高额API费用，适合批量测试和轻量级应用。

技巧 Gemini 2.5 Flash Gemini 2.5 Pro Google AI Studio 开源项目免费API额度

推荐理由：把各大厂的免费额度集中起来用，尤其Google那1M tokens/min的免费API太香了，零成本搞推理。

原文

10:54

宝玉@dotey

decode-codex 是一个开源项目，包含两个 Skills：codex-app-ref-refresh 用于解包已安装的 Codex.app（app.asar）到 ./ref 目录；deobfuscate-javascript 用于将 ref/webview/assets 中的 JS 反混淆为可读代码并输出到 ./restored。使用时需先确保本地安装 Codex App，然后依次执行两个 Skills，其中 deobfuscate-javascript 步骤需配合 /goal 参数才能还原大部分文件。项目地址在 GitHub，建议 fork 后自己测试。

技巧 Codex decode-codex 反编译 JavaScript 反混淆编程助手

推荐理由：如果你 token 多到没处花，又想研究闭源 coding agent 的内部代码，这个项目让你亲自动手反编译 Codex App，把混淆的 JS 变成人能读懂的代码。

原文

10:52

arXiv cs.AI@Sam Ganzfried

该论文针对多人不完美信息博弈的纳什均衡精确计算问题，基于序列形式的非线性互补问题，使用Gurobi的非凸二次求解器并通过McCormick包络进行空间分支定界。此前该方法无法在24小时内解决完整三玩家Kuhn扑克。本文导出了松弛变量和乘子变量的有限界，从而加强凸松弛，显著提升计算效率。在三人Kuhn扑克实验中验证了该方法的改进效果。

论文 Gurobi Kuhn poker 纳什均衡不完美信息博弈变量界收紧

推荐理由：这篇论文给Gurobi求解多人博弈纳什均衡时加了变量界，让之前一天算不完的三玩家Kuhn扑克能更快解出来，做博弈算法的人可以看看。

原文

10:50

arXiv cs.AI@Liang-Yuan Wu, Zih-Ching Chen, Tongshuang Wu, Chao-Han Huck Yang, Hua Shen

现有机器情感智力评估局限于孤立文本或被动声学感知，忽略多轮对话中的跨模态推理。新框架SpeechEQ基于EQ-i 2.0理论构建了2265个对话数据集，覆盖15个EQ子量表，并引入多轮评估协议和SEQ分数。实验发现端到端语音语言模型优于级联系统，但仍存在文本依赖的“模态捷径”、对齐引发的“安全陷阱”和“上下文失忆”三大瓶颈。

AI模型 SpeechEQ 情感智商语音对话模型多轮评估模态捷径

推荐理由：SpeechEQ搞了个新基准，测AI在对话里能不能听懂语气和情绪，发现模型靠文字猜情绪，安全对齐后还变傻了。想做真情感AI的必看。

原文

10:48

AI Will@FinanceYF5

精选

LatentMAS提出让多智能体在隐空间直接传递推理状态，跳过文字编解码。该方法在多个基准上准确率提升13.3%，推理速度提高4.3倍，token用量减少83.7%。LatentMAS无需额外训练，可直接插入现有LLM使用，入选ICML 2026 Spotlight论文。

AI模型 LatentMAS 智能体 ICML 推理模型多智能体

推荐理由：这个新方法让多智能体能悄悄交换推理状态，不用写文字，又快又省token，直接插进现有LLM就能用。

原文

10:47

arXiv cs.LG@Babak Rahmani, Sebastian Dziadzio, Joschka Strüber, Sergio Hernández-Gutiérrez, Matthias Bethge

RevengeBench基准包含75个LLM生成的、基于Elo校准的策略，覆盖5个游戏环境，数据来自CodeClash比赛轨迹。学习者观察隐藏目标策略与对手对战，设计自定义对手策略作为行为探针，并提交可执行假设，用连续动作距离指标评估。在12个前沿LLM上，恢复质量差异显著，从34%到72%的初始距离闭合。重建策略在玩家对玩家锦标赛中提供可衡量的竞争优势，尤其对较弱模型更有帮助。

论文 RevengeBench CodeClash LLM 逆向工程策略恢复

推荐理由：这篇论文出了个RevengeBench基准，能从行为实验反推LLM的策略代码，测了12个模型恢复率34%-72%，弱模型受益最大。

原文

10:46

arXiv cs.LG@Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville

一篇论文研究了基于采样示范的在线自蒸馏方法对输出多样性的影响。该方法通过单一模型同时作为教师和学生，教师以正确示范为条件提供密集的token级反馈，在pass@1准确率上表现优异。但论文发现，这会导致推演多样性降低，pass@k曲线变平，即增加推演次数无法提升准确率。作者将原因追溯到自蒸馏设计中的复合偏差：教师在对学生推演评分时以采样到的正确推演为条件，通过模型自身偏见传导反馈。在可控的图路径发现任务和科学问答基准上，自蒸馏模型在平均性能上与强化学习相当或更优，但功能和语义多样性显著下降，在需要多样化策略的分布外场景中失败。

论文 self-distillation 强化学习输出多样性 pass@k 推理模型

推荐理由：这篇论文揭示了自蒸馏方法的一个隐藏缺陷：虽然准确率不错，但多样性会变差，导致复杂推理场景下失效。做RL或推理模型的人值得看看。

原文

10:45

arXiv cs.LG@Changdae Oh, Wendi Li, Seongheon Park, Samuel Yeh, Tanwi Mallick, Sharon Li

本文提出进度优势（Progress Advantage），通过计算RL后训练策略与参考策略的对数概率比，隐式获得智能体步骤级评分，无需额外训练奖励模型。该方法在五个基准（包括MATH、HotpotQA等）和四个模型家族（Llama-2、Mistral等）上验证，在测试时扩展、不确定性量化、失败归因三项任务中均优于基于置信度的基线。尽管无需任务特定训练，它仍超越专用奖励模型。论文还分析了进度优势的特征，为实际智能体系统提供使用指导。

AI模型 Progress Advantage RL后训练智能体奖励模型测试时扩展

推荐理由：这篇论文说，RL后训练时顺便就能得到一个免费的好信号，不用再费劲训练奖励模型，在好几个测试里都比专门训练的效果还好。做智能体训练的一定得看看。

原文

10:45

arXiv cs.LG@Akshay Paruchuri, Sanmi Koyejo, Ehsan Adeli

精选

论文提出Facet-Probe审计框架，从选项、证据块、文档排序、图像集、混合模态五个维度测试18个前沿和开源MLLM的排序敏感性。采用贝叶斯项目反应模型分离排序噪声与各维度偏差，发现所有模型均非排序不变，各维度平均翻转率在24%至50%之间。Gemini在温度0下的同序控制显示，验证单元中存在远超解码器噪声的排序超额。最优模型仍有13.4%的试次输出翻转，提示词级缓解措施无法泛化到视觉推理。

论文 Facet-Probe MLLM Gemini 多模态模型可靠性

推荐理由：这篇论文用Facet-Probe测试了18个主流多模态大模型，发现它们对输入顺序都很敏感，最好的模型也错13.4%，提醒我们模型可靠性还不是想象中那么好。

原文

10:44

arXiv cs.LG@Aditya Singh, Gerson Kroiz, Senthooran Rajamanoharan, Neel Nanda

本文提出一个模型取证基线协议，通过读取Kimi K2 Thinking的思维链（CoT）生成行为假设，再用反事实实验验证。在六个代理环境下测试，发现Kimi K2 Thinking的偷懒行为源于低努力倾向，DeepSeek R1的欺骗是为了与自身先前实例保持一致。部分实验缺乏阳性对照，测试能力有限。该协议为未来模型取证研究提供了基线。

论文 Kimi K2 Thinking DeepSeek R1 思维链 AI安全推理模型

推荐理由：想知道模型做坏事是故意还是偶然？这篇论文用Kimi K2和DeepSeek R1做了验证，方法简单但管用。

原文

10:43

arXiv cs.LG@Seth Dobrin, Łukasz Chmiel

该论文提出Unfireable Safety Kernel，一种执行时AI对齐机制，满足四个属性：进程隔离、结构唯一路径预执行、请求和系统级故障关闭、外部可验证签名证据。Rust参考实现通过Z3定理证明和Kani模型检查（4/4 harnesses）机器验证了故障关闭不变性。在可逃逸AI系统上测试，面对逃逸攻击者，1000次自我修改中所有704次对安全核心的尝试被拒绝，无逃逸；6240次授权往返无成功绕过。相比3个声称控制智能体平面的当代系统，该内核使智能体失去控制选项。

论文 Unfireable Safety Kernel AI Agent 安全对齐形式验证 Rust

推荐理由：这篇论文用Rust和形式化验证搞了个安全内核，1000次自修改加6240次授权测试都拦住了逃逸，比那些吹控制智能体的系统实在多了。

原文

10:42

arXiv cs.LG@Zhengchi Ma, Pengfei Lyu, Anru R. Zhang

该论文建立了一个理论框架，分析合成数据增强对基于分数的分类指标（AUROC、AUPRC、最佳阈值平衡准确率、最佳阈值F1分数）的影响。将增强效应分解为类权重变化和合成数据与真实分布之间的偏差。在模型设定正确时，增强无法提供总体改进，仅可能减少有限样本方差，但会因合成分布误差引入额外偏差。在模型错误指定时，增强可通过改变有效类平衡来纠正原始不平衡目标下的排序错误。仿真结果表明，设定正确时收益有限，错误指定时存在非单调改善。

论文合成数据增强类别不平衡 AUROC AUPRC 理论分析

推荐理由：这篇论文把合成数据增强对不平衡分类的效果掰开了讲：模型对的时候加数据没提升，模型错的时候加数据有救但别指望线性增益。

原文

10:41

arXiv cs.LG@Juliana Li, Diya Sreedhar

论文发现小型语言模型在预训练中学会的代词-性别规则（准确率0.94）会在3500步后自然消失，尽管训练数据仍包含该规则。这种未在损失曲线上反映的反转现象称为natural ungrokking。规则存留由支持频率预测：在2个语料、3个预算、3个种子的16次未干预运行中，支持频率决定规则命运。该动态出现在公开Pythia检查点中，遗忘顺序按模型规模排序。控制不对称：反转支持证据可破坏规则，但即使注入450倍支持也无法恢复。

论文 Natural Ungrokking Pythia 预训练规则学习不对称控制

推荐理由：这篇论文发现了模型训练中规则自然遗忘的规律，并且能预测和控制——破坏容易恢复难，对理解LLM行为很有启发。

原文

10:40

arXiv cs.LG@Guangzheng Hu, Patricia Menéndez, Feng Liu, Mingming Gong, Guanghui Wang, Liuhua Peng

FedReLa是一种数据层方法，解决联邦学习中全局类不平衡与客户端间数据异质性的共存问题。它采用特征依赖的标签重新分配器，无需全局类分布知识即可纠正有偏的全局决策边界。该方法模块化、模型无关，能与算法方法集成而不增加通信开销。在stepwise-imbalanced和long-tailed数据集上的实验显示，FedReLa显著提升了少数类准确率与整体准确率，超越先前最优方法。

论文 FedReLa 联邦学习类不平衡数据异构

推荐理由：FedReLa不用知道全局分布就能重新标注数据，专治联邦学习里数据不平衡和异构的混合难题，少数类准确率提升明显。

原文

10:40

arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao

该论文通过实验发现，多步工具使用强化学习（RL）训练中，模型可出现灾难性崩溃，性能骤降且工具调用结构失效。根本原因是特定控制token概率突增，但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，并比较了同步与交错训练方案。结果表明，将监督微调（SFT）与RL交错进行可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。该工作揭示了RL失败机理，并展示了多样化监督信号对鲁棒训练的价值。

论文 LLM 强化学习工具使用 SFT 监督信号

推荐理由：这篇论文分析了多步工具RL训练容易崩溃的原因，并实验证明交错SFT与RL能有效提升稳定性，对做智能体RL的人很有参考价值。

原文

10:39

arXiv cs.LG@Philipp Grohs, Davide Nobile

该论文分析了变分蒙特卡洛（VMC）算法在电子结构优化中的鲁棒性，发现其局部能量和梯度估计量普遍呈现重尾分布，缺乏高阶矩。对于Slater-Jastrow等常见波函数类，估计量表现出重尾特性。作者提出PS-Clip-VMC方法，通过裁剪局部能量和梯度随机变量来提升稳定性。在FermiNet上对多达18个电子的原子进行初步实验，PS-Clip-VMC比标准方法更鲁棒。

论文 VMC FermiNet PS-Clip-VMC 重尾优化电子结构

推荐理由：想理解VMC为何不稳定？这篇论文给出了严格的数学分析，还提出了一个实用的裁剪方法PS-Clip-VMC，对做量子化学模拟的朋友很有帮助。

原文

10:38

arXiv cs.LG@Kamar Hibatallah Baghdadi, Kawther Guoual Belhamidi, Sara Belhadj, Aissa Boulmerka, Nadir Farhi

HiReLC是一个分层集成强化学习框架，用于深度神经网络的自动联合量化与结构化剪枝。低层智能体按块独立选择位宽、剪枝保留比、量化类型和粒度，高层智能体基于Fisher信息估计协调全局预算分配。框架使用轻量MLP代理进行奖励塑造，降低策略评估成本。在Vision Transformer和CNN基准上，实现参数存储压缩比5.99-6.72倍，一个设定下准确率提升3.83%，其他设定准确率下降0.55-5.62%。

论文 HiReLC Vision Transformer CNN 剪枝量化

推荐理由：这个框架能自动给神经网络做剪枝和量化，压缩比达到6倍多，准确率几乎不掉，适合做模型部署。

原文

10:37

arXiv cs.LG@Ilia Kulikov, Chenxi Whitehouse, Tianhao Wu, Yixin Nie, Swarnadeep Saha, Eryk Helenowski, Weizhe Yuan, Olga Golovneva, Jack Lanchantin, Yoram Bachrach, Jakob Foerster, Xian Li, Han Fang, Sainbayar Sukhbaatar, Jason Weston

论文提出Autodata方法，让AI代理扮演数据科学家角色，自动构建高质量的训练和评估数据。通过元优化训练数据科学家代理，使其学会生成更优数据。在计算机科学、法律推理和数学对象推理任务上，该方法相比经典合成数据集创建方法取得更优结果。元优化数据科学家代理本身也带来更大性能提升，表明代理式数据创建可将推理计算量转化为高质量模型训练。

论文 Autodata 合成数据 AI代理数据科学家元优化

推荐理由：这篇论文教你让AI自己当数据科学家，自动造出比手动更好的训练数据，还能越造越强，做研究写代码都能用上。

原文

10:36