全部 AI 动态 · AI 热点

6月19日

11:37

arXiv cs.AI@Saimun Habib, Vaishak Belle, Fengxiang He

DeepSWIP为DeepProbLog引入单世界反事实语义，通过神经具体化将固定上下文神经谓词转为ProbLog选择，并应用单世界干预程序(SWIP)计算反事实。实验在MPI3D数据集上对比DeepTwin构造，针对12,000个查询实现2.14倍推理加速。SUMO HOV实验表明神经校准退化会偏误插件估计，而AIPW估计器可消除大部分一阶偏差。代码已开源。

论文 DeepSWIP DeepProbLog 反事实推理因果推理神经符号系统

推荐理由：想给概率逻辑程序加上精准的反事实推理？DeepSWIP用商WMC方法避免了DeepTwin的内生重复，实测快两倍多，做因果推断的朋友可以看看。

原文

11:36

arXiv cs.AI@Solène Debuysère, Nicolas Trouvé, Nathan Letheule, Elise Colin, Georgia Channing

SARLO-80是一个基于Umbra卫星VHR SAR SLC数据构建的SAR-光学-文本对齐数据集，包含约2500个全球场景，覆盖72个国家257个地点。所有SAR数据被标准化为80cm斜距网格，并切分为1024×1024像素图块，与对应的高分辨率光学图像精确对齐。数据集提供119,566个三元组（幅度/复数SAR图块、对齐光学图块、三种长度的自然语言描述），支持跨模态检索和条件生成等基准测试。完整代码和划分已开源在Hugging Face Hub。

论文 SARLO-80 Umbra SAR 多模态数据集

推荐理由：想做SAR与光学图像对齐研究？这个数据集用Umbra的VHR数据做了精细对齐，还带文本描述，直接拿去做多模态训练或评测。

原文

11:32

arXiv cs.AI@Harshit Singh, Ayush Pratap Singh, Nityanand Mathur

流匹配TTS在部署后无法纠正专有名词的发音错误。FlowEdit通过潜在条件编辑而非权重更新来实现终身适应，并用现代Hopfield网络存储纠正。在涵盖18个语系、312个多语言专有名词的基准上，FlowEdit将目标词音素错误率相对降低92.7%，且通用语音质量不变。每次纠正仅需约15秒（单GPU）。

论文 FlowEdit TTS Hopfield Network 发音适应多语言专有名词

推荐理由：想给TTS模型随时纠正陌生名词发音？FlowEdit用Hopfield网络存记忆，错误率直降92.7%，不用重训练。

原文

11:31

arXiv cs.AI@Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) 是广泛采用的代码生成基准，但仅限Python。新基准Multi-LCB将LCB任务转化为12种编程语言，包括Python、C++、Java等，保持原始污染控制和评估协议。研究者在Multi-LCB上评估了24个LLM，发现模型存在Python过拟合、语言特定污染和跨语言性能差异。Multi-LCB为多语言代码评估提供了严格的新基准，直接暴露了当前LLM在Python之外的短板。

AI模型 Multi-LCB LiveCodeBench 代码生成多语言基准测试

推荐理由：想测AI写代码的真本事？别只看Python了。Multi-LCB覆盖12种语言，一测就知道模型是不是只会Python，结果可能让你意外。

原文

11:31

arXiv cs.AI@Alaia Solko-Breslin, Pramod Kaushik Mudrakarta, Mihai Christodorescu, Somesh Jha, Krishnamurthy Dj Dvijotham

论文提出基于分布鲁棒优化（DRO）的框架，用于AI Agent在不确定性下的策略违反概率验证。该方法支持包含概率谓词或状态转换的Datalog策略，无需假设谓词间独立性。在终端和工具调用Agent标准基准上，计算出的概率上界比先前方法更紧，同时保证了安全与效用的权衡。实验表明，该方法在多个测试集上提升了安全策略的合规性。

论文 AI Agent 概率验证 Datalog 分布鲁棒优化安全策略

推荐理由：这篇论文给AI Agent加了一道安全锁：用分布鲁棒优化算清楚策略违规的概率上限，比旧方法更准、更高效。

原文

11:15

arXiv cs.AI@Jinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang

FreeStyle提出一种基于社区LoRA挖掘的可扩展双参考生成框架，利用社区LoRA作为风格和内容的组合锚点，构建大规模三元组数据（风格参考和内容参考）。采用两阶段课程，包括注意力级富集约束抑制风格参考泄漏，以及频率感知RoPE调制解决位置对应泄漏。引入新基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明，FreeStyle在风格对齐、内容保持和泄漏抑制之间取得强平衡。

AI模型 FreeStyle LoRA 双参考生成图像生成风格迁移

推荐理由：想同时控制图片风格和内容？FreeStyle用社区LoRA搞定双参考生成，还自带防泄漏机制，比以往方法更稳。

原文

11:12

arXiv cs.AI@Jake J. Xia

该论文提出了一个通用框架，分析智能体行动与集体观测间有反馈回路的系统，基于两个变量：权力（衡量智能体对集体结果的影响）和响应函数（决定智能体如何反应）。推导了总权力、有用权力、熵、秩序、脆弱性和移动性等宏观属性从这两个变量涌现的方式。引入一个由风险偏好系数参数化的系统级效用函数，推导了在生产率、稳定性和适应性间平衡的最优秩序度。分析表明，更强的同步化可能增加集体产出，但也增加脆弱性并降低移动性。该框架通过测量和设计权力分布与响应函数，有助于理解和优化集体行为。

论文 Multi-Agent 集体智能系统理论最优秩序权力分布

推荐理由：这篇论文用‘权力’和‘响应函数’两个变量就能拆解集体智能的涌现机制，还给出了最优秩序公式，想从底层理解多智能体系统的话可以一读。

原文

11:11

arXiv cs.AI@Reza Soosahabi, Vivek Namsani

该论文通过概率模型分析了针对智能体AI系统的攻击-防御场景，发现传统的检测-拦截防御在查询预算充足时，攻击成功率(ASR)可趋近于1，因为可预测的拒绝为攻击自动搜索提供了有效反馈。作者提出检测-误导策略，通过受控但非操作性的响应诱导攻击者判断器产生假阳性错误，实现有界的渐进ASR。具体实现方法CMPE（Contextual Misdirection via Progressive Engagement）在jailbreak基准上，将ASR上限估计降低两个数量级，并在端到端PAIR和GPTFuzz攻击运行中几乎消除了验证成功的攻击。

论文 CMPE PAIR GPTFuzz Agentic AI AI安全

推荐理由：这篇论文提出了一个聪明的思路：用误导性回复代替直接拒绝，让AI自动攻击更难判断是否成功。实验显示CMPE方法在PAIR和GPTFuzz上几乎完全阻挡了越狱攻击，做AI安全的朋友值得一看。

原文

11:10

arXiv cs.AI@Zahra Asghari Varzaneh, Reza Khoshkangini, Pia Saldeen, Lars Johansson, Thomas Ebner

该论文利用55个上下文感知时间特征（包括滚动热稳定性、温湿度同步达标率、峰值压力时长和压力后恢复速度）建模IVF实验室微环境。基于亚洲诊所61周数据，这些特征将交叉验证预测误差从原始平均值的3-5%降至1.27%。分层贝叶斯Beta回归模型通过部分池化共享环境效应，在另一北欧诊所的留出数据上对35-39岁年龄组实现R2=0.86，相比基线误差减少64%。研究证明结构化环境监测包含临床上有意义的可迁移信号。

论文 IVF 分层贝叶斯环境监测临床预测

推荐理由：搞生殖医学或临床预测的看这篇：55个环境特征把IVF成功率预测误差压到1.27%，模型还能跨诊所迁移，相当实用。

原文

11:09

arXiv cs.AI@Rostislav Makarov, Timo Gerkmann

该研究提出一种将传统语音分类器改造为扩散生成主干的方法。从冻结的噪声条件分类器（在log-Mel频谱上）开始，附加一个轻量子网络来复用中间分类器表示，仅训练该子网络，使用去噪得分匹配目标。这种方法实现了单主干模型的条件语音生成，在保持语音质量的同时减少了内存占用和计算成本。

论文语音分类器扩散模型条件生成单主干模型语音合成

推荐理由：这篇论文教你用一个现成的语音分类器直接生成语音，省掉单独训练扩散模型，更轻量高效。

原文

11:08

arXiv cs.LG@Jun He, Deying Yu

论文提出 Sovereign Execution Broker (SEB)，一种运行时执行边界，用于证书绑定的自主基础设施。SEB 消耗由 Sovereign Assurance Boundary (SAB) 签发的证书，验证请求变更是否匹配认证执行契约，检查有效期窗口、策略纪元、撤销纪元和实时状态漂移。SEB 铸造作用域执行身份，调用基础设施 API，记录签名决策和结果记录。原型在 AWS 和 Kubernetes 集群上评估，测量延迟开销、撤销传播、漂移检测和故障注入下的安全性。

论文 Sovereign Execution Broker 自主代理证书绑定执行边界安全

推荐理由：想给自主代理加一把安全锁？这篇论文提出了SEB，一个在运行时强制证书绑定的执行边界，能控制突变操作。实测在AWS和K8s上延迟开销可控。

原文

11:07

arXiv cs.LG@Asa Shepard, Jeannie Albrecht

论文提出探针-改进调优法，通过合成bug修复探针迭代诊断和修补仓库指导文件，无需代理循环或工具调用。在SWE-bench Verified上，使用Qwen3.5-35B-A3B模型200步，平均解决率33.0%，高于静态知识库的28.3%和无指导基线的25.5%（p<0.001）。改进来自覆盖度而非精确度：优化指导使可评估补丁增加14.5个百分点，但补丁精确度稳定在约59%（p=0.119）。跨模型实验显示，当模型无法生成足够诊断输出时调优效果下降，但补丁精确度仍保持恒定。

论文探针-改进调优 SWE-bench Verified Qwen3.5-35B-A3B 编码智能体仓库指导文件

推荐理由：这篇论文告诉你：给编码智能体写AGENTS.md时，别一次性写好就完，得用探针-改进法迭代修。实测在SWE-bench上解决率涨了近5个点，主要是能让智能体多搞定14.5%的实例。

原文

11:06

arXiv cs.LG@Sihui Dai, Mann Patel

该论文通过混合良性合规示范（无害请求、有用回复）与有害合规示范（有害请求、有用回复），测试了三种关于示范组合如何导致有害合规的假设。在四个模型中，良性示范与有害示范不可互换：良性示范可能减少或增加有害合规，取决于模型。研究发现偏好优化是关键训练阶段，可防止良性示范增加有害合规；示范排序存在强烈的近因偏差；模型在拒绝与上下文学习交互时表现不同。

论文 LLM jailbreak demonstration in-context learning 安全对齐

推荐理由：这篇论文解释了为什么不同的合规示范会以不同方式影响模型，帮你理解LLM的jailbreak机制，不只是实证而是分析原理。

原文

11:06

arXiv cs.LG@Sai Sakunthala Guddanti, Anil Prabhakar, Ria Rushin Joseph

该论文系统研究了多qutrit量子系统中von Neumann熵的估计问题，使用两种互补方法：变分量子算法(VQA)和经典卷积神经网络(CNN)。对于最多3个qutrit的系统，构建了11种SU(3)启发的ansatz，参数扫描表明估计精度主要由可训练参数数量决定，并固定约120个参数。对于2至5个qutrit的系统，基于张量积互斥基测量结果训练的CNN仅使用全态层析所需12.5%的测量，即可对4与5 qutrit系统实现90百分位绝对误差约0.13-0.16 nats。CNN对shot噪声鲁棒，且泛化到分布外状态。结果显示VQA适用于小系统，而CNN估计器在大qutrit系统中具有更好的可扩展性和鲁棒性。

论文 qutrit VQA CNN 熵估计量子信息

推荐理由：这篇论文用CNN和VQA两种方法估测量子系统的熵，发现CNN只用12.5%的数据就能准确估计，对更大系统效果更好，值得关注。

原文

11:04

arXiv cs.LG@Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani

这篇论文提出利用用户与LLM交互时的鼠标轨迹和眼动数据作为隐式反馈来替代昂贵的显式偏好标注。他们构建了IFLLM数据集，包含59名用户的1336个多轮问答，并记录了鼠标和眼动数据。基于这些隐式反馈训练的奖励模型将文本奖励模型的准确率从55%提升到64%。对8个LLM应用DPO后，响应质量相对提升近3倍，证明了隐式反馈在真实场景中的价值。数据集和代码已开源。

论文 IFLLM LLM 隐式反馈 DPO 开源模型

推荐理由：别光看用户点了什么赞，鼠标和眼睛动的方向才是真心话。这篇论文用59人的眼动和鼠标轨迹数据训练奖励模型，准确率从55%飙到64，还开源了数据集。

原文

11:03

arXiv cs.LG@Yusuf Salcan, Simon Ging, Robin Schirrmeister, Philipp Arnold, Elmar Kotter, Behzad Bozorgtabar, Thomas Brox

论文提出RefRad2D数据集，包含120万CT和MR图像-文本对，覆盖德语和英语。该数据集通过LLM标注和自动分割生成任务特定的VQA和空间定位子集。基于此训练的RadGrounder模型同时支持报告生成、视觉问答和边界框检测/分割。在Slake和VQA-RAD外部基准上，RadGrounder取得与专用医学VLM竞争的结果。加入临床数据训练可提升开放VQA表现，且增加空间定位监督不降低语言质量。

论文 RefRad2D RadGrounder 放射学 VQA 空间定位

推荐理由：这篇论文开源了120万对的放射学双语数据集RefRad2D，训练出的RadGrounder能同时做报告生成、VQA和空间定位，空间定位还不影响语言质量，搞医疗AI的值得看看。

原文

11:02

arXiv cs.LG@Mingyu Yang, Keye Zheng, Congchao Cheng, Yujie Liu, Xingkang Lu, Fan Jiang, Yefei Zheng

现有批量式轨迹蒸馏中，同一记忆操作在不同批次间可能收到矛盾反馈，缺乏跨批次操作级证据累积机制。MAA通过构造差分信号使证据跨批次可比，利用指数移动平均累积每操作符号证据，并通过语义身份合并保证跨批次可追溯。在4个基准和4个目标模型的16个设置中，MAA取得14个最佳结果，一致优于现有批量级蒸馏基线。优化阶段token消耗减少约75%。

论文智能体 MAA 轨迹蒸馏边际优势累积

推荐理由：这篇论文提出MAA，能让智能体自我进化时跨批次累积有效操作，减少75%的token消耗，在多个基准上超过现有方法。

原文

11:01

arXiv cs.LG@Inesh Chakrabarti, David Limpus, Aditi Ghai Rana, Bowen Bao, Spandan Tiwari, Thiago Crepaldi, Ashish Sirasao

论文提出UltraQuant，一种针对智能体工作负载的4位KV缓存压缩方法，基于TurboQuant旋转和码书量化。在长上下文多轮任务中，UltraQuant在缓存压力大的后期轮次将P50首令牌延迟降低3.47倍，全轮次平均降低2.3倍。相比FP8 KV缓存基线，输出吞吐量提升1.63倍。设计包括非对称K/V处理、Walsh-Hadamard旋转及AMD GPU专用优化。

论文 UltraQuant FP4 KV缓存 AMD GPU 推理优化

推荐理由：长上下文智能体推理慢？UltraQuant把4位KV缓存做到实用，延迟降3倍多，吞吐涨1.6倍，值得看看。

原文

10:59

arXiv cs.LG@Zongmin Yu, Liu Yang

ASYS（Agentic Symbolic Search）是一个结合进化搜索与梯度优化的智能体框架，用于自动发现偏微分方程的符号表示。在Allen-Cahn 2D问题中，它生成了几何界面公式；在Keller-Segel趋化模型中，它找到了九参数收缩律。该框架不依赖手工推导、网格数值解或神经网络逼近，在五个案例中均产出了可解释的数学结构。ASYS实现了符号回归之外的归纳偏差注入，为理解PDE解提供了新范式。

AI模型 ASYS PDE 符号回归进化搜索智能体

推荐理由：ASYS让AI自动去发现偏微分方程的数学结构，比如给Allen-Cahn和Keller-Segel找到了以前没人写出来的公式。搞数学或数值计算的可以看看。

原文

10:56

arXiv cs.LG@Bruno Scarone, Alfredo Viola, Renée J. Miller

该论文针对机器学习模型在种族和性别等交叉敏感属性上表现出的歧视问题，提出了一种扩展的偏差缓解框架。该框架引入覆盖约束，确保训练数据中交叉子群有足够代表性。通过将偏差缓解表述为整数线性规划，量化了公平性代价（最小数据修改成本作为公平容忍度的函数）。在公开数据集上的实验表明，该方法能在保留预测精度的同时，通过容忍小近似偏差提高数据效率，并满足覆盖约束对下游性能的保护。

论文公平性偏差缓解覆盖约束交叉属性机器学习公平性

推荐理由：这篇论文想办法解决交叉群体数据少导致的模型歧视，搞了个框架能平衡公平和成本，还告诉你修改多少数据能换多少公平。

原文

10:38

arXiv: DeepSeek@Arastoo Zibaeirad, Marco Vieira

精选

研究提出CWE-Trace框架，基于834个手动整理的Linux内核样本（覆盖74个CWE）评估LLM的漏洞检测能力。实验发现数据污染对性能无实质帮助：84%的污染样本不携带可用记忆信号。微调仅改变输出阈值（DFI范围-85.5至+94.8 pp），而不改变底层决策策略，模型在历史数据和截止后数据上表现一致。最佳检测准确率仅52.1%（高出随机2.1个百分点），CWE排名Top-1准确率低于1.3%，表明当前LLM缺乏可靠的安全推理能力。

论文 CWE-Trace Linux内核漏洞检测推理模型 Fine-tuning

推荐理由：这篇论文用800多个Linux内核漏洞样本做了严谨测试，发现LLM微调后只是改分数线，不是真懂安全。检测率刚过50%，别指望它们当安全审计员。

原文

10:37

arXiv: DeepSeek@Zewen Liu

论文提出Contagion Networks框架，测量评估偏差在多智能体LLM系统中的传播。使用DeepSeek-chat在3个智能体实验中，设定三种评估偏差画像（结构化、平衡、基于证据），测得Cross-Agent Contagion Matrix Gamma_3中偏差传播系数gamma在0.157至0.352之间。发现同质模型智能体传播系数比先前跨模型结果弱3-5倍（MM-EPC约0.85-1.3），处于抑制区。将评估委员会从k=1增至k=3可将有效传播降低72.4%。

论文 DeepSeek-chat Contagion Networks 多智能体评估偏差传播抑制

推荐理由：想知道大模型评估偏差怎么在智能体间传播？这篇论文用DeepSeek-chat做了实验，告诉你委员会投票能降72%传播，实用。

原文

10:22

arXiv cs.AI@Zepeng Li, Jie Ren, Zhanyong Tang, Jie Zheng, Zheng Wang

AutoPass 是一个多智能体框架，利用编译器和运行时证据引导 LLM 生成编译器优化决策。它在 LLVM 编译器上实现，在 x86-64 和 ARM64 系统上测试，分别比 LLVM -O3 实现了 1.043x 和 1.117x 的几何平均加速。AutoPass 无需离线训练或微调，可直接应用于新基准和平台。

AI模型 AutoPass LLVM 编译器性能调优智能体

推荐理由：AutoPass 把 LLM 变成编译器调优助手，不用训练就能在 x86 和 ARM 上跑出比 -O3 还快的速度，实测有 4-11% 的加速。

原文

10:21

arXiv cs.AI@Yuexing Hao, Xiaomin Li

研究提出三阶段流程：分割GUI轨迹、聚类为候选技能、训练技能感知策略。在InteraSkill Workflows基准上，8个聚类中有5个纯度≥0.95。然而，GRPO仅将技能步准确率从18.5%提升到20.5%，BrowseComp+几乎不变，且频率先验在源域指标上更优。表明轨迹挖掘可暴露可检查的技能结构，但当前边界检测器、无序段表示和离线奖励模型不足以可靠跨域策略改进。

论文 SKILL.md 计算机使用代理轨迹挖掘 GUI自动化 InteraSkill

推荐理由：这篇论文揭示了自动从交互数据中挖掘技能库的现状：能高精度聚类，但跨域提升有限。看了能知道方法还能改进哪里。

原文

10:19

arXiv cs.AI@Xijia Tao, Yihua Teng, Xinyu Fu, Ziru Liu, Kecheng Chen, Yuzhi Zhao, Suiyun Zhang, Rui Liu, Lingpeng Kong

SoftSkill 提出一种方法，将智能体的自然语言技能（Markdown 文件）转化为紧凑的连续上下文对象，通过可训练的软增量进行微调，而基础模型保持不变。在单轮设置下，Qwen3.5-4B 使用长度为 32 的 SoftSkill 前缀相比无技能提示，在 SearchQA 上提升 8.3 点，LiveMath 提升 42.1 点，DocVQA 提升 1.3 点。与 SkillOpt 相比，SoftSkill 在 SearchQA 上准确率提升 5.2 点，LiveMath 提升 12.5 点，同时将数百到数千个 Markdown 技能令牌替换为几个虚拟令牌。论文还探讨了智能体执行作为更难边界情况下的表现。

论文 SoftSkill Qwen3.5-4B 智能体行为压缩上下文适应

推荐理由：论文提出了 SoftSkill，能把复杂技能压缩成几个虚拟向量，用 Qwen3.5-4B 测试，数学题直接涨了 42 个点，比 SkillOpt 还强。

原文

10:17

arXiv cs.AI@Giancarlo Santamato, Andrea Mattia Garavagno, Massimiliano Solazzi, Antonio Frisoli

论文提出一种在数据极度稀缺条件下设计基于深度迁移学习的振动智能故障诊断系统（IFDS）的新方法。该方法采用周期性多激励水平程序，利用真实系统的固有非线性特性生成图像，供预训练卷积神经网络（CNN）分析以诊断故障。同时提出一种新的数据可视化及增强技术以应对IFDS设计中典型的数据不足。在铁路受电弓结构上的实验验证了该方法的有效性。

论文迁移学习故障诊断数据稀缺非线性 CNN

推荐理由：这篇论文用系统非线性生成图像，数据极少也能做故障诊断，还在铁路受电弓上验证了，搞工业AI的可以看看。

原文

10:16

arXiv cs.AI@Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang, Jingwen Fu, Zhen Liu, Bin Qin, Zhenbo Luo, Jian Luan, Jingmin Xin

ELVA提出一种基于规则强化学习（RLVR）的框架，解决对比学习在多模态检索中的“粒度盲视”问题——模型忽略查询中的粒度信息。该方法不依赖奖励模型，通过规则奖励联合优化负样本排序并扩大正负样本相似度差距。为精准评估，作者引入新基准MRBench，专用于多粒度查询场景。ELVA在标准检索基准上达到最先进结果，并在MRBench上实现13.1%的提升。

AI模型 ELVA 多模态检索强化学习 MRBench 细粒度

推荐理由：这篇论文提出了ELVA，用强化学习思路改多模态检索，解决了对比学习忽略粒度的问题，还在新基准MRBench上提了13.1%，值得做检索方向的人看看。

原文

10:15

arXiv cs.AI@Shihao Ji, HongXi Li, Zihui Song, Mingyu Li

Lagrange提出基于掩码潜在场（MLF）的开放词汇稀疏驾驶框架，利用视觉语言模型（VLM）编码类无关目标提议为连续语义视觉标记。通过意图驱动的掩码交叉注意力模块过滤无关实体，将注意力解码为空间坐标上的隐式连续能量场。将决策制定为跨越该能量场的拉格朗日动作最小化问题，强制遵守车辆运动学并执行碰撞避免。在nuScenes和CODA基准上的离线评估显示，该框架实现了鲁棒、可解释且运动学可行的开放世界自主性。

论文 Lagrange 自动驾驶视觉语言模型掩码潜在场端到端驾驶

推荐理由：自动驾驶新框架Lagrange用掩码潜在场和VLM处理开放世界异常，比密集模型更高效，在nuScenes和CODA上表现不错。

原文

10:14

arXiv cs.AI@Luyang Fang, Yingchuan Zhang, Jongchan Park, Zhaoji Wang, Ping Ma, Xiaoming Zhai

研究提出基于Vision Transformer（ViT）的自信度感知评分框架，用于自动评估学生绘制的科学模型。在6个NGSS对齐的中学评估项目上，该方法通过从测试时预测分布中提取响应级自信度，实现高置信度响应自动评分，低置信度响应转人工审核。相比传统方法，该框架在保持评分可靠性的同时，支持自动覆盖率和评分风险之间的实用权衡。

论文 Vision Transformer 自信度感知自动评分教育评估 NGSS

推荐理由：这篇论文教你用ViT给学生的科学画图自动打分，还能判断哪些该机器批、哪些该人看，很适合做教育评估的参考。

原文

10:13

arXiv cs.AI@Simon Aagaard Enni, Malthe Stavning Erslev, Karl-Emil Kjær Bilstrup, Kristoffer Laigaard Nielbo

该论文提出'编辑对齐'作为参与式AI的设计实践，旨在让编辑专家参与重新对齐LLM界面以符合编辑标准。通过和北欧公共知识机构合作，设计并实现了LLM驱动的百科全书界面案例研究。论文将编辑标准视为设计制品，把编辑实践和价值观转化为技术对齐目标。最后讨论编辑对齐如何为编辑提供持续参与和代理权。

论文编辑对齐参与式AI LLM 知识传播公共知识机构

推荐理由：这篇论文通过具体案例展示了如何让编辑参与对齐LLM，帮助公共知识机构保持编辑标准，实操性强且有启发性。

原文

10:12

arXiv cs.AI@Celestine Achi

论文提出九维意义智能框架（MIF），用于尼日利亚公共话语的上下文感知评估。现有基准NaijaSenti和AfriSenti仅做三向情感分类。MIF在30项校准数据集上评估Gemini 2.5 Flash，零样本下注册分类准确率33.3%，使用MIF后升至73.3%。复合意义智能分数从73.2升至78.6。编码潜台词检测提升10点，战略行动推荐提升10.3点。框架、指南和校准集已开源。

论文 MIF Gemini 2.5 Flash NaijaSenti 情感分析尼日利亚话语

推荐理由：这篇论文发现AI在尼日利亚话语中常误解真实意图，他们设计的MIF框架让Gemini 2.5 Flash的注册识别准确率从33%跳到73%，成果很实在。

原文

10:12

arXiv cs.AI@Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tuan Dam, Vu Duong, Tung M. Luu, Trung Le, Tran Nguyen Le, Minh Vu, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien

VLA模型（如pi_0、GR00T-N1.5）参数规模达数十亿，微调计算成本高。本文通过中心核对齐（Centered Kernel Alignment）识别冗余层，无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证，压缩后模型性能与完整模型相当。微调时间减少40-50%，实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。

论文 VLA pi_0 GR00T-N1.5 模型压缩机器人操作

推荐理由：这篇论文发现VLA模型很多层是冗余的，用他们的方法可以白嫖50%层数，微调快一半，推理快30%，效果不降。搞机器人微调的可以试试。

原文

10:11