11:45arXiv cs.AI(学术论文)本文针对当前AI评估中普遍存在的“苹果与橙子”式比较问题,提出了一种可重复的流程,将高层级AI使用用例转化为详细评估场景。该方法通过结构化的AI用例工作表(包含用例、行业、用户、预期结果、预期影响和关键绩效指标六大要素)从领域专家处获取用例,并结合LLM提示与人工审核的三阶段扩展管线,将用例扩展为107个场景。文中以美国金融服务业为例,展示了网络防御、开发者生产力、金融犯罪聚合等用例的转化过程。核心贡献在于通过人工检查点确保场景的操作基础性和人类中心设计原则,为更一致、有意义的AI评估范式提供支持。论文AI评估方法论金融服务业LLM人类中心设计推荐理由:该研究直面AI评估领域的方法论碎片化问题,提出的结构化流程和人类中心设计原则为业界提供了可操作的标准化评估框架,尤其对金融等高风险行业的AI系统评估具有直接参考价值。原文
11:44arXiv cs.LG(学术论文)论文提出STEPS方法,解决时序预测在分布偏移下测试时自适应(TTA)中的弱可识别性、误差累积和不稳定长时修正问题。该方法将TTA重新定义为时间流形上的狄利克雷边界值问题,利用局部求解器传播前缀误差的时序平滑性,全局求解器获取跨窗口误差记忆,并通过时空流形融合(SMF)整合两者进行最终矫正。在六个标准基准和四个冻结骨干网络上,STEPS相比零样本骨干平均相对MSE降低26.82%,超过最强TTA基线12.77%。额外稀疏前缀和污染测试验证了该方法在有限和噪声前缀下的鲁棒性。论文时序预测测试时自适应分布偏移流形学习推荐理由:该工作首次将时序预测TTA严格建模为微分方程问题,提供了理论清晰的优化视角,并在稀疏噪声数据下表现显著优于现有方法,对实际部署中的低质量观测场景具有重要参考价值。原文
11:44arXiv cs.AI(学术论文)这项研究探测了Gemma 3、Qwen 3、Qwen 2.5和Llama 3.1等12个指令微调模型(参数量从270M到27B),发现模型内部对所选工具的表示是线性的,可以通过激活干预来操控。通过添加两个工具平均激活的差值向量,可以在单轮名称提示上以77-100%的准确率(4B以上模型达93-100%)切换工具选择,并且随后的JSON参数会自动适应新工具的架构。此外,该方法还能提前标记潜在错误:在Gemma 3 12B和27B上,top-1与top-2工具差距最小的查询产生错误调用的概率是差距最大查询的14-21倍。因果效应集中在输出层对应目标工具首标记的行方向上,激活修补将影响定位到中后层少数注意力头。即使在基础模型中,内部状态也能在模型实际生成工具名称之前编码正确的工具选择,这表明预训练阶段已经形成了工具表征,指令微调只是将其连接到输出层。论文工具调用线性表征模型可解释性智能体推荐理由:该研究揭示了语言模型中工具选择的内在线性表征机制,为提升工具调用的可解释性和可控性提供了理论基础,对构建更可靠的智能体系统具有重要启发意义。原文
11:44arXiv cs.LG(学术论文)本文研究一类上下层均为极小极大结构的双层优化问题,提出了基于罚函数的一阶方法,无需下层问题满足强凸性假设。在确定性环境下,该方法以Õ(ε⁻⁴)的复杂度找到ε-KKT点;对于凸约束下层最小化问题(通过拉格朗日对偶转化),复杂度从现有Õ(ε⁻⁷)提升至Õ(ε⁻⁴)。在随机梯度场景下,方法以Õ(ε⁻⁹)的复杂度找到近似ε-KKT点。这一工作填补了双层优化与极小极大优化交叉领域的空白,为对抗训练、元学习等应用提供更高效的理论工具。论文双层优化极小极大罚函数方法一阶优化凸约束推荐理由:该工作从理论上攻克了下层为极小极大结构这一长期难点,提出的罚函数框架简洁优雅,且对凸约束问题实现了复杂度数量级改进,将推动智能体对抗训练、多任务学习等领域的实际算法设计。原文
11:44arXiv cs.AI(学术论文)研究人员提出PSP-HDC框架,利用图结构超维计算解决材料加工-结构-性能预测中的数据稀疏和异质性问题。该框架将PSP依赖关系编码为内部先验,通过可训练的标量到超向量编码器学习参数嵌入,并基于图对齐的绑定与捆绑进行样本表示。在3D制造平台测试中,PSP-HDC在随机分割和过程泛化下准确率达0.910和0.896,优于传统模型。该方法提供了内在可解释性,可追溯至参数和组级别的归因。论文超维计算材料科学预测可解释AI图结构化学习少量数据学习推荐理由:该工作针对材料科学中数据高效预测的难题,提出了一种结合图结构与超维计算的新方法,在可解释性和少量数据泛化上表现突出,对AI在工程材料领域的应用具有参考价值。原文
11:44arXiv cs.LG(学术论文)研究者提出了一种名为Susceptibilities的技术,用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响,扩展到RL的遗憾(regret)设置中。在简单的网格世界模型中,Susceptibilities能够揭示参数空间内模型发展的内部特征,而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导(activation-steering)证实了结果,并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。论文强化学习可解释性神经网络RLHF推荐理由:对强化学习研究者有参考价值,提供了超越传统策略分析的模型内部状态洞察方法,尤其可用于分析RLHF训练中的阶段变化。原文
11:44arXiv cs.AI(学术论文)论文提出PACS(概率常识溯因推理)框架,解决神经符号系统中形式逻辑求解器缺乏常识的问题。传统方法假设常识事实普遍一致,但实际中个体常识存在差异。PACS通过LLM和形式求解器对个体常识信念进行抽样证明,并聚合结论,在多个基准测试中优于思维链、先前神经符号方法和搜索式方法。该工作首次将概率建模引入常识溯因推理,为处理主观常识提供了新思路。论文推理模型常识推理神经符号LLM概率建模推荐理由:通过概率建模处理常识变异,PACS提升了神经符号推理的鲁棒性,对增强LLM在开放世界推理中的常识能力有实际价值。原文
11:44arXiv cs.AI(学术论文)该论文指出,在机械可解释性研究中,越来越多使用因果词汇(如电路、中介、因果抽象等),但缺乏明确的识别假设。作者对四种方法学流派的10篇论文进行审计,发现没有专门的识别假设部分,验证指标(如忠实度、完整性等)常被当作因果证据,而未说明其识别假设。两名人工编码员对30篇论文的审计重现了主要发现:缺少专门的识别假设部分,验证指标替代普遍存在。论文提议披露规范:声明是否为因果主张、命名识别策略、列举假设、强调至少一个假设,并说明假设失败时结论如何变化,强调验证不等于识别。论文机械可解释性因果识别方法论审计AI安全推荐理由:该研究为可解释性领域提供了方法论反思,提醒研究者注意因果主张的严谨性,避免用验证指标替代因果识别。原文
11:44arXiv cs.AI(学术论文)70°该论文针对命令行界面(CLI)智能体在大型代码库中面临的两个瓶颈:从部分观察中识别任务相关证据,以及稀疏的终端奖励分配。研究者提出了σ-Reveal,一种推理时选择token预算上下文的机制;以及Action Advantage Assignment(A³),一种利用抽象语法树(AST)的动作子链残差和轨迹边际的强化学习方法。此外,他们还构建了ShellOps数据集套件,用于评估仓库环境中的CLI任务。这项研究为CLI智能体学习提供了更结构化的奖励信号,有望提升智能体在复杂代码交互中的表现。论文智能体强化学习代码库交互CLIAST推荐理由:该工作提出了CLI智能体学习的关键创新:σ-Reveal和A³分别解决了选择性观察和信用分配问题,对提升Agent在复杂代码环境中的自主操作能力有显著意义。原文
11:44arXiv cs.LG(学术论文)本研究提出自适应域分解物理信息神经网络(ADD-PINN),用于从稀疏固定传感器数据中重建交通速度场。该方法首先训练一个粗粒度的全局PINN,利用其残差分布指导子域划分和子网络初始化,并使用数据驱动的激波指示器决定是否启用多域分解。在I-24 MOTION数据集上的大规模评估(1500次运行)显示,ADD-PINN在25种配置中的18种和15种稀疏传感配置中的14种取得了最低的相对L2误差,同时训练速度比扩展PINN(XPINN)基线快2.4倍。NGSIM实验作为阴性对照,验证了激波指示器在所有50次运行中抑制了分解,默认单域回退方案表现最佳。这表明残差引导的空间分解是针对稀疏固定传感场景的高效PINN设计。论文物理信息神经网络交通估计域分解稀疏传感PINN推荐理由:该工作为物理信息神经网络在稀疏传感交通估计中的实际部署提供了实用框架,残差引导的域分解策略可推广至其他涉及不连续性的PINN应用,其训练效率提升对资源受限场景有直接价值。原文
11:44arXiv cs.AI(学术论文)这项研究通过fMRI记录人类学习新视频游戏时的脑活动,对比了前沿推理模型(LRMs)与深度强化学习代理及贝叶斯理论模型。研究发现LRMs不仅在游戏表现上最接近人类,还能以数量级优势预测人脑活动,且这种对齐主要源于模型对游戏状态的上下文表示而非下游推理。实验证明了LRMs作为复杂环境中人类学习与决策的计算模型的潜力。论文推理模型行为对齐脑活动预测强化学习游戏学习推荐理由:该研究首次系统比较了前沿推理模型与强化学习在行为与脑活动对齐上的差异,为理解AI与人类认知机制的一致性提供了重要证据,对认知科学和AI体设计有参考价值。原文
11:43arXiv cs.LG(学术论文)STARFlow2提出了一种基于自回归归一化流(TarFlow)的统一多模态生成框架,用于处理交错的文本-图像序列。它通过在Pretzel架构中垂直交错预训练VLM流和TarFlow流,并采用深度-浅层流设计和统一的FAE潜空间,实现了文本和视觉输出的缓存友好型生成。实验表明,STARFlow2在图像生成和多模态理解基准上表现强劲,证明了自回归流可以替代扩散模型作为统一多模态建模的基础。这项工作解决了因果文本生成和迭代视觉去噪之间的结构不匹配问题,为更自然的统一生成提供了新范式。论文多模态自回归流图像生成统一模型文本-图像推荐理由:STARFlow2展示了自回归归一化流在多模态统一生成中的潜力,为替代基于扩散的图像生成方法提供了新思路,对多模态模型的设计和效率优化有参考价值。原文
11:43arXiv cs.AI(学术论文)该研究提出一种参数重建算法,用于训练脉冲神经网络(SNN)。由于脉冲函数的不可微性,传统SNN训练依赖代理梯度,引入逐层累积的近似误差。研究团队扩展了并行前馈阈值网络的凸化理论至并行递归阈值网络,将SNN作为其结构化特例纳入框架。新算法在多个任务中作为独立方法或与代理梯度训练结合均表现出一致且显著的优势。消融实验验证了其数据扩展性和对模型配置的鲁棒性,表明该方法在大规模SNN训练中具有潜力。论文脉冲神经网络凸优化训练算法代理梯度理论突破推荐理由:该工作从理论层面解决了SNN训练中梯度近似误差累积的难题,提出的参数重建算法在多个基准任务上验证了有效性,为大规模低能耗SNN训练提供了新路径。原文
11:43arXiv cs.LG(学术论文)PET-Adapter是一种针对PET图像重建的测试时域自适应框架,用于生成式PET重建模型。该框架仅需在体模数据上预训练,即可适配到不同解剖结构、示踪剂和扫描仪的临床数据集,无需配对真值。它通过逐层低秩解剖条件调制和基于有序子集期望最大化的热启动,将扩散步骤从50步减少到2步,显著提升计算效率。在多个临床数据集上的实验表明,该方法在全角度和有限角度设置下均实现了优越的3D重建性能,验证了其临床可行性和计算优势。论文图像重建PET-Adapter测试时自适应扩散模型医学影像推荐理由:该研究通过测试时自适应解决了深度学习PET重建模型的泛化困境,显著降低了计算成本,为临床实时部署提供了可行方案。原文
11:43arXiv cs.AI(学术论文)学习延迟(L2D)方法通过将困难或不明确的病例路由给人类专家,可以提高青光眼筛查的安全性,但现有方法忽视了专家可用性、读者行为异质、工作负载不平衡、诊断伤害不对称等问题。本文提出MPD²-Router,一个掩码感知的多专家延迟框架,将眼科分流重新形式化为受约束的人机路由问题,决定是否延迟以及路由给哪位可用专家。该框架耦合了双头延迟分配策略与掩码感知Gumbel-sigmoid门控,严格强制每个样本的专家可用性,并融合不确定性、形态学、图像质量和分布外信号。训练采用非对称成本敏感目标、增广拉格朗日延迟预算、组特定分布先验和秩最大化JS正则化,共同防止专家空间坍塌。在三个跨国家青光眼队列(REFUGE、CHAKSU、ORIGA)上,使用预训练的REFUGE骨干,MPD²-Router在中等延迟率下显著降低了临床成本并提高了MCC,在F1-MCC成本方面达到帕累托最优,并对跨域迁移具有鲁棒性。论文医疗AI人机协作路由算法青光眼筛查多专家推荐理由:该工作为医疗AI中的人机协作提供了一种实用的优化方法,能够减轻专家负担并确保安全,尤其适用于资源受限或需要高质量诊断的场景。原文
11:43arXiv cs.LG(学术论文)本文提出 DR-ME,这是首个半参数高效有限位置测试,用于检测可解释的分布治疗效果。传统的均值比较可能遗漏尾部、众数、离散度或罕见事件概率的变化,而全局核测试无法揭示具体差异位置。DR-ME 通过正交双重稳健核特征,在学习到的结果位置上评估干预核证据,返回因果差异坐标,而非仅给出全局拒绝判断。该方法具有卡方校准、局部功效优化和位置学习准则,实验显示其误差控制良好、功效可与全局测试竞争,并在半合成医学影像研究中定位了分布效应。论文因果推断分布效应半参数效率双重稳健核测试推荐理由:这项研究为因果推断中的分布效应分析提供了首个可解释且半参数高效的测试方法,尤其适合需要定位具体差异的应用场景,如精准医疗中不同人群的异质性响应分析。原文
11:43arXiv cs.LG(学术论文)PropSplat提出一种无需地图的无线电波传播建模方法,利用3D各向异性高斯原语重建射频场。每个高斯编码相对于基线路径损耗模型的偏差,通过观察到的收发路径初始化并端到端优化。在室外大规模路测(6个sub-6 GHz频段)中,训练测量间距300米时RMSE达5.38 dB,优于WRF-GS+等基线;室内蓝牙定位误差仅0.19米,较NeRF²提升一个数量级。该方法显著降低了对地理数据的依赖,可实现稀疏测量下的精准传播与环境建模。论文3D高斯渲染射频重建无地图建模路径损耗模型推荐理由:该工作突破了传统射频建模对高成本地图或密集测量的依赖,利用可微高斯原语实现无地图传播重建,对无线网络部署、定位与频谱管理具有实用价值。原文
11:43arXiv cs.AI(学术论文)本文提出SCOPE框架,将复杂的图像生成要求形式化为语义承诺,通过结构化规范持续追踪这些承诺的状态,并条件式调用检索、推理和修复技能以解决未满足的承诺。研究指出当前模型生成中存在的“概念鸿沟”问题,即承诺在生成生命周期中可能被局部解决但无法作为统一操作单元被追踪。为评估承诺级意图实现,作者引入人类标注基准Gen-Arena和实体级通过率指标EGIP,SCOPE在该基准上达到0.60 EGIP,显著优于所有基线,并在WISE-V(0.907)和MindBench(0.61)上表现优异,证明持续承诺追踪对复杂图像生成有效。论文图像生成语义承诺结构化解耦技能编排评估基准推荐理由:该工作首次系统定义了图像生成中的语义承诺概念及其生命周期断裂问题,并提供了可操作的框架和评估基准。对追求高可控性图像生成的从业者来说,SCOPE展示了结构化规范追踪如何提升复杂交互场景下的生成质量。原文
11:43arXiv cs.LG(学术论文)新方法CUTS-GPR实现了高维高斯过程回归(GPR)的精确计算,其内核矩阵-向量积在数据量N上呈近线性或线性缩放,在维度D上呈低阶多项式缩放。该方法通过结合加性内核和不完整网格,利用内核矩阵的结构化特性,能够处理数十亿数据点和数千维度的任务。在N=447,265、D=24的基准测试中,包括超参数优化的完整GPR计算仅需数小时完成。CUTS-GPR解决了计算化学中高维势能面贝叶斯建模这一长期难题。论文高斯过程回归高维计算加性内核不完整网格计算化学推荐理由:该工作将精确GPR的规模推进到数十亿样本和数千维度,显著拓展了贝叶斯非参数方法在高维科学计算中的应用边界,对计算化学、物理模拟等领域有实际推动作用。原文
11:43arXiv cs.LG(学术论文)本文提出GraphDPO,一种基于有向无环偏好图的直接偏好优化方法,用于语言模型对齐。传统DPO仅利用成对比较,忽略了多轮生成数据中的传递性和结构信息,导致冲突和优化不稳定。GraphDPO通过图结构的Plackett-Luce目标函数聚合邻域监督,强制传递性,并保持线性复杂度。实验表明,在推理和程序合成任务中,GraphDPO优于成对和列表式对齐方法,是一种可扩展且鲁棒的替代方案。论文偏好优化DPO图结构学习语言模型对齐推荐理由:该研究从图论视角重新审视偏好对齐,解决了DPO在多响应数据上的局限性,对提升模型训练效率和稳定性具有实际指导意义。原文
11:43arXiv cs.AI(学术论文)CA-SQL是一种新型Text-to-SQL管道,通过任务难度估计动态调整搜索广度以探索候选查询。该方法结合进化搜索的提示种子策略和新型投票机制,在BIRD基准测试的困难子集上使用GPT-4o-mini达到51.72%准确率,超越使用更大模型的方法。整体执行准确率达61.06%,Soft F1得分68.77%,展示了在复杂SQL生成任务中高效利用计算资源的能力。论文Text-to-SQL推理模型计算分配自然语言到查询推荐理由:该方法为Text-to-SQL领域提供了可落地的复杂度感知计算分配方案,对提升LLM在结构化查询等推理密集型任务中的效率有参考价值。原文
11:43arXiv cs.LG(学术论文)字节级语言模型(BLT)虽匹配词元级模型性能,但逐字节自回归生成速度慢。本文提出三种加速方法:BLT Diffusion(BLT-D)用辅助扩散目标并行生成多个字节;BLT Self-speculation(BLT-S)通过推测解码扩展补丁边界并验证;BLT Diffusion+Verification(BLT-DV)结合扩散与自回归验证。所有方法在生成任务上估计内存带宽成本降低超50%,消除字节级模型实用化障碍。论文字节级模型推理加速扩散模型推测解码无分词器推荐理由:该工作直接解决字节级LLM的核心效率瓶颈,提出的混合推理策略(扩散+推测解码)为无分词器模型走向实际应用提供了可行路径。原文
11:42arXiv cs.AI(学术论文)研究表明,在多智能体社会困境中,扩展LLM的上下文窗口反而降低合作率。在7个LLM和4个游戏中,28种模型-游戏设置中有18种出现合作退化,作者将其命名为“记忆诅咒”。通过分析37.8万条推理轨迹,发现核心原因是前瞻性意图的减弱而非偏执增强。使用专注于前瞻性推理的LoRA微调可缓解退化,并零样本迁移至其他游戏。记忆内容而非长度是关键触发因素,且显式Chain-of-Thought推理会加剧该现象。这将记忆重新定义为多智能体行为的主动决定因素。论文推理模型多智能体LLM智能体社会困境上下文窗口推荐理由:该研究揭示了LLM能力提升(如上下文窗口扩展)在社会互动场景中的意外负面效应,对多智能体系统设计和部署具有重要警示意义。原文
11:42arXiv cs.LG(学术论文)该论文首次提出基于值函数的指数效用强化学习算法,解决固定风险厌恶下折扣马尔可夫决策过程的优化问题。作者推导了两种Q值扩展,证明相关算子在L∞和sup-log/Thompson度量下是压缩的,并刻画了不动点。提出了两时间尺度Q学习算法,证明几乎必然收敛并给出有限时间收敛率;另有一时间尺度幂律算子算法,通过局部Lipschitz、单调性和Dini导数证明收敛。这项工作为风险敏感RL提供了理论基础。论文强化学习风险敏感指数效用Q学习收敛性分析推荐理由:该研究为指数效用目标下的RL提供了严格的值基算法与收敛证明,填补了理论空白。对风险敏感决策领域(如金融、自动驾驶)的实践者有重要参考价值。原文
11:42arXiv cs.AI(学术论文)70°该论文提出了一种名为“rubric-grounded reinforcement learning (RL)”的框架,将奖励分解为多个可验证的加权标准,由冻结的LLM评判器给每个回应评分,从而提供部分信用优化信号。作者从约10万份科技文档中提取评判规则,并利用GRPO方法微调Llama-3.1-8B-Instruct模型,在保留的评判规则评估上获得了71.7%的归一化奖励。经GRPO训练的策略在GSM8K、MATH、GPQA Main和GPQA Diamond等四个未参与训练的推理基准上均优于基础模型。这一结果表明,结构化、文档依赖的奖励能够改善保留评判规则的性能,并诱发可迁移的推理行为。该框架为提升大模型推理的泛化能力提供了一种新的训练范式。论文推理模型强化学习LLM-as-judgeGRPO泛化性推荐理由:该研究通过分解奖励为多标准评判规则,实现了更细粒度的优化信号,在多个推理基准上验证了迁移效果,对大模型推理能力的训练方法有重要参考价值。原文
11:42arXiv cs.LG(学术论文)该论文研究了高斯分布下非负L1逼近多项式的存在性。非负L1逼近多项式要求多项式在逼近指示函数时保持非负性,比标准L1逼近更强,但比夹逼多项式更弱。作者证明:任何高斯表面积为Γ的标准高斯集类,都存在次数为O~(Γ²/ε²)的非负多项式实现ε-L1逼近。该结果与非负性约束下的最佳已知度界匹配,为非正例的平滑学习等应用提供了理论支撑。论文理论L1逼近高斯分布机器学习理论推荐理由:该结果统一了高斯表面理论与L1逼近的度界,为非负多项式在平滑学习中的应用提供了理论基础,对理论计算机科学中指标函数逼近研究具有参考价值。原文
11:42arXiv cs.AI(学术论文)精选80°Flow-OPD提出首个将在线策略蒸馏(OPD)集成到Flow Matching模型中的统一后训练框架,有效解决了多任务对齐中的奖励稀疏和梯度干扰问题。该框架采用两阶段对齐策略:先通过单奖励GRPO微调培养领域专用教师模型,再通过Flow冷启动、在线策略采样、任务路由标注和密集轨迹监督将异构专业知识整合到单个学生模型中。研究者还引入了流形锚点正则化(MAR),利用任务无关教师提供全数据监督,避免RL驱动对齐中常见的美学退化。在Stable Diffusion 3.5 Medium上的实验显示,GenEval分数从63提升至92,OCR准确率从59%提升至94%,整体提升约10个百分点,且保持图像保真度和人类偏好对齐,并出现“超越教师”效应。该工作为构建通用文本到图像模型的可扩展对齐范式奠定了基础。论文图像生成Flow Matching在线策略蒸馏多任务对齐Stable Diffusion 3.5推荐理由:该工作针对现有多任务对齐中指标相互制约和奖励欺骗的痛点,将LLM领域成熟的OPD方法成功迁移至图像生成领域,并通过冷启动、任务路由和正则化创新提升了效果。实验在关键指标上大幅领先现有方法,对业界构建高性能通用文生图模型具有直接参考价值。原文
11:42arXiv cs.LG(学术论文)GRAPHLCP是一种用于图神经网络(GNN)的局部化共形预测框架,能够提供分布无关的不确定性量化保证。现有方法仅依赖嵌入空间邻近性进行局部化,但对图结构不可靠且效率低。GRAPHLCP通过特征感知致密化缓解稀疏图局部偏差,利用个性化PageRank核建模拓扑邻近性,从而捕获局部和长程依赖。实验表明,该方法在有限样本下保证边际覆盖率,并在多种回归和分类数据集上实现高效的测试条件覆盖率。论文图神经网络不确定性量化共形预测拓扑结构个性化PageRank推荐理由:该工作将图拓扑显式融入共形预测的局部化过程,解决了图场景下传统方法嵌入邻近性不可靠的问题,为图神经网络的可靠不确定性量化提供了新方案,对需要鲁棒预测的图应用(如分子性质预测、社交网络分析)具有实用价值。原文
11:42arXiv cs.AI(学术论文)标准推理时扩展技术自一致性通过多数投票选答案,但加权多数投票(如置信度感知自一致性CISC)虽更准却需额外调用批评模型增加成本。VecCISC提出轻量自适应框架,利用语义相似度过滤冗余、退化或幻觉轨迹,减少需评估的候选数。在数学、化学、生物、常识推理和人文五个数据集上,VecCISC降低47% token用量,同时保持或超越CISC精度。该方法为推理时扩展提供了更经济的平衡方案。论文推理模型自一致性成本优化语义聚类LLM评估推荐理由:VecCISC通过聚类与过滤显著降低计算开销,对工业界部署高精度推理模型具有实际价值,尤其适合长轨迹场景。原文
11:42arXiv cs.LG(学术论文)70°想象语音解码因缺乏高标签对齐的数据而困难。研究者利用聆听语音时更丰富、可靠的MEG记录,提出三阶段解码流水线。首先训练模型将想象MEG映射到聆听MEG,再用聆听数据训练对比词解码器,最后将想象MEG经映射后解码。实验对未见过受试者证明想象单词解码显著高于随机,且性能随训练数据规模提升。该方法无需想象数据训练,为脑机接口提供可扩展的零样本方案。论文脑机接口MEG语音解码零样本推荐理由:该工作展示了利用聆听数据隐式迁移到想象任务的可能性,缓解了想象数据稀缺的问题。可直接推动非侵入式BCI在语言辅助领域的实际应用。原文
11:42arXiv cs.AI(学术论文)针对传统CNN和ViT在事件相机图像重建中的局限性(CNN缺乏全局相关性,ViT计算复杂度随分辨率平方增长),研究者提出EmambaIR框架。该框架融合跨模态Top-K稀疏注意力(TSAM)和门控状态空间模块(GSSM),在保持线性计算复杂度的同时捕捉全局依赖。在运动去模糊、去雨和HDR增强三个任务的6个数据集上,EmambaIR以更低内存和计算成本超越现有最先进方法。代码已开源。论文状态空间模型事件相机/图像重建视觉/生成高效/架构推荐理由:该工作为状态空间模型在高分辨率事件相机图像重建中提供了高效可行的方案,有助于推动实时视觉系统与边缘计算部署。原文
11:42arXiv cs.LG(学术论文)本研究提出 Normalizing Trajectory Models (NTM),一种新型生成模型框架。传统扩散模型假设多步高斯去噪,在少步采样时失效;现有少步方法依赖蒸馏、一致性训练或对抗目标,但放弃了似然框架。NTM 将每个逆向步骤建模为条件标准化流,并用深层并行预测器连接整个轨迹。该模型可通过预训练流匹配模型初始化,利用精确轨迹似然进行自蒸馏,仅需四步即可生成高质量文本到图像样本。在基准测试中,NTM 在四步内匹配或超越了强基线模型,同时保留了可计算的似然。论文标准化流扩散模型少步生成文本到图像似然训练推荐理由:NTM 通过将标准化流与轨迹建模结合,在少步生成和无似然性能间取得平衡,为扩散模型加速提供了新思路。对需要快速推理且关注可解释性的应用(如实时图像生成)具有实际意义。原文