全部 AI 动态 · AI 热点

6月24日

12:13

arXiv cs.AI@Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang, Leon Liangyu Chen, Xiaokun Chen, Steven Dillmann, Saadia Gabriel, Xunyi Jiang, Anurag Kashyap, Boxuan Li, Yein Park, Minh Pham, Sujay Sanghavi, Lin Shi, Ke Sun, Yixin Wang, Zhiwei Xu, Erica Zhang, Siyan Zhao, Wanjia Zhao, Jenia Jitsev, Alex Dimakis, Benjamin Feuer, Ludwig Schmidt

OpenThoughts-Agent项目提出一个完全开源的数据整理流程，用于训练通用智能体模型。研究团队进行超过100次对照实验，系统分析了数据来源和多样性的重要性。基于该流程构建了10万样本的训练集，微调Qwen3-32B模型后，在7个智能体基准上平均准确率达44.8%，比最强开源模型Nemotron-Terminal-32B（40.9%）提升3.9个百分点。该训练集在计算量可控的对比中表现出强扩展性，所有数据、管道和模型已在openthoughts.ai开源。

推荐理由：想自己训练智能体模型？这里有开源的数据配方和100次实验的经验，帮你少走弯路。

原文

12:12

arXiv cs.AI@Blade Frisch, Will Wade, Dylan Gaines, Michelle Kinsella, Betts Peters, Tamara Broderick, Keith Vertanen

该论文分析了6个AAC（辅助与替代沟通）问题空间的复杂性。AI可以增强AAC用户的能力，但当前评估指标难以捕捉用户的多方面需求。作者提出了更鲁棒的评估方法以考虑用户的交叉性细微差别。论文还讨论了跨问题空间的更广泛问题及解决思路。

论文 AAC AI 辅助技术人机交互评估方法

推荐理由：这篇论文深入探讨了AI增强AAC界面评估的挑战，提出了新的评估方法，对研究人机交互和辅助技术的人很有启发。

原文

12:11

arXiv cs.AI@Zixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li, Xinyang Song, Zelong Zheng, Yong He, Heng Yao, Ke Ding, Chao Yu, Chuan Yuan, Qi Li, Zhenan Sun

统一多模态大语言模型在文本到图像生成中仍难以精确遵循结构提示（如物体计数、空间关系、属性绑定、粗略布局）。IV-CoT提出的隐式视觉思维链框架将视觉条件分解为结构查询和语义查询的级联，结构查询先形成隐式视觉计划，语义查询再基于该计划渲染外观。训练时引入草图监督信号，无需推理时草图提取或中间解码，在单个前向传播中完成隐式CoT推理。该方法在GenEval和T2I-CompBench基准上取得更优结果，可视化分析验证了结构和语义查询的互补作用。

论文 IV-CoT MLLM 文本到图像生成结构感知视觉思维链

推荐理由：这篇论文解决了文生图模型在物体数量、空间位置等结构细节上经常翻车的问题，用隐式思维链单次前向传播搞定，在GenEval和T2I-CompBench上效果更好。

原文

12:11

arXiv cs.AI@Yikai Lu, Yifei Wu, Xinyu Lu, Tongxin Li

该论文证明通用智能体在大型场景下不可能具备万能能力，传统最坏情况分析无法区分关键瓶颈与无关失败。作者提出结构化认证框架，将受目标条件的性能映射到智能体内部世界模型的逐项保证。他们设计了基于深度组合目标过滤特定转换的算法，并证明在该目标下的通用智能体具有误差界为O(1/n)+O(δ)的结构化世界模型。该界限在δ较小的条件下是紧的，从而允许通过定位可靠的长时规划转换来认证部署通用智能体。

论文世界模型智能体结构化认证规划

推荐理由：这篇论文从理论上解决了通用智能体部署时的可靠性问题，给出了具体的误差界限和认证方法，对智能体安全研究很有参考价值。

原文

12:10

arXiv cs.AI@Ahmad Pouramini, Hesham Faili

该论文提出MTO框架，在编码器-解码器预训练语言模型上匹配任务与预训练目标。将微调模板与目标对齐后，在少样本设置下性能提升超过120%，并超越相关研究。在全数据集场景中也优于基线。框架还扩展至提示调优，提供软提示工程与优化的指导。

论文 MTO框架微调提示调优编码器-解码器少样本学习

推荐理由：这篇论文教你怎么给不同任务选对预训练目标，少样本下性能直接翻倍，比传统方法强一大截。

原文

12:09

arXiv cs.AI@Tian Zheng, Kai-Tai Hsu

论文以LAMBDA多智能体数据分析系统在DSGym的153个数值QRData任务上为例，研究自动评分可靠性。三层人机评分级联（严格正则匹配、LLM宽松评分、代码片段人工检查）中，两个自动评分器在70个假阳性上达到100%精确率。宽松评分器相比人工标签召回率为97%。关键词锚定提取方案将严格评分器召回率比最后数字启发式提高60个百分点，迭代提示机制将评分运行成功率从36%提升至97%，宽松通过率从16%提升至46%。变量类型是任务元数据中最一致影响评分动态的字段。

论文 LAMBDA DSGym 智能体自动化评分评估

推荐理由：这篇论文用LAMBDA系统在153个任务上测了三种自动评分方法，发现宽松LLM评分召回率97%，严格规则召回率靠关键词提取提高60个百分点。想看AI评分够不够靠谱的可以读。

原文

12:08

arXiv cs.AI@Ali Pourghasemi Fatideh, Wilder Baldwin, Maria Dhakal, Collin McMillan, Sepideh Ghanavati

本研究聚焦LLM对话系统在处理非功能需求（NFRs）时的准确性和对话质量。49名程序员使用GitHub Copilot对148个HIPAA衍生NFR进行评估，基于iTrust代码库，从需求满足度、推理和代码定位三个维度分析。结果显示开发者倾向于认同LLM评估，但与专家标注的真实标准相比准确率较低。更长系统响应和更多信息提供轮次会降低用户满意度，而主动交互则提升满意度。论文为设计面向NFR评估的LLM对话系统提供了经验证据。

论文 LLM NFR HIPAA GitHub Copilot 多轮对话

推荐理由：这篇论文用49个程序员和148个实例，实测了GitHub Copilot评估HIPAA合规NFR的准确度，发现开发者容易被带偏，但主动交互反而让人更满意。

原文

12:06

arXiv cs.AI@Peiyan Hu, Jian Zhang, Jiashu Pan, Ruiqi Feng, Tao Zhang, Zhi-Ming Ma, Yuan-Sen Ting, Gongjie Li, Tailin Wu

Bi-CFM通过学习初始态与终态分布的双向映射，捕获混沌演化的随机性，缓解指数级误差累积。在Lorenz、Circuit和Lorenz 96系统上，Bi-CFM在5个分布级指标上超越基线，速度提升超两个数量级。针对行星动力学中的三体行星-行星散射问题，扩展的CBi-CFM守恒误差与真实值相当。在真实球状星团（约100亿年演化）观测中，该方法标志着长时序混沌逆问题的精度进步。

论文 Bidirectional Conditional Flow Matching Bi-CFM CBi-CFM 混沌系统逆问题

推荐理由：这篇论文提出的Bi-CFM方法，在混沌系统逆问题上比现有基线快上百倍，还能在守恒律上逼近真实值，值得AI建模爱好者细读。

原文

12:05

arXiv cs.AI@Zidu Liu, Florian Marquardt

研究人员提出结构化概念演化（SCE）框架，将大语言模型与代数突变语法结合，自动探索提升积码家族（一类CSS qLDPC码）。SCE通过层级突变修改群代数、原图几何或基空间，无需从零设计。使用轻量模型GPT-5.4-mini和GPT-5.4-nano运行SCE，发现了从阿贝尔群到非阿贝尔群的多种竞争码家族，性能超越标准bivariate-bicycle码。所有结果在码容量退极化噪声下经BP+OSD解码验证。

论文 GPT-5.4-mini GPT-5.4-nano 结构化概念演化量子LDPC码 AI for Science

推荐理由：这篇论文用GPT-5.4-mini和GPT-5.4-nano两种轻量模型就找到了新的量子LDPC码，方法很巧妙。

原文

12:04

arXiv cs.AI@Chenrui Fan, Paolo Favaro

OrbitForge利用冻结的视频先验和逐提示高斯泼溅重建优化，将单个文本生成视频转换为规范闭环轨道3D高斯泼溅场景。它通过可变形高斯泼溅和稳健MedianGS代理获得初步3D重建，然后渲染指定轨道视图检测缺失视角。该方法仅补全缺失视角并重建最终场景，无需任务特定视频或多视角微调。在300提示T3Bench审计中，OrbitForge达到了359.0度中位数跨度，并将Q10 ImageReward从8.07提升至16.36，同时与VideoMV保持竞争力。

论文 OrbitForge T3Bench 3D场景生成高斯泼溅文本到3D

推荐理由：OrbitForge用文本直接生成360度3D场景，解决了视频视角不全的问题，效果比单用MedianGS好很多。

原文

12:03

arXiv cs.AI@Linpeng Huang, Weixing Chen, Zexin Chen, Yang Liu, Liang Lin

EG-VQA是一个开放式的视频问答基准，包含2,067个视频和11,838个QA对，每个问题都标注了精确的时间证据区间。提出EG-F1指标，统一衡量预测证据的时间对齐和语义一致性。实验发现即使最强模型（如专有模型）在证据定位上表现不佳，存在答案正确但定位偏差的问题。为此提出EG-Reasoner模型，通过显式证据监督训练，在开源模型中达到最优，并在反事实等推理密集型任务上表现突出。该研究证明仅靠扩展规模不足以实现鲁棒的视频理解，结构化证据监督是关键。

论文 EG-VQA Video-LLM 视频问答证据定位基准

推荐理由：这个新基准EG-VQA把视频问答的答案和证据绑定在一起，测出来一大票模型只会蒙答案不会找证据。开源模型EG-Reasoner靠证据监督训练，反事实推理直接碾压好几家专有模型。

原文

12:01

arXiv cs.AI@Filippos Ventirozos, Matthew Shardlow

论文提出在智能体驱动电商中，买方智能体通过微交易（如x402、AP2协议）按需购买已验证产品信息，而非仅用于匹配商品。作者设想了微交易市场架构，包含卖家/评审员数据按条付费（freemium模式）和信誉评分。该市场可奖励真实产品质量，比基于排名的店面产生更真实的竞争。论文将愿景转化为五个具体NLP问题：成本最优信息获取、数据定价与谈判、实时实体解析、基于价值交换及隐私保护人设建模。

论文 NLP 智能体微交易电子商务信息验证

推荐理由：这篇论文展望了智能体电商的未来：AI买家花几分钱买真实的商品历史数据，而不是听推荐。把注意力从对话流畅度拉回到信息验证上，值得关注。

原文

12:01

arXiv cs.AI@Rebecca Adaimi, Edison Thomaz

该论文系统评估了人类活动识别（HAR）中4种分布偏移：设备类型、传感器位置、采样率和用户行为。研究发现多样性偏移主导所有偏移类型，表明不同域间存在独特特征。论文引入了统一的HAR分布偏移基准，并全面评估了28种域泛化方法。结果显示现有域泛化算法在实现模型泛化上仅微弱优于经验风险最小化基线。这是首个针对传感器HAR中特定分布偏移的域泛化和适应系统性探索，并提供了开源基准平台和数据集。

论文 HAR domain generalization distribution shift 人类活动识别域泛化

推荐理由：这篇论文拆解了HAR模型在真实场景中表现不佳的原因，系统测试了4种偏移和28种方法，结论对做可穿戴设备或传感器AI的人很有参考价值。

原文

12:00

arXiv cs.AI@Adhitya Charan, Adwaid Suresh, Anuj Kumar, Aparna A, Dhanakumar K, Dharun M S, Dinesh G, Goutham Kumar Reddy K, Harshini V M, Jenifa D, Jona Delcy C A, Kathirvel S, Killi Uma Maheswara Rao, Kiruthik Kanna M, Kurra Vishnu Sai, Madhumithaa G K, Navin Kumar, Ram Charan Golla, Revathi T, Rishikkanth R, Sanjay Krishna M, Surendra Vendra

BluTrain是一个用标准C++和CUDA实现的AI训练框架。在8-GPU 6000 Ada系统上训练124M参数GPT-2模型（FP32），其吞吐量达407K tokens/s，比PyTorch的395K tokens/s高约3%。同时内存占用减少22%，且严格保持数值精度。框架包含原生实现的张量模块、反向模式自动微分、线性代数库、缓存分配器、分布式执行和MLIR编译器。

AI模型 BluTrain C++/CUDA GPT-2 训练框架性能优化

推荐理由：这个新框架用C++从头写，训练GPT-2比PyTorch快3%且省内存22%，适合追求极致性能的开发者。

原文

11:59

arXiv cs.AI@Shiyu Li, Ziqi Yan, Zhihao Wu, Jielong Lu, Weiran Liao, Jiajun Yu, Genjie Li, Zeyu Chu, Jiajun Bu, Haishuai Wang

DeepBD是一种基于智能体的工作流，用于遗传出生缺陷的变异优先级排序和诊断解释。该工作流包括LLM辅助病例结构构建、预训练证据引擎、专家证据模块和接地诊断审查层。证据引擎从结构化规则证据、序列和变异效应表示以及表型条件生物学背景中学习患者特定变异分数。基于包含18,622例的胎儿和婴儿队列开发，DeepBD在内部保留的已解决病例基准上实现了Recall@1/3/5/10分别为0.658/0.882/0.912/0.929，超过了Exomiser、DeepRare和基于提示的LLM重排序基线。消融和重叠分析表明，规则证据、机制背景和专家细化提供了互补信号。

论文 DeepBD Exomiser DeepRare 智能体工作流变异优先级排序

推荐理由：这篇论文提出了一个接地气的智能体工作流DeepBD，用LLM辅助分析遗传变异，在18,622例队列中召回率比Exomiser和DeepRare都高，适合做基因诊断研究的参考。

原文

11:58

arXiv cs.LG@Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager

InSight框架通过将VLA模型在原始动作层面变得可操控，从而解锁自主技能获取能力。该框架包含自动分割管道，利用VLM计划分解和末端执行器姿态将演示分割成带标签的原始动作，以及VLM引导的数据飞轮，自动识别缺失原始动作并尝试演示。在模拟和真实世界操作任务中（包括方块翻转、抽屉关闭、清扫、扭转、倒水）评估，无需任何人工演示即可学习这些技能。学到的原始动作可组合执行新颖的长周期任务，无需额外人工演示。

论文 InSight VLA 操作技能自主学习机器人

推荐理由：这篇论文提出了InSight框架，让机器人通过VLA模型自己学新技能，不用人教，就能搞定方块翻转、倒水这些操作，很有实用性。

原文

11:53

arXiv cs.LG@Jason Sulskis, Sathya Ravi

精选

该论文提出Hartley Neural Operator (HNO)，作为Fourier Neural Operator (FNO)的纯实数镜像，用实离散Hartley变换替代复FFT。HNO在每个保留谱模式上学习单个实权重，无复数运算。实验表明，对于自伴椭圆偏微分方程（如泊松、双调和方程），HNO表现更优，因为其实对称Green函数可被实数对角化；对于含相位的时间依赖方程（如波动、对流、Burgers、Navier-Stokes），FNO更优，且优势随相位含量增加而增强。研究给出了基于算子对称性选择谱基的预测规则。

论文 Fourier Neural Operator Hartley Neural Operator 神经算子 Green函数偏微分方程

推荐理由：这篇论文告诉你，求解偏微分方程时该用复傅里叶还是实哈特利基——没有万能赢家，得看算子有无相位。

原文

11:52

arXiv cs.LG@Hariom Ingle, Ronit Ghode, Ishwari Gondkar, Jidnyasa Harad, Raviraj Joshi

L3Cube-MahaPOS是首个大型人工标注的马拉地语词性标注数据集，包含32,354句新闻文本，遵循16标签Universal Dependencies方案。研究在HMM、CRF、BiLSTM、BiLSTM+CharCNN、MuRIL和MahaBERT-v2六类模型上进行了基准测试。最佳模型MahaBERT-v2达到88.67%的token级准确率和81.67%的宏F1分数。该数据集和模型检查点已开源，可助力马拉地语NLP研究。

AI模型 L3Cube-MahaPOS MahaBERT-v2 Marathi 词性标注数据集

推荐理由：马拉地语有8300万使用者但标注数据稀缺，这个新数据集和MahaBERT模型基准很实用，适合做低资源语言NLP的朋友参考。

原文

11:51

arXiv cs.LG@Anand Kamat, Daniel Blake, Brent M. Werness

Grad Detect 是一种通过分析大语言模型推理时逐层梯度模式来检测幻觉的方法。在多个 Q&A 基准（如 TriviaQA、Natural Questions）上，Grad Detect 在幻觉检测和模型弃权预测任务中均优于基于置信度或采样的基线。层消融实验覆盖 11 个模型和 4 种架构，发现最后 5 个层集中了超过 97% 的判别梯度信号，因此可实现高效部署。该方法为评估 LLM 可靠性提供了统一框架，兼具高预测性能和可解释性。

论文 Grad Detect 幻觉检测 LLM 梯度分析 AI安全

推荐理由：这篇论文教你用梯度信号抓幻觉，比看置信度准得多，而且发现只看最后5层就够了，省算力。

原文

11:50

arXiv cs.LG@Giorgio Corani, Stefano Damato, Dario Azzimonti, Lorenzo Zambon

该论文探讨了在多个时间序列数据集上，使用适当评分规则（如平均分、中位分、平均排名）进行概率模型选择时出现的冲突问题。研究发现，这些统计量产生冲突决策的原因是评分分布的偏态性。随着每个时间序列测试集增大，不同模型选择标准会逐渐收敛到相同结论；但对于短测试集，只有平均分能正确识别真实模型。论文基于间歇性时间序列（包括M5竞赛数据集）进行了实验验证，强调了大规模测试集的重要性。

论文 M5 competition 适当评分规则时间序列模型选择概率模型

推荐理由：这篇论文用M5竞赛数据测试了不同模型选择标准，发现短测试集时只有平均分靠谱。搞时间序列模型的人可以参考。

原文

11:49

arXiv cs.LG@Somyajit Chakraborty, Ming Pan, Xizhong Chen

该论文提出一种物理信息傅里叶-小波Transformer，用于计算流体动力学替代建模。方法结合了混合傅里叶-小波谱编码和基于PDE残差诊断的物理偏置自注意力机制，并通过遮罩物理预测和方程一致性预测进行自监督预训练。在圆柱尾流基准上，模型的全通道归一化均方误差为0.05875，皮尔逊相关系数为0.97019。在流固耦合基准上，全通道归一化均方误差为2.70×10⁻⁴，而最强基线为4.02×10⁻⁴。组件级场比较和尺度分离诊断显示，模型更好地恢复了近体、尾流核心和远尾流等局部尾流结构。

论文 Fourier-Wavelet Transformer CFD Physics-Informed 替代建模多尺度

推荐理由：这个新模型用傅里叶加小波做流体模拟，比传统方法更准，尾流细节抓得更好，误差直接砍半。

原文

11:47

arXiv cs.LG@Kunyu Ni, Lei Cao, Jie He, Xiaotong Zhang, Jianfeng Jin, Junyu Dong, Yanwei Yu

精选

论文提出FlowPipe，将数据预处理管道构建转化为有向无环图上的条件概率流生成问题。FlowPipe基于条件生成流网络（C-GFlowNets）与轨迹平衡目标，将终端验证奖励与早期决策联系。通过深度语义调制（FiLM）注入LLM提取的逻辑先验，并加入失败感知机制避免无效状态。在包含74个真实数据集的基准测试中，FlowPipe比Multi-DQN基线平均准确率提升11.96%，训练收敛速度提升12.5倍。

论文 FlowPipe LLM C-GFlowNets 数据预处理自动管道构建

推荐理由：自动搭数据管道的难题，FlowPipe用LLM+生成流网络解决了，74个数据集上准确率升12%，训练快12倍多，比老方法强一截。

原文

11:46

arXiv cs.LG@Callum Marsh, Radek Erban, Andreas Munch

ESPINN框架从瞬态快照数据中反向识别相场模型，同时恢复体化学势和未知梯度系数。在一维Cahn-Hilliard方程实验中，无噪声时单快照对即能准确重建。有噪声时精度下降，但增加快照数量可降低方差、提升鲁棒性。该方法实现了数据高效且物理一致的自由能结构学习。

论文 ESPINN phase-field Cahn-Hilliard 物理信息神经网络逆问题

推荐理由：这篇论文的ESPINN模型用少量快照就能反推出相场模型的化学势和梯度系数，实验稳定，值得关注。

原文

11:46

arXiv cs.LG@Murilo Gazzola, Hugo Gobato Souto, Samuel Silva, Júlia Schubert Peixoto, Felipe Siqueira, André Luis Pedroso de Morais, Caio Gomes

巴西电商产品数据激增，传统命名实体识别(NER)难以处理葡萄牙语描述差异。论文提出AI-PAVE-Br系统，使用大语言模型(LLM)进行产品属性值提取(PAVE)，并发布Golden Set——一个手动注释的葡萄牙语PAVE基准数据集（含实体、品类、子品类）。实验表明，AI-PAVE-Br通过定向提示工程，在PAVE任务上显著超越传统NER基线。该成果为巴西电商提供了可扩展方案，并向NLP社区公开了高质量评测资源。

论文 AI-PAVE-Br Golden Set 大语言模型巴西电商属性值提取

推荐理由：这篇论文做了个巴西电商的属性提取系统，用LLM加提示工程比传统NER强不少，还公开了葡萄牙语数据集。

原文

11:45

arXiv cs.LG@Parth Upman, Shreyank N Gowda

QC-SMOTE提出一种质量控制过采样框架，通过复合邻域信任度评分估计少数类样本可靠性。生成候选样本时采用IPQ引导的最佳K策略，评估中点纯度并考虑多数类清除。方法根据重叠-不平衡程度自适应调整插值范围和选择标准。在30个不平衡数据集上的重复分层交叉验证显示，QC-SMOTE在平均AUC-ROC和Macro F1上优于对比过采样方法，在中度和严重不平衡下提升尤为明显。

论文 QC-SMOTE SMOTE 不平衡分类过采样数据增强

推荐理由：这篇论文提出了QC-SMOTE，在30个数据集上比传统SMOTE获得更好的AUC和F1分数，特别适合处理中度到高度不平衡的数据。

原文

11:44

arXiv cs.LG@Anurag Akula, Satheesh K. Perepu, Abhishek Sarkar, Kaushik Dey

ASALT是一种针对多智能体强化学习（MARL）的迁移学习方法，解决了源域和目标域观测空间与全局状态空间维度不匹配的问题。该方法引入观测层和状态层适配器，将目标域观测和全局状态映射到共享嵌入空间，支持跨异构域的策略迁移。在标准基准环境的多个配置上，ASALT在合作场景中相比现有基线提升了样本效率和全局回报，但效果依赖于源域与目标域的不匹配程度。实验还表明ASALT能缓解负迁移，这是跨不同观测和动作空间域迁移时的常见障碍。

AI模型 ASALT MARL 多智能体迁移学习强化学习

推荐理由：ASALT这个新方法解决了MARL中状态空间维度不同时知识迁移的难题，实验效果不错，值得做多智能体迁移学习的同学看看。

原文

11:43

arXiv cs.LG@Nahuel Gonzalez, Marta Robledo-Moreno, Ivan DeAndres-Tame, Ruben Vera-Rodriguez, Ruben Tolosana

该论文提出EERLoss，一种可微且任意精度的等错误率（EER）近似损失函数，直接优化生物特征验证的主要评价指标。在KVC-onGoing基准上测试，涵盖超18.5万被试的击键动力学数据。消融实验表明EERLoss优于现有损失函数，且收敛更快。用EERLoss重新训练KVC-winning架构后，EER相对降低约30%，显著超越原SOTA。

论文 EERLoss 击键动力学 KVC-onGoing 生物特征损失函数

推荐理由：这篇论文直接优化EER指标，在18.5万人击键数据上EER降了30%，训练还更快，做生物识别的值得一看。

原文

11:42

arXiv cs.LG@Kanishk Awadhiya

该论文提出一种受物理启发的推理机制，将大语言模型视为高维密集联想记忆体。作者通过吉布斯权重对多个推理路径进行加权（P∝e^{-βE}），使模型收敛到更稳定的吸引子盆地。实验表明，该方法在GSM8K上将微软Phi-3.5的准确率从84.7%提升至90.1%，提升5.38%。这揭示了推理过程更像动态松弛而非贪婪词预测。

论文 Phi-3.5 GSM8K 吸引子动力学推理模型

推荐理由：这篇论文用物理能量模型解释推理，让Phi-3.5在GSM8K上提了5.38%，思路挺新。

原文

11:41

arXiv cs.LG@Oleg Platonov, Gleb Bazhenov, Dmitry Eremeev, Liudmila Prokhorenkova

论文图基础模型 Graph Foundation Models 节点属性预测 Prior-data Fitted Networks GNN

推荐理由：这篇论文帮你打破了GNN和GFM的迷雾：实测9个模型，发现只有Prior-data Fitted Networks那类才真能打，但代价是推理更慢。想搞清楚哪些图模型值得用就看它。

原文

11:41

arXiv cs.LG@Zhuoren Ye, Tianyu Wo, Dinghao Xue, Mingming Zhang, Yuchen Teng, Chunming Hu, Renyu Yang

CrossPool 是一种为冷 MoE 模型设计的多 LLM 服务引擎，它将 FFN 权重和 KV-cache 分离到两个 GPU 内存池中。权重池合并多个冷模型的 FFN 权重，KV-cache 池动态服务活跃请求，使注意力计算局部化。系统包含 KV-cache 规划器、虚拟化器、层间流水线调度器以及持久化内核，减少了 CPU-GPU 控制开销。在突发长上下文请求下，CrossPool 相比基于 KV-cache 的最先进多 LLM 服务系统，将 P99 TBT 降低了最多 10.4 倍。

论文 CrossPool MoE KV-cache 推理模型模型服务

推荐理由：这篇论文提出了 CrossPool，通过分离权重和 KV-cache 池，能大幅降低冷 MoE 模型的推理延迟，比现有系统快 10 倍以上。

原文

11:40

arXiv cs.LG@Jinghan Wang, Feng Cheng, Wentao Wu, Hang Li, Gaoliang Peng, Tianchen Liu

该论文提出一种知识引导的两阶段迁移学习框架，核心是一个轻量级GPT-2风格Transformer，利用因果自注意力从振动信号中分层提取特征。框架通过多源预训练学习通用表示，并借助原型知识调制和分类自适应实现跨域迁移。在4个真实数据集上，仅用10%标签数据即达92.61%平均准确率，比现有最佳方法高17.24个百分点。该方法为工业4.0低成本预测性维护提供了可行方案。

论文 GPT-2 Transformer 轴承故障诊断迁移学习小样本学习

推荐理由：这篇论文把GPT-2用在轴承故障诊断上，只用10%的标签数据就比SOTA高了17个百分点，工业场景下很实用。

原文

11:39

arXiv cs.LG@Callum Gray, Cassandra Hall, Stefano Santabarbara, Klaus Schmidt-Rohr, Andrew Ringham, Edward Gillen, Thomas J. Haworth, Christopher D. P. Duffy

研究团队基于热力学和氧化还原化学提出一个无参考生物的光合作用宜居带(agnostic PHZ)模型。该模型使用遗传算法优化光吸收特性和CO2还原速率，以匹配主序星周围系外行星的辐照光谱。模拟显示，光合生物通过演化更大的捕光结构来补偿光通量下降，使得光合可行性仅随轨道距离线性下降而非平方反比，因此agnostic PHZ远超以往基于地球生物的估计。对于M矮星，可见光氧光合作用在宜居带外缘受限，但无氧光合作用和近红外驱动的氧光合作用在整个宜居带均可行，表明M矮星系外行星可能维持不同于地球的氧光合作用。

论文光合作用系外行星宜居带 M矮星机器学习

推荐理由：这篇论文用机器学习推翻了以往对光合作用宜居带的认知，发现M矮星周围行星的宜居潜力比我们想的大得多，而且可能产生近红外的生物特征信号。

原文

11:38

arXiv cs.LG@Kamil Kwarciak, Marek Wodzinski

提出 PCFM 模型，基于 PTv3 和流匹配方法进行医学点云补全。在 SkullFix、SkullBreak 和 Mandibular Defect 三个数据集上评估。相对扩散模型（PCDiff），PCFM 采样步数大幅减少，在生成性能上达到最优。在最佳操作点，使用 PTv3 骨干比 PVCNN 快 7 倍。

AI模型 PCFM PTv3 flow matching 点云补全医学图像

推荐理由：这篇论文搞了个 MedPCFM，用流匹配做医学点云补全，比扩散模型快7倍，在好几个头骨和下颌骨数据集上效果最好。

原文

11:37

arXiv cs.AI@Xiaowei Gao, Pengxiang Li, Yitai Cheng, Ruihan Xu, James Haworth, Stephen Law, Yun Ye

UniDrive是一个统一视觉语言与定位框架，旨在实现自动驾驶中的可解释风险理解。它通过时间推理分支从多帧视觉输入建模场景动态，并通过高分辨率感知分支从最新帧保留细粒度空间细节，两者经门控交叉注意力融合模块集成。基于融合表示，UniDrive联合生成自然语言风险描述和风险对象的边界框输出。在DRAMA-Reasoning基准上，UniDrive在描述和风险对象定位上均优于基于图像和视频的基线，并在小目标定位、零样本泛化至NuScenes和BDD100K方面表现突出，人类评级的可解释性和可信度也更高。

论文 UniDrive 自动驾驶 DRAMA-Reasoning 多模态大模型零样本泛化

推荐理由：这个框架把时序推理和高分辨率感知结合起来，在DRAMA-Reasoning上碾压了现有方法，还能零样本泛化到NuScenes和BDD100K，代码也开源了，做自动驾驶可解释性研究的值得一看。

原文

09:46

arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong

71°

RaDaR是一个32B参数的开源推理大模型，专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中，RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断，提前时间1.87个月。在随机医生辅助试验中，RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。

AI模型 RaDaR DeepSeek-R1 开源模型罕见病诊断推理模型

推荐理由：RaDaR发布了一个32B开源推理模型，罕见病诊断比DeepSeek-R1还强，医生用它准确率提升21%。

原文

09:43