全部 AI 动态 · AI 热点

6月25日

09:45

arXiv cs.AI@Md Omar Faruk Rokon, Shasvat Desai, Hong Yao, Kuang-chih Lee

论文提出校准模型级联方法，通过路由查询至逐步更大的微调分类器，在赞助搜索中高效生成相关性标注。微调贡献20个准确率点，级联几乎不影响准确率但将计算成本减半。逐类等渗校准带来+0.6个点的统计显著提升。系统在生产中处理了1.5亿+标注，加速实验周期。

论文 AutoRelAnnotator 相关性标注模型级联校准赞助搜索

推荐理由：这篇论文教你怎么用级联模型做标注，既省成本又保精度，实测处理了1.5亿条数据。

原文

09:44

arXiv cs.AI@Kavindu Herath, Joshua C. Zhao, Saurabh Bagchi

该论文研究联邦学习中的语义后门攻击，利用口罩、墨镜等自然视觉对象作为触发器，仅改变颜色。在四类CelebA发色分类任务上，白色触发器对攻击金发类别更有效（成功率显著更高），黑色触发器对攻击黑发类别更有效。实验采用标准投毒目标与SABLE增强目标（结合分类损失、触发目标损失、特征分离损失及正则化），发现即使语义、位置和投毒预算不变，颜色也能显著改变攻击成功率，该结论在鲁棒聚合下依然成立。

论文联邦学习后门攻击触发器颜色语义后门 CelebA

推荐理由：这篇论文告诉你，连后门攻击的触发器颜色都不能随便选。在CelebA发色任务上白trigger专克金发、黑trigger专克黑发，实验设计很扎实。

原文

09:44

arXiv cs.AI@Peng Xu, Sijia Chen, Junzhuo Li, Xuming Hu

论文提出SCPO，一种价值无关的奖励塑造方法，通过对比同组内成功与失败轨迹的中间步骤，为失败步骤恢复正向信用。该方法解决了因轨迹最终结果不同导致语义相似的中间步骤获得相反信用的问题。在ALFWorld基准上，1.5B参数模型达到93.7%±4.1%成功率；在WebShop基准上达到74.8%±2.0%成功率，提升集中在最难的多步任务。

论文 SCPO ALFWorld WebShop 强化学习智能体

推荐理由：这篇论文解决了强化学习给LLM智能体分配奖励时的一个逻辑问题：相同意思的步骤因轨迹成败拿了相反信用。SCPO在ALFWorld和WebShop上跑分挺高，最难的步骤提升明显。

原文

09:43

arXiv cs.AI@Duy Tran Thanh

论文提出MagikaDocumentFromPixel，一个轻量级CPU图像质量门，在单个CPU核上约7ms判断图像为清晰、模糊或不确定。基于46配置8扫描经验搜索，发现输入分辨率是主导杠杆。引入边缘先验模块(EPM)，通过拉普拉斯幅度辅助输入使F1提升1.3点。在GoPro Large帧上以384x384训练，F1达0.9803（AUC 0.9989），ONNX模型仅17 MB。局限性包括仅针对单一运动模糊分布和单次种子结果。

论文 MagikaDocumentFromPixel MobileNetV3-Large EPM 模糊检测视觉语言模型

推荐理由：这论文搞了个超轻量的图像模糊检测模块，7毫秒就能判断，能帮下游视觉语言模型省掉很多无用计算。实测F1到0.98，模型才17MB，值得做生产管线的看看。

原文

09:40

arXiv: OpenAI@Barna Saha, Yinzhan Xu, Christopher Ye

精选

该论文证明在SETH假设下，Furthest Pair、Bichromatic Closest Pair等几何问题在d=ω(1)维度时需n^{2-o(1)}时间。此前Chen (2020)只对d=2^{Θ(log^* n)}维度成立。新结果将所有可构造维度纳入下界，意味着现有f(d)·n^{2-Θ(1/d)}算法的维度依赖本质上不可避免。证明技术利用了OpenAI近期对Erdos单位距离猜想的反证方法。

论文 Furthest Pair SETH 计算几何论文

推荐理由：这篇论文把SETH下界从特殊维度扩展到所有可构造维度，说明计算几何经典问题的维度依赖几乎无法消除。

原文

09:40

arXiv: OpenAI@Nikolaos D. Tantaroudas, Ilias Karachalios, Andrew J. McCracken

论文介绍了Falco eleonorae，一个面向希腊小岛农民的双语（希腊语主、英语次）对话式AI助手。系统利用OpenAI GPT-5家族模型进行回答生成，并通过MCP工具查询本地作物、季节性日历、方言词汇等结构化数据。它支持语音输入（使用欧盟流式语音转文字服务）和图像描述（由视觉模型处理），并设计为渐进式Web应用以适应低带宽环境。作者论证，对于资源受限的农村部署，这种托管式检索增强方案比自托管模型更可靠且更易实现。

论文 Falco eleonorae GPT-5 MCP/工具多模态 RAG

推荐理由：OpenAI的GPT-5给希腊农民做了个接地气的AI助手，能说方言、看图、查作物日历，比通用聊天更实用。

原文

09:39

arXiv cs.AI@Hyejun Jeong, Dzung Pham, Amir Houmansadr, Eugene Bagdasarian

研究人员提出并形式化了“代理监控”（agentic surveillance）问题，即AI智能体利用可访问信息生成报告并发送的能力。他们创建了SurveilBench数据集，涵盖企业、教育和警察三个领域的多种报告场景。实验发现部分模型会自发协助监控，但也会主动向政府报告监控尝试。为对抗这类监控，论文开发了三种提示注入逃逸技术：隐藏、欺骗或诱导过度上报。研究表明代理监控已可轻易实现，亟需技术、伦理和法律框架保护用户。

论文 AI安全智能体提示注入 SurveilBench 监控

推荐理由：这篇论文发现了AI智能体会自动打小报告，还给出了三种对抗方法，搞AI安全的朋友可以看看。

原文

09:37

arXiv cs.AI@Tianyu Dong, Yangyang Liu, Jiang Zhou, Xinwei Wu, Xiaohu Zhao, Hao Wang, Heng Liu, Linlong Xu, Longyue Wang, Weihua Luo, Shaolin Zhu, Deyi Xiong

稀疏MoE（Mixture-of-Experts）模型在多语言场景下，低资源语言因数据稀缺导致路由与高资源语言不一致，限制跨语言知识共享。为此提出SARA（Semantically Anchored Routing Alignment）框架，利用对称JS散度对齐路由分布。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct两个模型上，针对5种低资源语言和3个基准测试，SARA在Global-MMLU上分别提升0.8%和1.2%。该方法不依赖输出logits蒸馏，直接对齐内部路由机制，有效缓解低资源语言瓶颈。

论文 SARA MoE Qwen3 多语言模型开源模型

推荐理由：论文提出SARA方法，用语义锚对齐MoE路由，让低资源语言也能用好专家能力，Global-MMLU提升0.8%-1.2%。

原文

09:36

arXiv cs.AI@Konstantin Kueffner, Tobias Meggendorfer, Maximilian Weininger, Patrick Wienhöft

本文提出用于Markov决策过程（MDP）在线统计模型检验的置信序列方法。传统方法依赖已知转移概率或通过子优采样策略，而新方法利用在线置信序列避免了经典的联合界（union-bound）风格。作者实现了所有方法并证明其比先前最先进技术平均减少50倍样本量。实验表明，新方法在保证统计保证的同时显著提升采样效率。

论文置信序列 Markov决策过程统计模型检验在线模型检验样本效率

推荐理由：这篇论文用置信序列代替传统联合界方法，让MDP采样效率平均提升50倍，做在线统计模型检验的人可以看看。

原文

09:35

arXiv cs.AI@Han Jeon, Shiv Medler, Joseph Voyles, Matt Wood

该论文系统比较了ModernBERT、Ettin等现代编码器分类器与LlamaGuard 3、LlamaGuard 4等LLM裁判在识别有害输出上的性能。使用F1分数、假阴性率和精准率-召回率指标评估，并分解了单轮提示、分解、升级和上下文操纵四种攻击技术。实验发现编码器分类器在多数场景下性能接近LLM裁判，但成本和延迟显著更低。

论文 ModernBERT Ettin LlamaGuard LLM安全评估 AI安全

推荐理由：ArXiv上新论文，用ModernBERT和Ettin编码器做安全裁判，比LlamaGuard快还便宜，准确率没差太多。

原文

09:34

arXiv cs.AI@Enrique Palacín, Fernando Bobillo, Ignacio Huitzil, Francesca A. Lisi, Umberto Straccia

该论文提出一个通用框架，用于在OWL本体和RDFS知识图谱上评估模糊量化查询。框架支持Type I和Type II模糊量化表达式的个体检索。核心优势在于不依赖特定量化器类型、评估方法或数据源。作者还发布了开源实现Q2S2以支持后续研究。

论文 OWL RDFS 知识图谱模糊量化 Q2S2

推荐理由：一篇论文提出了一个能处理模糊量化查询的通用框架，不挑量化器类型和数据源，还开源了Q2S2实现。

原文

09:34

arXiv cs.AI@Nicolas Flammarion, Chirag Pabbaraju, Hristo Papazov, Miltiadis Stouras, Ola Svensson

精选

该论文提出一种资源感知的语言生成极限理论框架，在空间效率约束下研究从对抗性正例流中学习目标语言。主要结果：当允许指数空间时，学习器能精确识别目标语言K；在多项式空间约束下，给出一种使用poly(s,k)空间的流式算法，其生成间隙Δ=O(k^{2s-2})，并能捕获K中所有长度≥2s-1的字符串。通过通信复杂度归约证明下界：要达到生成间隙Δ≤k^{(1-ε)s}，需要k^{Ω(εs)}内存。这些结果揭示了多项式空间生成与指数空间精确识别之间的尖锐转变。

论文语言生成有穷自动机空间复杂度流式算法

推荐理由：这篇论文为空间受限下的语言学习建立了严格理论框架，给出了指数和多项式空间下的精确界限，对理解计算资源与生成能力的关系很有启发。

原文

09:33

arXiv cs.AI@Octavia-Andreea Ciora, Julian Welzel, Dennis Frauen, Maresa Schröder, Marie Brockschmidt, Harry Amad, Thomas Callender, Mihaela van der Schaar, Stefan Feuerriegel

OncoSynth是一种因果感知的生成式机器学习框架，采用扩散序列方法模拟协变量对治疗分配的影响以及治疗对生存的影响。在大规模肺癌（N=37,128）和乳腺癌（N=17,046）队列上评估，OncoSynth生成的合成患者队列能保留真实世界的患者、治疗和结局分布。与现有方法相比，OncoSynth将群体水平治疗效应估计误差降低最多66%，患者水平误差降低最多58%。该方法支持在数据共享受限场景下为精准肿瘤学提供可靠证据。

论文 OncoSynth 肿瘤学合成数据治疗效应估计扩散模型

推荐理由：这篇论文推出了OncoSynth，能用合成数据准确估计肿瘤治疗效果，比现有方法误差降低一半以上，适合做医疗AI的朋友了解。

原文

09:32

arXiv cs.AI@Divake Kumar, Sina Tayebati, Devashri Naik, Amanda Sofie Rios, Nilesh Ahuja, Omesh Tickoo, Ranganath Krishnan, Amit Ranjan Trivedi

Argus基准系统评估了4个VLM智能体和4个数据集上27种开箱不确定性量化方法，以及3个闭源供应商的8种方法。主要发现是UQ排名在固定模型下跨数据集稳定（Spearman rho最高0.969），但跨模型类和接口时衰减。隐状态和密度法在开箱族中最稳定，而CoCoA-1MCA、Focus等方法在特定场景胜出。闭源UQ需在目标上重新排序，平均转移相关性仅+0.08。校准后局部加权盘半径缩小40-60%，但校准-测试不匹配时覆盖度下降。

论文 Argus VLM GUI定位不确定性量化计算机使用智能体

推荐理由：这篇论文搞了个Argus基准，比较了27种不确定性方法在4个VLM模型和4个GUI数据集上的表现。结论很实在：方法排名换模型就不灵了，闭源还得单独测。做智能体部署的可以看看。

原文

09:31

arXiv cs.AI@Vasiliy A. Es'kin, Egor V. Ivanov

该论文提出一种基于梯度的极紫外（EUV）掩模反演光刻（ILT）框架，将可微波导法和最近提出的波导神经算子（WGNO）作为端到端物理引擎。通过全前向衍射模型的自动微分恢复掩模吸收体的介电常数。在TaBN、La、U等实际2D和3D掩模吸收体上，于11.2nm波长下进行数值实验，验证了该方法可获得符合晶圆目标场的掩模结构。

论文 EUV ILT WGNO 反演光刻物理信息神经算子

推荐理由：这篇论文用可微波导法和WGNO做EUV掩模反演光刻，能自动恢复吸收体参数，在11.2nm下针对实际材料验证效果，做光刻仿真的可以看看。

原文

09:30

arXiv cs.AI@Linchun Wu, Qin Zou, Jiwen Lu, Qingquan Li

现有3D点云异常检测面临弱缺陷（如划痕）重建难，偏差仅10^{-3}，且背景非缺陷区易产生误报。PCDiff框架在生成阶段嵌入实例级多模态注意力，利用纹理梯度、图像块、文本和掩模条件生成高质量弱缺陷异常样本。检测阶段采用联合局部-全局重建算法，同时恢复局部异常和保持全局几何一致性。实验表明PCDiff在异常生成保真度和重建质量上显著超越现有方法。

论文 PCDiff 点云扩散 3D异常检测实例级异常检测扩散模型

推荐理由：PCDiff新框架搞定3D点云弱缺陷检测，生成异常样本更逼真，重建更准，减少误报。

原文

09:29

arXiv cs.AI@Rita-Nathalia Assaf, Tom Davot, Frédéric Lardeux, Frédéric Saubion

本文提出位置图（position graphs），一种基于位置空间形式化的图推理框架。该框架使用两个严格偏序关系（分别表示水平和垂直对齐与优先）来建模离散标记的相对位置。与通用定性空间演算不同，位置图受到链条件和兼容性约束，重点聚焦行与列。文章提供了位置图一致性的充要条件，并证明在该类图上诱导子图同构问题（用于结构模式发现）是NP完全的。该工作源于文档处理，但独立于具体提取技术，专注位置约束的数学性质。

论文 Position Graphs Position Spaces 图推理文档处理 NP完全

推荐理由：这篇论文提出了位置图框架，用图结构建模离散token的空间关系，并证明了模式发现是NP完全问题，适合对图推理或文档分析感兴趣的研究者。

原文

09:28

arXiv cs.AI@Aradhana Nayak, Mussadiq Nazeer, Wang Peng, Feng Liu

该论文提出一个GUI探索器agent，从示范任务出发系统探索查询空间，识别会导致用户敏感状态的GUI操作。现有LLM agent通常被微调为不管安全影响都完成任务，难以部署。论文定义了用户敏感状态和查询的分类，帮助工程人员在关键场景下识别并请求用户接管。实验在开放GUI环境中验证了方法的有效性。

论文 LLM agents GUI AI安全智能体

推荐理由：研究团队做了一个GUI探索器，自动找出那些需要你亲自操作的敏感界面，比直接让AI乱点安全多了。

原文

09:26

arXiv cs.AI@Yinuo Wang, Gavin Tao, Yuze Liu

该论文将水下机器人控制问题建模为受平均推进器功率预算约束的马尔可夫决策过程，并采用PPO-Lagrangian算法求解。在MarineGym模拟器中，基于三个不同水下机器人模型和四个任务（共12个设置）的测试表明，能量约束策略相比仅优化任务的基准降低了14%至65%的功耗（最高达64.9%），且在10个设置中控制最为平滑。该方法无需针对每个机器人和任务手动调整权重，只需通过物理单位设定功率预算即可。

论文 PPO-Lagrangian MarineGym 水下机器人约束强化学习能量效率

推荐理由：这篇论文用约束强化学习给水下机器人设功率预算，省电14-65%，而且不用针对不同机器人和任务调参，在模拟器上验证了。

原文

07:24

elvis@omarsar0

精选

Eric Xing 等人在 arXiv（编号 2606.23991）发表论文，尝试界定 agent 与 agency 的边界。论文基于笛卡尔哲学和科幻作品，提出分析 agent 架构的五个维度：目标、身份、决策、自我调节和学习。作者认为真正的自主性要求这些结构以特定方式整合。该研究为区分简单的工具调用循环与真正的智能体提供了概念框架。

论文 Eric Xing arXiv 2606.23991 智能体 Agent定义论文

推荐理由：想搞清楚什么才算智能体？这篇论文给出了五个硬指标，比瞎猜管用多了。

原文

01:30

01:30Google Research: Blog（资讯）

精选

Google Research提出'Thinking to Recall'假设，认为链式思维（Chain-of-Thought）推理的本质是组合LLM参数中分散存储的知识片段。基于PaLM 2模型的实验显示，在GSM8K和MATH等数学推理基准上，推理步骤让模型更有效地调用习得的知识。该工作揭示了注意力机制在定位和整合参数化知识过程中的关键作用。

论文 Chain-of-Thought PaLM 2 参数化知识推理机制知识检索

推荐理由：Google用PaLM 2发现，模型不靠堆算力背答案，而是靠推理串起脑袋里分散的知识点。比直接猜准多了。

原文

6月24日

12:13

arXiv cs.AI@Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang, Leon Liangyu Chen, Xiaokun Chen, Steven Dillmann, Saadia Gabriel, Xunyi Jiang, Anurag Kashyap, Boxuan Li, Yein Park, Minh Pham, Sujay Sanghavi, Lin Shi, Ke Sun, Yixin Wang, Zhiwei Xu, Erica Zhang, Siyan Zhao, Wanjia Zhao, Jenia Jitsev, Alex Dimakis, Benjamin Feuer, Ludwig Schmidt

OpenThoughts-Agent项目提出一个完全开源的数据整理流程，用于训练通用智能体模型。研究团队进行超过100次对照实验，系统分析了数据来源和多样性的重要性。基于该流程构建了10万样本的训练集，微调Qwen3-32B模型后，在7个智能体基准上平均准确率达44.8%，比最强开源模型Nemotron-Terminal-32B（40.9%）提升3.9个百分点。该训练集在计算量可控的对比中表现出强扩展性，所有数据、管道和模型已在openthoughts.ai开源。

论文 OpenThoughts-Agent Qwen3-32B Nemotron-Terminal 智能体开源模型

推荐理由：想自己训练智能体模型？这里有开源的数据配方和100次实验的经验，帮你少走弯路。

原文

12:12

arXiv cs.AI@Blade Frisch, Will Wade, Dylan Gaines, Michelle Kinsella, Betts Peters, Tamara Broderick, Keith Vertanen

该论文分析了6个AAC（辅助与替代沟通）问题空间的复杂性。AI可以增强AAC用户的能力，但当前评估指标难以捕捉用户的多方面需求。作者提出了更鲁棒的评估方法以考虑用户的交叉性细微差别。论文还讨论了跨问题空间的更广泛问题及解决思路。

论文 AAC AI 辅助技术人机交互评估方法

推荐理由：这篇论文深入探讨了AI增强AAC界面评估的挑战，提出了新的评估方法，对研究人机交互和辅助技术的人很有启发。

原文

12:11

arXiv cs.AI@Zixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li, Xinyang Song, Zelong Zheng, Yong He, Heng Yao, Ke Ding, Chao Yu, Chuan Yuan, Qi Li, Zhenan Sun

统一多模态大语言模型在文本到图像生成中仍难以精确遵循结构提示（如物体计数、空间关系、属性绑定、粗略布局）。IV-CoT提出的隐式视觉思维链框架将视觉条件分解为结构查询和语义查询的级联，结构查询先形成隐式视觉计划，语义查询再基于该计划渲染外观。训练时引入草图监督信号，无需推理时草图提取或中间解码，在单个前向传播中完成隐式CoT推理。该方法在GenEval和T2I-CompBench基准上取得更优结果，可视化分析验证了结构和语义查询的互补作用。

论文 IV-CoT MLLM 文本到图像生成结构感知视觉思维链

推荐理由：这篇论文解决了文生图模型在物体数量、空间位置等结构细节上经常翻车的问题，用隐式思维链单次前向传播搞定，在GenEval和T2I-CompBench上效果更好。

原文

12:11

arXiv cs.AI@Yikai Lu, Yifei Wu, Xinyu Lu, Tongxin Li

该论文证明通用智能体在大型场景下不可能具备万能能力，传统最坏情况分析无法区分关键瓶颈与无关失败。作者提出结构化认证框架，将受目标条件的性能映射到智能体内部世界模型的逐项保证。他们设计了基于深度组合目标过滤特定转换的算法，并证明在该目标下的通用智能体具有误差界为O(1/n)+O(δ)的结构化世界模型。该界限在δ较小的条件下是紧的，从而允许通过定位可靠的长时规划转换来认证部署通用智能体。

论文世界模型智能体结构化认证规划

推荐理由：这篇论文从理论上解决了通用智能体部署时的可靠性问题，给出了具体的误差界限和认证方法，对智能体安全研究很有参考价值。

原文

12:10

arXiv cs.AI@Ahmad Pouramini, Hesham Faili

该论文提出MTO框架，在编码器-解码器预训练语言模型上匹配任务与预训练目标。将微调模板与目标对齐后，在少样本设置下性能提升超过120%，并超越相关研究。在全数据集场景中也优于基线。框架还扩展至提示调优，提供软提示工程与优化的指导。

论文 MTO框架微调提示调优编码器-解码器少样本学习

推荐理由：这篇论文教你怎么给不同任务选对预训练目标，少样本下性能直接翻倍，比传统方法强一大截。

原文

12:09

arXiv cs.AI@Tian Zheng, Kai-Tai Hsu

论文以LAMBDA多智能体数据分析系统在DSGym的153个数值QRData任务上为例，研究自动评分可靠性。三层人机评分级联（严格正则匹配、LLM宽松评分、代码片段人工检查）中，两个自动评分器在70个假阳性上达到100%精确率。宽松评分器相比人工标签召回率为97%。关键词锚定提取方案将严格评分器召回率比最后数字启发式提高60个百分点，迭代提示机制将评分运行成功率从36%提升至97%，宽松通过率从16%提升至46%。变量类型是任务元数据中最一致影响评分动态的字段。

论文 LAMBDA DSGym 智能体自动化评分评估

推荐理由：这篇论文用LAMBDA系统在153个任务上测了三种自动评分方法，发现宽松LLM评分召回率97%，严格规则召回率靠关键词提取提高60个百分点。想看AI评分够不够靠谱的可以读。

原文

12:08

arXiv cs.AI@Ali Pourghasemi Fatideh, Wilder Baldwin, Maria Dhakal, Collin McMillan, Sepideh Ghanavati

本研究聚焦LLM对话系统在处理非功能需求（NFRs）时的准确性和对话质量。49名程序员使用GitHub Copilot对148个HIPAA衍生NFR进行评估，基于iTrust代码库，从需求满足度、推理和代码定位三个维度分析。结果显示开发者倾向于认同LLM评估，但与专家标注的真实标准相比准确率较低。更长系统响应和更多信息提供轮次会降低用户满意度，而主动交互则提升满意度。论文为设计面向NFR评估的LLM对话系统提供了经验证据。

论文 LLM NFR HIPAA GitHub Copilot 多轮对话

推荐理由：这篇论文用49个程序员和148个实例，实测了GitHub Copilot评估HIPAA合规NFR的准确度，发现开发者容易被带偏，但主动交互反而让人更满意。

原文

12:06

arXiv cs.AI@Peiyan Hu, Jian Zhang, Jiashu Pan, Ruiqi Feng, Tao Zhang, Zhi-Ming Ma, Yuan-Sen Ting, Gongjie Li, Tailin Wu

Bi-CFM通过学习初始态与终态分布的双向映射，捕获混沌演化的随机性，缓解指数级误差累积。在Lorenz、Circuit和Lorenz 96系统上，Bi-CFM在5个分布级指标上超越基线，速度提升超两个数量级。针对行星动力学中的三体行星-行星散射问题，扩展的CBi-CFM守恒误差与真实值相当。在真实球状星团（约100亿年演化）观测中，该方法标志着长时序混沌逆问题的精度进步。

论文 Bidirectional Conditional Flow Matching Bi-CFM CBi-CFM 混沌系统逆问题

推荐理由：这篇论文提出的Bi-CFM方法，在混沌系统逆问题上比现有基线快上百倍，还能在守恒律上逼近真实值，值得AI建模爱好者细读。

原文

12:05

arXiv cs.AI@Zidu Liu, Florian Marquardt

研究人员提出结构化概念演化（SCE）框架，将大语言模型与代数突变语法结合，自动探索提升积码家族（一类CSS qLDPC码）。SCE通过层级突变修改群代数、原图几何或基空间，无需从零设计。使用轻量模型GPT-5.4-mini和GPT-5.4-nano运行SCE，发现了从阿贝尔群到非阿贝尔群的多种竞争码家族，性能超越标准bivariate-bicycle码。所有结果在码容量退极化噪声下经BP+OSD解码验证。

论文 GPT-5.4-mini GPT-5.4-nano 结构化概念演化量子LDPC码 AI for Science

推荐理由：这篇论文用GPT-5.4-mini和GPT-5.4-nano两种轻量模型就找到了新的量子LDPC码，方法很巧妙。

原文

12:04

arXiv cs.AI@Chenrui Fan, Paolo Favaro

OrbitForge利用冻结的视频先验和逐提示高斯泼溅重建优化，将单个文本生成视频转换为规范闭环轨道3D高斯泼溅场景。它通过可变形高斯泼溅和稳健MedianGS代理获得初步3D重建，然后渲染指定轨道视图检测缺失视角。该方法仅补全缺失视角并重建最终场景，无需任务特定视频或多视角微调。在300提示T3Bench审计中，OrbitForge达到了359.0度中位数跨度，并将Q10 ImageReward从8.07提升至16.36，同时与VideoMV保持竞争力。

论文 OrbitForge T3Bench 3D场景生成高斯泼溅文本到3D

推荐理由：OrbitForge用文本直接生成360度3D场景，解决了视频视角不全的问题，效果比单用MedianGS好很多。

原文

12:03

arXiv cs.AI@Linpeng Huang, Weixing Chen, Zexin Chen, Yang Liu, Liang Lin

EG-VQA是一个开放式的视频问答基准，包含2,067个视频和11,838个QA对，每个问题都标注了精确的时间证据区间。提出EG-F1指标，统一衡量预测证据的时间对齐和语义一致性。实验发现即使最强模型（如专有模型）在证据定位上表现不佳，存在答案正确但定位偏差的问题。为此提出EG-Reasoner模型，通过显式证据监督训练，在开源模型中达到最优，并在反事实等推理密集型任务上表现突出。该研究证明仅靠扩展规模不足以实现鲁棒的视频理解，结构化证据监督是关键。

论文 EG-VQA Video-LLM 视频问答证据定位基准

推荐理由：这个新基准EG-VQA把视频问答的答案和证据绑定在一起，测出来一大票模型只会蒙答案不会找证据。开源模型EG-Reasoner靠证据监督训练，反事实推理直接碾压好几家专有模型。

原文

12:01

arXiv cs.AI@Filippos Ventirozos, Matthew Shardlow

论文提出在智能体驱动电商中，买方智能体通过微交易（如x402、AP2协议）按需购买已验证产品信息，而非仅用于匹配商品。作者设想了微交易市场架构，包含卖家/评审员数据按条付费（freemium模式）和信誉评分。该市场可奖励真实产品质量，比基于排名的店面产生更真实的竞争。论文将愿景转化为五个具体NLP问题：成本最优信息获取、数据定价与谈判、实时实体解析、基于价值交换及隐私保护人设建模。

论文 NLP 智能体微交易电子商务信息验证

推荐理由：这篇论文展望了智能体电商的未来：AI买家花几分钱买真实的商品历史数据，而不是听推荐。把注意力从对话流畅度拉回到信息验证上，值得关注。

原文

12:01

arXiv cs.AI@Rebecca Adaimi, Edison Thomaz

该论文系统评估了人类活动识别（HAR）中4种分布偏移：设备类型、传感器位置、采样率和用户行为。研究发现多样性偏移主导所有偏移类型，表明不同域间存在独特特征。论文引入了统一的HAR分布偏移基准，并全面评估了28种域泛化方法。结果显示现有域泛化算法在实现模型泛化上仅微弱优于经验风险最小化基线。这是首个针对传感器HAR中特定分布偏移的域泛化和适应系统性探索，并提供了开源基准平台和数据集。

论文 HAR domain generalization distribution shift 人类活动识别域泛化

推荐理由：这篇论文拆解了HAR模型在真实场景中表现不佳的原因，系统测试了4种偏移和28种方法，结论对做可穿戴设备或传感器AI的人很有参考价值。

原文

11:59

arXiv cs.AI@Shiyu Li, Ziqi Yan, Zhihao Wu, Jielong Lu, Weiran Liao, Jiajun Yu, Genjie Li, Zeyu Chu, Jiajun Bu, Haishuai Wang

DeepBD是一种基于智能体的工作流，用于遗传出生缺陷的变异优先级排序和诊断解释。该工作流包括LLM辅助病例结构构建、预训练证据引擎、专家证据模块和接地诊断审查层。证据引擎从结构化规则证据、序列和变异效应表示以及表型条件生物学背景中学习患者特定变异分数。基于包含18,622例的胎儿和婴儿队列开发，DeepBD在内部保留的已解决病例基准上实现了Recall@1/3/5/10分别为0.658/0.882/0.912/0.929，超过了Exomiser、DeepRare和基于提示的LLM重排序基线。消融和重叠分析表明，规则证据、机制背景和专家细化提供了互补信号。

论文 DeepBD Exomiser DeepRare 智能体工作流变异优先级排序

推荐理由：这篇论文提出了一个接地气的智能体工作流DeepBD，用LLM辅助分析遗传变异，在18,622例队列中召回率比Exomiser和DeepRare都高，适合做基因诊断研究的参考。

原文

11:58

arXiv cs.LG@Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager

InSight框架通过将VLA模型在原始动作层面变得可操控，从而解锁自主技能获取能力。该框架包含自动分割管道，利用VLM计划分解和末端执行器姿态将演示分割成带标签的原始动作，以及VLM引导的数据飞轮，自动识别缺失原始动作并尝试演示。在模拟和真实世界操作任务中（包括方块翻转、抽屉关闭、清扫、扭转、倒水）评估，无需任何人工演示即可学习这些技能。学到的原始动作可组合执行新颖的长周期任务，无需额外人工演示。

论文 InSight VLA 操作技能自主学习机器人

推荐理由：这篇论文提出了InSight框架，让机器人通过VLA模型自己学新技能，不用人教，就能搞定方块翻转、倒水这些操作，很有实用性。

原文

11:53

arXiv cs.LG@Jason Sulskis, Sathya Ravi

精选

该论文提出Hartley Neural Operator (HNO)，作为Fourier Neural Operator (FNO)的纯实数镜像，用实离散Hartley变换替代复FFT。HNO在每个保留谱模式上学习单个实权重，无复数运算。实验表明，对于自伴椭圆偏微分方程（如泊松、双调和方程），HNO表现更优，因为其实对称Green函数可被实数对角化；对于含相位的时间依赖方程（如波动、对流、Burgers、Navier-Stokes），FNO更优，且优势随相位含量增加而增强。研究给出了基于算子对称性选择谱基的预测规则。

论文 Fourier Neural Operator Hartley Neural Operator 神经算子 Green函数偏微分方程

推荐理由：这篇论文告诉你，求解偏微分方程时该用复傅里叶还是实哈特利基——没有万能赢家，得看算子有无相位。

原文

11:51

arXiv cs.LG@Anand Kamat, Daniel Blake, Brent M. Werness

Grad Detect 是一种通过分析大语言模型推理时逐层梯度模式来检测幻觉的方法。在多个 Q&A 基准（如 TriviaQA、Natural Questions）上，Grad Detect 在幻觉检测和模型弃权预测任务中均优于基于置信度或采样的基线。层消融实验覆盖 11 个模型和 4 种架构，发现最后 5 个层集中了超过 97% 的判别梯度信号，因此可实现高效部署。该方法为评估 LLM 可靠性提供了统一框架，兼具高预测性能和可解释性。

论文 Grad Detect 幻觉检测 LLM 梯度分析 AI安全

推荐理由：这篇论文教你用梯度信号抓幻觉，比看置信度准得多，而且发现只看最后5层就够了，省算力。

原文

11:50

arXiv cs.LG@Giorgio Corani, Stefano Damato, Dario Azzimonti, Lorenzo Zambon

该论文探讨了在多个时间序列数据集上，使用适当评分规则（如平均分、中位分、平均排名）进行概率模型选择时出现的冲突问题。研究发现，这些统计量产生冲突决策的原因是评分分布的偏态性。随着每个时间序列测试集增大，不同模型选择标准会逐渐收敛到相同结论；但对于短测试集，只有平均分能正确识别真实模型。论文基于间歇性时间序列（包括M5竞赛数据集）进行了实验验证，强调了大规模测试集的重要性。

论文 M5 competition 适当评分规则时间序列模型选择概率模型

推荐理由：这篇论文用M5竞赛数据测试了不同模型选择标准，发现短测试集时只有平均分靠谱。搞时间序列模型的人可以参考。

原文

11:49

arXiv cs.LG@Somyajit Chakraborty, Ming Pan, Xizhong Chen

该论文提出一种物理信息傅里叶-小波Transformer，用于计算流体动力学替代建模。方法结合了混合傅里叶-小波谱编码和基于PDE残差诊断的物理偏置自注意力机制，并通过遮罩物理预测和方程一致性预测进行自监督预训练。在圆柱尾流基准上，模型的全通道归一化均方误差为0.05875，皮尔逊相关系数为0.97019。在流固耦合基准上，全通道归一化均方误差为2.70×10⁻⁴，而最强基线为4.02×10⁻⁴。组件级场比较和尺度分离诊断显示，模型更好地恢复了近体、尾流核心和远尾流等局部尾流结构。

论文 Fourier-Wavelet Transformer CFD Physics-Informed 替代建模多尺度

推荐理由：这个新模型用傅里叶加小波做流体模拟，比传统方法更准，尾流细节抓得更好，误差直接砍半。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。