全部 AI 动态 · AI 热点

6月19日

11:47

arXiv cs.LG@Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan Das

UNIEGO提出分层多教师蒸馏框架，使用9个教师（覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型）来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突，框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏（SPD）为每个样本自适应选择正确且自信的代理子集，抑制错误信号。UNIEGO在三个自我中心视频基准（动作识别、视频检索、动作分割）上达到最先进性能。

AI模型 UNIEGO 自我中心视频知识蒸馏表示学习多模态

推荐理由：想用多视角多模态数据训练视频理解模型？UNIEGO用代理模型搞定异构教师蒸馏，在三个任务上刷新了纪录。

原文

11:31

arXiv cs.AI@Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) 是广泛采用的代码生成基准，但仅限Python。新基准Multi-LCB将LCB任务转化为12种编程语言，包括Python、C++、Java等，保持原始污染控制和评估协议。研究者在Multi-LCB上评估了24个LLM，发现模型存在Python过拟合、语言特定污染和跨语言性能差异。Multi-LCB为多语言代码评估提供了严格的新基准，直接暴露了当前LLM在Python之外的短板。

AI模型 Multi-LCB LiveCodeBench 代码生成多语言基准测试

推荐理由：想测AI写代码的真本事？别只看Python了。Multi-LCB覆盖12种语言，一测就知道模型是不是只会Python，结果可能让你意外。

原文

11:15

arXiv cs.AI@Jinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang

FreeStyle提出一种基于社区LoRA挖掘的可扩展双参考生成框架，利用社区LoRA作为风格和内容的组合锚点，构建大规模三元组数据（风格参考和内容参考）。采用两阶段课程，包括注意力级富集约束抑制风格参考泄漏，以及频率感知RoPE调制解决位置对应泄漏。引入新基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明，FreeStyle在风格对齐、内容保持和泄漏抑制之间取得强平衡。

AI模型 FreeStyle LoRA 双参考生成图像生成风格迁移

推荐理由：想同时控制图片风格和内容？FreeStyle用社区LoRA搞定双参考生成，还自带防泄漏机制，比以往方法更稳。

原文

10:59

arXiv cs.LG@Zongmin Yu, Liu Yang

ASYS（Agentic Symbolic Search）是一个结合进化搜索与梯度优化的智能体框架，用于自动发现偏微分方程的符号表示。在Allen-Cahn 2D问题中，它生成了几何界面公式；在Keller-Segel趋化模型中，它找到了九参数收缩律。该框架不依赖手工推导、网格数值解或神经网络逼近，在五个案例中均产出了可解释的数学结构。ASYS实现了符号回归之外的归纳偏差注入，为理解PDE解提供了新范式。

AI模型 ASYS PDE 符号回归进化搜索智能体

推荐理由：ASYS让AI自动去发现偏微分方程的数学结构，比如给Allen-Cahn和Keller-Segel找到了以前没人写出来的公式。搞数学或数值计算的可以看看。

原文

10:22

arXiv cs.AI@Zepeng Li, Jie Ren, Zhanyong Tang, Jie Zheng, Zheng Wang

AutoPass 是一个多智能体框架，利用编译器和运行时证据引导 LLM 生成编译器优化决策。它在 LLVM 编译器上实现，在 x86-64 和 ARM64 系统上测试，分别比 LLVM -O3 实现了 1.043x 和 1.117x 的几何平均加速。AutoPass 无需离线训练或微调，可直接应用于新基准和平台。

AI模型 AutoPass LLVM 编译器性能调优智能体

推荐理由：AutoPass 把 LLM 变成编译器调优助手，不用训练就能在 x86 和 ARM 上跑出比 -O3 还快的速度，实测有 4-11% 的加速。

原文

10:16

arXiv cs.AI@Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang, Jingwen Fu, Zhen Liu, Bin Qin, Zhenbo Luo, Jian Luan, Jingmin Xin

ELVA提出一种基于规则强化学习（RLVR）的框架，解决对比学习在多模态检索中的“粒度盲视”问题——模型忽略查询中的粒度信息。该方法不依赖奖励模型，通过规则奖励联合优化负样本排序并扩大正负样本相似度差距。为精准评估，作者引入新基准MRBench，专用于多粒度查询场景。ELVA在标准检索基准上达到最先进结果，并在MRBench上实现13.1%的提升。

AI模型 ELVA 多模态检索强化学习 MRBench 细粒度

推荐理由：这篇论文提出了ELVA，用强化学习思路改多模态检索，解决了对比学习忽略粒度的问题，还在新基准MRBench上提了13.1%，值得做检索方向的人看看。

原文

09:55

arXiv cs.LG@Tristan Tomilin, Mourad Boustani, Mickey Beurskens, Thiago D. Simão

CRAX基于MuJoCo XLA（MJX）物理引擎，利用JAX的向量化操作和硬件加速，在安全强化学习基准测试中实现约100倍于CPU版本的速度提升。该基准包含六套环境和三类智能体任务，每类任务设三个难度级别。研究者在六个主流安全RL方法上的评估表明，没有一种方法在所有任务中占优，揭示了性能与安全之间的权衡。实验还发现，跨难度级别的课程学习与安全迁移在困难设置下比直接训练效果更好。

AI模型 CRAX MuJoCo JAX 安全RL 基准测试

推荐理由：想快速测试安全RL算法？CRAX用JAX把基准跑快100倍，还自带六个环境和三级难度，帮你一眼看出哪个方法在安全与性能上最均衡。

原文

09:48

arXiv cs.LG@Xiang Rao, Yuxuan Shen

精选

研究者提出QCPIKAN，这是首个量子-经典物理信息Kolmogorov-Arnold网络，采用Chebyshev多项式KAN层和参数化量子电路。理论证明该设计能使高频误差以指数率收敛，并有效抑制数值色散。在三种典型渗流场景（单相流、组分输送、两相流）中验证。相比现有量子-经典物理信息神经网络，QCPIKAN在全局预测精度、局部误差控制、动态演化跟踪和位移前沿定位上表现更优。

AI模型 QCPIKAN KAN 量子经典混合物理驱动网络 PDE求解

推荐理由：这篇论文发布了QCPIKAN，首个混合量子经典PDE求解器，用Chebyshev KAN层加速收敛，渗流模拟精度远超市面同类。

原文

09:38

arXiv: DeepSeek@Minsu Kim, Se-Young Yun

研究者提出利用Lean证明助手作为符号过程预言机，在训练中提供细粒度的策略级验证反馈，弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列，Lean能标记局部正确步骤及最早失败步骤，从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明，策略级监督在多数设置下优于仅结果监督的基线，在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器，还能在训练中充当过程级奖励预言机。

AI模型 Lean 定理证明强化学习形式验证推理模型

推荐理由：这篇论文用Lean在定理证明训练中引入细粒度过程奖励，比只判对错的强化学习效果好，在MiniF2F和ProofNet上都有提升。

原文

6月18日

10:58

arXiv cs.AI@Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon, Nani Goldring, Poriya Panet, Nir Zabari, Benjamin Brazowski, Or Patashnik, Yoav HaCohen

ScenA方法利用预训练的文本到音频流匹配基础模型，直接通过多个参考语音和自然语言提示生成整个音频场景。它继承了野外数据中自然的背景噪声、重叠对话等特性，无需逐句结构。但存在“参考捷径”问题：模型可仅凭声学相似性识别参考语音而忽略文本提示。通过高噪声偏差的时间步分布强制模型依赖文本提示。在CoVoMix2-Dialogue基准上，ScenA在说话人绑定指标上优于现有系统，并生成带重叠语音、情感发声和环境音的丰富对话音频。

AI模型 ScenA CoVoMix2-Dialogue 流匹配多说话人音频场景生成

推荐理由：ScenA这个新方法能用参考语音和自然描述直接生成多人对话场景，比现有系统更自然，还带背景噪音和重叠说话。

原文

10:57

arXiv cs.AI@Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan, Rex Ying

提出Rubric-Conditioned Self-Distillation框架，用评分标准替代标量奖励，提供token级指导。方法分两步：先学习生成任务级评分标准，再训练评分标准引导的推理器。在多个科学推理基准上平均超越GRPO 1.0分、OPSD 0.9分。避免了单一参考推理链的噪声和标量奖励的模糊性。

AI模型 Rubric-Conditioned Self-Distillation 推理模型自我蒸馏评分标准科学推理

推荐理由：想提升推理模型训练效果？这篇用评分标准做细粒度自蒸馏，比GRPO和OPSD都强，实验扎实。

原文

10:56

arXiv cs.LG@Sanghyeok Choi, Henry Gouk, Esmeralda S. Whitammer

Large Language Gibbs 是一种利用大型语言模型条件分布进行结构化概率推理的MCMC方案。该方法通过迭代重采样单个变量避免单次自回归生成的顺序偏差，产生的平稳分布反映所有局部条件之间的折中。在合成分布采样、一致性推理和贝叶斯结构学习任务上验证了有效性。结果表明LLM条件作为MCMC转移算子可替代单次生成进行结构化推理。

AI模型 Large Language Gibbs LLM MCMC 结构化推理概率推断

推荐理由：这篇论文提出用LLM做MCMC采样，比直接生成更鲁棒，适合复杂推理场景，值得做概率建模的人看看。

原文

10:55

arXiv cs.LG@Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny Workman

TxBench-PP是一个用于评估AI agent在小分子临床前药理学中决策能力的基准，包含100个涉及作用机制、药效学等任务的评估。在16个模型配置（涉及11个模型和4800条轨迹）中，最佳配置Claude Opus 4.8 / Pi仅通过59.3%（178/300）的端点尝试，GPT-5.5 / Pi通过55.3%。结果表明，当前AI系统无法可靠复现临床前药理学决策。

AI模型 TxBench-PP Claude Opus 4.8 GPT-5.5 AI agent 药物发现

推荐理由：想看看AI在药物发现中到底行不行？这个基准测试用4800条轨迹告诉你，Claude Opus 4.8和GPT-5.5都还差得远，最高才59.3%的通过率。

原文

10:31

arXiv cs.LG@Daochen Zha, Chun How Tan, Xin Liu, Bin Xu, Han Zhao, Xiaowei Liu, Tracy Yu, Hui Gao, Huiji Gao, Liwei He, Stephanie Moyerman, Sanjeev Katariya

JourneyFormer是Airbnb提出的序列建模解决方案，用于处理搜索排序中客人序列长、探索性强且标签稀疏的问题。模型设计涵盖事件选择、ID嵌入、模型架构和标签归因等关键环节，并采用专门策略加速训练和推理。JourneyFormer已部署到Airbnb生产环境，离线排名指标和线上A/B测试（覆盖2个生产表面）均显示关键业务指标显著提升。

AI模型 JourneyFormer Airbnb 序列建模搜索排序推荐系统

推荐理由：Airbnb搞了个JourneyFormer，专治搜索排序中又长又乱的用户序列，实测线上A/B测试效果很不错。

原文

10:22

arXiv: DeepSeek@Ruida Wang, Rui Pan, Pengcheng Wang, Shizhe Diao, Tong Zhang

研究团队提出Diffusion-Proof，这是首个将扩散LLM（dLLM）应用于形式定理证明的框架。该框架包含两个7B模型：dLLM-Prover-7B负责整段证明生成，dLLM-Corrector-7B利用双向信息进行局部校正。相比同等数据集训练的自回归基线，Diffusion-Proof在ProofNet-Test上提升1.61%，在MiniF2F-Test上提升6.14%。此外，该框架成功解决了一个更先进的DeepSeek-Prover-V2-7B未能解答的IMO问题，展示了扩散模型在长程连贯性任务上的优势。

AI模型 Diffusion-Proof dLLM 推理模型形式定理证明数学证明

推荐理由：扩散模型也能做定理证明了，比自回归强，MiniF2F上高出6个百分点，还解了一道DeepSeek没解出的IMO题。

原文

09:41

arXiv cs.AI@Jinhao Song, Shan Liang, Yiqun Yue, Zhuhuayang Zhang, Tianqi Gao

ThinkDeception首次将多模态大语言模型(MLLM)引入欺骗检测领域，将其从二分类任务转变为显式认知推理过程。研究团队构建了首个逐步多模态思维链(CoT)数据集，并基于此开发基础模型ThinkDeception Base。核心创新是提出Visual-Audio Consistency Group Relative Policy Optimization(VAC-GRPO)，采用渐进式训练将数据分为四个难度层级。在主流基准上，ThinkDeception在检测准确性和推理质量上达到新SOTA。

AI模型 ThinkDeception MLLM 多模态思维链(CoT)推理模型

推荐理由：这个框架用MLLM和思维链一步步拆解欺骗线索，比黑箱模型更能解释为什么判定说谎，准确率还最高。

原文

6月17日

11:35

arXiv cs.LG@Gbenga T. Awojinrin, Abdul-Akeem Olawoyin, Rami M. Younis

精选

该论文提出LiL-Q方法，通过Bellman-Kalaba拟线性化将非线性PDE转化为一系列线性子问题，每个子问题用线性可学习表示（LiL）离散化并直接通过QR分解求解。LiL表示包括随机特征极限学习机、谱多项式基和三角展开，实现为物理信息神经网络（PINNs）。在7个基准测试（Bratu、粘性Burgers、Buckley-Leverett、平面应变弹性、2D/3D不可压缩Navier-Stokes、异质渗透率Darcy流）上，LiL-Q通常在个位数外部迭代内收敛，参数数量比现有PINN求解器少两个数量级时仍能达到或超越其精度。当精确解在试验空间内时，单次求解即可恢复至机器精度。

AI模型 LiL-Q PINNs 非线性PDE 凸优化谱方法

推荐理由：这个新方法LiL-Q用凸优化替代了PINNs的非凸训练，收敛快、参数少，在Navier-Stokes等难题上效果拔群，值得关注。

原文

10:43

arXiv cs.AI@Md Tawkat Islam Khondaker, Raymond Li, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Issam H. Laradji

DRFLOW 是一个用于评估智能体从异构来源预测个性化工作流的新型基准，包含 100 个任务、5 个领域、1,246 个参考步骤，并基于 3,900 多个来源构建。它定义了 7 项诊断指标，涵盖事实基础、步骤恢复、结构排序、条件解析和个性化。作者还提出了 DRFLOW-Agent (DRFA) 作为参考代理，其在平均 F1 分数上比强基线代理提升最多 10.02%，但仍有较大改进空间。

AI模型 DRFLOW 工作流预测基准测试智能体企业任务

推荐理由：想测测你家智能体能不能给出真正可执行的步骤？DRFLOW 用 100 个企业任务逼真考核，DRFA 也才比普通基线高 10%，挑战不小。

原文

10:22

arXiv cs.LG@Eric V. Strobl

BLITZ 是一种非参数条件独立性检验方法，可在不到一秒内完成单次测试，适用于因果发现算法中数千次查询的场景。它首先通过低阶多项式回归移除对条件集的平滑依赖，再用浅层树回归对小规模非线性特征图进行残差化。理论分析表明，两阶段设计减少了树回归的有效复杂度，从而控制残差条件均值偏差并避免过拟合。模拟中，BLITZ 比快速核方法、随机特征方法和回归方法等竞争对手提供更好的零分布校准，同时保持最快速度之一。在合成图和流式细胞术数据的因果发现实验中，BLITZ 产生更可靠的端点定向结果和稳健的结构恢复。

AI模型 BLITZ 因果发现条件独立性检验非参数检验两阶段回归

推荐理由：想快速做条件独立性检验？BLITZ 能在一秒内跑完，校准还比核方法好，因果发现定向更靠谱。

原文

10:19

arXiv cs.LG@Mikhail Krasnov, Carolina Fortuna, Blaž Bertalanič

论文提出MKAN，一种通过指数重参数化B样条系数、正边权和单调基激活函数实现硬单调性保证的KAN变体，训练可用无约束梯度下降。理论贡献是表示代价定理：任何C^K特征提取器（语义邻域分划为球状）存在单调实现，节点数N'=N*+k≤2N*，其中k为原始非单调坐标数。在SMM/ICML-2024基准上，MKAN与SOTA单调神经网络竞争力相当，且是唯一兼具硬单调性与KAN边缘功能透明性的方法。在4个真实数据集的自监督特征尺寸扫描中验证了2N*预测，在受控单调生成数据集上MKAN的Spearman对齐显著高于KAN、MLP和线性基线。

AI模型 MKAN KAN 单调性表示代价定理

推荐理由：如果你做单调神经网络或者KAN相关研究，这篇论文提出了一个既有理论保障又有实际效果的MKAN，在基准上不输现有方法，而且保持了KAN的可解释性。

原文

10:18

arXiv cs.LG@Ning Ni, Yingjie Lao

AnchorKV是一种即插即用的KV缓存压缩方法，通过构建离线安全锚点来偏置token保留分数，使其远离有害提示对应的键空间方向。该方法采用差异均值表征工程技术，在逐层键投影空间中提取拒绝方向，并引入软惩罚token选择规则。在保持压缩效率的同时，AnchorKV能显著提升LLM的安全对齐能力，抵御越狱攻击。实验表明，在适度牺牲少量性能的情况下，该方法可有效降低有害输出率。

AI模型 AnchorKV KV缓存压缩越狱攻击安全对齐

推荐理由：想压缩KV缓存又怕模型不安全？AnchorKV用软惩罚巧妙拒绝有害token，既省内存又防越狱，适合部署场景。

原文

10:17

arXiv cs.LG@Haoqi Yuan, Zhixuan Liang, Anzhe Chen, Ye Wang, Haoyang Li, Pei Lin, Yiyang Huang, Zixing Lei, Tong Zhang, Jiazhao Zhang, Jie Zhang, Jingyang Fan, Gengze Zhou, Qihang Peng, Chenxu Lv, Xiaoyue Chen, An Yang, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou, Chenfei Wu, Xiong-Hui Chen

83°

Qwen-RobotManip是基于Qwen-VL构建的视觉-语言-动作基础模型。它引入统一对齐框架，覆盖表示、运动和操作行为三个维度，使多源训练数据协调一致。通过人工到机器人的合成流水线，利用15种平台的示教数据，构建了约38,100小时的预训练语料。模型在RoboCasa365、LIBERO-Plus、EBench等OOD基准上显著优于先前最佳模型π0.5，并在AgileX ALOHA、Franka、UR、ARX等真实机器人平台上验证。

AI模型 Qwen-RobotManip Qwen-VL 机器人基础模型多模态零样本迁移

推荐理由：阿里Qwen团队这个机器人模型用开源数据和人类演示就能学，跨平台零样本操作，还在多个测试里碾压了π0.5，做机器人开发的别错过。

原文

09:41

arXiv cs.AI@Sicheng Yang, Hongqiu Wang, Zhaohu Xing, Sixiang Chen, Qiuxia Yang, Yize Mao, Guang Yang, Lei Zhu

SegDINO提出一种高效分割框架，基于DINOv3骨干网络，通过Token Pyramid Adaptation（TPA）将中间DINO特征重组为伪多尺度层次，并引入Scale-Aware Decoding（SAD）进行高效尺度内优化和自顶向下多尺度传播。作者还构建了PanCT数据集，包含284例患者专家标注的胰腺肿瘤CT图像，用于评估对小病灶的处理能力。在PanCT和三个公开基准上，SegDINO以更高效率达到SOTA结果。代码已开源。

AI模型 SegDINO DINOv3 医学图像分割多尺度特征

推荐理由：医学图像分割不用再堆复杂解码器了，直接看SegDINO怎么用DINO特征加轻量多尺度建模做到又快又准。

原文

09:41

arXiv cs.AI@Mikołaj Zasada, Łukasz Struski, Jacek Tabor, Marcin Kurdziel

SoftMoE用截断的soft top-k LapSum松弛替换传统稀疏MoE的离散top-k路由，实现专家路由的可微分化。模型参数化每层平均激活专家数并施加全局预算，使容量分配可学习。在语言建模和下游任务上，SoftMoE性能与稀疏MoE相当或更优，但激活专家数量更少。实验显示分配呈高度非均匀性，后层激活更多专家。

AI模型 SoftMoE MoE LLM 专家混合可微路由

推荐理由：稀疏MoE的top-k路由不灵活还浪费算力，SoftMoE用可微路由让模型自己学会少用专家，性能却不输，代码开源了。

原文

09:39

arXiv cs.AI@Bojie Li

PreAct 是一种让计算机使用代理（如屏幕点击、打字）在重复任务上更快的新方法。首次成功时，PreAct 将运行编译为小状态机程序，后续重放直接执行，无需逐步骤调用语言模型，速度提升8.5-13倍。重放时每步检查屏幕状态，若不一致则交回代理处理。在移动、桌面和Web基准上，存储时检查机制确保编译程序可靠，避免错误积累，平均多完成1.75-2.6个任务。

AI模型 PreAct Computer-Using Agents 智能体效率优化

推荐理由：想让你那个傻傻的屏幕操作AI学会重复干活不重来？PreAct把第一次成功步骤变成程序，后面直接快10倍，还不容易翻车。

原文

09:37

arXiv cs.AI@Bochen Yang, Lianlei Shan

精选

PearlVLA提出一种将动作规划调度到VLM潜在空间的新框架，通过将元查询表示分为视觉定位分支和迭代潜在规划分支，利用冻结的潜在世界模型生成未来观测，并经过K轮细化后并行解码动作块。在LIBERO基准上，PearlVLA达到了现有方法中的最佳性能，证明了潜在空间推理在降低延迟的同时提升规划质量的有效性。

AI模型 PearlVLA VLA模型具身智能 LIBERO 动作规划

推荐理由：这篇论文提出了PearlVLA，把动作规划放到了潜在空间里，比传统文本链式推理延迟更低，在LIBERO上刷了SOTA，做具身智能的可以看看。

原文

09:31

arXiv: DeepSeek@Esteban Schafir, Xu Zheng, Hojat Allah Salehi, Zhuomin Chen, Mo Sha, Wei Cheng, Dongsheng Luo

精选

DecoSearch是一个无需训练的Text-to-SQL框架，通过轻量级Schema Selector修剪数据库模式，LLM Judger判断查询是否需要分解为DAG子问题。在BIRD上达到70.53%执行准确率，在Spider上达88.31%，使用DeepSeek作为骨干模型，比训练无关基线消耗少一个数量级的token。该方法还可作为模型无关包装器，一致提升微调后的SQL生成骨干性能。

AI模型 DecoSearch DeepSeek Text-to-SQL 推理模型 RAG

推荐理由：DecoSearch不用训练就能把自然语言转SQL，在BIRD和Spider上准确率分别超70%和88%，比同类方法省十倍token。想提升SQL生成效率可以看看。

原文

6月16日

13:08

arXiv cs.AI@Jiaju Han, Ben Zhang, Xuemeng Sun, Qike Zhang, Yuxian Dong, Chengyin Hu, Fengyu Zhang, Yiwei Wei, Jiujiang Guo

FusionRS是用于遥感双模态视觉语言学习的首个大规模RGB-红外-文本数据集。它由超过100万对对齐的RGB和红外风格图像组成，每对包含场景描述和红外感知描述。基于FusionRS训练的CLIP-style和生成式VLM模型在RGB-红外对齐、红外-文本检索和双模态描述任务上均优于纯RGB训练基线。消融实验表明，红外感知描述对强化红外-语言对齐至关重要。

AI模型 FusionRS RGB-红外遥感数据集视觉语言模型双模态学习

推荐理由：FusionRS填补了RGB-红外双模态遥感数据集的空白，用公开RGB图转红外风格，加上两种描述，让模型同时理解可见光和红外信息。

原文

12:28

arXiv cs.LG@Jisang Han, Seonghu Jeon, Jaewoo Jung, René Zurbrügg, Honggyu An, Tifanny Portela, Marco Hutter, Marc Pollefeys, Seungryong Kim, Sunghwan Hong

Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 拆分为观测编码器和未来预测解码器两部分，在中间层插入因果未来预测模块，结合语言、本体感受和动作历史，预测未来潜在标记，再利用剩余 GFM 块进行特征传播与动作解码。在多个仿真和真实机器人操作基准上，GAM 的准确率、鲁棒性、速度和模型大小均优于当前基于基础模型尺度的基线方法，例如在 RoboMimic 和 ManiSkill2 任务中表现显著提升。

AI模型 GAM 几何基础模型机器人策略学习操作视觉-语言-动作模型

推荐理由：这篇论文提出了一种新思路：用几何基础模型直接做机器人操作策略，不依赖二维图像，效果更快更准更轻。

原文

12:22