全部 AI 动态 · AI 热点

6月29日

10:15

arXiv cs.LG@Kijung Jeon, Thuy-Duong Vuong, Molei Tao

MDM-VGB是一种面向掩码扩散模型的高效采样器，在推理时通过奖励引导的重新掩码机制来增强生成质量。理论证明MDM-VGB对过程验证器噪声具有鲁棒性，计算复杂度为二次方，而best-of-N方法可能因误差累积达到指数复杂度。在Sudoku和QM9等约束满足与科学基准上，MDM-VGB实现了强实证性能，同时支持高奖励生成与低奖励样本的有效修复。

推荐理由：这篇论文给掩码扩散模型加了重新掩码机制，像有个纠错开关，Sudoku和QM9上效果很好，值得做推理优化的读者看看。

原文

10:10

arXiv cs.AI@Abdolazim Rezaei, Mehdi Sookhak, Mahboobeh Haghparast

论文提出参数高效混合Transformer（PEHT），将LoRA集成到Transformer编码器中以减少可训练参数，同时在解码器中融合外部移动性和拥堵特征。在Telecom Italia Milan数据集和多个合成拥堵场景上的实验显示，PEHT在RMSE、MAE和R²指标上优于现有基线。该模型针对动态城市蜂窝网络中的资源分配优化，代码已在GitHub开源。

AI模型 PEHT LoRA 网络流量预测 Transformer 交通拥堵融合

推荐理由：想用Transformer预测城市网络流量？这个PEHT用LoRA大幅减少参数，还能融合拥堵数据，实测精度超过现有方法。

原文

10:09

arXiv cs.AI@Jiaxin Li, Yuxiang Wu, Zhenkai Zhang, Xinrui Shi, Haoyuan Wang, Yichen Zhao, Su Linxiang, Chenyang Yu, Mingyu Zhang, Yifan Ding, Boran Wen, Li Zhang, Ruiyang Liu, Yong-Lu Li

HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型（VLM）和多级人工反馈机制，解决深度模糊和遮挡问题，无需多相机设备。利用HAT-4D构建了MVOIK-4D基准，包含新的多维评估协议，侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA，同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。

AI模型 HAT-4D 4D重建 MVOIK-4D 单目视频 Embodied AI

推荐理由：不用多相机，单视频就能重建多个物体怎么动，还能人工纠正错误。HAT-4D这个框架开源了，做Embodied AI的数据生成很方便。

原文

10:09

arXiv cs.AI@Qinhong Zhou, Chuang Gan, Anoop Cherian

LLawCo框架让具身智能体通过反思失败提取行为模式，推导出“必要时说话”“等待伙伴”等高层法则，经监督微调融入思维链。在PARTNR-Dialog基准上，使用四个骨干LLM（如Llama、Mistral）平均成功率提升4.5%，在TDW-MAT基准上提升6.8%。该框架显著提升多智能体合作效率与任务成功率，优于现有开源通信框架。

AI模型 LLawCo 多智能体 PARTNR-Dialog TDW-MAT 合作

推荐理由：多智能体容易各说各话？LLawCo让它们自己学会“必要时说话”“等待伙伴”，在PARTNR-Dialog和TDW-MAT上成功率都涨了4-7个百分点，挺实在的。

原文

10:08

arXiv cs.AI@Zuoou Li, Wenlong Zhao, Kelly Yu, Weitong Zhang, Paul M. Matthews, Wenjia Bai, Bernhard Kainz, Mengyun Qiao

CPAgents是一个由三个AI智能体（Analyst、Proposer、Verifier）组成的迭代框架，用于自动构建心血管表型关联研究中的可解释复合表型（如多项式、比值、交互形式）。在72个分类器-疾病-指标组合中，CPAgents生成的复合表型在56个组合中取得最优排名（基线仅18个），涵盖全部9个临床疾病类别。该方法能自动发现超出专家手工特征选择的更强表型-疾病关联，并生成透明的证据链。

AI模型 CPAgents 智能体表型关联心脏疾病可解释AI

推荐理由：这篇论文提出了CPAgents，用三个智能体自动组合心脏影像特征，相比传统方法在56/72测试中拿第一。适合关心AI辅助医学研究的读者。

原文

10:08

arXiv cs.AI@Difan Jiao, Raghav Singhal, Robert West, Ashton Anderson

Tandem Reinforcement Learning (TRL) 将 tandem 训练范式引入带可验证奖励的强化学习（RLVR）。TRL 让一个较强的 senior 模型与一个冻结的 junior 模型随机交替协作生成推理过程，对最终结果给予奖励，并对 senior 应用标准 GRPO 损失。在 Qwen3-4B-Instruct 上使用竞赛数学训练，TRL 的 solo 推理能力与 vanilla GRPO 持平，但同时提升了 senior 与 junior 的交接鲁棒性、减少了 junior 侧分布漂移，并产出了对 junior 更易理解的思维链。该工作为多模型通信与人类兼容性提供了实际收益的路径。

AI模型 TRL Qwen3-4B GRPO 推理模型多模型协作

推荐理由：他们提出了 TRL，让强模型和弱模型组队推理，强模型学会写弱模型能看懂的推理过程。训练 Qwen3-4B 后，单打能力不降，协作能力更强。

原文

10:08

arXiv cs.AI@Zhigang Chen, Xiawu Zheng, Rongrong Ji

CG-ICS 提出了一种概念引导的上下文分割方法，通过从参考图像中提取高层语义概念而非仅依赖低层视觉匹配来提升系统鲁棒性。该方法引入 MLLM 生成候选概念，并用 SAM3 驱动的评分函数和树搜索精炼选择可靠概念。同时并行视觉示例路径提供查询侧空间定位。在标准 ICS 基准测试上，CG-ICS 不仅达到最高精度，还将不同参考下的分割方差显著降低。

AI模型 CG-ICS 概念引导上下文分割 SAM3 MLLM

推荐理由：想让模型在不同参考图下都稳定分割？试试 CG-ICS，用概念推理代替简单视觉匹配，SAM3 和 MLLM 帮你搞定。

原文

10:06

arXiv: DeepSeek@Lei Yu, Peng Wang, Jia Xu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Changzhi Deng, Zenghua Wang, Fengjun Zhang

BashCoder-R1提出三阶段框架：连续预训练(CPT)专业化Bash范式、长思维链监督微调(L-CoT SFT)模拟风险意识推理、鲁棒性感知分组相对策略优化(R-GRPO)优化语法与鲁棒性。在包含952个真实任务(773单行,179多行)的BashBench基准上，单行/多行任务SyntaxPass达100.00%/94.97%，RobustPass达95.99%/79.33%，FullRate达90.04%/73.18%。相比最强基线DeepSeek-V3.2(推理)在FullRate上分别提升37.82%和20.18%。

AI模型 BashCoder-R1 BashBench DeepSeek 编程助手推理模型

推荐理由：BashCoder-R1用三阶段训练让AI写bash脚本更稳更可解释，在BashBench上比DeepSeek-V3.2完整率高出一大截。

原文

6月26日

10:53

arXiv cs.AI@Wen Ye, Peiyan Li, Tingyu Yuan, Yuan Xu, Xiangnan Wu, Chaoyang Zhao, Jing Liu, Nianfeng Liu, Yan Huang, Liang Wang

E-TTS是一个模块化、即插即用的具身测试时缩放框架，通过历史感知的迭代精炼和视觉语言验证器，统一了机器人操作中的推理和动作缩放。它采用推理-动作联合采样和成对评分，并引入历史缓冲区存储上下文，用于推理和动作验证器评估候选。与常规开环TTS不同，E-TTS在采样中引入反馈生成，形成闭环迭代精炼机制。实验在4个基准、6个环境、3个实体和4个基础VLA模型上进行，模拟场景提升33.14%，真实场景提升26.62%，无需额外数据收集或重新训练。

AI模型 E-TTS 机器人操作测试时缩放视觉语言动作模型具身智能

推荐理由：E-TTS团队搞了个新框架，不用重新训练就把机器人操作成功率在模拟中提33%，真实场景提26%，挺实用的。

原文

10:52

arXiv cs.AI@Junhao Shi, Zezheng Huai, Siyin Wang, Jia Chen, Yubang Wang, Zhaoye Fei, Hechang Chen, Jingjing Gong, Xipeng Qiu, Yu-Gang Jiang

OmniAct 提出了一个分层异步架构，将多模态语义规划器、基于事件边界压缩的自适应分层记忆和异步视觉抢占引擎模块化集成，以解决持久自主机器人的跨域工具调用与物理故障恢复问题。在40个真实世界长期任务中，使用两个机器人平台协调四个IoT设备，OmniAct在所有复杂度级别上端到端成功率一致提升，累积超过10万交互token时保持接近线性的token消耗，并让中等规模开源模型达到闭源模型性能。

AI模型 OmniAct 具身智能多模态机器人 IoT交互

推荐理由：他们搞了个新架构，让机器人能自己协调API、物联网和物理动作，干活出错还能自己恢复，20个任务里成功率都比之前高，而且省钱省token。

原文

10:36

arXiv cs.LG@Yu-Neng Wang, Sara Achour

73°

模拟硬件（如耦合振荡器）能耗比数字计算低两个数量级，但物理方程限制无法直接运行现代生成模型。该文提出Analog Interaction Systems（AIS）框架，利用时变分段参数和隐藏物理状态两种机制缩小表达差距，并采用Wasserstein GAN训练。在MNIST和Fashion-MNIST上，基于振荡器的AIS分别取得FID 27.6和80.8，比此前最优模拟硬件生成模型提升3-4倍。能量估算为每张生成图像23μJ，较数字基线降低约100倍。

AI模型 AIS 模拟硬件生成模型低功耗 MNIST

推荐理由：模拟硬件跑生成模型能耗低两数量级，AIS框架在MNIST上FID仅27.6，比之前好3-4倍，适合低功耗场景。

原文

10:16

arXiv: DeepSeek@Luxi Lin, Shuang Peng, Rui Ma, Junhao Hua, Shuwei Fan, Zhengda Qin, Qiang Wang, Hongjian Sun, Fangmin Chen, Songwei Liu

HyperDFlash是一种针对DeepSeek-V4多超连接架构的块并行推测解码框架。它通过预折叠残差状态保持多路径结构，并用门控残差缩减器将参数减少三个数量级。同时引入KL蒸馏损失正则化LM-head预测。在数学推理、代码合成和对话基准上，HyperDFlash的平均接受长度和解码加速比均优于原生MTP和DFlash基线。

AI模型 HyperDFlash DeepSeek-V4 MTP DFlash 推测解码

推荐理由：DeepSeek-V4新出的HyperDFlash框架，用门控缩减和蒸馏让推测解码提速，比MTP和DFlash都厉害。

原文

09:48

arXiv cs.AI@Henry Shaowu Yuchi, Michal Kucer, Benjamin H. Sims, Selma Peterson, Emily Taylor

NuclearQAv2是一个专为核工程领域设计的基准测试，包含约1240个问答对，涵盖布尔、数值和文字三类问题。该基准采用混合流程，结合专家编写、现有数据集和LLM辅助生成。评估多种LLM发现，模型在事实性问答上表现良好，但在定量推理和概念理解上存在明显短板。NuclearQAv2提供了一种可扩展的方案，用于系统衡量大语言模型在技术领域的实际能力。

AI模型 NuclearQAv2 核工程基准测试 LLM评估定量推理

推荐理由：想看你用的LLM在核工程上有多靠谱？NuclearQAv2用1240道硬核题测出模型的定量推理短板，比通用基准更实在。

原文

6月25日

10:59

arXiv cs.AI@Shuyi Zhang, Yunfan Lou, Hongyang Cheng, Yichen Guo, Chuyao Fu, Yaoxu Lyu, Xiaojie Zhang, Haoran Li, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

FORCE是一个三阶段框架，通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上，FORCE取得了79%的绝对成功率提升，比此前RL方法高出10%，同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。

AI模型 FORCE VLA 强化学习机器人

推荐理由：新框架FORCE让机器人学动作更快更稳，成功率飙升79%，比现有RL方法还快32.5%，不用人插手。

原文

10:50

arXiv cs.AI@Liang-Yuan Wu, Zih-Ching Chen, Tongshuang Wu, Chao-Han Huck Yang, Hua Shen

现有机器情感智力评估局限于孤立文本或被动声学感知，忽略多轮对话中的跨模态推理。新框架SpeechEQ基于EQ-i 2.0理论构建了2265个对话数据集，覆盖15个EQ子量表，并引入多轮评估协议和SEQ分数。实验发现端到端语音语言模型优于级联系统，但仍存在文本依赖的“模态捷径”、对齐引发的“安全陷阱”和“上下文失忆”三大瓶颈。

AI模型 SpeechEQ 情感智商语音对话模型多轮评估模态捷径

推荐理由：SpeechEQ搞了个新基准，测AI在对话里能不能听懂语气和情绪，发现模型靠文字猜情绪，安全对齐后还变傻了。想做真情感AI的必看。

原文

10:45

arXiv cs.LG@Changdae Oh, Wendi Li, Seongheon Park, Samuel Yeh, Tanwi Mallick, Sharon Li

本文提出进度优势（Progress Advantage），通过计算RL后训练策略与参考策略的对数概率比，隐式获得智能体步骤级评分，无需额外训练奖励模型。该方法在五个基准（包括MATH、HotpotQA等）和四个模型家族（Llama-2、Mistral等）上验证，在测试时扩展、不确定性量化、失败归因三项任务中均优于基于置信度的基线。尽管无需任务特定训练，它仍超越专用奖励模型。论文还分析了进度优势的特征，为实际智能体系统提供使用指导。

AI模型 Progress Advantage RL后训练智能体奖励模型测试时扩展

推荐理由：这篇论文说，RL后训练时顺便就能得到一个免费的好信号，不用再费劲训练奖励模型，在好几个测试里都比专门训练的效果还好。做智能体训练的一定得看看。

原文

10:34

arXiv cs.LG@Mingguang Chen, Bo Qu

InvestPhilBench基准包含118个投资原则卡、25个决策框架卡和243个QA问题（197开发/46测试）。它引入BASP评分管道（五个指标）和GRA门级准确率。在四个模型上的开发集测试显示BASP复合分饱和（Claude L4=0.932），但GRA暴露了程序缺陷（前沿L4 GRA约0.77，L7 GRA 0.57-0.62）。在100个专家标注黄金集上，自动化BASP与人类参考相关性Pearson r=0.72。复合评分奖励流畅文本，隐藏了程序差距。

AI模型 InvestPhilBench Claude 程序推理投资哲学 AI评估基准

推荐理由：InvestPhilBench揭示了AI在投资程序推理上的真实水平：Claude虽高分，但程序推理准确率仅0.77。别只看总分。

原文

09:38

arXiv cs.AI@Ke Zhao, Zixiang Di, Hong Qian, Xiang Shu, Yaolin Wen, Qitao Shi, Bingdong Li, Xingyu Lu, Xiangfeng Wang, Jun Zhou, Ke Tang, Yang Yu

MiniOpt是一种强化学习框架，采用“推理-建模-求解”范式来优化问题。其OptReward奖赏函数通过分层分数结构联合评估建模与求解，避免专家演示依赖。在少于10B参数的模型中，MiniOpt系列取得最高平均求解精度(SA)。MiniOpt-3B在多种优化类型和任务领域展示强泛化能力，代码已开源。

AI模型 MiniOpt 强化学习优化开源模型 LLM

推荐理由：想用小型模型搞定各种优化问题？MiniOpt用3B参数就做到了不错的效果，而且代码开源随便玩。

原文

6月24日

12:14

arXiv cs.AI@Haorui Ji, Weizhe Liu, Hongdong Li, Hengkai Guo

FLUX3D 提出了一种从单张图像生成高保真 3D 高斯泼溅（3DGS）的新方法。它通过设计 Diffusion-Aligned Structured Latents (DA-SLAT) 改进稀疏体素表示，并用 Sparse-structure Multimodal Diffusion Transformer (SMDiT) 和 Modal-Aware Rotary Positional Embedding (MARoPE) 解决二维图像令牌与三维体素潜在的对齐问题。在多个基准测试中，FLUX3D 在外观保真度上显著优于现有最先进方法，生成的 3DGS 资产质量更高。

AI模型 FLUX3D 3D生成高斯泼溅扩散模型稀疏表示

推荐理由：想从单张图生成高质量3D模型？FLUX3D用扩散对齐稀疏表示解决了细节丢失问题，效果比现有方法好一截，值得搞3D生成的看看。

原文

12:00

arXiv cs.AI@Adhitya Charan, Adwaid Suresh, Anuj Kumar, Aparna A, Dhanakumar K, Dharun M S, Dinesh G, Goutham Kumar Reddy K, Harshini V M, Jenifa D, Jona Delcy C A, Kathirvel S, Killi Uma Maheswara Rao, Kiruthik Kanna M, Kurra Vishnu Sai, Madhumithaa G K, Navin Kumar, Ram Charan Golla, Revathi T, Rishikkanth R, Sanjay Krishna M, Surendra Vendra

BluTrain是一个用标准C++和CUDA实现的AI训练框架。在8-GPU 6000 Ada系统上训练124M参数GPT-2模型（FP32），其吞吐量达407K tokens/s，比PyTorch的395K tokens/s高约3%。同时内存占用减少22%，且严格保持数值精度。框架包含原生实现的张量模块、反向模式自动微分、线性代数库、缓存分配器、分布式执行和MLIR编译器。

AI模型 BluTrain C++/CUDA GPT-2 训练框架性能优化

推荐理由：这个新框架用C++从头写，训练GPT-2比PyTorch快3%且省内存22%，适合追求极致性能的开发者。

原文

11:52

arXiv cs.LG@Hariom Ingle, Ronit Ghode, Ishwari Gondkar, Jidnyasa Harad, Raviraj Joshi

L3Cube-MahaPOS是首个大型人工标注的马拉地语词性标注数据集，包含32,354句新闻文本，遵循16标签Universal Dependencies方案。研究在HMM、CRF、BiLSTM、BiLSTM+CharCNN、MuRIL和MahaBERT-v2六类模型上进行了基准测试。最佳模型MahaBERT-v2达到88.67%的token级准确率和81.67%的宏F1分数。该数据集和模型检查点已开源，可助力马拉地语NLP研究。

AI模型 L3Cube-MahaPOS MahaBERT-v2 Marathi 词性标注数据集

推荐理由：马拉地语有8300万使用者但标注数据稀缺，这个新数据集和MahaBERT模型基准很实用，适合做低资源语言NLP的朋友参考。

原文

11:44

arXiv cs.LG@Anurag Akula, Satheesh K. Perepu, Abhishek Sarkar, Kaushik Dey

ASALT是一种针对多智能体强化学习（MARL）的迁移学习方法，解决了源域和目标域观测空间与全局状态空间维度不匹配的问题。该方法引入观测层和状态层适配器，将目标域观测和全局状态映射到共享嵌入空间，支持跨异构域的策略迁移。在标准基准环境的多个配置上，ASALT在合作场景中相比现有基线提升了样本效率和全局回报，但效果依赖于源域与目标域的不匹配程度。实验还表明ASALT能缓解负迁移，这是跨不同观测和动作空间域迁移时的常见障碍。

AI模型 ASALT MARL 多智能体迁移学习强化学习

推荐理由：ASALT这个新方法解决了MARL中状态空间维度不同时知识迁移的难题，实验效果不错，值得做多智能体迁移学习的同学看看。

原文

11:38

arXiv cs.LG@Kamil Kwarciak, Marek Wodzinski

提出 PCFM 模型，基于 PTv3 和流匹配方法进行医学点云补全。在 SkullFix、SkullBreak 和 Mandibular Defect 三个数据集上评估。相对扩散模型（PCDiff），PCFM 采样步数大幅减少，在生成性能上达到最优。在最佳操作点，使用 PTv3 骨干比 PVCNN 快 7 倍。

AI模型 PCFM PTv3 flow matching 点云补全医学图像

推荐理由：这篇论文搞了个 MedPCFM，用流匹配做医学点云补全，比扩散模型快7倍，在好几个头骨和下颌骨数据集上效果最好。

原文

09:46

arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong

71°

RaDaR是一个32B参数的开源推理大模型，专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中，RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断，提前时间1.87个月。在随机医生辅助试验中，RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。

AI模型 RaDaR DeepSeek-R1 开源模型罕见病诊断推理模型

推荐理由：RaDaR发布了一个32B开源推理模型，罕见病诊断比DeepSeek-R1还强，医生用它准确率提升21%。

原文

6月23日

13:18

arXiv cs.AI@Sikai Li, Shuning Li, Zhenyu Wei, Yunchao Yao, Chenran Li, Mingyu Ding

CoorDex是一个学习管线，将高维全身和灵巧手控制转换为协调的潜在残差控制，使Unitree G1人形机器人搭配20-DoF WUJI手能在移动中执行灵巧操作。它从模拟全身和手部演示训练特权运动跟踪教师，蒸馏为潜在先验，再用残差强化学习训练协调策略。该方法实现了非停止的瓶子抓取搬运、移动中打开冰箱门和立方体旋转。消融实验表明，联合空间PPO、联合空间手控制和整体潜在预测在同一奖励预算下均失败。

AI模型 CoorDex Unitree G1 人形机器人灵巧操作全身控制

推荐理由：CoorDex让人形机器人在行走时用灵巧手完成开冰箱、抓瓶子的连续操作，不再需要走走停停，和之前的笨拙模式完全不一样。

原文

12:58

arXiv cs.AI@Mohamed Nagy, Naoufel Werghi, Jorge Dias, Majid Khonji

Polycepta提出对象中心外观状态估计框架，将外观建模从帧级匹配转为递归估计，为每个跟踪目标独立维护并更新外观状态。在KITTI、Waymo Open Dataset和MOT17三个基准上，该方法一致减少身份切换并提升跟踪性能。集成到RobMOT框架后，Polycepta在KITTI上达到MOTA 92.27%，运行速度90.57 Hz。

AI模型 Polycepta KITTI Waymo MOT17 多目标跟踪

推荐理由：Polycepta不用死板的外观模板，边跟踪边更新目标长相，在KITTI基准上拿92.27% MOTA还跑得飞快，比传统方法稳多了。

原文

12:49

arXiv cs.LG@Tianyi Li, Zhiqiang Shen

现有线性模式连通性方法通常只从一个模型端点优化插值路径，难以扩展到大型Transformer。我们提出新框架，应用功能保持的权重变换对齐等价解，并让两个模型双向学习向共享线性插值路径的变换。双向优化大幅减少插值障碍，在中等参数规模语言模型上实现了WikiText近零损失屏障（首次展示该规模下近无屏障线性连通）。视觉领域ViT-L在插值路径上保持ImageNet top-1准确率超69%，十亿参数LLM只表现出小损失屏障。这些结果表明解决参数对称性能使大预训练Transformer通过简单线性路径连通和合并。

AI模型 Linear Mode Connectivity Transformer 模型合并双学习匹配预训练模型

推荐理由：新方法让十亿参数Transformer通过双向学习实现线性合并，损失屏障极低，视觉和语言模型都验证有效。

原文

12:04

arXiv: DeepSeek@Haifeng Wu, Srinivasan Manoharan, Fangbo Tu, Junhua Zhao, Jian Wan

精选

RLM-Cascade是一个代理层投机解码系统，在响应级别优化LLM API调用。它使用DeepSeek作为草稿模型、Opus作为验证模型，并通过轻量复杂度路由器选择路径。在Claude Code生产环境中，系统达到88.8%的草稿使用率，API成本相比直接使用Opus降低45.8%。P50延迟从3698毫秒降至2026毫秒，实现1.83倍加速。在20个Code/Math/Instruct任务基准上，RLM-Cascade通过率达100%，高于Opus的95%。

AI模型 RLM-Cascade DeepSeek Opus 投机解码智能体

推荐理由：这个系统把DeepSeek和Opus组合起来，用投机解码省了近一半API成本，还快了一倍，质量也有提升，而且开源可部署。

原文

12:00

arXiv: DeepSeek@Yuhan jiang, Peng Luo, Liqiu Meng

精选

新基准Lost in Aggregation将迷宫导航分解为Fine（局部通行）、Meso（交叉口拓扑）和Macro（全局方向）三个认知层级。在1050个拓扑标注迷宫（3x3至30x30共7种尺寸、3个难度级别）上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现：端到端导航在10x10以上几乎完全失败，但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级，全局方向仅1%。层次化规划（仅在交叉口查询LLM、配合显式单元格提示）将GPT-4o在中等尺寸上的成功率提升最多92个百分点，但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。

AI模型 Lost in Aggregation GPT-4o DeepSeek-V3 Llama-3.3-70B 空间推理

推荐理由：想知道LLM为什么在导航任务中迷路吗？这个基准把问题拆成三个层级，告诉你59%的锅在交叉口选择，39%在局部感知，方向判断几乎不犯错。对做空间推理的开发者非常有用。

原文

10:53

arXiv cs.AI@Yundaichuan Zhan, Minghe Gao, Zhongqi Yue, Wendong Bu, Wenqiao Zhang, Guoming Wang, Jisheng Dang, Juncheng Li, Siliang Tang, Yueting Zhuang

SCOPE 提出一种自适应的符号规划框架，由 Symbolic Execution Simulator（SESim）和 Self-Adaptive Symbolic Memory（SASMem）两个模块协同工作。SESim 通过符号验证和实际执行反馈来 refine 行动计划和进化符号世界；SASMem 则将反馈蒸馏为可演化的符号知识。在开放环境实验中，SCOPE 使符号世界完整性提升，在环境扰动下计划成功率提高，并增强了跨任务泛化能力。

AI模型 SCOPE 符号规划视觉语言模型智能体

推荐理由：搞机器人规划的朋友可以看看 SCOPE，它用符号执行加记忆更新解决开放世界符号不完整的老问题。

原文

10:48

arXiv cs.LG@Despina Christou, Grigorios Tsoumakas

论文对比了5个小型语言模型（360M至3B参数）在通用域和文学域关系抽取上的表现。在通用域，Qwen2.5-0.5B经过微调后达到0.83 micro-F1，超过零样本的GPT-5.4（0.69）和Claude Sonnet 4.6（0.66）。在文学域，调优后的SLM在Biographical基准上达0.92，GPT-5.4为0.83，文学均值0.833 vs 0.578。结果表明，任务特定调优的SLM可在单张消费级GPU上部署，提供准确、隐私且硬件高效的关系抽取。

AI模型 Qwen2.5-0.5B GPT-5.4 Claude Sonnet 关系抽取小语言模型

推荐理由：Qwen2.5-0.5B调优后，在关系抽取任务上干掉了GPT-5.4和Claude Sonnet，而且模型很小，单卡就能跑，适合隐私敏感场景。

原文

10:33

arXiv cs.LG@Junshu Sun, Wanxing Chang, Qingming Huang, Shuhui Wang

本文提出AdaR，一种自适应递归图模型，解决预训练图模型与固定架构不匹配问题。理论分析证明步骤依赖是自适应递归收敛的充要条件。AdaR通过编码归一化步骤信息和表示-目标关系实现自适应推理，并利用梯度监督信号确保递归收敛。在归纳和直推设置下，AdaR在多项图学习中优于现有强基线模型。

AI模型 AdaR 图学习测试时计算自适应推理递归图模型

推荐理由：AdaR让图模型在测试时自己调整推理步数，不用重新训练，效果比传统图神经网络好。

原文

6月19日

11:47

arXiv cs.LG@Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan Das

UNIEGO提出分层多教师蒸馏框架，使用9个教师（覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型）来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突，框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏（SPD）为每个样本自适应选择正确且自信的代理子集，抑制错误信号。UNIEGO在三个自我中心视频基准（动作识别、视频检索、动作分割）上达到最先进性能。

AI模型 UNIEGO 自我中心视频知识蒸馏表示学习多模态

推荐理由：想用多视角多模态数据训练视频理解模型？UNIEGO用代理模型搞定异构教师蒸馏，在三个任务上刷新了纪录。

原文

11:31

arXiv cs.AI@Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) 是广泛采用的代码生成基准，但仅限Python。新基准Multi-LCB将LCB任务转化为12种编程语言，包括Python、C++、Java等，保持原始污染控制和评估协议。研究者在Multi-LCB上评估了24个LLM，发现模型存在Python过拟合、语言特定污染和跨语言性能差异。Multi-LCB为多语言代码评估提供了严格的新基准，直接暴露了当前LLM在Python之外的短板。

AI模型 Multi-LCB LiveCodeBench 代码生成多语言基准测试

推荐理由：想测AI写代码的真本事？别只看Python了。Multi-LCB覆盖12种语言，一测就知道模型是不是只会Python，结果可能让你意外。

原文

11:15

arXiv cs.AI@Jinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang

FreeStyle提出一种基于社区LoRA挖掘的可扩展双参考生成框架，利用社区LoRA作为风格和内容的组合锚点，构建大规模三元组数据（风格参考和内容参考）。采用两阶段课程，包括注意力级富集约束抑制风格参考泄漏，以及频率感知RoPE调制解决位置对应泄漏。引入新基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明，FreeStyle在风格对齐、内容保持和泄漏抑制之间取得强平衡。

AI模型 FreeStyle LoRA 双参考生成图像生成风格迁移

推荐理由：想同时控制图片风格和内容？FreeStyle用社区LoRA搞定双参考生成，还自带防泄漏机制，比以往方法更稳。

原文

10:59