09:39
09:39
arXiv: DeepSeek@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu 大型语言模型生成的代码虽语法正确,但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率,但未能显式编码高效代码的结构模式。为此,研究者提出EffiSkel框架,通过三种互补策略提取并学习效率骨架(抽象的可复用结构模式),并采用多任务学习联合优化代码生成与骨架预测。实验表明,在Mercury基准上,基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO,效率比分别提升11.11%和3.71%,平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。
推荐理由:做代码生成或LLM推理优化的开发者,EffiSkel直接解决了生成代码跑得慢的痛点——不用等后优化,训练时就注入效率骨架,值得关注其开源实现。
09:35
09:35
arXiv cs.AI@Zhixuan Liang, Yuxiao Chen, Yurong You, Peter Karkus, Wenhao Ding, Boyi Li, Alexander Popov, Yan Wang, Maximilian Igl, Yiming Li, Danfei Xu, Nikolai Smolyanskiy, Boris Ivanovic, Ping Luo, Marco Pavone 针对自动驾驶中视觉-动作模型处理长时序上下文时计算开销过大的问题,本文提出 COMPACT-VA 框架。它基于条件 VQ-VAE 实现规划对齐的令牌压缩,将扩展上下文压缩为有限表示,同时保留决策关键信息。该方法在训练时利用未来轨迹蒸馏规划意图,推理时从压缩观测中预测意图,并与压缩记忆拼接后输入策略网络进行端到端优化。在动态场景下,COMPACT-VA 在相同令牌预算下成功率提升超 6%,并实现 3.3 倍加速和 2.7 倍内存缩减。
推荐理由:自动驾驶长上下文处理的计算瓶颈终于有了架构兼容的解决方案——COMPACT-VA 无需修改骨干网络即可压缩令牌,做端到端自动驾驶的团队值得关注其 3.3 倍加速效果。
09:33
09:33
arXiv cs.AI@Jiayu Wang, Weijiang Lv, Bowen Fu, Jing Fu, Jiayi Song, Lingyu Zhang, Lanxuan Xue, Luodi Chen, Zepeng Xin, Kaiyu Li, Xiangyong Cao 随着基础模型和智能体框架的进步,AI 在研究任务中展现出强大能力,但仍无法完全替代人类研究人员。为此,研究者提出了 AARR(Act As a Real Researcher)基准系列,首个基准 AARRI-Bench 专注于评估智能体在细粒度研究场景中的专业性、严谨性和推理能力。实验显示,最佳配置(Mini-SWE-Agent 搭配 Claude Opus 4.7)仅达到 68.3% 的成功率,常忽略人类研究者能轻易察觉的细微关键细节。结果表明,开发类人研究 AI 需要更深入地探索研究行为,而非仅依赖复杂框架。数据已开源。
推荐理由:这个基准直击当前 AI 智能体在研究场景中的短板——不是执行能力不够,而是缺乏研究者的细腻判断。做 AI 评估或智能体开发的团队值得关注,它揭示了提升 AI 研究素养的新方向。
09:32
09:32
arXiv cs.AI@Fuqiang Wang, Song Tan, Zheng Guo, Jiaohao Fu, Xinglong Xu, Bihui Yu, Jie Dong, Zheng Sun, Siyuan Li, Jingxuan Wei, Cheng Tan 论文推荐通常被当作静态排序问题,但科研阅读是每日动态过程,兴趣会变化、反馈会积累。PaperFlow 提出三阶段框架:Profiling 从异构冷启动证据构建结构化用户画像;Recommending 在固定展示预算下对每日论文流进行多信号聚合排序;Adapting 根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究还构建了包含 24 个模拟用户、50 天论文流、1200 个用户-天片段的纵向基准,并设计了盲人评估协议。实验表明 PaperFlow 在基于 oracle 的排序、模拟阅读行为对齐和盲人评估上均优于五个基线。
推荐理由:做学术推荐系统或信息检索的团队,终于有了一个能处理每日动态兴趣变化的框架,PaperFlow 的纵向基准和盲评协议可以直接复用。
09:28
09:28
arXiv cs.AI@Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang 这篇综述从人类视角出发,系统梳理了多模态大语言模型(MLLM)在视频理解中的三大核心能力:观看(感知)、记忆(上下文保持)和推理(生成可靠输出)。文章提出统一框架,将视频理解系统分解为感知表征、记忆状态、推理轨迹和最终预测,并分析了时空感知、长视频高效处理、流式理解、忠实推理等关键挑战。作者按功能分类介绍了代表性方法,涵盖细粒度感知、多模态对齐、离线/流式记忆、纯文本与视频推理等方向,并讨论了第一人称、体育、教学、医疗等应用场景及评估基准。最后指出了可扩展、记忆感知、证据驱动的视频智能的未来方向。
推荐理由:做视频理解或 MLLM 研究的同学,这篇综述帮你把碎片化的方法统一到“观看-记忆-推理”框架下,省去自己梳理文献的时间,值得收藏作为 roadmap。
09:17
09:17
arXiv cs.AI@Marc Aubreville, Jonas Ammeling, Sweta Banerjee, Viktoria Weiss, Taryn A. Donovan, Robert Klopfleisch, Jiaqi Lv, Shan E Ahmed Raza, Raphaël Bourgade, Thomas Walter, Yasemin Topuz, Songül Varlı, Charles-Antoine Collins-Fekete, Zhuoyan Shen, Navya Sri Kelam, Nitin Singhal, Christian Marzahl, Brian Napora, Tengyou Xu, Hongyan Gu, Mario Vento, Gennaro Percannella, Norbert Ropiak, Izabela Wasiak, Jie Xiao, Shaojun Liu, Seungho Choe, April Khademi, Vidushi Walia, Sujatha Kotte, Andrew Broad, Alex Wright, Guillaume Balezo, Esha Sadia Nasir, Mostafa Jahanifar, Yosuke Yamagishi, Shouhei Hanaoka, Mattia Sarno, Francesco Tortorella, Biwen Meng, Jingxin Liu, Sara Krauss, Daniel Hieber, Lavish Ramchandani, Dev Kumar Das, Mieko Ochi, Yuan Bae, Piotr Giedziun, Mateusz Maniewski, Vangala Govindakrishnan Saipradeep, Naveen Sivadasan, Leire Benito-Del-Valle, Adrian Galdran, Kaustubh Atey, Sameer Anand Jha, Adinath Dukre, Imran Razzak, Maxime W. Lafarge, Viktor H. Koelzer, Nils Porsche, Nikolas Stathonikos, Mitko Veta, Dominik Hirling, Zsanett Zsófia Iván, Peter Horvath, Katharina Breininger, Christof A. Bertram MIDOG 2025挑战赛旨在评估有丝分裂检测算法在真实世界中的泛化能力,超越了以往仅关注扫描仪差异的基准。挑战赛构建了包含12种人类、犬类和猫类肿瘤类型、365个病例的测试数据集,并引入了随机组织区域和困难区域检测,以及非典型有丝分裂图分类任务。结果显示,在传统热点区域表现良好的模型在困难区域性能显著下降,假阳性率增加三倍,且在不同肿瘤类型间表现差异巨大,揭示了当前模型的“盲点”。集成方法平均提升了F1分数1.5个百分点和平衡准确率1.3个百分点,而测试时增强无明显改善。该挑战表明,真实世界的有丝分裂检测仍是重大挑战,多情境评估框架为临床可靠性提供了更现实的代理指标。
推荐理由:病理AI团队和计算病理学研究者注意了:MIDOG 2025揭示了当前有丝分裂检测模型在真实世界中的脆弱性,尤其是罕见肿瘤类型和困难区域。如果你的模型只在热点区域表现好,点开看看盲点在哪,以及集成方法如何带来稳定提升。
12:42
12:42
arXiv: DeepSeek@Natalia Tarasova, Enrique Balp-Straffon, Aleksei Iancheruk, Yevhenii Sielskyi, Nikita Kozodoi, Liam H. Byrne, Jack Butler, Dayuan Jiang, Marcin Czelej, Andrew Ang, Yash Shah, Roi Blanco, Sergei Ivanov SWE-InfraBench 是一个新基准,用于评估大语言模型在云基础设施即代码(IaC)任务上的表现。与现有基准不同,它聚焦于 AWS CDK 的增量代码修改,而非从头生成整个代码库。数据集来自数十个真实 IaC 代码库,要求模型根据自然语言指令修改现有代码,并通过测试用例验证。评估结果显示,当前最强模型 Sonnet 3.7 的成功率仅为 34%,而推理模型 DeepSeek R1 只有 24%,表明 LLM 在云基础设施代码领域仍有显著局限。该数据集已在 Kaggle 上公开。
推荐理由:云基础设施开发者终于有了一个贴近真实工作流的评估基准——SWE-InfraBench 测试的是增量修改而非从头写代码,做 IaC 或 DevOps 的团队值得关注,看看当前模型在 AWS CDK 上的真实表现。
12:15
12:15
arXiv cs.AI@Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Tianjun Yao, Xinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Hao Li, Salman Khan, Zhiqiang Shen OpAI-Bench 是一个操作引导的基准,用于研究从纯人类写作到 AI 辅助编辑的渐进式文本转换。它从人类文档出发,在四种领域下构建九个连续修订版本,涵盖五种 AI 编辑操作,并保留多粒度(文档、句子、词元、片段)的作者归属信息。实验发现,AI 文本的可检测性不仅受 AI 编辑比例影响,还与编辑操作、领域和累积修订历史有关,且混合作者的中期版本比纯人类或重度 AI 编辑的端点更难检测。该基准填补了现有检测基准仅关注最终输出的空白,为分析 AI 辅助写作的可检测性提供了受控测试平台。代码和基准已开源。
推荐理由:做 AI 文本检测研究的团队终于有了一个能模拟真实渐进编辑过程的基准——它揭示了混合作者文本比纯 AI 文本更难检测的反直觉现象,值得点开看看实验设计。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。