11:09
11:09
arXiv cs.LG@Ekaterina Grishina, Stepan Kuznetsov, Askar Tsyganov, Ilya Ivanov, Daria Korovaitceva, Margarita Rusanova, Uliana Parkina, Alexander Derevyagin, Evgeny Frolov, Sergey Samsonov, Anton Lysenko 推荐算法排名因数据集特性(稀疏性、序列结构、规模)而异,简单平均指标(如NDCG)会产生误导。研究者提出基于Bradley-Terry模型的排名方法,能根据数据集统计特征生成更可靠的排名。该方法还引入新指标评估排名一致性,并能在不运行模型的情况下预测新数据集上的算法表现。这对推荐系统开发者选择算法和评估基准有重要参考价值。
推荐理由:推荐系统团队做算法选型时,别再被平均指标骗了——BT模型帮你根据数据集特性精准排名,省去跑全量模型的成本,做评估基准的开发者值得一试。
11:03
11:03
arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov ThinkBooster 是一个统一的测试时计算(TTC)扩展框架,旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试,以及兼容OpenAI的代理服务,支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡,并展示了实际增益。代码以MIT许可证开源。
推荐理由:做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益,不用再自己拼凑评估流程,建议直接试。
09:39
09:39
arXiv: DeepSeek@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu 大型语言模型生成的代码虽语法正确,但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率,但未能显式编码高效代码的结构模式。为此,研究者提出EffiSkel框架,通过三种互补策略提取并学习效率骨架(抽象的可复用结构模式),并采用多任务学习联合优化代码生成与骨架预测。实验表明,在Mercury基准上,基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO,效率比分别提升11.11%和3.71%,平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。
推荐理由:做代码生成或LLM推理优化的开发者,EffiSkel直接解决了生成代码跑得慢的痛点——不用等后优化,训练时就注入效率骨架,值得关注其开源实现。
09:35
09:35
arXiv cs.AI@Zhixuan Liang, Yuxiao Chen, Yurong You, Peter Karkus, Wenhao Ding, Boyi Li, Alexander Popov, Yan Wang, Maximilian Igl, Yiming Li, Danfei Xu, Nikolai Smolyanskiy, Boris Ivanovic, Ping Luo, Marco Pavone 针对自动驾驶中视觉-动作模型处理长时序上下文时计算开销过大的问题,本文提出 COMPACT-VA 框架。它基于条件 VQ-VAE 实现规划对齐的令牌压缩,将扩展上下文压缩为有限表示,同时保留决策关键信息。该方法在训练时利用未来轨迹蒸馏规划意图,推理时从压缩观测中预测意图,并与压缩记忆拼接后输入策略网络进行端到端优化。在动态场景下,COMPACT-VA 在相同令牌预算下成功率提升超 6%,并实现 3.3 倍加速和 2.7 倍内存缩减。
推荐理由:自动驾驶长上下文处理的计算瓶颈终于有了架构兼容的解决方案——COMPACT-VA 无需修改骨干网络即可压缩令牌,做端到端自动驾驶的团队值得关注其 3.3 倍加速效果。
09:33
09:33
arXiv cs.AI@Jiayu Wang, Weijiang Lv, Bowen Fu, Jing Fu, Jiayi Song, Lingyu Zhang, Lanxuan Xue, Luodi Chen, Zepeng Xin, Kaiyu Li, Xiangyong Cao 随着基础模型和智能体框架的进步,AI 在研究任务中展现出强大能力,但仍无法完全替代人类研究人员。为此,研究者提出了 AARR(Act As a Real Researcher)基准系列,首个基准 AARRI-Bench 专注于评估智能体在细粒度研究场景中的专业性、严谨性和推理能力。实验显示,最佳配置(Mini-SWE-Agent 搭配 Claude Opus 4.7)仅达到 68.3% 的成功率,常忽略人类研究者能轻易察觉的细微关键细节。结果表明,开发类人研究 AI 需要更深入地探索研究行为,而非仅依赖复杂框架。数据已开源。
推荐理由:这个基准直击当前 AI 智能体在研究场景中的短板——不是执行能力不够,而是缺乏研究者的细腻判断。做 AI 评估或智能体开发的团队值得关注,它揭示了提升 AI 研究素养的新方向。
09:32
09:32
arXiv cs.AI@Fuqiang Wang, Song Tan, Zheng Guo, Jiaohao Fu, Xinglong Xu, Bihui Yu, Jie Dong, Zheng Sun, Siyuan Li, Jingxuan Wei, Cheng Tan 论文推荐通常被当作静态排序问题,但科研阅读是每日动态过程,兴趣会变化、反馈会积累。PaperFlow 提出三阶段框架:Profiling 从异构冷启动证据构建结构化用户画像;Recommending 在固定展示预算下对每日论文流进行多信号聚合排序;Adapting 根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究还构建了包含 24 个模拟用户、50 天论文流、1200 个用户-天片段的纵向基准,并设计了盲人评估协议。实验表明 PaperFlow 在基于 oracle 的排序、模拟阅读行为对齐和盲人评估上均优于五个基线。
推荐理由:做学术推荐系统或信息检索的团队,终于有了一个能处理每日动态兴趣变化的框架,PaperFlow 的纵向基准和盲评协议可以直接复用。
09:28
09:28
arXiv cs.AI@Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang 这篇综述从人类视角出发,系统梳理了多模态大语言模型(MLLM)在视频理解中的三大核心能力:观看(感知)、记忆(上下文保持)和推理(生成可靠输出)。文章提出统一框架,将视频理解系统分解为感知表征、记忆状态、推理轨迹和最终预测,并分析了时空感知、长视频高效处理、流式理解、忠实推理等关键挑战。作者按功能分类介绍了代表性方法,涵盖细粒度感知、多模态对齐、离线/流式记忆、纯文本与视频推理等方向,并讨论了第一人称、体育、教学、医疗等应用场景及评估基准。最后指出了可扩展、记忆感知、证据驱动的视频智能的未来方向。
推荐理由:做视频理解或 MLLM 研究的同学,这篇综述帮你把碎片化的方法统一到“观看-记忆-推理”框架下,省去自己梳理文献的时间,值得收藏作为 roadmap。
09:17
09:17
arXiv cs.AI@Marc Aubreville, Jonas Ammeling, Sweta Banerjee, Viktoria Weiss, Taryn A. Donovan, Robert Klopfleisch, Jiaqi Lv, Shan E Ahmed Raza, Raphaël Bourgade, Thomas Walter, Yasemin Topuz, Songül Varlı, Charles-Antoine Collins-Fekete, Zhuoyan Shen, Navya Sri Kelam, Nitin Singhal, Christian Marzahl, Brian Napora, Tengyou Xu, Hongyan Gu, Mario Vento, Gennaro Percannella, Norbert Ropiak, Izabela Wasiak, Jie Xiao, Shaojun Liu, Seungho Choe, April Khademi, Vidushi Walia, Sujatha Kotte, Andrew Broad, Alex Wright, Guillaume Balezo, Esha Sadia Nasir, Mostafa Jahanifar, Yosuke Yamagishi, Shouhei Hanaoka, Mattia Sarno, Francesco Tortorella, Biwen Meng, Jingxin Liu, Sara Krauss, Daniel Hieber, Lavish Ramchandani, Dev Kumar Das, Mieko Ochi, Yuan Bae, Piotr Giedziun, Mateusz Maniewski, Vangala Govindakrishnan Saipradeep, Naveen Sivadasan, Leire Benito-Del-Valle, Adrian Galdran, Kaustubh Atey, Sameer Anand Jha, Adinath Dukre, Imran Razzak, Maxime W. Lafarge, Viktor H. Koelzer, Nils Porsche, Nikolas Stathonikos, Mitko Veta, Dominik Hirling, Zsanett Zsófia Iván, Peter Horvath, Katharina Breininger, Christof A. Bertram MIDOG 2025挑战赛旨在评估有丝分裂检测算法在真实世界中的泛化能力,超越了以往仅关注扫描仪差异的基准。挑战赛构建了包含12种人类、犬类和猫类肿瘤类型、365个病例的测试数据集,并引入了随机组织区域和困难区域检测,以及非典型有丝分裂图分类任务。结果显示,在传统热点区域表现良好的模型在困难区域性能显著下降,假阳性率增加三倍,且在不同肿瘤类型间表现差异巨大,揭示了当前模型的“盲点”。集成方法平均提升了F1分数1.5个百分点和平衡准确率1.3个百分点,而测试时增强无明显改善。该挑战表明,真实世界的有丝分裂检测仍是重大挑战,多情境评估框架为临床可靠性提供了更现实的代理指标。
推荐理由:病理AI团队和计算病理学研究者注意了:MIDOG 2025揭示了当前有丝分裂检测模型在真实世界中的脆弱性,尤其是罕见肿瘤类型和困难区域。如果你的模型只在热点区域表现好,点开看看盲点在哪,以及集成方法如何带来稳定提升。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。