6月23日
12:56
12:56arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman
72°
SPIRAL提出一种新训练框架,让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件,在推理任务中扩展效果优于GRPO,最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。
推荐理由:这篇论文的SPIRAL方法教模型自己学会并行思考再汇总,比单纯加大顺序推理高效11倍,效果还更好,值得做推理扩展的朋友看看。
12:05
12:05arXiv: DeepSeek@Youyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei Jia
Unlimited OCR 模型以 DeepSeek OCR 为基线,将所有解码器注意力层替换为 Reference Sliding Window Attention (R-SWA),使解码过程中 KV 缓存保持恒定,不再随输出长度增长。在标准最大长度 32K 下,Unlimited OCR 可一次性转录数十页文档。相比传统端到端 OCR 模型,Unlimited OCR 解决了长序列中内存和速度下降的问题。R-SWA 是一种通用解析注意力机制,还可应用于 ASR、翻译等任务。代码和权重已在 GitHub 开源。

推荐理由:百度新出的 Unlimted OCR 用了一种叫 R-SWA 的注意力机制,让它处理几十页文档时不会变慢,内存占用也恒定。想做长文档 OCR 的可以试试。
11:03
11:03arXiv cs.AI@Yikun Fu, Bowen Fu, Zhenyu Wu, Shuang Cheng, Xiaowei Sun, Bowen Yang, Zehao Li, Yibo Zhao, Zichen Ding, Zhoumianze Liu, Shijie Wang, Biqing Qi, Bowen Zhou
MacAgentBench新基准包含676个任务覆盖25个macOS应用,近60%任务需要同时操作GUI和命令行。采用确定性规则评估并引入细粒度多检查点评分。实验在3个框架和16个模型上进行,最优配置Claude Opus 4.6 on OpenClaw达到73.7% Pass@1,优势主要来自技能库而非框架设计。细粒度指标显示相同Pass@1的模型在子目标完成上差异显著。

推荐理由:这篇论文发布了MacAgentBench,一个包含676个macOS桌面任务的智能体基准。它用细粒度评分发现Claude Opus 4.6配合OpenClaw能拿到73.7%的正确率,而且不同模型表面分一样但实际完成能力差很多,值得研究智能体的去看。
10:43
10:43arXiv cs.LG@Milton Mondal, Sushovan Chanda, Mohamad Mahdi Alawieh, Brijesh Sukhadiya, Donatus Krah, Clinton Gonsalves, Antonios Ntolkeras, Silvio O. Rizzoli, Ali H. Shaib
标准Pauli测量下量子神经网络输出被约束在[-1,1]区间,导致交叉熵损失对logit差异敏感度不足,梯度被抑制。本文首次将这一效应定义为测量诱导logit收缩。提出可学习的量子测量温度(QMT)参数,在损失函数之前重新缩放量子测量输出,补偿物理测量范围限制。QMT不改变量子电路结构或测量算子。在荧光显微图像与六类Fashion MNIST实验中,QMT一致提升了logit分离度、梯度强度和训练稳定性,并提高了分类准确率。
推荐理由:这篇论文找到了混合量子神经网络训练不稳定的一个隐藏原因——测量值范围太小,并提出了一个简单的可学习缩放参数QMT来解决。实验在蛋白质分类和Fashion MNIST上都有效果。

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。