6月23日
11:03
11:03arXiv cs.AI@Yikun Fu, Bowen Fu, Zhenyu Wu, Shuang Cheng, Xiaowei Sun, Bowen Yang, Zehao Li, Yibo Zhao, Zichen Ding, Zhoumianze Liu, Shijie Wang, Biqing Qi, Bowen Zhou
MacAgentBench新基准包含676个任务覆盖25个macOS应用,近60%任务需要同时操作GUI和命令行。采用确定性规则评估并引入细粒度多检查点评分。实验在3个框架和16个模型上进行,最优配置Claude Opus 4.6 on OpenClaw达到73.7% Pass@1,优势主要来自技能库而非框架设计。细粒度指标显示相同Pass@1的模型在子目标完成上差异显著。

推荐理由:这篇论文发布了MacAgentBench,一个包含676个macOS桌面任务的智能体基准。它用细粒度评分发现Claude Opus 4.6配合OpenClaw能拿到73.7%的正确率,而且不同模型表面分一样但实际完成能力差很多,值得研究智能体的去看。
10:43
10:43arXiv cs.LG@Milton Mondal, Sushovan Chanda, Mohamad Mahdi Alawieh, Brijesh Sukhadiya, Donatus Krah, Clinton Gonsalves, Antonios Ntolkeras, Silvio O. Rizzoli, Ali H. Shaib
标准Pauli测量下量子神经网络输出被约束在[-1,1]区间,导致交叉熵损失对logit差异敏感度不足,梯度被抑制。本文首次将这一效应定义为测量诱导logit收缩。提出可学习的量子测量温度(QMT)参数,在损失函数之前重新缩放量子测量输出,补偿物理测量范围限制。QMT不改变量子电路结构或测量算子。在荧光显微图像与六类Fashion MNIST实验中,QMT一致提升了logit分离度、梯度强度和训练稳定性,并提高了分类准确率。
推荐理由:这篇论文找到了混合量子神经网络训练不稳定的一个隐藏原因——测量值范围太小,并提出了一个简单的可学习缩放参数QMT来解决。实验在蛋白质分类和Fashion MNIST上都有效果。
6月19日
11:41
11:41arXiv cs.AI@Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O'Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda
71°
论文分析 DiffusionGemma 的推理透明度,将其分解为变量透明度和算法透明度。初始发现 DiffusionGemma 的不透明串行深度是自回归 Gemma 4 的 28.6 倍。但通过可解释的 token 瓶颈映射信息流,可将不透明串行深度降至仅 Gemma 4 的 1.1 倍。算法透明度方面,扩散模型因每步所有 token 可变化而更复杂,研究识别了非时间顺序推理、token 与序列涂抹、中间上下文推理等新现象。可监控性测试表明 DiffusionGemma 与 Gemma 4 水平相当。

推荐理由:Google 团队这篇论文解释 DiffusionGemma 的推理黑箱有多大,发现能用 token 瓶颈把深度压到几乎和 Gemma 4 一样,还发现了扩散模型特有的奇怪推理方式。