11:03
11:03
arXiv cs.AI@Yikun Fu, Bowen Fu, Zhenyu Wu, Shuang Cheng, Xiaowei Sun, Bowen Yang, Zehao Li, Yibo Zhao, Zichen Ding, Zhoumianze Liu, Shijie Wang, Biqing Qi, Bowen Zhou MacAgentBench新基准包含676个任务覆盖25个macOS应用,近60%任务需要同时操作GUI和命令行。采用确定性规则评估并引入细粒度多检查点评分。实验在3个框架和16个模型上进行,最优配置Claude Opus 4.6 on OpenClaw达到73.7% Pass@1,优势主要来自技能库而非框架设计。细粒度指标显示相同Pass@1的模型在子目标完成上差异显著。
推荐理由:这篇论文发布了MacAgentBench,一个包含676个macOS桌面任务的智能体基准。它用细粒度评分发现Claude Opus 4.6配合OpenClaw能拿到73.7%的正确率,而且不同模型表面分一样但实际完成能力差很多,值得研究智能体的去看。
10:52
10:52
arXiv cs.AI@Hongqiao Dong, Wenhao Chi, Ruobing Liang, Xiaokui Yang, Wenhua Liang, Peng Hou, Wenjun Pu, Yipeng Zhao, Ping Chen, Haiping Liu, Jianxing He, Bo Liu Hi-Seg是一种基于SAM的人机循环分割框架,用于肺结节CT图像分割。研究使用了来自12个中心1179名患者的胸部CT扫描进行外部验证。所有标注者组平均Dice得分接近85%,优于5个最先进的深度学习模型(10-22%)和13个SAM变体(1-29%)。经过短期训练的非医学标注者达到了与初级医学生相当的性能。该工作表明人机循环分割可减少临床医生工作量并实现可扩展的众包标注。
推荐理由:这篇论文用SAM加人工迭代的方法做肺结节分割,Dice近85%,比13种SAM变体都强,非医学人员培训后也能干医学标注的活。
11:41
11:41
arXiv cs.AI@Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O'Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda 论文分析 DiffusionGemma 的推理透明度,将其分解为变量透明度和算法透明度。初始发现 DiffusionGemma 的不透明串行深度是自回归 Gemma 4 的 28.6 倍。但通过可解释的 token 瓶颈映射信息流,可将不透明串行深度降至仅 Gemma 4 的 1.1 倍。算法透明度方面,扩散模型因每步所有 token 可变化而更复杂,研究识别了非时间顺序推理、token 与序列涂抹、中间上下文推理等新现象。可监控性测试表明 DiffusionGemma 与 Gemma 4 水平相当。
推荐理由:Google 团队这篇论文解释 DiffusionGemma 的推理黑箱有多大,发现能用 token 瓶颈把深度压到几乎和 Gemma 4 一样,还发现了扩散模型特有的奇怪推理方式。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。