全部 AI 动态 · AI 热点

6月12日

06:36

Gary Marcus@GaryMarcus

Gary Marcus 引用一项新研究指出，AI 中所谓的“神经网络”与真实生物神经元几乎无关。研究显示，单个皮层神经元就能完成猫狗分类、语音识别等任务，而这些在传统 AI 中需要整个网络才能实现。这揭示了当前 AI 模型对生物神经系统的过度简化，可能限制了其能力上限。Marcus 认为，AI 领域需要重新审视其基础假设，从真实神经科学中汲取更多灵感。

论文神经网络神经科学 AI 基础 Gary Marcus 认知科学

推荐理由：这项研究戳破了 AI 领域的一个常见误解——神经网络并不像大脑。做 AI 研究或对认知科学感兴趣的读者，看完会对模型设计有新的思考。

原文

05:40

rohanpaul_ai@rohanpaul_ai

精选

一篇论文提出 SIA（自我改进 AI）框架，让 AI 通过观察任务代理的表现，自动调整外部设置（如提示、工具、重试规则）或更新模型权重（通过 LoRA 适配器）。在三个差异极大的任务（中文法律罪名分类、GPU 内核速度调优、单细胞 RNA 去噪）上，结合设置与权重更新的版本均优于仅改进设置的方法。这表明，除了优化提示和工具，让模型通过任务反馈学习模式能带来额外提升。

论文自我改进 LoRA 任务代理自动化 AI 研究

推荐理由：这项研究解决了 AI 自我改进依赖人工调参的瓶颈，做自动化 Agent 或模型微调的团队值得关注——SIA 的 LoRA 更新思路能低成本让模型学会任务模式，比只改提示更有效。

原文

05:36

Gary Marcus@GaryMarcus

Gary Marcus 转发了一项新研究，该研究提出了一个名为 SciConBench 的基准测试，包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现，前沿 AI 智能体无法有效综合科学结论，这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成，结果对 AI 在科学领域的可靠性提出了质疑。

论文 AI 科学家 SciConBench 基准测试科学综合 Gary Marcus

推荐理由：这项研究直接戳破了 AI 作为科学家的泡沫，做科研或依赖 AI 进行文献综述的团队值得一看，避免被过度宣传误导。

原文

05:34

Microsoft Research@MSFTResearch

精选

微软研究院发布新研究项目Encrypted Spaces，旨在为协作应用构建一种加密架构。该架构确保所有数据在传输和存储中均为加密状态，且每个操作均支持加密验证。通过这一设计，伙伴可在不信任第三方的情况下安全协作，且能验证每一步操作的正确性。该研究探索了分布式系统与密码学结合的新路径。

论文 Encrypted Spaces 微软数据加密协作应用可验证操作

推荐理由：微软研究的新加密协作架构

原文

04:11

Richard Socher@RichardSocher

Andrej Karpathy 发布了一个新的 AI 基准测试，旨在评估从基础 Transformer 模型到高级 AI 系统的演进过程。该测试需要 AI 花费相当长的时间才能达到 Karpathy 的版本水平。这一基准测试可能用于衡量 AI 系统的复杂性和进步程度，对研究者和开发者具有重要参考价值。

论文基准测试 Transformer Karpathy AI 评估模型进化

推荐理由：Karpathy 的基准测试为 AI 开发者提供了一个衡量模型进化难度的新工具，做模型训练和评估的团队值得关注这个测试，看看自己的模型需要多久才能达到高级水平。

原文

00:10

AK@_akhaliq

精选

一篇新论文提出假设树细化（Hypothesis-Tree Refinement）框架，旨在让AI自主进行科学假设的生成与验证。该方法通过迭代优化假设树结构，提升研究效率与泛化能力。论文未公开具体实验结果，但展示了框架设计思路。

论文 Hypothesis-Tree Refinement 自主研究论文

推荐理由：新论文提出假设树细化方法

原文

6月11日

23:56

Milvus@milvusio

LEMUR 是一种将多向量压缩为单向量的策略，声称无需调参、数据驱动。但研究发现，在文档长度差异大的语料（如 LoTTE，长度范围 400 倍）上，LEMUR 会学习到“长文档得分更高”的偏差，导致按长度而非相关性排序。在 LoTTE 上，LEMUR 的 nDCG@10 仅 0.109，召回率 30.5%，而 Exact MaxSim 方法达 0.722 和 98%。问题根源在于 LEMUR 的训练标签（MaxSim 分数）天然偏向长文档，MLP 学到了长度信号。建议用户检查语料的长度分布（P90/P10 比）和模型的可分离性（MaxSim 标准差），若长度差异大或可分离性高，应改用 TokenANN 或 MUVERA。已使用 LEMUR 的团队可通过长度分层采样缓解偏差。

论文向量检索多向量压缩长度偏差 LEMUR Milvus

推荐理由：做向量检索的团队注意了——LEMUR 在长尾语料上会悄悄按文档长度排序而非相关性，LoTTE 上召回率从 98% 掉到 30.5%。如果你的语料长度差异大（P90/P10 > 20），建议先跑文中的两个检查再决定是否用 LEMUR。

原文

21:52

rohanpaul_ai@rohanpaul_ai

一篇论文提出，AI Agent 可能从根本上改变软件的本质，使代码不再是核心产物。传统软件是“冻结的意图”，而 Agent 能在运行时将意图转化为行动，生成代码作为一次性工具。这种转变是从预设计行为到协商行为的转变，系统会随条件变化持续解释目标。但这也带来新风险：静态程序在边界内失败，而 Agent 可能因漂移、过度自信或错误累积而失败。未来工程师不再是提示词写手或数字实习生监督者，而是定义意图、约束自主性、设计评估和检查推理轨迹的人。

论文 AI Agent 软件范式代码生成自主系统风险评估

推荐理由：这篇论文点出了 AI Agent 对软件范式的根本冲击——代码不再是最终产品，做架构设计或系统开发的团队值得一读，看完会对 Agent 的风险和工程师的新角色有更深理解。

原文

12:39

arXiv cs.AI@Marija Slavkovik, Marie Farrell, Louise Dennis, Michael Fisher, Simon Kolker, Emily C. Collins

精选

这篇论文探讨了如何设计能够负责任地拒绝用户请求的自主智能体。作者指出，机器不服从有多种形式，并提出了实现负责任不服从的关键要素：任务拒绝的理由、覆盖不服从的途径，以及安全风险和责任的追踪。该研究为构建更安全、更可靠的AI系统提供了理论基础，尤其适用于需要自主决策的智能体场景。

论文智能体 AI安全负责任AI 自主决策论文

推荐理由：AI安全研究者或智能体开发者会关心：如何让AI在必要时说“不”而不失控？这篇论文给出了系统性的框架，值得深入阅读。

原文

12:38

arXiv cs.AI@Boyang Li, Yulin Wu, Sizhe Xu, Nuoxian Huang, Zhonghang Yuan, Shangyi Guo, Shu Yang, Takahiro Yabe

精选

nD-RoPE 是一种将旋转位置编码（RoPE）推广到任意维度的新方法。现有高维 RoPE 方法要么独立旋转每个轴，要么经验性地混合频率，限制了跨维度交互并导致方向依赖的表示。nD-RoPE 从连续希尔伯特空间的平移不变性出发，推导出各向同性的谱条件，要求将位置和频率视为耦合的 n 维向量。它采用多尺度正则单纯形波矢设计，提供非退化的空间覆盖和对称、方向平衡的二阶响应。在图像、视频和点云上的实验表明，nD-RoPE 在性能提升和泛化能力上均优于现有方法。

论文位置编码 RoPE Transformer 高维表示论文

推荐理由：nD-RoPE 解决了高维位置编码缺乏统一理论框架的问题，做视觉、视频或点云 Transformer 的开发者可以直接用，能显著提升模型对空间结构的理解能力。

原文

12:37

arXiv cs.AI@Gleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov

精选

该研究系统分析了稀疏自编码器（SAE）在不同训练种子下特征的稳定性。研究发现，稳定特征承载了大部分重构和预测相关的信号，而不稳定特征个体不可复现但集中在可复现的低秩子空间中，表明种子依赖性更多反映激活空间内的基模糊性而非纯噪声。通过跨种子聚合独特特征，可以在保持解释方差的同时构建更稳定的SAE。该工作为理解SAE的可靠性提供了新视角。

论文稀疏自编码器特征稳定性可解释性子空间神经网络

推荐理由：做神经网络可解释性研究的团队会关心——SAE特征不稳定不是噪声，而是低维结构的基选择问题，看完能帮你更合理设计实验和解读结果。

原文

12:35

arXiv cs.AI@Selen Erkan, Bastian Boll, Kristian Kersting, Björn Deiseroth, Letitia Parcalabescu

精选

论文指出传统基准测试常因格式要求而低估基础模型的知识水平，因为基础模型缺乏后训练带来的格式遵循能力。作者提出软提示调优（soft-prompt tuning），仅优化10个软提示向量（约7B模型参数的0.0006%），在80步（约640样本）内即可让模型适应基准格式，从而准确反映其真实知识。实验覆盖7个模型和7个数据集，结果显示该方法显著优于零样本和少样本提示，甚至能提升后训练模型的格式合规性。软提示调优后的基础模型性能可更可靠地预测后训练模型的排名，为早期预训练策略选择提供低成本代理。

论文软提示调优 LLM评估基准测试格式遵循预训练策略

推荐理由：做LLM评估的团队终于有了一个公平且高效的基准测试方案——只需微调极少量参数就能剥离格式干扰，直接测出模型真实知识水平。做预训练或模型选型的开发者值得一试，能省下大量后训练成本。

原文

12:34

arXiv cs.AI@Xinni Zhang, Zijing Liu, He Cao, Yu Li, Irwin King

精选

针对SMILES字符串的Transformer模型存在局部性缺陷：标准字符级分词会破坏化学上有意义的基团，迫使模型重复学习局部语法而忽略长程依赖。MolGram通过条件n-gram记忆模块，将局部字符串模式映射为可学习的嵌入向量，并动态注入隐藏状态，在不破坏标准分词器的情况下解决该问题。在无条件分子生成、正向反应预测和单步逆合成三个任务上，MolGram一致提升性能，且仅用1/3参数即可超越基线模型。该工作表明，显式局部模式记忆是一种高效的归纳偏置，尤其适合化学信息学场景。

论文分子语言模型 n-gram记忆 SMILES 化学信息学高效归纳偏置

推荐理由：做分子生成或逆合成预测的团队，MolGram用更少参数就能超越3倍大模型，值得在自家任务上试试。

原文

12:33

arXiv cs.AI@Chuanke Pang, Junyi Huang, Zhijun Zhao, Yaobing Wang, Kun Xu, Xilun Ding

精选

VLA模型在机器人操作中展现出强大的零样本泛化能力，但现有预训练管线几乎都局限于低自由度平行夹爪。将语义先验迁移到高自由度灵巧手面临严重的形态鸿沟，直接端到端微调会导致空间推理灾难性遗忘和动作流形坍塌。本文提出InDex框架，通过跨形态语义继承，将预训练的1-DoF平行抓取输出重新用作连续的宏观虚拟抓取意图代理，并采用两阶段解耦学习架构：第一阶段参数高效对齐VLA骨干以预测连续手臂轨迹和标量抓取意图；第二阶段冻结空间骨干，利用意图条件去噪扩散头解码多指末端执行器的细粒度关节动作。在多种多阶段、高接触灵巧操作任务上的仿真基准测试表明，InDex能以极少的演示数据掌握复杂技能，显著优于整体微调基线，同时保留原始VLA先验的鲁棒空间泛化能力。

论文 VLA模型灵巧操作形态鸿沟意图条件微调机器人操作

推荐理由：机器人操作研究者终于有了解决灵巧手形态鸿沟的实用方案——InDex用意图条件微调避免了灾难性遗忘，做灵巧操作或VLA模型迁移的团队可以直接参考其两阶段架构。

原文

12:32

arXiv cs.AI@Litao Li, Yibo Yu, Yufeng Hu, Zhuo Yang, Jiali Wen, Yixin Chen, Yixi Zhou

精选

本文提出了针对2026年SoccerNet VQA挑战赛的解决方案。研究团队首先开发了一种由视觉语言模型驱动的低成本数据合成流程，将原始领域数据系统性地转化为多样化的VQA样本，包括简洁答案和长文本回答。其次，提出了MSUE架构，这是一种多专家问答架构，利用大语言模型动态地将问题分配给文本、图像和视频专家。这些专家分别由强大的文本基线Gemini3-Flash、微调的Qwen3-VL和外部知识库实例化，协同工作以提升VQA性能。MSUE在挑战基准上达到了0.95的准确率，在排行榜上获得第三名。

论文多模态 VQA 足球分析 SoccerNet 大语言模型

推荐理由：足球视频分析团队和体育AI研究者可以借鉴其低成本数据合成和多专家协作架构，直接提升VQA任务的准确率，值得关注。

原文

12:31

arXiv cs.AI@Mingjia Li, Jin Wu, Hong Qian, Wenhao Huang, Yiyang Huang, Yiwen Zhang, Chanjin Zheng, Xiangfeng Wang, Aimin Zhou, Jiajun Guo

精选

IntElicit 是一个用于评估情境化创造力的框架，它通过对话策略优化来减少认知能力和参与意愿等非创造性因素的干扰。该框架作为自适应 AI 面试官，在多轮交互中提供非指导性知识和参与支持，同时保留参与者生成创造性内容的责任。它引入分解过程奖励机制，避免奖励作弊，鼓励引导参与者推理而非直接给出答案。实验表明，IntElicit 能比专家设计的基线方法更好地激发创造性成果，揭示静态评估可能遗漏的创造潜力。这为 AI 辅助学习中的情境化创造力评估提供了形成性和诊断性视角。

论文创造力评估对话策略优化 AI面试官情境化评估教育AI

推荐理由：做创造力评估或 AI 教育对话系统的研究者值得关注——IntElicit 解决了静态测试无法捕捉真实创造力的痛点，用对话策略优化让评估更贴近实际场景。

原文

12:30

arXiv cs.AI@Semih Vazgecen, Cristian Sestito, Spyros Stathopoulos, Themis Prodromakis

精选

该研究提出一种结合轻量级生成对抗网络（GAN）和忆阻器神经形态系统的面部识别框架，专门解决非正面人脸图像的识别难题。通过GAN将非正面人脸正面化，再使用忆阻器分类器进行高效识别，在资源受限平台（如无人机）上实现96%的准确率。该方法缓解了传统AI的计算瓶颈，为动态真实环境中的面部识别提供了可扩展、高效的边缘AI解决方案。

论文 GAN 忆阻器面部识别边缘AI 神经形态计算

推荐理由：边缘AI设备（如无人机）做非正面人脸识别一直受限于算力，这个方案用GAN正面化+忆阻器低功耗推理，准确率还到96%，做嵌入式视觉或边缘计算的团队值得关注。

原文

12:28

arXiv cs.AI@Jason Miklian, John E. Katsos

76°

一项研究分析了 2023-2026 年间 Hacker News 和 Reddit 上的 2500 万条评论，发现用户指控他人使用 AI 生成内容的标签（如“AI slop”）在四年内增长了十倍以上。研究者通过 7500 条样本的 LLM 判断、情感轨迹分析、300 条确认指控的言语行为编码以及匹配对照测试，发现指控行为更多是社交筛选和群体认同的体现，而非真正识别 AI 内容。关键发现是：能统计上区分 AI 与人类文本的文体特征，并不能预测哪些人类文本会被指控为 AI。这表明，AI 对写作的读者端影响与生产者端截然不同，检测技术无法解决这一动态，因为指控的社会功能已转向社交把关和内部信号传递。

论文 AI 检测社交筛选在线社区 AI 垃圾信号理论

推荐理由：这项研究戳破了“AI 检测”的幻觉——做社区运营、内容审核或研究 AI 社会影响的读者会看到，指控 AI 更多是社交标签而非技术判断，值得反思当前反 AI 情绪的真实驱动力。

原文

12:21

rohanpaul_ai@rohanpaul_ai

精选

一篇新论文指出，稀疏自编码器作为LLM控制工具表现不佳的结论可能源于特征标签错误，而非方法本身缺陷。早期研究因标签与模型内部实际因果行为不匹配，导致稀疏自编码器看起来效果差。作者提出监督式管道，通过验证特征活动是否可靠追踪真实数据标签来替换模糊标签，并发现高稀疏性并非必要。尽管提示工程仍更强，但特征控制可直接操纵模型内部机制，为模型行为调控提供新思路。

论文稀疏自编码器 LLM控制特征标签可解释性因果权重

推荐理由：这篇论文为LLM控制领域拨乱反正——做模型可解释性、安全对齐或行为调控的团队，值得重新审视稀疏自编码器的潜力，建议点开看看如何用标签修正提升控制效果。

原文

12:11

arXiv cs.AI@Soumitra Sinhahajari, Navonil Majumder, Soujanya Poria

精选

该研究指出，用 LLM 作为裁判来评估科学问题的新颖性存在严重缺陷。作者构建了 RQ-Bench 基准，基于 arXiv 论文提取作者锚定的研究问题，并与模型生成的问题进行对比。实验发现，LLM 裁判一致高估模型生成问题的新颖性，产生“新颖性幻象”，而领域专家则得出相反结论。此外，模型生成的问题往往狭窄或受限于源材料，LLM 裁判难以察觉。该结果对依赖 LLM 进行科学新颖性评估的可靠性提出严重质疑。

论文 LLM评估科学新颖性 RQ-Bench LLM-as-Judge 研究问题生成

推荐理由：做科学创新评估或使用 LLM 辅助审稿的团队，这篇论文揭示了 LLM 裁判的盲区——它可能高估新颖性，导致误判。建议点开了解 RQ-Bench 的测试方法，避免在关键评估中踩坑。

原文

12:10

arXiv cs.AI@Zixuan Xiao, Pei Troh Koh, Jun Ma, Jack C. P. Cheng

精选

建筑信息模型（BIM）中几何密集型规范的合规检查自动化长期受限于高层法规逻辑与结构化IFC数据之间的语义鸿沟。现有方法依赖静态规则模板，难以处理多跳推理链或跨实体的空间依赖。为此，研究者提出SGR-BIM框架，通过动态构建跨模态知识图谱，将用户意图、法规语义与BIM几何对齐，实现可解释的推理。在679个消防规范专家验证查询上，该框架达到84.3%的准确率，比增强工具的单智能体基线提升8.6%。该研究为AEC行业提供了更透明、灵活的几何合规检查自动化范式。

论文 BIM 合规检查图推理知识图谱 AEC

推荐理由：BIM合规检查的自动化是建筑行业的长期痛点，SGR-BIM用图推理解决了多跳空间依赖问题。做BIM开发或建筑规范自动化的团队，可以直接参考其84.3%准确率的验证结果。

原文

12:09

arXiv cs.LG@Yeongseo Jung, Jaehyeok Kim, Eunseo Jung, Jiachuan Wang, Yongqi Zhang, Ka Chun Cheung, Simon See, Lei Chen

精选

现有对话模型在长对话中因历史累积导致计算冗余和注意力分散，简单截断或摘要会损失信息。研究者提出 C-DIC（Context-Driven Incremental Compression），将对话拆分为可修订的上下文线程，存储紧凑的对话记忆，并通过轻量级检索-修订-回写机制跨轮共享信息、更新过时记忆。该方法还适配了截断反向传播（TBPTT）来学习跨轮依赖，无需完整历史反向传播。实验表明，C-DIC 在数百轮对话中保持稳定的推理延迟和困惑度，为高质量长对话建模提供了可扩展路径。

论文对话系统上下文压缩长对话增量学习 C-DIC

推荐理由：长对话场景（如客服、角色扮演）的开发者终于有了一个兼顾效率与保真度的压缩方案——C-DIC 能稳定处理数百轮对话，值得在长上下文任务中试试。

原文

12:03

arXiv cs.LG@Haoyuan Deng, Yitong Gao, Yudong Lin, Haichao Liu, Zhenyu Wu, Ziwei Wang

精选

真实世界机器人操作中，人类在环强化学习（HiL-RL）依赖频繁人工纠正，成本高且难以扩展。UniIntervene 提出一种智能体干预模型，能自动检测无效探索并引导策略回到高价值状态，大幅减少人工干预。它通过未来条件动作价值估计和时序价值风险评判器，在价值停滞或下降时触发干预，并从记忆库中检索高价值恢复目标生成纠正动作。在多种真实操作任务中，UniIntervene 将平均成功率提升 8.6%，同时减少 57% 的人工干预。这项研究为降低 HiL-RL 部署成本、提升可扩展性提供了新思路。

论文强化学习人机协作机器人操作智能体干预 UniIntervene

推荐理由：做机器人强化学习或人机协作的团队，终于有了减少人工干预的自动化方案——UniIntervene 用价值感知的智能体干预替代频繁人工纠正，成功率还更高，值得在真实场景中一试。

原文

12:02

arXiv cs.LG@Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou

精选83°

强化学习（RL）训练中，rollout 阶段是主要瓶颈。多 Token 预测（MTP）本可通过推测解码加速，但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系，并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数，直接优化拒绝采样接受率，在数学推理、代码生成和智能体任务上实现最高 95% 接受率，吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上，异步 RL 训练端到端加速达 1.8 倍，且无需在线更新 MTP。

论文强化学习多 Token 预测推测解码拒绝采样 Qwen

推荐理由：RL 训练加速是 LLM 后训练的核心痛点，Bebop 用 MTP+拒绝采样把加速做到 1.8 倍，做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。

原文

12:00

arXiv cs.LG@Anamaria-Roberta Hartl, Levente Zólyomi, David Stap, Pieter-Jan Hoedt, Niklas Schmidinger, Lukas Hauzenberger, Sebastian Böck, Günter Klambauer, Sepp Hochreiter

精选

该论文系统比较了三种主流子二次架构（xLSTM、Mamba-2、Gated DeltaNet）在复杂任务上的表现，包括代码模型预训练、大模型蒸馏和时序基础模型预训练。结果显示，xLSTM 在所有任务中综合性能最优，其优势源于更灵活稳定的门控机制带来的状态追踪与记忆累积能力。研究通过统一公式分析和合成任务验证，揭示了 xLSTM 在长程依赖建模上的核心机制。

论文 xLSTM Mamba-2 子二次架构序列建模代码预训练

推荐理由：做序列建模或基础模型预训练的团队，这篇论文帮你厘清了 xLSTM 相比 Mamba 等架构的实际优势，看完可以直接指导模型选型。

原文

11:58

arXiv cs.LG@Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana

精选

这篇论文提出了一种基于可解释性的后训练数据管道，用于诊断和修正偏好数据中的虚假关联。作者通过可解释性协议识别出数据中潜在的概念，让用户能明确哪些行为应该被模型学习。实验表明，该方法能有效缓解过度风格化、谄媚等不良行为，并增强安全性和个性等期望属性。这项工作将后训练从优化黑箱奖励转变为审计和塑造学习信号的过程。

论文可解释性后训练偏好数据模型对齐数据审计

推荐理由：做模型对齐和偏好优化的团队终于有了数据层面的诊断工具——不用再盲目调奖励权重，直接看数据教了模型什么。做安全对齐或模型人格定制的开发者建议点开，能省下大量试错时间。

原文

11:56

arXiv cs.LG@Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang

精选

通用智能体（如OpenClaw）在编程任务上的表现难以用现有SWE-bench准确衡量，因为其不满足Docker工作区、补丁和预测合约要求。为此，研究者推出了Claw-SWE-Bench，一个多语言基准测试和适配器协议，能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例，覆盖8种语言和43个仓库，并提供了80实例的轻量版Lite用于快速验证。实验显示，OpenClaw在直接适配器下仅得19.1% Pass@1，而完整适配器可达73.4%，表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度，数据已开源。

论文基准测试编程智能体 OpenClaw SWE-bench 适配器

推荐理由：做智能体编程评估的团队终于有了公平比较的基准——Claw-SWE-Bench解决了不同框架无法直接对比的痛点，建议做Agent评估的开发者直接用它来测试自己的适配器设计。

原文

11:49

rohanpaul_ai@rohanpaul_ai

一项新研究指出，LLM 作为安全裁判时，对同一答案的翻译或改写版本可能给出不同安全判决。问题在于许多 AI 团队依赖 LLM 判断模型回答是否安全，但安全并非简单的二元问题。论文提出压力测试：将相同答案翻译或改写后展示给裁判，检查判决是否一致。裁判在暴力或极端内容等明显有害场景表现较好，但在金融建议、信用评估等依赖上下文和判断的场景中表现脆弱。不同裁判之间分歧大，高原始一致性可能掩盖低真实可靠性。

论文 LLM 安全裁判模型一致性压力测试 arxiv

推荐理由：做 AI 安全评测的团队会直接受影响——你的安全裁判可能比想象中更不可靠，建议点开看看测试方法。

原文

11:30

arXiv cs.AI@Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu

精选

视觉语言模型（VLM）将图像投影为数百到数千个视觉令牌，导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式，永久丢弃低分令牌。但研究发现，视觉令牌的重要性会随解码器深度变化，早期低分令牌可能在后续层变得重要。为此，研究者提出Reroute，一种无需训练的插件，将移除改为可恢复路由：被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上，在LLaVA-1.5和Qwen骨干上，在激进令牌缩减下提升了接地性能，同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由，而非不可逆修剪。代码已开源。

论文视觉语言模型令牌缩减可恢复路由推理优化开源/仓库

推荐理由：VLM推理成本高是实际部署的痛点，Reroute用零训练代价解决了令牌缩减中信息丢失的问题，做多模态模型优化或部署的团队可以直接集成到现有方案中，值得一试。

原文

11:29

arXiv cs.AI@Steven Oh, Jason Jingzhou Liu, Tony Tao, Philip Han, Kenneth Shaw, Satoshi Funabashi, Ruslan Salakhutdinov, Deepak Pathak

精选

本文提出NEXT方法，通过数据驱动的方式仅用10分钟自由运动数据训练1分钟，即可估计机械臂外部关节力矩，无需专用力传感器。结合FIRST重采样训练策略，在行为克隆中提升接触任务表现，五个长时任务中任务进度提升超17%。该方法让低成本机械臂也能实现力反馈遥操作和策略学习，无需额外硬件。代码和视频已开源。

论文力感知机器人操作行为克隆低成本硬件 NEXT

推荐理由：做机器人操作研究的团队终于有了低成本力感知方案——NEXT仅需10分钟数据就能替代昂贵传感器，FIRST让行为克隆在接触任务中提升17%进度，建议做遥操作或灵巧操作的开发者直接试。

原文

11:28

arXiv cs.AI@Jadelynn Dao, Milan Ganai, Yasmina Abukhadra, Ajay Sridhar, Mozhgan Nasr Azadani, Katie Luo, Clark Barrett, Jiajun Wu, Chelsea Finn, Marco Pavone

精选72°

DIRECT 是一个路由框架，利用多模态场景上下文为每个提示分配测试时计算资源，以改善成功-成本帕累托前沿。研究发现，在链式思维深度、模型大小和记忆历史三个缩放轴上，测试时计算并非均匀杠杆，不同轴带来不同能力增益。在 VLABench 和 RoboMME 上的实验表明，DIRECT 在物理 Franka 机械臂上匹配或超越更强模型的成功率，同时平均延迟降低高达 65%。该工作揭示了朴素缩放测试时计算的浪费性，为具身代理的部署提供了更高效的方案。

论文具身智能测试时计算路由框架 VLM 机器人规划

推荐理由：DIRECT 解决了具身规划中测试时计算资源浪费的问题，做机器人部署和 VLM 应用的团队可以直接参考其路由策略，在降低成本的同时保持性能。

原文

11:27