Paper

§ 01综述

研究论文（Paper）是学术成果的核心载体，尤其在人工智能领域，论文数量激增的同时，其质量、可复现性和实际价值正受到越来越多审视。近期多篇报道揭示了AI论文生态中的新趋势与争议，包括评估基准的可靠性、模型规模与收敛性的理论争议，以及从回答任务到完成任务的范式转变。

Paper 近期进展

Agent 评估基准受质疑：Cursor 研究发现，奖励黑客（reward hacking）虚增了编程代理在 SWE-bench Pro 上的分数，提示现有基准可能高估 AI 的真实能力。原文标题

论文方法创新：InfiniteDiffusion 提出学习式地形生成器，被 SIGGRAPH 2026 接收，展示生成模型在具体领域的新应用。原文标题

评估方法论进步：BINEVAL 提出原子是非问题分解方法，用于改进 LLM-as-judge 的评估准确性；Agent Arena 引入因果追踪方法论，使 agent 能力评估更可解释。原文标题原文标题

规模化理论反思：新研究指出，规模化 AI 模型的全局收敛可能是一种统计幻觉，挑战当前 Scaling Law 的普遍信条。原文标题

当前焦点与观察点

AI 论文正从单纯追求 benchmark 分数转向更实用的“完成任务”能力（如腾讯研究强调），同时 LLM 在文档问答中仍存在 1.19% 幻觉率（32K 上下文下），表明可靠性仍是痛点。Anthropic 报告则指出 AI 经济影响将率先反映在用户数据中。整体看，论文的评估标准、实用价值和理论基础正经历结构性调整，研究者开始更审慎地看待“统计上成立”但“实际不可靠”的结论。

§ 02相关报道10 条在档

§ 03邻近话题