arxiv·general

arxiv

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
36
§ 01综述

arXiv 作为预印本平台,持续承载人工智能领域的前沿研究。近期多篇论文聚焦于大语言模型(LLM)的评估与改进,揭示了当前研究的活跃方向与潜在问题。

  • 一项研究将神经网络编辑转化为强化学习问题,提出 RL 框架,能够更灵活地修改模型行为(RL 框架将神经网络编辑转化为强化学习问题)。
  • 另一论文指出,LLM 作为裁判评估科学新颖性时存在“新颖性幻象”,其判断结果不可靠,为此引入 RQ-Bench 基准(LLM-as-Judge 评估科学新颖性不可靠)。
  • 此外,SkillsBench 研究表明,为 LLM 智能体提供显式技能描述可显著提升任务成功率,但技能粒度影响有限(SkillsBench 研究)。
  • 在应用层面,物理学家利用 Claude Code 在 12 天内构建了可微扰动理论模块,展示了 AI 辅助科学软件开发的潜力(物理学家监督AI开发科学软件)。
  • 当前焦点集中在 LLM 评估的可靠性以及如何有效增强其能力。未来值得观察:LLM 作为裁判的一致性危机(如翻译后改变判决)是否会催生更稳健的评估范式,以及多智能体交互设计对涌现行为的实际影响。

    § 02相关报道10 条在档
    1. 01
      RL 框架将神经网络编辑转化为强化学习问题
      arXiv cs.LG
    2. 02
      LLM 安全裁判在翻译后改变判决,论文揭示一致性危机
      rohanpaul_ai
    3. 03
      LLM-as-Judge 评估科学新颖性不可靠:RQ-Bench 揭示“新颖性幻象”
      arXiv cs.AI
    4. 04
      Self-Harness:自我改进的智能体脚手架
      elvis
    5. 05
      Gary Marcus:LLM 有用但路还长,2020 年文章仍是未来指南
      Gary Marcus
    6. 06
      腾讯混元开源PlanningBench:评估LLM规划能力的可扩展框架
      Hunyuan
    7. 07
      Google LEAP:通用LLM在12道Putnam 2025题上全解,Lean-IMO-Bench提升至70%
      elvis
    8. 08
      单LLM驱动多智能体系统的扩展行为:智能涌现来自交互设计而非智能体数量
      elvis
    9. 09
      SkillsBench 研究:技能可用性显著提升 LLM Agent 任务成功率,呈现粒度影响有限
      arXiv: DeepSeek
    10. 10
      物理学家监督AI开发科学软件:Claude Code 12天构建可微扰动理论模块
      arXiv cs.AI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/arxiv