全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

09:40

09:40

arXiv: DeepSeek@Xing Yue, Linjuan Wu, Daoxin Zhang, Yongliang Shen, Weiming Lu

针对开放域奖励建模中缺乏可验证答案、传统基于评分标准的方法生成僵化且增加推理开销的问题，研究者提出 Eval-Skill 方法。该方法通过探索引导，仅用每个领域 100 个案例，分两阶段（工作流生成与原则生成）合成可复用的领域级评估技能，直接注入判断模型上下文。在 RewardBench 2 上，Eval-Skill 显著提升多种基座模型表现，如 Qwen3-8B 提升 13.44%，DeepSeek-V4-Flash 提升 18.51%。实验还分析了扩展性、泛化性和迁移性，表明紧凑评估技能为基于 LLM 的评估提供了高效新范式。代码已开源。

论文奖励模型评估技能探索引导 RewardBench LLM评估

推荐理由：做奖励模型或 LLM 评估的团队终于有了一个轻量级替代方案——不用每次生成评分标准，而是合成可复用的评估技能，效果还比传统方法好很多，值得在 RewardBench 上跑一下自己的模型。