AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:探索引导×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月8日
09:40
09:40arXiv: DeepSeek@Xing Yue, Linjuan Wu, Daoxin Zhang, Yongliang Shen, Weiming Lu
针对开放域奖励建模中缺乏可验证答案、传统基于评分标准的方法生成僵化且增加推理开销的问题,研究者提出 Eval-Skill 方法。该方法通过探索引导,仅用每个领域 100 个案例,分两阶段(工作流生成与原则生成)合成可复用的领域级评估技能,直接注入判断模型上下文。在 RewardBench 2 上,Eval-Skill 显著提升多种基座模型表现,如 Qwen3-8B 提升 13.44%,DeepSeek-V4-Flash 提升 18.51%。实验还分析了扩展性、泛化性和迁移性,表明紧凑评估技能为基于 LLM 的评估提供了高效新范式。代码已开源。
论文奖励模型评估技能探索引导RewardBenchLLM评估

推荐理由:做奖励模型或 LLM 评估的团队终于有了一个轻量级替代方案——不用每次生成评分标准,而是合成可复用的评估技能,效果还比传统方法好很多,值得在 RewardBench 上跑一下自己的模型。
原文
精选全部日报登录