03:07elvis@omarsar0精选BINEVAL 将每个评估标准分解为原子的是非问题,独立回答每个输出,再聚合为校准的多维分数。在 SummEval、Topical-Chat 和 QAGS 三个基准上,它无需训练即匹配或超越了 UniEval 和 G-Eval,尤其在事实一致性上表现突出。每个问题级别的裁决都可检查,帮助诊断输出得分低的原因,并直接用于提示改进信号。论文 arxiv.org/abs/2606.27226 详细介绍了该方法。论文BINEVALLLM-as-a-Judge评估UniEvalG-Eval推荐理由:如果你用 LLM 做评估,这个方法比传统打分更透明——拆成原子问题逐一判断,还能直接帮你改进提示词。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……