13:51Together AI@togethercompute在 aiDotEngineer World's Fair 上,James Zou 将展示 EinsteinArena 和 DSGym 两项工作。EinsteinArena 用于多智能体数学发现,DSGym 则为数据科学智能体提供更好的评估。这两项基准旨在推动 AI 在科学协作中的能力。AI模型EinsteinArenaDSGymTogether AI多智能体数据科学智能体推荐理由:想知道多智能体怎么一起搞科研、怎么评估数据科学智能体?James Zou 分享了两个新基准,很实用。原文
12:09arXiv cs.AI@Tian Zheng, Kai-Tai Hsu论文以LAMBDA多智能体数据分析系统在DSGym的153个数值QRData任务上为例,研究自动评分可靠性。三层人机评分级联(严格正则匹配、LLM宽松评分、代码片段人工检查)中,两个自动评分器在70个假阳性上达到100%精确率。宽松评分器相比人工标签召回率为97%。关键词锚定提取方案将严格评分器召回率比最后数字启发式提高60个百分点,迭代提示机制将评分运行成功率从36%提升至97%,宽松通过率从16%提升至46%。变量类型是任务元数据中最一致影响评分动态的字段。论文LAMBDADSGym智能体自动化评分评估推荐理由:这篇论文用LAMBDA系统在153个任务上测了三种自动评分方法,发现宽松LLM评分召回率97%,严格规则召回率靠关键词提取提高60个百分点。想看AI评分够不够靠谱的可以读。原文