12:03arXiv cs.AI@Linpeng Huang, Weixing Chen, Zexin Chen, Yang Liu, Liang LinEG-VQA是一个开放式的视频问答基准,包含2,067个视频和11,838个QA对,每个问题都标注了精确的时间证据区间。提出EG-F1指标,统一衡量预测证据的时间对齐和语义一致性。实验发现即使最强模型(如专有模型)在证据定位上表现不佳,存在答案正确但定位偏差的问题。为此提出EG-Reasoner模型,通过显式证据监督训练,在开源模型中达到最优,并在反事实等推理密集型任务上表现突出。该研究证明仅靠扩展规模不足以实现鲁棒的视频理解,结构化证据监督是关键。论文EG-VQAVideo-LLM视频问答证据定位基准推荐理由:这个新基准EG-VQA把视频问答的答案和证据绑定在一起,测出来一大票模型只会蒙答案不会找证据。开源模型EG-Reasoner靠证据监督训练,反事实推理直接碾压好几家专有模型。原文
13:19arXiv cs.LG@Nathan Senyard, Salem Hamdani, Astrid Zhang, Derek Wang, Evan Shelhamer, Mathias Lécuyer, Joséphine GantoisHedgementation 是一个面向国家尺度、10m² 空间分辨率的树篱映射遥感基准。它整合了多个遥感数据产品与法国树篱清单的标注,用于评估机器学习模型。基准测试了三个基线模型在空间距离和气候区域上的泛化能力,并涵盖监督和自监督学习方法。代码已开源在 GitHub。论文Hedgementation遥感基准树篱映射法国推荐理由:想测试遥感模型对细节的抓取能力?这个基准用了法国全国树篱数据,10米分辨率,还能跨气候区泛化。原文
10:08arXiv cs.AI@Tingyue Pan, Mingyue Cheng, Daoyu Wang, Yitong Zhou, Jie Ouyang, Qi Liu, Enhong ChenScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图(方法导向、场景锚定、比较型、范围控制)的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314,在 Recall@All 上为0.355,表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。论文ScholarQuestLLM智能体学术搜索基准推荐理由:想测你的LLM论文搜索智能体?ScholarQuest 给了1000多个主题和4种意图的标准测试,最强方法才0.314召回,你的能提多少?原文
10:57arXiv cs.AI@Haodong Chen, Xuanhe Zhou, Wei Zhou, Xinyue Shao, Yanbing Zhu, Bo Wang, Jiawei Hong, Anya Jia, Fan WuX+Slides 是一个评估大语言模型根据受众条件自动生成幻灯片的新基准。它覆盖 113 个主题和 7 种演示场景,使用 8133 个去重、基于源文本的探针,并引入四个互补指标:Audience Coverage、Domain-wise Coverage、Efficiency 和 Correctness。在 DeepPresenter、SlideTailor 和 NotebookLM 上的实验表明,在 τ_A=0.7 阈值下,NotebookLM 消融版达到最高 Audience Coverage 0.853,而 DeepPresenter 为 0.714,SlideTailor 为 0.594。结果显示当前系统仍无法完整恢复受众关键信息,且视觉质量不能替代源文本验证。论文X+SlidesLLM幻灯片生成基准NotebookLM推荐理由:想了解如何科学评估AI做PPT的水平?这篇论文用113个主题和8133个探针,测出NotebookLM能覆盖85%的受众关键信息,比DeepPresenter和SlideTailor强不少。原文
09:43arXiv cs.AI@Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun OhTRAP基准评估了22个模型(包括前沿闭源和开源模型)在文档中利用私密信息完成任务时的隐私泄露风险。所有模型均显示非平凡泄露,且指令遵循能力与泄露率正相关。现有的提示防御方法在减少泄露的同时显著降低了任务准确性。论文证明基于softmax的模型无法通过软约束防御同时实现高任务成功率和零泄露概率。提出的结构性私密字段隔离方法用哈希键替换私有字段,几乎完全防止泄露且保持任务精度。论文TRAP基准隐私提取智能体防御推荐理由:想看看你的AI模型干活时会不会偷偷泄密?这篇论文做了22个模型的隐私压力测试,还给了个不会牺牲任务性能的防漏方案。原文
09:20arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos精选PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试,评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理,发现纯求解器评估不足以区分智能体性能,验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。论文PowerAgentBench-SS智能体电力系统基准工具使用10 个信源在谈推荐理由:搞电力系统智能体评估的可以看看这个,用IEEE 39节点系统测试大模型能不能真干活,不只看结果还看过程,挺实在的。原文
10:42arXiv cs.AI@Michèle Finck大型语言模型已能生成至少中位质量的法律文本,但现有法律AI评估仅测量辅助性任务,无法评价其是否执行教义性法律推理。欧盟AI法案对高风险司法AI要求“适当准确性”,却因缺乏教义性推理基准而无操作内容。这篇论文首次系统定义该测量空白,并呼吁建立对应的标准化评估。论文LLMEU AI Act法律推理基准教义性推理推荐理由:这篇论文直击法律AI评测的核心缺陷——现有基准只测写文书,不测真正懂法理。做法律AI或合规的朋友值得看看。原文
09:40arXiv cs.LG@Kaijie Xu, Anqi Wang, Xilin Dai论文提出 PowerPhase,一个面向电力系统的大规模概率预测基准,包含 6 个传输电网,通道数从 2000 到 36964,远超现有基准。该基准引入约束感知指标(如 Safety_mBrier、NECV、CVaR-α),以评估预测在安全约束下的表现。研究发现,分布准确性与约束满足之间存在“安全-保真度”权衡,不同模型在这两个维度上排名不同。作者进一步提出 PowerForge,一种基于场景的分位数预测器,采用类型特定的解码头和变量组间的因果桥,在所有电网规模上取得最佳平均排名。论文概率预测电力系统安全约束基准PowerForge推荐理由:电力系统运维和预测建模团队终于有了能评估安全约束的基准——PowerPhase 比现有基准大一个数量级,PowerForge 在安全与精度间取得最佳平衡,做电网概率预测的可以直接参考。原文
10:34arXiv cs.AI@Jingyuan Chen, Sheng Jin, Haopeng Sun, Wentao Liu, Chen QianUniCAD 是一个面向计算机辅助设计(CAD)的多模态学习基准,涵盖点云到CAD重建、文本/图像到CAD生成以及CAD问答等任务。同时提出的 UniCAD-MLLM 是一个通用多模态大语言模型,能端到端处理文本、图像、草图和点云,在单一框架内完成异构任务。实验表明,UniCAD-MLLM 在 UniCAD 和 Fusion360 基准上均达到最先进水平,超越现有任务专用和多任务基线。该工作填补了CAD领域缺乏统一多模态基准的空白,将开源数据集、代码和预训练模型。论文CAD多模态基准大语言模型3D重建推荐理由:CAD 研究者终于有了统一的多模态基准和通用模型,做3D设计、CAD生成或问答的团队可以直接用 UniCAD-MLLM 替代多个专用模型,建议关注开源资源。原文