全部 AI 动态 · AI 热点

6月24日

12:03

arXiv cs.AI@Linpeng Huang, Weixing Chen, Zexin Chen, Yang Liu, Liang Lin

EG-VQA是一个开放式的视频问答基准，包含2,067个视频和11,838个QA对，每个问题都标注了精确的时间证据区间。提出EG-F1指标，统一衡量预测证据的时间对齐和语义一致性。实验发现即使最强模型（如专有模型）在证据定位上表现不佳，存在答案正确但定位偏差的问题。为此提出EG-Reasoner模型，通过显式证据监督训练，在开源模型中达到最优，并在反事实等推理密集型任务上表现突出。该研究证明仅靠扩展规模不足以实现鲁棒的视频理解，结构化证据监督是关键。

论文 EG-VQA Video-LLM 视频问答证据定位基准

推荐理由：这个新基准EG-VQA把视频问答的答案和证据绑定在一起，测出来一大票模型只会蒙答案不会找证据。开源模型EG-Reasoner靠证据监督训练，反事实推理直接碾压好几家专有模型。

原文

6月23日

13:19

arXiv cs.LG@Nathan Senyard, Salem Hamdani, Astrid Zhang, Derek Wang, Evan Shelhamer, Mathias Lécuyer, Joséphine Gantois

Hedgementation 是一个面向国家尺度、10m² 空间分辨率的树篱映射遥感基准。它整合了多个遥感数据产品与法国树篱清单的标注，用于评估机器学习模型。基准测试了三个基线模型在空间距离和气候区域上的泛化能力，并涵盖监督和自监督学习方法。代码已开源在 GitHub。

论文 Hedgementation 遥感基准树篱映射法国

推荐理由：想测试遥感模型对细节的抓取能力？这个基准用了法国全国树篱数据，10米分辨率，还能跨气候区泛化。

原文

6月19日

10:08

arXiv cs.AI@Tingyue Pan, Mingyue Cheng, Daoyu Wang, Yitong Zhou, Jie Ouyang, Qi Liu, Enhong Chen

ScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图（方法导向、场景锚定、比较型、范围控制）的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314，在 Recall@All 上为0.355，表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。

论文 ScholarQuest LLM 智能体学术搜索基准

推荐理由：想测你的LLM论文搜索智能体？ScholarQuest 给了1000多个主题和4种意图的标准测试，最强方法才0.314召回，你的能提多少？

原文

6月18日

10:57

arXiv cs.AI@Haodong Chen, Xuanhe Zhou, Wei Zhou, Xinyue Shao, Yanbing Zhu, Bo Wang, Jiawei Hong, Anya Jia, Fan Wu

X+Slides 是一个评估大语言模型根据受众条件自动生成幻灯片的新基准。它覆盖 113 个主题和 7 种演示场景，使用 8133 个去重、基于源文本的探针，并引入四个互补指标：Audience Coverage、Domain-wise Coverage、Efficiency 和 Correctness。在 DeepPresenter、SlideTailor 和 NotebookLM 上的实验表明，在 τ_A=0.7 阈值下，NotebookLM 消融版达到最高 Audience Coverage 0.853，而 DeepPresenter 为 0.714，SlideTailor 为 0.594。结果显示当前系统仍无法完整恢复受众关键信息，且视觉质量不能替代源文本验证。

论文 X+Slides LLM 幻灯片生成基准 NotebookLM

推荐理由：想了解如何科学评估AI做PPT的水平？这篇论文用113个主题和8133个探针，测出NotebookLM能覆盖85%的受众关键信息，比DeepPresenter和SlideTailor强不少。

原文

09:43

arXiv cs.AI@Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun Oh

TRAP基准评估了22个模型（包括前沿闭源和开源模型）在文档中利用私密信息完成任务时的隐私泄露风险。所有模型均显示非平凡泄露，且指令遵循能力与泄露率正相关。现有的提示防御方法在减少泄露的同时显著降低了任务准确性。论文证明基于softmax的模型无法通过软约束防御同时实现高任务成功率和零泄露概率。提出的结构性私密字段隔离方法用哈希键替换私有字段，几乎完全防止泄露且保持任务精度。

论文 TRAP 基准隐私提取智能体防御

推荐理由：想看看你的AI模型干活时会不会偷偷泄密？这篇论文做了22个模型的隐私压力测试，还给了个不会牺牲任务性能的防漏方案。

原文

09:20

arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos

精选

PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试，评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理，发现纯求解器评估不足以区分智能体性能，验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。

论文 PowerAgentBench-SS 智能体电力系统基准工具使用

推荐理由：搞电力系统智能体评估的可以看看这个，用IEEE 39节点系统测试大模型能不能真干活，不只看结果还看过程，挺实在的。

原文

6月17日

10:42

arXiv cs.AI@Michèle Finck

大型语言模型已能生成至少中位质量的法律文本，但现有法律AI评估仅测量辅助性任务，无法评价其是否执行教义性法律推理。欧盟AI法案对高风险司法AI要求“适当准确性”，却因缺乏教义性推理基准而无操作内容。这篇论文首次系统定义该测量空白，并呼吁建立对应的标准化评估。

论文 LLM EU AI Act 法律推理基准教义性推理

推荐理由：这篇论文直击法律AI评测的核心缺陷——现有基准只测写文书，不测真正懂法理。做法律AI或合规的朋友值得看看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:40

arXiv cs.LG@Kaijie Xu, Anqi Wang, Xilin Dai

论文提出 PowerPhase，一个面向电力系统的大规模概率预测基准，包含 6 个传输电网，通道数从 2000 到 36964，远超现有基准。该基准引入约束感知指标（如 Safety_mBrier、NECV、CVaR-α），以评估预测在安全约束下的表现。研究发现，分布准确性与约束满足之间存在“安全-保真度”权衡，不同模型在这两个维度上排名不同。作者进一步提出 PowerForge，一种基于场景的分位数预测器，采用类型特定的解码头和变量组间的因果桥，在所有电网规模上取得最佳平均排名。

论文概率预测电力系统安全约束基准 PowerForge

推荐理由：电力系统运维和预测建模团队终于有了能评估安全约束的基准——PowerPhase 比现有基准大一个数量级，PowerForge 在安全与精度间取得最佳平衡，做电网概率预测的可以直接参考。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

10:34

arXiv cs.AI@Jingyuan Chen, Sheng Jin, Haopeng Sun, Wentao Liu, Chen Qian

UniCAD 是一个面向计算机辅助设计（CAD）的多模态学习基准，涵盖点云到CAD重建、文本/图像到CAD生成以及CAD问答等任务。同时提出的 UniCAD-MLLM 是一个通用多模态大语言模型，能端到端处理文本、图像、草图和点云，在单一框架内完成异构任务。实验表明，UniCAD-MLLM 在 UniCAD 和 Fusion360 基准上均达到最先进水平，超越现有任务专用和多任务基线。该工作填补了CAD领域缺乏统一多模态基准的空白，将开源数据集、代码和预训练模型。

论文 CAD 多模态基准大语言模型 3D重建

推荐理由：CAD 研究者终于有了统一的多模态基准和通用模型，做3D设计、CAD生成或问答的团队可以直接用 UniCAD-MLLM 替代多个专用模型，建议关注开源资源。

原文