全部 AI 动态 · AI 热点

6月27日

12:09

NVIDIA AI@NVIDIAAI

ArtificialAnlys发布新基准AA-Briefcase，用于评估复杂项目中的现实任务。Nemotron 3 Ultra在该基准开放模型中排名靠前。该模型在多种长时间运行的智能体任务上表现强劲，即使首次面对这些任务也能保持性能。该基准旨在测试模型的长期执行与泛化能力。

AI模型 AA-Briefcase Nemotron 3 Ultra ArtificialAnlys 智能体基准

推荐理由：新出的AA-Briefcase基准可以看看，Nemotron 3 Ultra在开放模型里排前面，适合对比它处理复杂任务的能力。

原文

6月24日

12:03

arXiv cs.AI@Linpeng Huang, Weixing Chen, Zexin Chen, Yang Liu, Liang Lin

EG-VQA是一个开放式的视频问答基准，包含2,067个视频和11,838个QA对，每个问题都标注了精确的时间证据区间。提出EG-F1指标，统一衡量预测证据的时间对齐和语义一致性。实验发现即使最强模型（如专有模型）在证据定位上表现不佳，存在答案正确但定位偏差的问题。为此提出EG-Reasoner模型，通过显式证据监督训练，在开源模型中达到最优，并在反事实等推理密集型任务上表现突出。该研究证明仅靠扩展规模不足以实现鲁棒的视频理解，结构化证据监督是关键。

论文 EG-VQA Video-LLM 视频问答证据定位基准

推荐理由：这个新基准EG-VQA把视频问答的答案和证据绑定在一起，测出来一大票模型只会蒙答案不会找证据。开源模型EG-Reasoner靠证据监督训练，反事实推理直接碾压好几家专有模型。

原文

6月23日

13:19

arXiv cs.LG@Nathan Senyard, Salem Hamdani, Astrid Zhang, Derek Wang, Evan Shelhamer, Mathias Lécuyer, Joséphine Gantois

Hedgementation 是一个面向国家尺度、10m² 空间分辨率的树篱映射遥感基准。它整合了多个遥感数据产品与法国树篱清单的标注，用于评估机器学习模型。基准测试了三个基线模型在空间距离和气候区域上的泛化能力，并涵盖监督和自监督学习方法。代码已开源在 GitHub。

论文 Hedgementation 遥感基准树篱映射法国

推荐理由：想测试遥感模型对细节的抓取能力？这个基准用了法国全国树篱数据，10米分辨率，还能跨气候区泛化。

原文

6月19日

10:08

arXiv cs.AI@Tingyue Pan, Mingyue Cheng, Daoyu Wang, Yitong Zhou, Jie Ouyang, Qi Liu, Enhong Chen

ScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图（方法导向、场景锚定、比较型、范围控制）的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314，在 Recall@All 上为0.355，表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。

论文 ScholarQuest LLM 智能体学术搜索基准

推荐理由：想测你的LLM论文搜索智能体？ScholarQuest 给了1000多个主题和4种意图的标准测试，最强方法才0.314召回，你的能提多少？

原文

00:10

elvis@omarsar0

精选

OpenAI 推出 LifeSciBench，一个针对生命科学研究的基准测试，包含 750 个专家编写的任务，覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发，旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足，而专用模型在科学研究中优势明显。

AI模型 OpenAI LifeSciBench 基准生命科学科学智能

推荐理由：OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench，750 个专家任务专测 AI 搞科研的能力，比通用模型靠谱多了。

原文

6月18日

14:43

小互@imxiaohu

6月，Apodex 向 FutureX 提交了四个基于 Apodex-1.0-mini 35B 的实验预测框架。该模型在6月第一周排名包揽第1至第4名，并在第二周持续霸榜第1名。这一成绩展示了 Apodex-1.0-mini 35B 在预测任务上的竞争力。

AI模型 Apodex Apodex-1.0-mini FutureX 推理模型基准

推荐理由：Apodex 用 35B 参数模型做的预测框架，在 FutureX 排行榜上直接包揽前四名，太猛了。

原文

10:57

arXiv cs.AI@Haodong Chen, Xuanhe Zhou, Wei Zhou, Xinyue Shao, Yanbing Zhu, Bo Wang, Jiawei Hong, Anya Jia, Fan Wu

X+Slides 是一个评估大语言模型根据受众条件自动生成幻灯片的新基准。它覆盖 113 个主题和 7 种演示场景，使用 8133 个去重、基于源文本的探针，并引入四个互补指标：Audience Coverage、Domain-wise Coverage、Efficiency 和 Correctness。在 DeepPresenter、SlideTailor 和 NotebookLM 上的实验表明，在 τ_A=0.7 阈值下，NotebookLM 消融版达到最高 Audience Coverage 0.853，而 DeepPresenter 为 0.714，SlideTailor 为 0.594。结果显示当前系统仍无法完整恢复受众关键信息，且视觉质量不能替代源文本验证。

论文 X+Slides LLM 幻灯片生成基准 NotebookLM

推荐理由：想了解如何科学评估AI做PPT的水平？这篇论文用113个主题和8133个探针，测出NotebookLM能覆盖85%的受众关键信息，比DeepPresenter和SlideTailor强不少。

原文

09:43

arXiv cs.AI@Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun Oh

TRAP基准评估了22个模型（包括前沿闭源和开源模型）在文档中利用私密信息完成任务时的隐私泄露风险。所有模型均显示非平凡泄露，且指令遵循能力与泄露率正相关。现有的提示防御方法在减少泄露的同时显著降低了任务准确性。论文证明基于softmax的模型无法通过软约束防御同时实现高任务成功率和零泄露概率。提出的结构性私密字段隔离方法用哈希键替换私有字段，几乎完全防止泄露且保持任务精度。

论文 TRAP 基准隐私提取智能体防御

推荐理由：想看看你的AI模型干活时会不会偷偷泄密？这篇论文做了22个模型的隐私压力测试，还给了个不会牺牲任务性能的防漏方案。

原文

09:20

arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos

精选

PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试，评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理，发现纯求解器评估不足以区分智能体性能，验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。

论文 PowerAgentBench-SS 智能体电力系统基准工具使用

推荐理由：搞电力系统智能体评估的可以看看这个，用IEEE 39节点系统测试大模型能不能真干活，不只看结果还看过程，挺实在的。

原文

05:24

OpenAI@OpenAI

OpenAI发布LifeSciBench，一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发，包含750个专家编写的任务，覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性，并指导后续改进。

AI模型 OpenAI LifeSciBench 基准生命科学科研辅助

推荐理由：OpenAI联合173位科学家搞了个LifeSciBench，750个专家级任务覆盖7个生物研究流程，想测AI在生命科学里到底好不好用，科研人员可以用它来选模型。

原文

6月17日

10:42

arXiv cs.AI@Michèle Finck

大型语言模型已能生成至少中位质量的法律文本，但现有法律AI评估仅测量辅助性任务，无法评价其是否执行教义性法律推理。欧盟AI法案对高风险司法AI要求“适当准确性”，却因缺乏教义性推理基准而无操作内容。这篇论文首次系统定义该测量空白，并呼吁建立对应的标准化评估。

论文 LLM EU AI Act 法律推理基准教义性推理

推荐理由：这篇论文直击法律AI评测的核心缺陷——现有基准只测写文书，不测真正懂法理。做法律AI或合规的朋友值得看看。

原文

08:40

Satya Nadella@satyanadella

71°

微软Azure在AI训练基准测试中创下新纪录，实现了史上最快的训练时间和最大的报告规模。这一里程碑得益于全栈创新，包括硅片、系统、网络和软件协同优化，以及与Nvidia的深度合作。Azure此次突破展示了其AI基础设施的最新进展。

行业 Azure Nvidia AI训练基准基础设施

推荐理由：Azure和Nvidia联手刷了个AI训练速度纪录，规模也是史上最大，搞AI基础设施的可以看看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

13:10

rohanpaul_ai@rohanpaul_ai

精选

AGENTCL 提出一个评估语言智能体持续学习能力的新基准，通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流（后续任务可复用前序任务的代码函数、研究证据或工作流）与“朴素”任务流（任务同领域但无明确复用关系）。研究发现，当前记忆方法在任务连接明显时能复用过往经验，但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。

论文 AGENTCL 智能体持续学习记忆基准

推荐理由：看智能体记忆到底行不行

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:40

arXiv cs.LG@Kaijie Xu, Anqi Wang, Xilin Dai

论文提出 PowerPhase，一个面向电力系统的大规模概率预测基准，包含 6 个传输电网，通道数从 2000 到 36964，远超现有基准。该基准引入约束感知指标（如 Safety_mBrier、NECV、CVaR-α），以评估预测在安全约束下的表现。研究发现，分布准确性与约束满足之间存在“安全-保真度”权衡，不同模型在这两个维度上排名不同。作者进一步提出 PowerForge，一种基于场景的分位数预测器，采用类型特定的解码头和变量组间的因果桥，在所有电网规模上取得最佳平均排名。

论文概率预测电力系统安全约束基准 PowerForge

推荐理由：电力系统运维和预测建模团队终于有了能评估安全约束的基准——PowerPhase 比现有基准大一个数量级，PowerForge 在安全与精度间取得最佳平衡，做电网概率预测的可以直接参考。

原文

00:13

AK@_akhaliq

精选

TRL-Bench 提出了一个跨范式的表格编码器表示级评估标准。该基准覆盖了Transformer、MLP等不同架构。它旨在统一不同模型在表格数据上的表示质量比较。

AI模型 TRL-Bench 表格编码器基准表示学习

推荐理由：表格编码器评估新标杆

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

10:34

arXiv cs.AI@Jingyuan Chen, Sheng Jin, Haopeng Sun, Wentao Liu, Chen Qian

UniCAD 是一个面向计算机辅助设计（CAD）的多模态学习基准，涵盖点云到CAD重建、文本/图像到CAD生成以及CAD问答等任务。同时提出的 UniCAD-MLLM 是一个通用多模态大语言模型，能端到端处理文本、图像、草图和点云，在单一框架内完成异构任务。实验表明，UniCAD-MLLM 在 UniCAD 和 Fusion360 基准上均达到最先进水平，超越现有任务专用和多任务基线。该工作填补了CAD领域缺乏统一多模态基准的空白，将开源数据集、代码和预训练模型。

论文 CAD 多模态基准大语言模型 3D重建

推荐理由：CAD 研究者终于有了统一的多模态基准和通用模型，做3D设计、CAD生成或问答的团队可以直接用 UniCAD-MLLM 替代多个专用模型，建议关注开源资源。

原文