12:09NVIDIA AI@NVIDIAAIArtificialAnlys发布新基准AA-Briefcase,用于评估复杂项目中的现实任务。Nemotron 3 Ultra在该基准开放模型中排名靠前。该模型在多种长时间运行的智能体任务上表现强劲,即使首次面对这些任务也能保持性能。该基准旨在测试模型的长期执行与泛化能力。AI模型AA-BriefcaseNemotron 3 UltraArtificialAnlys智能体基准推荐理由:新出的AA-Briefcase基准可以看看,Nemotron 3 Ultra在开放模型里排前面,适合对比它处理复杂任务的能力。原文
12:03arXiv cs.AI@Linpeng Huang, Weixing Chen, Zexin Chen, Yang Liu, Liang LinEG-VQA是一个开放式的视频问答基准,包含2,067个视频和11,838个QA对,每个问题都标注了精确的时间证据区间。提出EG-F1指标,统一衡量预测证据的时间对齐和语义一致性。实验发现即使最强模型(如专有模型)在证据定位上表现不佳,存在答案正确但定位偏差的问题。为此提出EG-Reasoner模型,通过显式证据监督训练,在开源模型中达到最优,并在反事实等推理密集型任务上表现突出。该研究证明仅靠扩展规模不足以实现鲁棒的视频理解,结构化证据监督是关键。论文EG-VQAVideo-LLM视频问答证据定位基准推荐理由:这个新基准EG-VQA把视频问答的答案和证据绑定在一起,测出来一大票模型只会蒙答案不会找证据。开源模型EG-Reasoner靠证据监督训练,反事实推理直接碾压好几家专有模型。原文
13:19arXiv cs.LG@Nathan Senyard, Salem Hamdani, Astrid Zhang, Derek Wang, Evan Shelhamer, Mathias Lécuyer, Joséphine GantoisHedgementation 是一个面向国家尺度、10m² 空间分辨率的树篱映射遥感基准。它整合了多个遥感数据产品与法国树篱清单的标注,用于评估机器学习模型。基准测试了三个基线模型在空间距离和气候区域上的泛化能力,并涵盖监督和自监督学习方法。代码已开源在 GitHub。论文Hedgementation遥感基准树篱映射法国推荐理由:想测试遥感模型对细节的抓取能力?这个基准用了法国全国树篱数据,10米分辨率,还能跨气候区泛化。原文
10:08arXiv cs.AI@Tingyue Pan, Mingyue Cheng, Daoyu Wang, Yitong Zhou, Jie Ouyang, Qi Liu, Enhong ChenScholarQuest 是一个基于超过1,000个计算机科学主题和四种研究意图(方法导向、场景锚定、比较型、范围控制)的学术论文搜索基准。该基准通过可扩展的答案构建和共享检索后端 ScholarBase 支持可重复评测。评测中最佳智能体方法在 Recall@100 上仅达0.314,在 Recall@All 上为0.355,表明搜索性能仍有巨大提升空间。研究还分析了搜索效率、意图级鲁棒性和失败案例。论文ScholarQuestLLM智能体学术搜索基准推荐理由:想测你的LLM论文搜索智能体?ScholarQuest 给了1000多个主题和4种意图的标准测试,最强方法才0.314召回,你的能提多少?原文
00:10elvis@omarsar0精选OpenAI 推出 LifeSciBench,一个针对生命科学研究的基准测试,包含 750 个专家编写的任务,覆盖 7 个生物学研究工作流。该基准由 173 位来自生物技术和制药领域的科学家共同开发,旨在衡量 AI 在真实世界科研场景中的表现。结果显示通用模型在复杂结构处理上仍有不足,而专用模型在科学研究中优势明显。AI模型OpenAILifeSciBench基准生命科学科学智能10 个信源在谈推荐理由:OpenAI 联合 173 位科学家搞了个新基准 LifeSciBench,750 个专家任务专测 AI 搞科研的能力,比通用模型靠谱多了。原文
14:43小互@imxiaohu6月,Apodex 向 FutureX 提交了四个基于 Apodex-1.0-mini 35B 的实验预测框架。该模型在6月第一周排名包揽第1至第4名,并在第二周持续霸榜第1名。这一成绩展示了 Apodex-1.0-mini 35B 在预测任务上的竞争力。AI模型ApodexApodex-1.0-miniFutureX推理模型基准推荐理由:Apodex 用 35B 参数模型做的预测框架,在 FutureX 排行榜上直接包揽前四名,太猛了。原文
10:57arXiv cs.AI@Haodong Chen, Xuanhe Zhou, Wei Zhou, Xinyue Shao, Yanbing Zhu, Bo Wang, Jiawei Hong, Anya Jia, Fan WuX+Slides 是一个评估大语言模型根据受众条件自动生成幻灯片的新基准。它覆盖 113 个主题和 7 种演示场景,使用 8133 个去重、基于源文本的探针,并引入四个互补指标:Audience Coverage、Domain-wise Coverage、Efficiency 和 Correctness。在 DeepPresenter、SlideTailor 和 NotebookLM 上的实验表明,在 τ_A=0.7 阈值下,NotebookLM 消融版达到最高 Audience Coverage 0.853,而 DeepPresenter 为 0.714,SlideTailor 为 0.594。结果显示当前系统仍无法完整恢复受众关键信息,且视觉质量不能替代源文本验证。论文X+SlidesLLM幻灯片生成基准NotebookLM推荐理由:想了解如何科学评估AI做PPT的水平?这篇论文用113个主题和8133个探针,测出NotebookLM能覆盖85%的受众关键信息,比DeepPresenter和SlideTailor强不少。原文
09:43arXiv cs.AI@Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun OhTRAP基准评估了22个模型(包括前沿闭源和开源模型)在文档中利用私密信息完成任务时的隐私泄露风险。所有模型均显示非平凡泄露,且指令遵循能力与泄露率正相关。现有的提示防御方法在减少泄露的同时显著降低了任务准确性。论文证明基于softmax的模型无法通过软约束防御同时实现高任务成功率和零泄露概率。提出的结构性私密字段隔离方法用哈希键替换私有字段,几乎完全防止泄露且保持任务精度。论文TRAP基准隐私提取智能体防御推荐理由:想看看你的AI模型干活时会不会偷偷泄密?这篇论文做了22个模型的隐私压力测试,还给了个不会牺牲任务性能的防漏方案。原文
09:20arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos精选PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试,评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理,发现纯求解器评估不足以区分智能体性能,验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。论文PowerAgentBench-SS智能体电力系统基准工具使用10 个信源在谈推荐理由:搞电力系统智能体评估的可以看看这个,用IEEE 39节点系统测试大模型能不能真干活,不只看结果还看过程,挺实在的。原文
05:24OpenAI@OpenAIOpenAI发布LifeSciBench,一个专门用于衡量AI在真实生命科学研究中表现的基准。该基准由173位生物技术和制药领域科学家参与开发,包含750个专家编写的任务,覆盖7个生物研究工作流。LifeSciBench旨在系统评估AI模型在文献分析、实验设计等科研环节的实用性,并指导后续改进。AI模型OpenAILifeSciBench基准生命科学科研辅助10 个信源在谈推荐理由:OpenAI联合173位科学家搞了个LifeSciBench,750个专家级任务覆盖7个生物研究流程,想测AI在生命科学里到底好不好用,科研人员可以用它来选模型。原文
10:42arXiv cs.AI@Michèle Finck大型语言模型已能生成至少中位质量的法律文本,但现有法律AI评估仅测量辅助性任务,无法评价其是否执行教义性法律推理。欧盟AI法案对高风险司法AI要求“适当准确性”,却因缺乏教义性推理基准而无操作内容。这篇论文首次系统定义该测量空白,并呼吁建立对应的标准化评估。论文LLMEU AI Act法律推理基准教义性推理推荐理由:这篇论文直击法律AI评测的核心缺陷——现有基准只测写文书,不测真正懂法理。做法律AI或合规的朋友值得看看。原文
08:40Satya Nadella@satyanadella71°微软Azure在AI训练基准测试中创下新纪录,实现了史上最快的训练时间和最大的报告规模。这一里程碑得益于全栈创新,包括硅片、系统、网络和软件协同优化,以及与Nvidia的深度合作。Azure此次突破展示了其AI基础设施的最新进展。行业AzureNvidiaAI训练基准基础设施2 个信源在谈推荐理由:Azure和Nvidia联手刷了个AI训练速度纪录,规模也是史上最大,搞AI基础设施的可以看看。原文
13:10rohanpaul_ai@rohanpaul_ai精选AGENTCL 提出一个评估语言智能体持续学习能力的新基准,通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流(后续任务可复用前序任务的代码函数、研究证据或工作流)与“朴素”任务流(任务同领域但无明确复用关系)。研究发现,当前记忆方法在任务连接明显时能复用过往经验,但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。论文AGENTCL智能体持续学习记忆基准推荐理由:看智能体记忆到底行不行原文
09:40arXiv cs.LG@Kaijie Xu, Anqi Wang, Xilin Dai论文提出 PowerPhase,一个面向电力系统的大规模概率预测基准,包含 6 个传输电网,通道数从 2000 到 36964,远超现有基准。该基准引入约束感知指标(如 Safety_mBrier、NECV、CVaR-α),以评估预测在安全约束下的表现。研究发现,分布准确性与约束满足之间存在“安全-保真度”权衡,不同模型在这两个维度上排名不同。作者进一步提出 PowerForge,一种基于场景的分位数预测器,采用类型特定的解码头和变量组间的因果桥,在所有电网规模上取得最佳平均排名。论文概率预测电力系统安全约束基准PowerForge推荐理由:电力系统运维和预测建模团队终于有了能评估安全约束的基准——PowerPhase 比现有基准大一个数量级,PowerForge 在安全与精度间取得最佳平衡,做电网概率预测的可以直接参考。原文
00:13AK@_akhaliq精选TRL-Bench 提出了一个跨范式的表格编码器表示级评估标准。该基准覆盖了Transformer、MLP等不同架构。它旨在统一不同模型在表格数据上的表示质量比较。AI模型TRL-Bench表格编码器基准表示学习推荐理由:表格编码器评估新标杆原文
10:34arXiv cs.AI@Jingyuan Chen, Sheng Jin, Haopeng Sun, Wentao Liu, Chen QianUniCAD 是一个面向计算机辅助设计(CAD)的多模态学习基准,涵盖点云到CAD重建、文本/图像到CAD生成以及CAD问答等任务。同时提出的 UniCAD-MLLM 是一个通用多模态大语言模型,能端到端处理文本、图像、草图和点云,在单一框架内完成异构任务。实验表明,UniCAD-MLLM 在 UniCAD 和 Fusion360 基准上均达到最先进水平,超越现有任务专用和多任务基线。该工作填补了CAD领域缺乏统一多模态基准的空白,将开源数据集、代码和预训练模型。论文CAD多模态基准大语言模型3D重建推荐理由:CAD 研究者终于有了统一的多模态基准和通用模型,做3D设计、CAD生成或问答的团队可以直接用 UniCAD-MLLM 替代多个专用模型,建议关注开源资源。原文