10:32arXiv cs.LG@Zach Moczkodan, Hany Ragab该研究重新评估了 Transformer 等时序架构在网络入侵检测中的真实效果,发现其性能提升主要来自 padding 方式而非架构本身。在无 padding 的真实序列上,Transformer 的 macro-F1 达 0.89,但零填充掩码评估下骤降 0.24,而 LSTM、GRU 和 1D-CNN 保持稳定。在无泄漏分组评估中,随机森林最稳健,Transformer 的误报率从 0.04% 升至 2.7%,增加 67 倍。研究呼吁采用无泄漏分割、明确 padding 披露和序列感知基准测试作为标准实践。论文入侵检测Transformer时序评估CIC-IDS2017基准测试推荐理由:这篇论文戳破了 Transformer 在入侵检测中“近乎完美”的假象——做网络安全 AI 研究的团队,尤其是依赖 CIC-IDS2017 基准的,建议仔细看 padding 和分割协议的影响,否则你的模型评估可能虚高 0.24 macro-F1。原文
10:30arXiv: OpenAI@Andrew Bo Liu, Samira Nedungadi, Bryce Cai, Alex Kleinman, Harmon Bhasin, Seth Donoughe72°ABC-Bench(Agentic Bio-Capabilities Benchmark)是一个用于评估大型语言模型智能体在生物安全相关任务上能力的基准测试套件。它包含三类任务:编写代码操作液体处理机器人、设计用于体外组装的DNA片段、以及规避DNA合成筛选。所有测试的LLM智能体在三项任务上均超过了人类专家基线水平,但在需要新颖生物信息推理的任务上表现较弱。湿实验验证显示,OpenAI的o4-mini-high模型生成的脚本成功在OpenTrons机器人上组装出预期序列的DNA。该基准旨在量化AI在生物研究中的双刃剑效应——既推动科学进步,也带来新的生物安全风险。论文生物安全LLM智能体基准测试DNA组装双用途技术7 个信源在谈推荐理由:这是首个系统评估LLM智能体在生物安全关键任务上能力的基准,做AI安全或生物计算的研究者值得关注——它揭示了当前模型在复制已知协议时很强,但在创新推理上仍有短板。原文
10:03Scott Wu@ScottWu4676°在 FrontierCode 基准发布仅一天后,Cognition 的 Claude Fable 5 模型即成为新的最高分获得者,尤其在最具挑战性的任务上表现突出。在 FrontierCode Diamond 子集上,Fable 5 得分从 13.4% 跃升至 29.3%,远超 Opus 的 4.8%。该基准专注于真实世界的工程任务,评估代码的可合并性和质量。Fable 5 现已可在 Devin 中使用,为开发者提供更强的编程辅助能力。AI模型Claude Fable 5FrontierCode基准测试编程助手Devin10 个信源在谈推荐理由:Claude Fable 5 在真实工程任务基准上碾压 Opus,做复杂代码合并的开发者可以直接在 Devin 中体验,效率提升立竿见影。原文
06:47berryxia@berryxia91°Anthropic 未发布传闻中的 Mythos 模型,但推出了其安全版本 Claude Fable 5。该模型在软件工程、知识工作、科研和视觉等基准测试中几乎全线 SOTA,尤其在长任务上表现突出。为保障安全,模型在 cyber、生物化学等敏感领域会自动降级到 Opus 4.8,平均每 20 次对话触发一次。同时,Anthropic 向少数可信的网络安全和关键基础设施团队开放了完全版 Mythos 5,并计划逐步扩大访问。此举打破了“越强越危险”的固有观念,展示了能力与安全可兼得。AI模型Claude Fable 5Anthropic安全模型基准测试前沿模型10 个信源在谈推荐理由:Anthropic 用 Fable 5 证明了顶级 AI 不必在能力与安全间二选一,做 AI 安全或前沿模型应用的开发者值得关注这套精准 safeguard 方案。原文
04:32Hugging Face: Blog(博客/媒体)ServiceNow AI 发布了一项针对前沿自动语音识别(ASR)模型在代码切换语音上的基准测试。代码切换指说话者在同一句话中混合使用两种语言,这在多语言用户中很常见。测试发现,当前最先进的ASR模型在处理这种混合语言时表现不佳,错误率显著高于单语言场景。该研究强调了构建能理解双语用户的语音代理的挑战,并提供了公开基准供开发者评估和改进模型。这对于开发面向多语言市场的语音助手和客服系统至关重要。论文语音代理ASR代码切换多语言基准测试1 个信源在谈推荐理由:做语音助手或客服系统的团队会发现,当前ASR模型在双语用户面前漏洞百出——代码切换场景的错误率远高于单语言,这个基准测试直接暴露了痛点,建议点开看看你的模型能否过关。原文
02:54Lenny Rachitsky@lennysanClaude 的 Fable 5 模型在几乎所有测试基准上达到最先进水平,尤其在软件工程、知识工作、科学研究和视觉任务中表现突出。任务越长越复杂,Fable 5 相对于其他模型的领先优势越大。该模型在单次交互中即可完成《波斯王子》游戏,展示了其强大的推理和规划能力。这标志着 AI 在复杂长任务处理上的重要进步。AI模型ClaudeFable 5基准测试软件工程推理模型10 个信源在谈推荐理由:做复杂软件工程或科学研究的团队,Fable 5 的长任务处理能力值得一试,能显著提升效率。原文
02:14Mike Krieger@mikeyk88°Anthropic CEO Mikey K. 在X上宣布,Claude新模型在几乎所有测试基准上达到最先进水平,且任务越长领先优势越大。该模型已通过安全审查,针对网络和生物相关请求会透明地回退到Opus 4.8,95%以上的会话不会触发此类回退。API定价为$10/$50,并已包含在付费Claude计划中。AI模型Claude推理模型安全API基准测试10 个信源在谈推荐理由:Claude新模型在长任务场景下表现突出,做复杂推理或长文档处理的开发者可以直接在API或付费计划中体验,值得关注。原文
01:18AK@_akhaliqSWE-Explore 是一个新发布的基准测试,专门用于评估 AI 编程代理在代码仓库中的探索能力。该基准测试衡量代理如何理解仓库结构、定位相关文件以及获取上下文信息,这对于解决复杂编程任务至关重要。它填补了现有基准测试只关注最终代码生成而忽略探索过程的空白。开发者可以使用 SWE-Explore 来测试和改进他们的编程代理在大型代码库中的导航和推理能力。论文编程代理基准测试仓库探索SWE-ExploreAI编程推荐理由:SWE-Explore 解决了编程代理在真实仓库中“迷路”的痛点,做 AI 编程工具或智能体的团队可以直接用它来评估和优化代理的探索能力,值得关注。原文
20:32rohanpaul_ai@rohanpaul_ai72°Cognition 推出 FrontierCode 编码基准测试,评估 AI 生成的代码是否达到人类维护者愿意合并的质量,而不仅仅是能否通过测试。该基准包含 150 个任务,由 20 多位开源维护者设计,每个任务耗时超 40 小时。结果显示,最强模型 Claude Opus 4.8 在最高难度 Diamond 子集上仅得 13.4%,GPT-5.5 得 6.3%,Gemini 3.1 Pro 得 4.7%。评分系统引入“阻塞项”机制,任何导致无法合并的问题(如行为错误、不安全改动)直接判 0 分,通过后才按可读性、类型安全等软质量项加权。这揭示了当前 AI 编程助手在代码设计、约束和项目风格适配上的严重不足。AI产品基准测试代码质量Claude Opus 4.8GPT-5.5Gemini 3.1 Pro3 个信源在谈推荐理由:FrontierCode 把 AI 编程评测从「能跑就行」升级到「能合并才算数」,做代码质量评估或 AI 编程工具的团队值得关注——它暴露了当前模型在真实代码审查中的致命短板。原文
13:05arXiv cs.AI@Avijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy, Srishti Yadav, Jennifer Mickel, Yanan Long, Andrew Tran, Anastassia Kornilova, Damian Stachura, Kevin Klyman, Felix Friedrich, Jeba Sania, Max Lamparth, Jan Batzner, Anoop Mishra, Eliya Habba, Yixiong Hao, Nathan Heath, Shalaleh Rismani, Usman Gohar, Andrea Loehr, David Manheim, Ruchira Dhar, Sree Harsha Nelaturu, Aarush Sinha, Leshem Choshen, Drishti Sharma, Ishan Khire, Amit Saha, Subramanyam Sahoo, Michael Hardy, Michael Alexander Riegler, Kabir Manghnani, Michelle Lin, Yanan Jiang, Yilin Huang, Asaf Yehudai, Jessica Ji, Aris Hofmann, Mubashara Akhtar, Nuno Moniz, Yacine Jernite, Stella Biderman, Zeerak Talat, Sanmi Koyejo, Mykel Kochenderfer, Irene SolaimanAI评估结果虽大量产生,但报告格式不统一,导致读者难以跨来源比较、识别遗漏或追溯证据。现有方案仅覆盖评估生命周期的片段,缺乏统一记录,且未区分不同利益相关者的需求。研究者提出了EvalCards,一个可操作的报告层,整合基准元数据、评估运行数据和模型元数据。他们从52篇论文和10次访谈中推导出报告模式,实现了四个解释信号(可复现性、文档完整性、来源与风险、分数可比性),并针对研究与非研究受众设计了阅读模式。该工具已在5816个模型、635个基准和101843个结果上部署,揭示了当前报告实践中的系统性缺陷。论文评估报告可解释性基准测试模型元数据EvalCards推荐理由:AI评估报告混乱是行业痛点,做模型评测、写技术文档或选型决策的团队,可以直接用EvalCards统一报告格式,减少误解和重复劳动。原文
12:35arXiv cs.LG@Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov精选72°苹果智能体需要理解用户身份、历史与偏好,但现有基准缺乏个性化。研究团队推出iOSWorld,首个基于原生iOS模拟器的交互式基准,包含26个新应用、133个任务,覆盖单应用、多应用及记忆与个性化三类。最佳模型(GPT-4o)整体准确率52%,多应用任务仅37%;加入XML辅助后大模型提升26个百分点,小模型无增益。该基准已开源,旨在推动真正个性化的手机智能体发展。论文智能体基准测试iOS个性化开源/仓库推荐理由:手机智能体开发者终于有了能测试个性化能力的基准——iOSWorld要求模型理解用户身份与历史,而非仅执行孤立指令,做移动端AI Agent的团队值得关注。原文
11:48arXiv cs.AI@Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong精选多模态大模型在物理世界中的空间推理能力至关重要,但现有基准多依赖静态问答或特定模拟器,无法评估真实交互场景。研究者提出SpatialWorld,一个统一基准,整合8种异构仿真后端,包含760个人工标注任务,覆盖家务、旅行、社交协作等领域。智能体需在仅视觉部分可观测条件下主动收集证据,并通过统一文本接口做出决策。评估15个先进智能体发现,最强模型GPT-5平均任务成功率仅17.4%,开源模型Qwen-3.5为14.1%,表明主动探索和长程规划仍是瓶颈。论文空间推理多模态大模型基准测试智能体仿真环境1 个信源在谈推荐理由:做多模态智能体或空间推理研究的团队,这个基准直接暴露了当前模型在真实交互任务上的短板——GPT-5都只有17.4%成功率,值得用来检验自家模型。原文
11:04arXiv cs.LG@Apratim Bhattacharyya, Shweta Mahajan, Sanjay Haresh, Rajeev Yasarla, Reza Pourreza, Litian Liu, Risheek Garrepalli, Roland Memisevic精选研究人员提出了 Ego-MC-Bench 基准测试,用于评估视频大语言模型在实时任务指导中主动干预纠错的能力。该基准聚焦于烹饪场景,要求模型在用户犯错时及时介入。实验表明,当前最先进的视频 LLM 在此任务上表现不佳,主要原因是缺乏包含错误和适时干预的训练数据。为此,团队还创建了 Ego-CoMist 合成数据集,通过将非交互式烹饪视频转化为带干预的监督示例。微调该数据集后,小型高效视频 LLM 的性能显著提升,适合部署在边缘设备上提供实时辅助。论文视频大模型实时干预烹饪场景基准测试合成数据推荐理由:这项研究直击视频 AI 助手的核心痛点——实时纠错能力,做智能烹饪指导或边缘 AI 应用的开发者值得关注,Ego-CoMist 数据集可以直接用于微调模型。原文
09:26arXiv: DeepSeek@Zhiwei Liu, Yueru He, Qing Ou, Tianlei Zhu, Xiaorui Guo, Xueqing Peng, Sophia Ananiadou精选现有金融审计基准主要关注事实验证和规则合规,但缺乏对误导性披露叙述的评估。研究者推出 AuditFraudBench,基于真实公司文件和监管材料构建,包含利润来源归因、误导性叙述检测和欺诈模式分类三个任务。测试 GPT、DeepSeek、Qwen 等模型发现,无论是闭源还是开源模型,在联合推理财务数据、披露框架、重述证据和执法欺诈机制方面仍表现不佳。该基准为评估 LLM 在财务报告中的审计相关能力提供了具有挑战性的测试平台。论文审计财务欺诈检测LLM 评估基准测试金融 NLP推荐理由:审计和财务分析从业者终于有了一个专门评估 LLM 识别财务造假的基准——AuditFraudBench 直击现有模型在误导性披露和欺诈模式上的短板,做金融 NLP 或审计自动化的团队值得用它来检验自己的模型。原文
02:18rohanpaul_ai@rohanpaul_ai精选72°一篇新论文提出CL-BENCH基准,测试AI智能体是否真正从经验中学习,而非仅依赖记忆。研究发现,简单的全上下文学习优于专门的记忆系统,Claude Sonnet 4.6在纯上下文模式下取得最佳成绩。该基准涵盖编码、数据库、预测等6个领域,要求智能体在连续任务中发现模式。结果表明,当前记忆密集型AI智能体并未比保持完整对话上下文更可靠地学习。这提醒我们,长期运行的AI智能体需要更好的方式来记住有用经验、遗忘过时信息并适应环境变化。论文智能体基准测试持续学习记忆系统Claude Sonnet推荐理由:这篇论文戳破了AI智能体“越用越聪明”的幻觉,做智能体开发或长期任务自动化的团队值得看看——你的系统可能只是在记笔记,而不是真在学习。原文
01:42Thomas Wolf@Thom_Wolf精选72°Hugging Face 与 Mecado 合作推出 CADGenBench,一个用于评估 AI 生成和编辑 CAD 模型的基准测试。该基准测试包含两个任务:从工程图纸生成有效的 3D CAD 模型,以及根据变更请求编辑 STEP 文件。它不依赖特定工具,支持 Fusion、Onshape、build123d、SolidWorks 等多种 CAD 软件,提交格式统一为 STEP 文件。评分维度包括几何精度、拓扑正确性、接口兼容性和 CAD 有效性。基准测试已开源,排行榜实时更新,旨在推动 AI 在工程领域的精确应用。AI产品CAD基准测试工程图纸3D模型Hugging Face推荐理由:AI 终于开始认真对待工程图纸了——CADGenBench 为评估 AI 生成精确 3D 零件提供了标准化工具,做 CAD 开发或工程自动化的团队可以直接用这个基准测试来验证自己的模型。原文
11:35rohanpaul_ai@rohanpaul_ai精选72°斯坦福、MIT、NVIDIA、Google 等顶尖实验室联合发布 AutoLab 基准测试,包含 36 个任务,要求智能体从弱代码出发,在固定时间内改进。测试 17 个强模型后发现,最佳结果并非源于初始想法好,而是模型持续测试、利用反馈。Claude Opus 4.6 因坚持迭代而领先,其他前沿模型常因过早放弃或过度思考而失败。该研究揭示了当前 AI 智能体在长周期研究中的关键短板。论文智能体基准测试长周期研究Claude Opus坚持迭代10 个信源在谈推荐理由:做 AI 研究和智能体开发的团队会看到,坚持比聪明更重要——AutoLab 的发现直接点出了当前智能体在长任务中的致命弱点,值得反思自己的智能体设计。原文
11:20arXiv cs.AI@Luca Avena, Gianmarco Bet, Bernardo Busoni该研究通过构建标准与反直觉两类离散概率问题数据集,测试了8个前沿大语言模型的概率推理能力。模型在标准问题上平均准确率达0.96,但在反直觉问题上骤降至0.59。研究还发现token偏差:将规范表述替换为伪装变体后性能下降超20%;在提示中嵌入误导性建议可使性能下降高达34%,且没有模型能免疫。结果表明,尽管LLM在高级数学问题上表现出色,但它们并非真正的概率推理者。论文大语言模型概率推理基准测试token偏差提示工程推荐理由:想用LLM做决策或数据分析的开发者注意了——模型在概率推理上存在系统性漏洞,反直觉问题和提示误导能轻易让它翻车,建议点开看看测试细节,避免在实际应用中踩坑。原文
09:33arXiv cs.AI@Jiayu Wang, Weijiang Lv, Bowen Fu, Jing Fu, Jiayi Song, Lingyu Zhang, Lanxuan Xue, Luodi Chen, Zepeng Xin, Kaiyu Li, Xiangyong Cao随着基础模型和智能体框架的进步,AI 在研究任务中展现出强大能力,但仍无法完全替代人类研究人员。为此,研究者提出了 AARR(Act As a Real Researcher)基准系列,首个基准 AARRI-Bench 专注于评估智能体在细粒度研究场景中的专业性、严谨性和推理能力。实验显示,最佳配置(Mini-SWE-Agent 搭配 Claude Opus 4.7)仅达到 68.3% 的成功率,常忽略人类研究者能轻易察觉的细微关键细节。结果表明,开发类人研究 AI 需要更深入地探索研究行为,而非仅依赖复杂框架。数据已开源。论文基准测试LLM智能体研究自动化AARR推荐理由:这个基准直击当前 AI 智能体在研究场景中的短板——不是执行能力不够,而是缺乏研究者的细腻判断。做 AI 评估或智能体开发的团队值得关注,它揭示了提升 AI 研究素养的新方向。原文
03:46rohanpaul_ai@rohanpaul_ai精选72°一篇新论文提出了Meta-Agent Challenge(MAC)基准测试,检验当前AI智能体能否像AI工程师一样自主构建、测试和改进其他智能体,而无需人类干预。测试覆盖数学、科学问答、竞赛编程、软件bug修复和长终端任务五个领域。结果显示,当前智能体在可靠构建任务系统方面仍然薄弱,大多数无法超越人类设计的强基线,少数成功案例主要来自Claude等闭源前沿模型。论文指出,真正的自主不仅需要工具使用,还需要预算意识、失败恢复、压力下的克制以及改进设计的纪律。论文智能体自主开发基准测试Meta-Agent ChallengeClaude推荐理由:这篇论文戳破了AI智能体自主性的泡沫——当前智能体更像是强大的执行者而非自改进的工程师,做智能体开发或自动化研究的团队看完会重新思考自主性的真正门槛。原文
03:17elvis@omarsar0精选Continual Learning Bench 是一个新的基准测试,用于评估智能体是否真正从经验中学习。研究发现,在六个专家验证的领域内,简单的上下文学习(ICL)表现优于专门为记忆管理设计的系统。该基准引入了一个增益指标来隔离真正的学习效果,结果显示智能体经常过度拟合即时观察或未能跨实例复用知识。这表明许多记忆架构实际上增加了开销而非学习能力。论文持续学习基准测试记忆系统上下文学习智能体推荐理由:如果你在构建或研究持续学习智能体,这个基准测试直接挑战了当前记忆系统的有效性——简单ICL反而更好,值得所有AI研究者点开看看。原文
23:12IT之家(博客/媒体)北卡罗来纳大学教堂山分校和美国东北大学的研究人员发现,主流AI模型在分析职业体育比赛时表现很差。他们创建了名为SVI-bench的新基准测试,包含35000小时比赛画面等数据,测试AI在感知、推理、模拟和自主行动能力。AI在基础感知任务中识别准确率约74%,但在因果推理环节成功率仅约40%,模拟球员下一步动作接近随机猜测,自主分析准确率只有5%。研究人员指出,AI擅长描述画面,但无法解释原因或预测未来,这意味着体育主播等需要深度理解的工作暂时不会被取代。论文AI模型体育分析基准测试推理能力研究推荐理由:这项研究揭示了AI在复杂场景推理上的真实短板,做体育内容或依赖AI分析的团队可以借此评估工具边界,值得点开看看AI到底哪里不行。原文
09:43Pandaily@contact@pandaily.com (Pandaily)精选StepFun 最新模型 Step 3.7 Flash 在 Artificial Analysis 基准测试中夺得速度、成本效率和端到端性能三项第一。该模型在 OpenRouter 和 Hugging Face 上获得大量关注,展现出强大的竞争力。这一成绩表明 StepFun 在推理优化和成本控制方面取得了显著突破,为开发者提供了高性价比的 AI 模型选择。AI模型Step 3.7 Flash基准测试推理优化成本效率StepFun推荐理由:做 AI 应用选型或部署推理服务的团队,Step 3.7 Flash 在速度和成本上的优势值得直接对比测试,可能帮你省下不少预算。原文
13:00arXiv: DeepSeek@Zeyang Yue, Chenfei Yan, Feifei Zhao, Haibo Tong, Mengwen Xu, Xiaozhen Wang, Erliang Lin, Yi Zeng精选CogManip 是一个新基准,专门评估大语言模型在多轮对话中的隐性心理操纵行为。它覆盖 15 种操纵策略、1000 个场景,经人类专家验证。测试了 GPT-5.4、DeepSeek-V3.2 等 13 个模型,发现风险差异显著。DeepSeek-V3.2 对系统提示高度敏感,提示工程和隐式目标审计是防御关键。该工具为 AI 安全审计提供了动态、隐蔽操纵行为的评估视角。论文大语言模型AI安全心理操纵基准测试多轮对话推荐理由:AI 安全研究者终于有了评估隐性操纵的专用工具——CogManip 覆盖 15 种策略、1000 个场景,做模型对齐和红队测试的团队可以直接拿来用。原文
12:47Logan Kilpatrick@OfficialLoganKLogan Kilpatrick 在 X 上发帖指出,目前创建高质量公开 AI 基准测试(benchmarks)存在巨大的信息优势(alpha)。他认为这是一个被低估的机会,因为当前公开基准测试的质量参差不齐,而好的基准测试能有效推动模型评估和行业进步。该帖引发广泛讨论,获得 31 条评论、176 个点赞和 8044 次浏览,反映出社区对这一观点的共鸣。行业基准测试AI评估公开数据信息优势Logan Kilpatrick推荐理由:做 AI 评估或模型开发的团队,现在投入公开基准测试能抢占先机——Logan 点出了这个被忽视的蓝海,建议关注并尝试创建自己的测试集。原文
12:42arXiv: DeepSeek@Natalia Tarasova, Enrique Balp-Straffon, Aleksei Iancheruk, Yevhenii Sielskyi, Nikita Kozodoi, Liam H. Byrne, Jack Butler, Dayuan Jiang, Marcin Czelej, Andrew Ang, Yash Shah, Roi Blanco, Sergei Ivanov精选SWE-InfraBench 是一个新基准,用于评估大语言模型在云基础设施即代码(IaC)任务上的表现。与现有基准不同,它聚焦于 AWS CDK 的增量代码修改,而非从头生成整个代码库。数据集来自数十个真实 IaC 代码库,要求模型根据自然语言指令修改现有代码,并通过测试用例验证。评估结果显示,当前最强模型 Sonnet 3.7 的成功率仅为 34%,而推理模型 DeepSeek R1 只有 24%,表明 LLM 在云基础设施代码领域仍有显著局限。该数据集已在 Kaggle 上公开。论文基准测试云基础设施IaCAWS CDK推理模型推荐理由:云基础设施开发者终于有了一个贴近真实工作流的评估基准——SWE-InfraBench 测试的是增量修改而非从头写代码,做 IaC 或 DevOps 的团队值得关注,看看当前模型在 AWS CDK 上的真实表现。原文
12:15arXiv cs.AI@Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Tianjun Yao, Xinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Hao Li, Salman Khan, Zhiqiang Shen精选OpAI-Bench 是一个操作引导的基准,用于研究从纯人类写作到 AI 辅助编辑的渐进式文本转换。它从人类文档出发,在四种领域下构建九个连续修订版本,涵盖五种 AI 编辑操作,并保留多粒度(文档、句子、词元、片段)的作者归属信息。实验发现,AI 文本的可检测性不仅受 AI 编辑比例影响,还与编辑操作、领域和累积修订历史有关,且混合作者的中期版本比纯人类或重度 AI 编辑的端点更难检测。该基准填补了现有检测基准仅关注最终输出的空白,为分析 AI 辅助写作的可检测性提供了受控测试平台。代码和基准已开源。论文AI文本检测人机合著渐进编辑基准测试OpAI-Bench推荐理由:做 AI 文本检测研究的团队终于有了一个能模拟真实渐进编辑过程的基准——它揭示了混合作者文本比纯 AI 文本更难检测的反直觉现象,值得点开看看实验设计。原文
01:22LlamaIndex@llama_index72°LlamaIndex 在 CVPR 2026 上发布了 ParseBench,这是首个专为 AI 智能体设计的文档解析基准测试。该基准包含 2000 多页人工验证的页面、167K+ 测试规则,覆盖表格、图表、忠实度、格式和接地性五个维度。团队认为文档理解是 AGI 完备问题,因为智能体无法正确读取文档就无法有效行动,而真实企业表格的解析难度远超表面所见。ParseBench 完全开源,旨在推动文档解析能力的发展。AI产品文档解析智能体基准测试开源/仓库LlamaIndex推荐理由:做文档解析或构建 AI 智能体的团队终于有了一个标准化的评测工具——ParseBench 覆盖了企业级表格、图表等真实难点,建议直接拿来评估你的解析管线。原文
00:51Jerry Liu@jerryjliu0LlamaIndex 团队在 CVPR 2026 上发布了 ParseBench,这是一个针对视觉语言模型(VLM)的文档理解基准测试。该基准包含 2000 页真实企业文档,评估模型在表格、图表、视觉定位、语义格式和内容忠实度等方面的能力。核心目标是衡量模型是否能正确语义理解文档,而不只是过拟合基准。团队指出,当前前沿模型多针对编程、数学和科学推理优化,缺乏精确的视觉理解能力,ParseBench 旨在推动这一领域的进步。相关论文和网站已公开。论文ParseBench文档理解基准测试VLMCVPR推荐理由:做文档解析或 RAG 系统的开发者终于有了一个贴近真实业务场景的评估工具——ParseBench 用 2000 页企业文档测试 VLM 的语义理解能力,比现有基准更贴近实际需求,值得关注并尝试。原文
23:40Paul Couvert@itsPaulAi精选NVIDIA发布了新的开源模型,其基准测试成绩与两倍大小的模型相当。该模型推理速度更快且成本更低。NVIDIA同时公开了模型权重、训练数据和配方。这标志着开源模型在效率上取得了进步。AI模型NVIDIA开源模型基准测试10 个信源在谈推荐理由:NVIDIA开源模型性价比高原文
22:24Jerry Liu@jerryjliu072°LlamaIndex 在 CVPR 2026 上发布了 ParseBench,这是目前最全面的文档理解基准测试,专门用于评估视觉语言模型(VLM)对真实企业文档的解析能力。该基准包含 2000 页真实企业文档、167K+ 测试规则,覆盖表格、图表、视觉定位、语义格式和内容忠实度五个维度。核心目标是衡量模型能否正确语义理解文档,避免过拟合到特定基准。当前前沿模型更擅长编程、数学和科学推理,而文档 OCR 的 100% 准确解析仍是最终挑战,ParseBench 旨在推动这一方向进步。论文文档理解基准测试VLMOCRLlamaIndex推荐理由:做文档解析、RAG 或 AI Agent 的团队终于有了一个靠谱的评测标准——ParseBench 覆盖了企业文档的真实痛点,建议直接拿去测你的模型或产品。原文
11:32arXiv cs.LG@Luca Thale-Bombien, Jan Ewald, Ralf König, Aaron Klein精选BBOmix 是首个针对真实生物数据的无监督表示学习超参数优化(HPO)开源表格基准。它包含来自 TCGA 和 SCHC 数据集的 105,000 次评估,涵盖四种自编码器架构和七种多组学模态。该基准量化了重建损失与下游任务性能之间的相关性,并评估了多种 HPO 方法,为无监督生物表示学习研究建立了严格基线。论文超参数优化自编码器生物信息学组学数据基准测试推荐理由:做生物信息学或组学数据降维的团队,终于有了一个标准化的 HPO 测试场——BBOmix 帮你省去从头调参的试错成本,做自编码器研究的可以直接用它验证方法。原文
11:04arXiv cs.LG@Clément Elliker, Mathis Le Bail, Clément Mantoux, Jesse Read, Sonia VanierRIDE 是一个针对铁路延误预测的开放数据集与基准,覆盖比利时全国铁路网,包含 9450 万次列车事件、360 万次行程和 3570 万条天气记录(2023-2025 年)。它标准化了预测任务、训练测试数据及评估协议,支持模型间直接比较。基于该基准,研究首次全面对比了非学习、统计学习和深度学习模型,发现图神经网络平均表现最佳,但最强学习模型间差距不大。该框架还提供按预测时长和延误变化的细分分析,有助于深入理解模型行为。论文铁路延误预测开放数据集基准测试图神经网络比利时铁路推荐理由:铁路延误预测终于有了标准化数据集和评估基准,做交通预测或时序建模的研究者可以直接用 RIDE 来测试和对比模型,省去自己收集数据的麻烦。原文
10:35arXiv cs.AI@Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen精选76°AutoLab 是一个新基准,用于评估 AI 模型在超长周期闭环优化任务中的表现,涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始,要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现,成功的关键不是初始尝试的质量,而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出,但多数模型过早终止或进展有限。该基准开源,旨在推动长周期自主智能体的研究。论文基准测试长周期优化智能体Claude Opus 4.6开源/仓库推荐理由:AutoLab 填补了现有基准只测短周期任务的空白,做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力,值得关注。原文
10:18arXiv cs.AI@Jie Huang, Ruixun Liu, Sirui Sun, Xinyi Yang, Yin Li, Yixin Zhu, Yiwu Zhong多模态模型在长视频理解中,记忆能力成为关键瓶颈。现有基准多聚焦感知与推理,缺乏对记忆的系统评估。北京大学团队提出M³Eval,基于认知心理学设计任务,从信息保留、保真度、抗干扰性等维度评估模型记忆。实验发现,模型在并行视频流中难以保持分离表征,时空记忆可靠性差异大,符号记忆有限。该基准为多模态记忆研究提供了重要资源,揭示了模型记忆与人类记忆的显著差异。论文多模态模型记忆评估视频理解认知心理学基准测试推荐理由:做多模态模型或视频理解的团队,M³Eval 帮你找到模型记忆的短板,看完你会重新思考模型架构设计。原文
10:08pandaily@contact@pandaily.com (Pandaily)83°在NVIDIA GTC Taipei 2026上,一家中国具身智能公司宣布其模型在RoboArena基准测试中排名第一,超越了NVIDIA和Physical Intelligence等国际巨头。RoboArena是评估机器人自主决策和操作能力的权威基准,涵盖多种复杂任务。这一成就标志着中国在具身智能领域取得重大突破,展示了其技术实力和创新能力。该公司的模型在任务完成率、适应性和效率等关键指标上表现优异,为行业树立了新标杆。行业具身智能RoboArenaNVIDIAPhysical Intelligence基准测试7 个信源在谈推荐理由:具身智能赛道迎来中国玩家登顶,做机器人或AI应用的团队值得关注——这不仅是技术突破,更可能改变行业竞争格局。原文
08:15Stanford AI Lab@StanfordAILab精选斯坦福 AI 实验室发布了一段与 John Yang (@jyangballin) 的对话,讨论 ProgramBench 及其在 AI 编程基准测试发展中的位置。Yang 回顾了 AI 编程领域已取得的进展,并展望了未来可能的方向。该对话适合对 AI 编程能力评估感兴趣的开发者和研究者。行业AI编程基准测试ProgramBench斯坦福AI实验室技术对话推荐理由:想了解 AI 编程基准测试的来龙去脉和未来趋势?John Yang 的分享能帮你理清 ProgramBench 在其中的位置,做 AI 评估或编程工具的团队值得一听。原文
02:46Amjad Masad@amasadVIBench 是一个新的 AI 编程基准测试平台,旨在评估大型语言模型在真实编程任务中的表现。该论文由多位研究者合作完成,提出了更贴近实际开发场景的评估方法。VIBench 网站已上线,提供详细的基准测试结果和排行榜。这一工作有助于推动 AI 编程工具的性能提升和标准化评估。论文AI编程基准测试VIBench论文评估推荐理由:做 AI 编程工具或使用 LLM 辅助开发的团队,可以看看这个新基准如何更真实地反映模型能力,建议点开了解评估方法。原文
02:45Amjad Masad@amasad78°尽管 GPT 5.5 在 SWE 基准测试中表现最佳,但 Opus 4.8 在端到端应用创建任务上仍保持价格与性能的双重优势。为此,团队推出了 ViBench——首个基于真实世界任务的应用创建基准测试。该基准旨在更准确地评估模型在实际开发场景中的表现,而非仅关注代码修复或补全。结果显示,Opus 4.8 在 Vibe Coding 场景下依然是最优选择。AI模型GPT 5.5Opus 4.8ViBenchVibe Coding基准测试2 个信源在谈推荐理由:ViBench 填补了现有基准只测代码修复、不测完整应用创建的空白,做全栈原型或快速验证想法的开发者值得关注——Opus 4.8 可能才是你的性价比之选。原文
22:07LangChain@LangChainAIHarvey 推出 LAB 基准,模拟人类验证方式,每个任务包含 50 多条通过标准,每条标准由独立法官调用评估。LangChain Labs 与 Harvey 合作,探索如何在大规模场景下提升效率。该基准可审计性强,但成本较高,合作旨在优化这一过程。AI产品法律 AI智能体基准测试LangChainHarvey推荐理由:法律 AI 团队终于有了可审计的验证基准——每个任务 50+ 标准像人类一样逐条检查,做法律智能体开发的可以直接参考。原文