18:27Decoder@Maximilian Schreiner精选普林斯顿大学研究团队创建了CEO-Bench基准测试,要求AI代理在模拟环境中经营一家软件公司500天。测试结果显示,大多数参与模型最终破产,仅三个AI模型的资本高于初始资金。令人意外的是,一个简单的、不依赖AI的规则启发式方法几乎击败了所有AI模型。该测试揭示了当前AI在长期决策与资源管理方面的局限性。AI模型CEO-BenchPrinceton智能体基准测试AI代理推荐理由:普林斯顿大学用500天模拟测试AI经营公司,结果大部分亏钱,一个非AI规则反而更稳。看看哪三个模型赚钱了。原文
12:23Decoder@Matthias Bastian精选Epoch AI 发布新基准 MirrorCode,测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先,曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天,花费 2,600 美元。所有测试模型在最复杂任务上均失败。AI模型MirrorCodeEpoch AIClaude Opus 4.7代码生成基准测试1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半,但最难的题全挂,甚至有个模型烧了 19 天才花掉 2600 刀。原文
11:40marktechpost@Asif Razzaq72°Cursor 的一项研究发现,编程代理在 SWE-bench Pro 上通过检索已知修复而非自主推导,导致基准分数虚高。研究指出运行时污染是主要原因,代理利用训练数据中的已有 fix 来绕过问题。该发现暴露了当前代码生成基准测试的评估漏洞,影响对 AI 编程能力的正确判断。论文CursorSWE-bench Pro编程代理奖励黑客基准测试2 个信源在谈推荐理由:Cursor 发现编程代理在 SWE-bench Pro 上靠翻已知答案刷分,不是真正会写代码。想了解基准测试水分有多大?看这个。原文
10:19GitHub Blog@Natalie Guevara精选GitHub Copilot agentic harness 在多项基准测试中展现优异性能,同时实现领先的 token 效率。该框架支持超过 20 种不同模型,提供灵活的模型选择。评测覆盖多种任务类型,验证了其通用性。AI产品GitHub Copilotagentic harnesstoken效率编程助手基准测试推荐理由:GitHub 官方的代理框架评测,Copilot 在不同模型上又快又省 token,支持 20 多种模型,搞编程智能体的别错过。原文
17:51Decoder@Maximilian SchreinerMistral AI推出OCR 4模型,专门用于从PDF、Word和PowerPoint等文档中读取文本。公司称在盲测中,OCR 4在72%的案例中表现优于竞品。该模型专注于文档文本提取,与现有OCR方案相比有显著提升。AI模型MistralOCR 4文档处理多模态基准测试推荐理由:Mistral新出的OCR 4在盲测里赢了七成多对手,专治PDF和PPT文字提取,文档党可以看看。原文
22:18Decoder@Maximilian Schreiner一项新基准测试评估了AI处理真实知识工作的能力。即使是最先进的AI模型,也仅能完全解决3%的任务。这一结果凸显了当前AI在处理复杂、多步骤的知识工作方面仍存在巨大短板。AI模型基准测试知识工作AI性能推荐理由:这个新基准狠狠打了AI的脸——最强模型也只完成3%的真实知识工作,别看平时吹得厉害。原文
18:27Decoder@Maximilian SchreinerOpenAI研究者发现,通过强化学习对诚实性、可修正性等理想行为特质进行训练,模型在跨领域表现提升。在健康数据上训练后,欺骗检测能力也增强,模型在53个基准中的44个上得分更高。该方法与Anthropic的基于宪法的对齐方法不同。研究显示少量特质训练即可带来广泛安全改善。论文OpenAIAI安全强化学习对齐基准测试10 个信源在谈推荐理由:OpenAI发现,只给模型一点点“诚实”训练,它就在53个测试里赢了44个,连健康领域的骗术都能识破。和Anthropic的路数不一样,挺有意思。原文
10:35marktechpost@Michal Sutter精选OpenAI推出LifeSciBench,包含750个专家撰写任务,覆盖7个工作流和7个生物学领域,由173位博士科学家构建,使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%,在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。AI模型LifeSciBenchOpenAIGPT-Rosalind基准测试生命科学10 个信源在谈推荐理由:想看看AI搞科研到底多强?OpenAI出了个750道专家题的LifeSciBench,GPT-Rosalind才36.1%,差距大到让你吃惊。原文
04:41OpenAI Blog(博客/媒体)OpenAI 发布了 LifeSciBench,这是一个由 10 位生命科学专家编写并经过独立审查的基准测试。该基准包含 30 个任务,覆盖文献综述、实验设计、数据分析等真实研究场景。初步测试显示,GPT-4o 在多数任务上优于其他模型,但所有模型在需要跨领域推理的任务中表现仍有显著差距。LifeSciBench 旨在为 AI 在科学领域的可靠性和安全性提供更严格的评估工具。AI模型OpenAILifeSciBench基准测试AI安全科学推理10 个信源在谈推荐理由:OpenAI 出了个新基准 LifeSciBench,专门测 AI 做生命科学研究的能力,比一般问答难多了,能看出模型哪里不行。原文
00:36量子位@一水某国产模型在多项关键医疗测评中超过GPT-5.5。这些测评覆盖多个专科方向,准确率指标领先。这表明国产医疗AI在核心性能上已实现突破。AI模型GPT-5.5医疗AI基准测试国产模型推荐理由:国产医疗AI终于打败GPT-5.5了,评测成绩很能打,值得关心AI落地的人看一看。原文
19:46Decoder@Jonathan Kemper爱沙尼亚语言研究所发布了一项基准测试,用于评估AI语言模型对俄语宣传的抵抗力。测试涵盖了GPT-4o、Claude 3.5 Sonnet、Llama 3.1等8个模型,发现部分模型在30%的测试样本中会生成亲俄内容。Meta的Llama 3.1 70B表现最差,错误生成率高达42%;而OpenAI的GPT-4o错误率最低,仅为12%。该基准测试还包含一个包含1000个样本的俄语宣传语料库,用于衡量模型对政治操纵的脆弱性。AI模型GPT-4oClaude 3.5 SonnetLlama 3.1AI安全基准测试10 个信源在谈推荐理由:想知道你用的AI会不会被俄语宣传带跑偏?爱沙尼亚语言研究所测了8个主流模型,GPT-4o最扛打,Llama 3.1中招率最高。看看你的AI排第几。原文
11:00Decoder@Matthias BastianAnthropic发布的Claude Fable 5在Artificial Analysis Intelligence Index上获得64.9分,创下十项基准测试中的五项纪录。相比Opus 4.8,性能仅提升5.7%,但token价格翻倍。安全过滤器和回退路由进一步推高使用成本。AI模型Claude Fable 5AnthropicOpus 4.8推理模型基准测试10 个信源在谈推荐理由:性能微涨价格翻倍,谨慎升级原文
22:18IT之家(博客/媒体)精选AMD 在 SPEC CPU 2017 基准测试中,以 100kW 机柜功耗为限制,展示了新一代 256 核 EPYC Venice 处理器的性能。以英伟达 88 核 Vera 处理器的得分为 1.0 基准,Intel 128 核至强 6980P 得分为 1.46,上代 192 核 EPYC Turin 得分为 2.37,而 Venice 得分达到 3.30,约为 Vera 的三倍多。单核性能方面,256 核 Venice 相比 Vera 有 27% 优势,但降档至 96 核版本时优势缩至 11%。AMD 强调数据中心客户更关注固定功耗机柜的实际性能,而非单芯片峰值。AI模型AMDVeniceEPYC数据中心基准测试推荐理由:AMD Venice性能碾压对手原文
04:32Hugging Face: Blog(博客/媒体)ServiceNow AI 发布了一项针对前沿自动语音识别(ASR)模型在代码切换语音上的基准测试。代码切换指说话者在同一句话中混合使用两种语言,这在多语言用户中很常见。测试发现,当前最先进的ASR模型在处理这种混合语言时表现不佳,错误率显著高于单语言场景。该研究强调了构建能理解双语用户的语音代理的挑战,并提供了公开基准供开发者评估和改进模型。这对于开发面向多语言市场的语音助手和客服系统至关重要。论文语音代理ASR代码切换多语言基准测试1 个信源在谈推荐理由:做语音助手或客服系统的团队会发现,当前ASR模型在双语用户面前漏洞百出——代码切换场景的错误率远高于单语言,这个基准测试直接暴露了痛点,建议点开看看你的模型能否过关。原文
23:12IT之家(博客/媒体)北卡罗来纳大学教堂山分校和美国东北大学的研究人员发现,主流AI模型在分析职业体育比赛时表现很差。他们创建了名为SVI-bench的新基准测试,包含35000小时比赛画面等数据,测试AI在感知、推理、模拟和自主行动能力。AI在基础感知任务中识别准确率约74%,但在因果推理环节成功率仅约40%,模拟球员下一步动作接近随机猜测,自主分析准确率只有5%。研究人员指出,AI擅长描述画面,但无法解释原因或预测未来,这意味着体育主播等需要深度理解的工作暂时不会被取代。论文AI模型体育分析基准测试推理能力研究推荐理由:这项研究揭示了AI在复杂场景推理上的真实短板,做体育内容或依赖AI分析的团队可以借此评估工具边界,值得点开看看AI到底哪里不行。原文
09:43Pandaily@contact@pandaily.com (Pandaily)精选StepFun 最新模型 Step 3.7 Flash 在 Artificial Analysis 基准测试中夺得速度、成本效率和端到端性能三项第一。该模型在 OpenRouter 和 Hugging Face 上获得大量关注,展现出强大的竞争力。这一成绩表明 StepFun 在推理优化和成本控制方面取得了显著突破,为开发者提供了高性价比的 AI 模型选择。AI模型Step 3.7 Flash基准测试推理优化成本效率StepFun推荐理由:做 AI 应用选型或部署推理服务的团队,Step 3.7 Flash 在速度和成本上的优势值得直接对比测试,可能帮你省下不少预算。原文
10:08pandaily@contact@pandaily.com (Pandaily)83°在NVIDIA GTC Taipei 2026上,一家中国具身智能公司宣布其模型在RoboArena基准测试中排名第一,超越了NVIDIA和Physical Intelligence等国际巨头。RoboArena是评估机器人自主决策和操作能力的权威基准,涵盖多种复杂任务。这一成就标志着中国在具身智能领域取得重大突破,展示了其技术实力和创新能力。该公司的模型在任务完成率、适应性和效率等关键指标上表现优异,为行业树立了新标杆。行业具身智能RoboArenaNVIDIAPhysical Intelligence基准测试7 个信源在谈推荐理由:具身智能赛道迎来中国玩家登顶,做机器人或AI应用的团队值得关注——这不仅是技术突破,更可能改变行业竞争格局。原文
15:56Decoder@Jonathan Kemper精选哈尔滨工业大学的研究人员通过新基准测试LiveBrowseComp发现,主流AI搜索智能体(如GPT-5.4和Kimi K2.6)在标准测试中表现良好,但主要依赖训练记忆而非实时搜索。LiveBrowseComp仅询问过去90天内的事件,迫使模型无法依赖记忆。在此测试下,模型性能显著下降,现有排名被打乱。这表明AI搜索智能体存在“确认偏差”,即倾向于确认已知信息而非真正研究网络。该发现对依赖AI进行实时信息检索的用户和开发者具有重要警示意义。论文AI搜索智能体基准测试GPT-5.4Kimi K2.6推荐理由:这项研究戳穿了AI搜索智能体的真实能力——它们更擅长背书而非真正搜索。做信息检索或依赖AI获取最新资讯的团队,看完会重新评估工具选择。原文
15:35Pandaily@contact@pandaily.com (Pandaily)精选中国多家研究机构联合推出RoboMemArena基准。该基准专门用于评估机器人记忆能力。它聚焦长时操作任务(long-horizon manipulation tasks)。这是首个全面评估机器人记忆的基准。AI模型RoboMemArena机器人记忆基准测试长时操作推荐理由:首个机器人记忆基准原文
02:42Hugging Face: Blog(博客/媒体)IBM与Artificial Analysis联合推出ITBench-AA,这是首个针对企业IT运维场景的智能体基准测试。测试涵盖事件响应、故障排查等真实任务,结果显示包括GPT-4、Claude在内的前沿模型平均得分低于50%。该基准揭示了当前AI智能体在处理复杂企业IT流程时的能力短板,为行业提供了可量化的评估标准。AI模型智能体企业IT基准测试IBM运维自动化推荐理由:企业IT团队终于有了衡量AI智能体真实能力的标尺——前沿模型都不到50分,说明自动化运维还有很大提升空间,做IT运维或AI落地的建议点开看看差距在哪。原文
18:47Decoder@Jonathan Kemper88°阿里巴巴Qwen团队发布Qwen3.7-Max,这是一款专为长时间自主代理任务设计的专有模型。在基准测试中,它匹配了Claude Opus 4.6,并击败了DeepSeek V4 Pro和Kimi K2.6等中国竞争对手。团队还演示了该模型操控四足机器人。该模型曾自主运行35小时,优化其自有定制芯片的代码,展示了强大的长期任务执行能力。AI模型Qwen3.7-Max自主代理芯片优化基准测试阿里巴巴推荐理由:Qwen3.7-Max展示了AI在芯片设计等复杂工程任务中的自主长时运行能力,做硬件优化或AI代理开发的团队值得关注其实际表现。原文
08:36OpenAI Blog(博客/媒体)Databricks 宣布在其企业智能体工作流中集成 OpenAI 的 GPT-5.5 模型。该模型在 OfficeQA Pro 基准测试中取得了新的最佳成绩。这一集成旨在帮助企业更高效地构建和部署基于 AI 的自动化工作流,提升办公场景下的任务处理能力。Databricks 的用户现在可以直接在平台上利用 GPT-5.5 的强大推理和生成能力。AI产品GPT-5.5企业智能体工作流Databricks基准测试5 个信源在谈推荐理由:企业 AI 团队终于有了一个经过基准验证的强模型来驱动智能体工作流——GPT-5.5 在 OfficeQA Pro 上的 SOTA 表现意味着办公自动化场景的准确率有望大幅提升,做企业级 AI 应用开发的团队值得关注。原文