04:11Richard Socher@RichardSocherAndrej Karpathy 发布了一个新的 AI 基准测试,旨在评估从基础 Transformer 模型到高级 AI 系统的演进过程。该测试需要 AI 花费相当长的时间才能达到 Karpathy 的版本水平。这一基准测试可能用于衡量 AI 系统的复杂性和进步程度,对研究者和开发者具有重要参考价值。论文基准测试TransformerKarpathyAI 评估模型进化推荐理由:Karpathy 的基准测试为 AI 开发者提供了一个衡量模型进化难度的新工具,做模型训练和评估的团队值得关注这个测试,看看自己的模型需要多久才能达到高级水平。原文
06:17Gary Marcus@GaryMarcusGary Marcus 在 X 上发文,质疑 Dwarkesh Patel 关于 AI 推理的论述。Marcus 指出,如果承认 LLM 在无法回答问题时可能模仿推理而非真正推理,那么当模型回答正确时,也应考虑同样的可能性,否则就是双重标准。这场辩论触及 AI 推理本质的核心问题,引发学界和业界对如何定义和验证 AI 推理能力的讨论。行业推理模型LLMGary MarcusAI 评估学术辩论推荐理由:Marcus 的质疑戳中了 AI 推理评估的软肋——做 AI 研究或评测的人,需要思考如何区分真正的推理与模仿,避免被表面正确的结果误导。原文
08:46Gary Marcus@GaryMarcus83°Gary Marcus 发推指出 METR 的编码基准已饱和,但 Cognition 随即推出更难的 FrontierCode 评测,最高分仅 13.4%。该评测由顶级开源维护者花费 40+ 小时设计,首次衡量代码是否可合并维护,而非仅功能正确。这揭示了当前模型在编写可维护代码方面的严重不足,为 AI 编程能力评估设立了新标准。AI模型编码基准FrontierCodeClaude Opus 4.8代码可维护性AI 评估3 个信源在谈推荐理由:做 AI 编程评估或关注模型实际能力的开发者,这个新基准直接戳中了当前模型的软肋——代码能跑但不可维护,值得看看你的模型能拿几分。原文
03:50lmarena.ai@lmarena_aiArena.ai 发布了一个新的智能体平台,旨在帮助用户通过智能体完成真实世界的工作任务。该平台不仅提供实用的工作辅助功能,还致力于衡量智能体 AI 的进步程度。用户可以通过 arena.ai/agent 访问并参与其中。这一举措标志着智能体 AI 从实验走向实际应用的重要一步,同时为评估 AI 能力提供了量化手段。AI产品智能体AI 平台工作自动化Arena.aiAI 评估推荐理由:想用 AI 智能体处理真实工作任务的团队,现在有了一个可以直接上手的平台,还能参与衡量 AI 进步,值得一试。原文
02:27Ethan Mollick@emollick一项研究显示,GPT-5.2 在同行评审中达到专家水平。45 位科学家花费 469 小时,对 82 篇论文的人类和 AI 评审进行了评估。结果发现,当前 AI 评审者甚至能与 Nature 官方顶级评审员竞争,尽管仍存在弱点。这表明 AI 在学术评审领域有巨大潜力,可能改变科研出版流程。AI模型GPT-5.2同行评审学术出版科研工具AI 评估推荐理由:科研人员和学术编辑终于有了高效的评审助手——GPT-5.2 的评审质量已接近 Nature 顶级评审员,做论文审稿或投稿的团队值得关注这项进展。原文