全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

04:11

04:11

Richard Socher@RichardSocher

Andrej Karpathy 发布了一个新的 AI 基准测试，旨在评估从基础 Transformer 模型到高级 AI 系统的演进过程。该测试需要 AI 花费相当长的时间才能达到 Karpathy 的版本水平。这一基准测试可能用于衡量 AI 系统的复杂性和进步程度，对研究者和开发者具有重要参考价值。

论文基准测试 Transformer Karpathy AI 评估模型进化

推荐理由：Karpathy 的基准测试为 AI 开发者提供了一个衡量模型进化难度的新工具，做模型训练和评估的团队值得关注这个测试，看看自己的模型需要多久才能达到高级水平。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

06:17

06:17

Gary Marcus@GaryMarcus

Gary Marcus 在 X 上发文，质疑 Dwarkesh Patel 关于 AI 推理的论述。Marcus 指出，如果承认 LLM 在无法回答问题时可能模仿推理而非真正推理，那么当模型回答正确时，也应考虑同样的可能性，否则就是双重标准。这场辩论触及 AI 推理本质的核心问题，引发学界和业界对如何定义和验证 AI 推理能力的讨论。

行业推理模型 LLM Gary Marcus AI 评估学术辩论

推荐理由：Marcus 的质疑戳中了 AI 推理评估的软肋——做 AI 研究或评测的人，需要思考如何区分真正的推理与模仿，避免被表面正确的结果误导。

6月9日

08:46

08:46

Gary Marcus@GaryMarcus

83°

Gary Marcus 发推指出 METR 的编码基准已饱和，但 Cognition 随即推出更难的 FrontierCode 评测，最高分仅 13.4%。该评测由顶级开源维护者花费 40+ 小时设计，首次衡量代码是否可合并维护，而非仅功能正确。这揭示了当前模型在编写可维护代码方面的严重不足，为 AI 编程能力评估设立了新标准。

AI模型编码基准 FrontierCode Claude Opus 4.8 代码可维护性 AI 评估

推荐理由：做 AI 编程评估或关注模型实际能力的开发者，这个新基准直接戳中了当前模型的软肋——代码能跑但不可维护，值得看看你的模型能拿几分。

6月6日

03:50

03:50

lmarena.ai@lmarena_ai

Arena.ai 发布了一个新的智能体平台，旨在帮助用户通过智能体完成真实世界的工作任务。该平台不仅提供实用的工作辅助功能，还致力于衡量智能体 AI 的进步程度。用户可以通过 arena.ai/agent 访问并参与其中。这一举措标志着智能体 AI 从实验走向实际应用的重要一步，同时为评估 AI 能力提供了量化手段。

AI产品智能体 AI 平台工作自动化 Arena.ai AI 评估

推荐理由：想用 AI 智能体处理真实工作任务的团队，现在有了一个可以直接上手的平台，还能参与衡量 AI 进步，值得一试。

5月22日

02:27

02:27

Ethan Mollick@emollick

一项研究显示，GPT-5.2 在同行评审中达到专家水平。45 位科学家花费 469 小时，对 82 篇论文的人类和 AI 评审进行了评估。结果发现，当前 AI 评审者甚至能与 Nature 官方顶级评审员竞争，尽管仍存在弱点。这表明 AI 在学术评审领域有巨大潜力，可能改变科研出版流程。

AI模型 GPT-5.2 同行评审学术出版科研工具 AI 评估

推荐理由：科研人员和学术编辑终于有了高效的评审助手——GPT-5.2 的评审质量已接近 Nature 顶级评审员，做论文审稿或投稿的团队值得关注这项进展。