AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:AI 评估×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
04:11
04:11Richard Socher@RichardSocher
Andrej Karpathy 发布了一个新的 AI 基准测试,旨在评估从基础 Transformer 模型到高级 AI 系统的演进过程。该测试需要 AI 花费相当长的时间才能达到 Karpathy 的版本水平。这一基准测试可能用于衡量 AI 系统的复杂性和进步程度,对研究者和开发者具有重要参考价值。
论文基准测试TransformerKarpathyAI 评估模型进化

推荐理由:Karpathy 的基准测试为 AI 开发者提供了一个衡量模型进化难度的新工具,做模型训练和评估的团队值得关注这个测试,看看自己的模型需要多久才能达到高级水平。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月10日
06:17
06:17Gary Marcus@GaryMarcus
Gary Marcus 在 X 上发文,质疑 Dwarkesh Patel 关于 AI 推理的论述。Marcus 指出,如果承认 LLM 在无法回答问题时可能模仿推理而非真正推理,那么当模型回答正确时,也应考虑同样的可能性,否则就是双重标准。这场辩论触及 AI 推理本质的核心问题,引发学界和业界对如何定义和验证 AI 推理能力的讨论。
行业推理模型LLMGary MarcusAI 评估学术辩论

推荐理由:Marcus 的质疑戳中了 AI 推理评估的软肋——做 AI 研究或评测的人,需要思考如何区分真正的推理与模仿,避免被表面正确的结果误导。
原文
6月9日
08:46
08:46Gary Marcus@GaryMarcus
83°
Gary Marcus 发推指出 METR 的编码基准已饱和,但 Cognition 随即推出更难的 FrontierCode 评测,最高分仅 13.4%。该评测由顶级开源维护者花费 40+ 小时设计,首次衡量代码是否可合并维护,而非仅功能正确。这揭示了当前模型在编写可维护代码方面的严重不足,为 AI 编程能力评估设立了新标准。
AI模型编码基准FrontierCodeClaude Opus 4.8代码可维护性AI 评估

推荐理由:做 AI 编程评估或关注模型实际能力的开发者,这个新基准直接戳中了当前模型的软肋——代码能跑但不可维护,值得看看你的模型能拿几分。
原文
6月6日
03:50
03:50lmarena.ai@lmarena_ai
Arena.ai 发布了一个新的智能体平台,旨在帮助用户通过智能体完成真实世界的工作任务。该平台不仅提供实用的工作辅助功能,还致力于衡量智能体 AI 的进步程度。用户可以通过 arena.ai/agent 访问并参与其中。这一举措标志着智能体 AI 从实验走向实际应用的重要一步,同时为评估 AI 能力提供了量化手段。
AI产品智能体AI 平台工作自动化Arena.aiAI 评估

推荐理由:想用 AI 智能体处理真实工作任务的团队,现在有了一个可以直接上手的平台,还能参与衡量 AI 进步,值得一试。
原文
5月22日
02:27
02:27Ethan Mollick@emollick
一项研究显示,GPT-5.2 在同行评审中达到专家水平。45 位科学家花费 469 小时,对 82 篇论文的人类和 AI 评审进行了评估。结果发现,当前 AI 评审者甚至能与 Nature 官方顶级评审员竞争,尽管仍存在弱点。这表明 AI 在学术评审领域有巨大潜力,可能改变科研出版流程。
AI模型GPT-5.2同行评审学术出版科研工具AI 评估

推荐理由:科研人员和学术编辑终于有了高效的评审助手——GPT-5.2 的评审质量已接近 Nature 顶级评审员,做论文审稿或投稿的团队值得关注这项进展。
原文
精选全部日报登录