全部 AI 动态 · AI 热点

AITOP

6月17日

04:13

OpenAI@OpenAI

精选

OpenAI提出一种新研究方法，通过模拟部署使用近期去标识化用户请求（涉及23,341次浏览）来预测模型行为。该方法在发布前评估候选模型响应，相关推文获得44条评论、27次转发和375个赞。研究旨在减少模型在实际使用中的意外行为。

论文 OpenAI 模拟部署模型安全行为预测

推荐理由：OpenAI搞了个新方法，用真实用户请求模拟部署，提前预测模型行为，比直接上线更稳妥。

原文

00:01

elvis@omarsar0

精选

OpenClaw-Skill是一种新方法，通过树搜索而非贪心蒸馏来构建代理技能库。该方法分两个迭代阶段，联合生成、识别并组合技能节点，输出结构化的技能树。与传统的扁平化单次启发式技能列表相比，它能更好地实现组合性和覆盖性。该研究基于arXiv论文2606.16774。

论文 OpenClaw-Skill 智能体 LLM 技能库论文

推荐理由：想给LLM代理搞技能库？OpenClaw-Skill用树搜索取代扁平堆叠，两个阶段搞定组合与覆盖，比贪心蒸馏靠谱。

原文

6月16日

20:29

AlphaSignal@AlphaSignalAI

精选

MPMWorlds是一个包含95,000个2D仿真视频的基准，覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性，但无法从帧中读取位置，隐藏坐标后精度骤降。扩散模型可捕获短期几何，但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。

论文 MPMWorlds 物理模拟代码生成扩散模型视频理解

推荐理由：这篇论文用MPMWorlds测试了AI看视频写物理代码的能力，发现代码生成稳但缺位置感知，扩散模型短时准但长期漂移，混合模型效果最好。

原文

14:20

AlphaSignal@AlphaSignalAI

73°

研究人员证明某些任务需要模型缩放而非数据缩放，小模型即使拥有无限数据也无法学会这些任务。原因在于神经元竞争：频繁任务优先抢占容量，稀有任务的梯度在下次更新前被覆盖，导致模型陷入学习后遗忘的循环。团队预训练了参数从4M到4B的OLMo模型，在训练中注入可控频率的新任务。只有最大的4B参数模型成功学会了稀有任务，干扰梯度几乎消失。

论文 OLMo 模型缩放梯度神经元竞争稀有任务学习

推荐理由：这项研究用OLMo模型从4M到4B参数实验，直观解释了为什么小模型学不会稀有任务——不是数据不够，是神经元竞争导致梯度被覆盖。

原文

14:18

Jeff Dean@JeffDean

Parth Asawa和Joey G发表了一篇论文，批评AI社区在安全与权力集中问题上日益走向极化。他们认为当前讨论存在虚假二分法，并提出需要改变对话方式。文章呼吁更细致地看待AI进步，避免非此即彼的立场。两位作者在X平台上分享了该论文，获得15个点赞和2152次浏览。

论文 Parth Asawa Joey G AI安全 AI治理 AI进步

推荐理由：两位研究者写文章戳破了AI安全讨论里的非黑即白。如果你也看腻了极端吵架，这篇值得翻一翻。

原文

14:15

AlphaSignal@AlphaSignalAI

74°

斯坦福大学和卡内基梅隆大学团队提出了一种名为Agent-Native Research Artifact的新研究格式。该格式替代传统论文，同时包含声明推理、可执行代码、失败实验日志和原始结果。对比测试中，AI的理解评分从72.4%提升到93.7%，复现评分从57.4%提升到64.4%。研究团队认为，这可能是人类撰写最后一篇论文的转折点。

论文 Agent-Native Research Artifact Stanford CMU 学术论文 AI可执行

推荐理由：斯坦福和CMU搞了个新格式叫Agent-Native Research Artifact，它把代码、失败记录都塞进去后，AI理解能力从72%跃升到93%，复现也涨了7个百分点，比读传统论文好用多了。

原文

14:07

AlphaSignal@AlphaSignalAI

LeCun的新论文提出了LeJEPA方法，通过预测相关视图来恢复真实隐变量。该方法要求隐变量服从高斯动力学，否则会失效。在2D到1024维空间测试中，利用LeJEPA学习到的空间进行规划与真实世界规划匹配。论文为AI内部世界模型的正确性提供了数学证明。

论文 Yann LeCun LeJEPA 表征学习高斯动力学规划

推荐理由：LeCun用数学证明了AI学到世界内部表征的条件，方法简单但约束明确，对理解智能系统本质很有启发。

原文

13:48

AlphaSignal@AlphaSignalAI

精选

SIA论文提出将智能体视为可编辑系统，更新目标包括工具、解析器、验证器和权重。在LawBench基准上达到70.1%准确率。其CUDA内核运行仅1,017微秒，去噪任务mse_norm为0.289。论文提供公开仓库，支持选择聚焦于工具链或权重。核心结论是自改进智能体的性能取决于验证器质量。

论文 SIA LawBench 智能体自改进验证器

推荐理由：这篇SIA讲一个让智能体自己改进的方法，不只调提示，还能改工具和权重，在LawBench上做到了70.1%，代码也开源了。

原文

03:15

AlphaSignal@AlphaSignalAI

精选

传统Agent系统依赖检索获取信息，但LCLMs（Latent Compression Language Models）提出先压缩所有信息。该方法将数据全局压缩一次，再基于压缩进行全局推理，仅当需要时才局部扩展。这与检索式记忆的本质区别在于：压缩使模型能理解整体结构而非片段匹配。LCLMs在多个知识密集型任务中展现出更高效的记忆利用。

论文 LCLMs 智能体 Agent记忆压缩检索

推荐理由：做Agent系统的话可以看看这个思路：不先检索，而是先全局压缩再按需展开，和传统做法完全不一样。

原文

02:20

LangChain@LangChainAI

LangChain Labs与Fireworks AI合作发布了一项新研究。该研究由Viv Vtrivedy等人参与。此次合作可能聚焦于提升大语言模型在实际应用中的效率。具体细节可参考原文链接。

论文 LangChain Fireworks AI Viv Vtrivedy LLM研究

推荐理由：LangChain和Fireworks联手搞研究，看看他们发现了什么新东西。

原文

6月15日

17:57

阿里云 Alibaba Cloud@alibaba_cloud

精选

阿里云等机构在论文中提出NLAH框架，用可执行自然语言替换刚性代码工具集（Agent Harness）。在相同任务上，NLAH性能与代码方案持平，但Token消耗从60k降至2.9k，降幅达95%。其模块化设计可精准归因每一步的值，并识别出多候选搜索等“负资产”环节。该工作将智能体构建从“胶水代码”转向科学策略。

论文 NLAH AgentHarness 智能体自然语言效率优化

推荐理由：看这篇论文，阿里云用自然语言写智能体工具，token省了95%，还能揪出拖后腿的环节。

原文

17:55

阿里云 Alibaba Cloud@alibaba_cloud

精选

阿里云ApsaraDB的10篇论文被SIGMOD 2026录用，研究方向覆盖DB×AI、云原生存储及智能工具。其中Beluga的CXL内存池已完成工程验证，CloudJump III已用于PolarDB的分层存储。这些成果展示了阿里云在数据库前沿技术的学术与产品化能力。

论文 ApsaraDB SIGMOD PolarDB 云原生存储数据库

推荐理由：阿里云ApsaraDB一下中了10篇SIGMOD论文，还把Beluga的CXL内存池和CloudJump III用到了PolarDB上，学术和落地两手抓，值得看看。

原文

10:22

Gary Marcus@GaryMarcus

精选

一篇arXiv论文（2601.22436）发现，当前LLM智能体系统存储过去任务时包含原始步骤历史或总结规则。研究者通过将正确提示替换为随机垃圾文本来测试记忆使用情况：当步骤历史被破坏时，AI表现显著下降；但当总结规则被破坏时，AI性能无变化。这表明AI并未真正应用抽象规则，而是依赖复制精确历史动作。

论文 LLM智能体推理模型记忆机制抽象推理

推荐理由：论文实锤AI只会照搬历史

原文

6月14日

06:09

rohanpaul_ai@rohanpaul_ai

精选

一项新研究提出了HLL基准测试，要求AI智能体完成10种CAPTCHA任务，包括识别页面元素、正确点击或拖动、跟踪状态变化并提交答案。测试发现，即使强大的智能体在静态任务中表现良好，但在页面杂乱、任务复杂或系统验证操作有效性时仍会失败。该基准旨在评估智能体在真实人机验证场景中的能力，结果显示当前AI智能体难以通过此类验证。

论文 HLL CAPTCHA 智能体基准测试 AI安全

推荐理由：看看AI怎么被CAPTCHA难倒的

原文

05:52

elvis@omarsar0

Omar Sanseviero 提出 LLM Council 概念，认为其与 LLM 路由相关但更强调集成多个智能体的智能与知识。该想法尚未被充分探索，但在当前 AI 发展状态下有巨大应用潜力。帖子获得 18 个点赞和 1360 次浏览，引发对多智能体协作的讨论。

论文 LLM Council 智能体多智能体 Omar Sanseviero

推荐理由：探索多智能体协作新思路

原文

00:57

rohanpaul_ai@rohanpaul_ai

精选

一篇综述论文系统梳理了面向大语言模型的智能体强化学习方法，覆盖 500 余篇相关工作。论文将现有研究分为能力与应用两大部分：能力部分涵盖记忆、规划、工具使用、推理、多模态感知和自我改进；应用部分展示这些方法在复杂任务中的落地。核心观点是传统 LLM 训练只奖励单次回答，而真实任务需要多步决策与延迟反馈，强化学习恰好能解决这一时序学习问题。

论文 agentic reinforcement learning LLM survey 智能体强化学习

推荐理由：500篇论文的智能体RL地图

原文

6月13日

22:23

rohanpaul_ai@rohanpaul_ai

Sony AI开发的Ace机器人在国际乒联官方规则下击败了职业选手Miyuu Kihara。相关研究发表在《自然》杂志，论文标题为“Outplaying elite table tennis players with an autonomous robot”。该机器人展示了在动态对抗运动中超越人类精英的能力。

论文 Sony AI Ace Miyuu Kihara 机器人乒乓球

推荐理由：机器人赢了职业选手

原文

22:23

rohanpaul_ai@rohanpaul_ai

精选73°

Nvidia 推出 Cosmos 3，一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言，把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计，让机器人能连接所见与可能发生的事，并决定下一步行动。论文显示，Cosmos 3 可基于视频推断动作，或与未来场景一同生成动作，从而解决机器人抓取、滑动等物理交互问题。

论文 Cosmos 3 Nvidia 物理AI 多模态动作标记

推荐理由：Nvidia 让机器人学会动作语言

原文

15:22

AI Will@FinanceYF5

研究人员通过模拟实验探索构建诚实AI模型，即使说谎能带来利益也保持真实。实验使用kradle.ai平台进行测试，涉及多个场景评估AI的诚实性。该研究旨在解决AI在利益驱动下可能产生欺骗行为的问题，为AI安全提供新方向。

论文 AI安全诚实AI 模拟实验 kradle.ai

推荐理由：看看AI如何抵抗说谎诱惑

原文

13:28

Together AI@togethercompute

精选

Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术，以及大规模推理的架构。他介绍了Megakernels，通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae，解释了循环Transformer的扩展问题及其修复方法，并提出了新的缩放定律，暗示现有方法可能未充分利用智能潜力。

论文 KV缓存 Megakernels Parcae 缩放定律推理优化

推荐理由：Dan Fu讲KV缓存和Parcae新缩放定律

原文

13:18

Y Combinator@ycombinator

论文自博弈 AI生物学形式验证 Stream RAG Lean

推荐理由：YC 研究者分享自博弈和AI生物学新进展

原文

13:10

rohanpaul_ai@rohanpaul_ai

精选

AGENTCL 提出一个评估语言智能体持续学习能力的新基准，通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流（后续任务可复用前序任务的代码函数、研究证据或工作流）与“朴素”任务流（任务同领域但无明确复用关系）。研究发现，当前记忆方法在任务连接明显时能复用过往经验，但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。

论文 AGENTCL 智能体持续学习记忆基准

推荐理由：看智能体记忆到底行不行

原文

13:04

AK@_akhaliq

SpenseGPT提出一种实用的一次性剪枝方法，在LLM推理中同时支持稀疏和密集通用矩阵乘法（GEMM）。该方法无需重新训练，仅通过一次剪枝即可大幅减少模型参数。实验表明，在保持模型精度的前提下，剪枝后模型推理速度提升可达2倍。该技术适用于多种主流LLM架构。

论文 SpenseGPT 剪枝 LLM推理 GEMM 模型压缩

推荐理由：一次剪枝，推理快两倍

原文

10:56

lmarena.ai@lmarena_ai

Agent Arena 团队发布博客，详细介绍了其用于评估智能体性能的因果追踪方法论。该方法通过分析模型内部因果链，量化不同组件对最终输出的贡献。博客中展示了在多个基准测试上的实验结果，并提供了开源代码供研究者复现。

论文 Agent Arena 因果追踪智能体评估方法

推荐理由：搞懂Agent评估新方法

原文

10:52

rohanpaul_ai@rohanpaul_ai

精选

Google DeepMind 发布论文《From AGI to ASI》，探讨从通用人工智能（AGI）到超级人工智能（ASI）的四种可能路径：持续扩展计算与模型规模、算法范式突破（超越 Transformer）、递归自我改进（AI 加速 AI 研发）、多智能体集体智能。论文指出，扩展路径可能受限于数据、计算和能源瓶颈；递归改进最不确定，因需真实世界测试和稀缺硬件；多智能体集体智能最被低估，通过专业化与协调可超越单一模型。ASI 可能不是单一事件，而是 AI 辅助创造更好 AI 的加速链。

论文 Google DeepMind AGI ASI 多智能体递归自我改进

推荐理由：DeepMind 分析 AGI 到 ASI 的四种路线

原文

10:41

AI Will@FinanceYF5

精选

《Memory》方法让模型在多个 session 间积累知识，路径分为失败、调查、验证、提炼规则、查用规则五步。Sonnet 4.6 仅完成第1步（记录失败但不查询）；Opus 4.7 可到第3步，但校验覆盖率仅7–33%；Fable 5 能走完全程，验证覆盖率最高达73%。该方法旨在提升模型跨会话知识复用能力。

论文 Sonnet 4.6 Opus 4.7 Fable 5 记忆机制推理模型

推荐理由：Fable 5 跨 session 记忆覆盖率73%

原文

09:50

rohanpaul_ai@rohanpaul_ai

《自然医学》一项研究对比了OpenEvidence、UpToDate Expert AI与GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6在医学考试题、临床风格回答及医生真实提问上的表现。在100个脱敏临床问题中，盲审医生更偏好前沿通用模型，尤其在完整性和清晰度上胜出。结果显示通用LLM在医生评审的临床任务中已超越专用医疗AI产品。

论文 GPT-5.2 Gemini 3.1 Pro Claude Opus 4.6 Nature Medicine 医疗AI

推荐理由：通用模型在医疗任务上反超专用AI

原文

00:30

Jeff Dean@JeffDean

精选

Jeff Dean转发的研究表明，单个皮层神经元可执行猫狗分类、语音识别和10位奇偶校验任务，这些此前被认为需要整个神经网络。研究使用新方法揭示了生物神经元的计算复杂度远超经典感知机的人工神经元。这项工作由Ido Aizenbud及其合作者完成。

论文皮层神经元计算能力 Jeff Dean Ido Aizenbud

推荐理由：生物神经元比想象的厉害多了

原文

6月12日

14:45

Philipp Schmid@_philschmid

Agent's Last Exam 是一个全新的AI智能体基准测试，旨在评估智能体在复杂、多步骤任务中的表现。该测试由多个研究机构联合开发，包含一系列需要规划、工具使用和推理的挑战性任务。初步结果显示，当前最先进的模型在测试中得分较低，表明智能体能力仍有巨大提升空间。该基准的发布为AI智能体研究提供了更严格的评估标准。

论文智能体基准测试评估 Agent's Last Exam 推理模型

推荐理由：做AI智能体研究的团队终于有了更严格的测试标准——Agent's Last Exam 揭示了当前模型的真实短板，值得所有关注智能体能力的开发者点开看看。

原文

12:32

karminski-牙医 (AI工具)@karminski3

精选

FlashMemory 论文提出一种神经内存索引器，能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB，且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段，按需加载 KVCache，实现注意力降噪。索引器采用解耦训练，无需加载基座模型，训练成本大幅降低。该技术对长文本推理场景具有重大意义，尤其适合资源受限的部署环境。

论文 FlashMemory DeepSeekV4 显存优化长上下文注意力降噪

推荐理由：长文本推理的显存瓶颈被 FlashMemory 大幅缓解，做 LLM 推理优化或部署长上下文模型的团队可以直接参考论文方法，效果甚至比原版更好。

原文

12:24

elvis@omarsar0

Alex Rives 与 UC Berkeley 联合宣布了激光相位板技术，这是原子分辨率成像领域的突破。该技术使用世界上最亮的连续波激光，强度是太阳表面的1亿倍，解决了电子显微镜中相位对比度难以实现的长期难题。在冷冻电子断层扫描中，低对比度一直阻碍着对细胞内除最大蛋白质以外的结构解析。激光相位板消除了这一障碍，结合AI进步，将开启结构生物学新前沿，使科学家能够看到细胞内的分子机器及其复杂动态系统。

论文激光相位板原子分辨率成像冷冻电子断层扫描结构生物学 AI

推荐理由：这项技术解决了冷冻电镜中对比度不足的核心瓶颈，做结构生物学和细胞成像的研究者可以直接关注——它将让AI辅助下的分子机器解析成为现实。

原文

12:20

Tri Dao (FlashAttention)@tri_dao

精选

通过数学重写，研究者发现 Transformer 的所有操作本质上可以归结为一系列 GEMM（通用矩阵乘法）加 epilogue（后处理）。这意味着只要提供几个优化好的基础原语，LLM 甚至新手人类都能为所有 Transformer 操作编写达到光速的内核。这一发现简化了模型优化，让高性能内核的编写门槛大幅降低。

论文 Transformer GEMM 内核优化 LLM 数学重写

推荐理由：对做模型推理优化和内核开发的团队来说，这揭示了 Transformer 的底层统一结构，可以直接用 LLM 生成高效代码，建议关注。

原文

12:14

Allen AI (Ai2)@allen_ai

精选

艾伦人工智能研究所发布ModSleuth工具，用于追踪现代大语言模型训练中依赖的其他模型和数据集。研究发现，Olmo 3依赖89个模型和183个数据集，Nemotron 3则依赖273个模型和560个数据集。这表明LLM训练已从纯人类数据转向模型间相互生成、过滤和评估数据的模式。ModSleuth帮助开发者理解模型供应链的复杂性和潜在风险。

论文大语言模型训练数据模型依赖 ModSleuth 艾伦AI研究所

推荐理由：大模型训练越来越依赖其他模型生成数据，做模型开发或数据工程的团队需要理解这种依赖链——ModSleuth能帮你理清关系，建议点开看看。

原文

12:02

LMSYS Org (SGLang)@lmsysorg

精选

LMSYS 在博客中介绍了 Token-In-Token-Out (TITO) 技术，用于解决强化学习中推理与训练 token 不一致导致的策略偏移问题。TITO 通过确保训练器使用推理引擎产生的精确 token，使每个 token 保持在策略上，从而提升训练效率。该技术将每个任务视为一个样本而非每个回合，在 30-50 回合的轨迹上可节省约 10 倍计算量。Miles 框架通过推理会话服务器、追加式 token 缓冲区、可插拔 TITO tokenizer 和 TokenSeqComparator 等组件实现 TITO。该技术已支持 Qwen3、GLM、Kimi-K2、Nemotron、Minimax 和 DeepSeek 等模型系列。

论文强化学习 TITO Miles token 对齐开源/仓库

推荐理由：做 RL 训练或大模型推理的团队终于有了解决策略偏移的实用方案——TITO 让每个 token 都对齐，计算量还能省 10 倍，搞 Agent 训练的开发者值得点开看看。

原文

07:01

Together AI@togethercompute

精选

Together AI 团队提出 Untied Ulysses 方法，解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时，仅模型参数就会耗尽显存，无法支持 3M token 的上下文长度。新方法通过优化注意力机制，在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行，降低了硬件门槛。

论文长上下文显存优化注意力机制 Together AI 训练效率

推荐理由：长上下文训练一直是显存大户，Untied Ulysses 让单节点就能跑 3M token，做 LLM 训练和推理优化的团队值得关注，能省下不少 GPU 预算。

原文

06:36

Gary Marcus@GaryMarcus

Gary Marcus 引用一项新研究指出，AI 中所谓的“神经网络”与真实生物神经元几乎无关。研究显示，单个皮层神经元就能完成猫狗分类、语音识别等任务，而这些在传统 AI 中需要整个网络才能实现。这揭示了当前 AI 模型对生物神经系统的过度简化，可能限制了其能力上限。Marcus 认为，AI 领域需要重新审视其基础假设，从真实神经科学中汲取更多灵感。

论文神经网络神经科学 AI 基础 Gary Marcus 认知科学

推荐理由：这项研究戳破了 AI 领域的一个常见误解——神经网络并不像大脑。做 AI 研究或对认知科学感兴趣的读者，看完会对模型设计有新的思考。

原文

05:40

rohanpaul_ai@rohanpaul_ai

精选

一篇论文提出 SIA（自我改进 AI）框架，让 AI 通过观察任务代理的表现，自动调整外部设置（如提示、工具、重试规则）或更新模型权重（通过 LoRA 适配器）。在三个差异极大的任务（中文法律罪名分类、GPU 内核速度调优、单细胞 RNA 去噪）上，结合设置与权重更新的版本均优于仅改进设置的方法。这表明，除了优化提示和工具，让模型通过任务反馈学习模式能带来额外提升。

论文自我改进 LoRA 任务代理自动化 AI 研究

推荐理由：这项研究解决了 AI 自我改进依赖人工调参的瓶颈，做自动化 Agent 或模型微调的团队值得关注——SIA 的 LoRA 更新思路能低成本让模型学会任务模式，比只改提示更有效。

原文

05:36

Gary Marcus@GaryMarcus

Gary Marcus 转发了一项新研究，该研究提出了一个名为 SciConBench 的基准测试，包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现，前沿 AI 智能体无法有效综合科学结论，这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成，结果对 AI 在科学领域的可靠性提出了质疑。

论文 AI 科学家 SciConBench 基准测试科学综合 Gary Marcus

推荐理由：这项研究直接戳破了 AI 作为科学家的泡沫，做科研或依赖 AI 进行文献综述的团队值得一看，避免被过度宣传误导。

原文

05:34

Microsoft Research@MSFTResearch

精选

微软研究院发布新研究项目Encrypted Spaces，旨在为协作应用构建一种加密架构。该架构确保所有数据在传输和存储中均为加密状态，且每个操作均支持加密验证。通过这一设计，伙伴可在不信任第三方的情况下安全协作，且能验证每一步操作的正确性。该研究探索了分布式系统与密码学结合的新路径。

论文 Encrypted Spaces 微软数据加密协作应用可验证操作

推荐理由：微软研究的新加密协作架构

原文

04:11

Richard Socher@RichardSocher

Andrej Karpathy 发布了一个新的 AI 基准测试，旨在评估从基础 Transformer 模型到高级 AI 系统的演进过程。该测试需要 AI 花费相当长的时间才能达到 Karpathy 的版本水平。这一基准测试可能用于衡量 AI 系统的复杂性和进步程度，对研究者和开发者具有重要参考价值。

论文基准测试 Transformer Karpathy AI 评估模型进化

推荐理由：Karpathy 的基准测试为 AI 开发者提供了一个衡量模型进化难度的新工具，做模型训练和评估的团队值得关注这个测试，看看自己的模型需要多久才能达到高级水平。

原文