全部 AI 动态 · AI 热点

AITOP

6月24日

06:03

OpenRouter@OpenRouterAI

OpenRouter 宣布提供 GLM 5.2 模型的所有服务商入口，共列出 20 个提供商。其中一条服务线路的推理速度超过 125 tokens/秒。用户可在单一页面比较并选择不同服务商。这标志着 GLM 5.2 的部署生态进一步开放。

AI模型 GLM 5.2 OpenRouter 开源模型推理模型高速推理

推荐理由：想用 GLM 5.2 但不清楚哪家快？OpenRouter 把 20 个提供商列在一起了，还能直接选超 125 TPS 的那条线。

原文

03:27

AK@_akhaliq

Ling and Ring 2.6 技术报告发布，展示了在万亿参数规模下实现高效且即时的智能体智能。该模型专注于 agentic intelligence 领域，通过优化架构和推理机制降低延迟。报告详细介绍了其训练方法、性能基准以及与传统大模型的对比结果。具体数字和基准名称需查阅完整报告。

AI模型 Ling and Ring 智能体万亿参数规模推理模型

推荐理由：想了解万亿参数级别的智能体模型怎么做吗？Ling and Ring 2.6 报告给出了具体方案。

原文

6月23日

20:18

SiliconFlowAI@siliconflowai

SiliconFlow 对 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 进行了同提示词测试。结果显示 GLM-5.2 在性能上逼近 Opus 4.8，同时输入成本仅为 Opus 的约 1/3.6，输出成本为约 1/5.7。这意味着用户可以在 SiliconFlow 平台上以大幅降低的成本获得接近 Opus 级别的前端生成能力。

AI模型 GLM-5.2 Opus 4.8 SiliconFlow 推理模型模型对比

推荐理由：SiliconFlow 测了 GLM-5.2，性能跟 Opus 4.8 差不多，但输入输出成本都低了好几倍，想省钱的可以试试。

原文

14:46

向阳乔木@vista8

76°

百度发布Unlimited OCR，模拟人类抄书注意力模式，每生成一个token时参考完整图像和提示词，但输出侧仅回看前128个token。KV缓存固定为128长度，避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著，已在GitHub和Hugging Face开源。

AI模型 UnlimitedOCR 百度 OCR 推理模型开源模型

推荐理由：百度开源了一个超聪明的OCR方案，用固定128 token缓存模拟人眼抄书，长文档不爆内存，快去试试！

原文

6月22日

12:24

歸藏(guizang.ai)@op7418

Anthropic已训练完成更强版本的Mythos模型，可能命名为Mythos 5.1或Mythos 6。目前不确定是否会公开发布或仅用于内部加速开发。消息称停止发布Fable 5或Mythos 5不会减慢进展，反而释放资源。竞争压力来自开源模型如GLM-5.2，迫使前沿实验室持续训练更强系统。

AI模型 Anthropic Mythos GLM-5.2 推理模型开源模型

推荐理由：有人说Anthropic偷偷训了个更强的Mythos，但可能不对外放。想了解AI前沿动态可以看看。

原文

6月21日

17:54

shao__meng@shao__meng

社交媒体上发起LLM对比投票，比较GLM-5.2和Gemini 3.5 Flash。投票结果倾向GLM-5.2，用户认为Gemini 3.5 Flash表现不佳。评论指出Google DeepMind自Gemini 3.0多模态发布后缺乏亮眼进展。讨论焦点集中在国产模型与Google模型的性能差距。

AI模型 GLM-5.2 Gemini 3.5 Flash Google DeepMind 模型对比推理模型

推荐理由：看看大家投票选GLM-5.2还是Gemini 3.5 Flash，很多人觉得Gemini近期的模型不太能打。

原文

15:18

AI Will@FinanceYF5

精选

Anthropic在2月完成新模型Mythos的训练。Mythos悄然改变了整个研发节奏。过去5个月AI能力跃升部分源于Mythos。领先模型正帮助训练下一代模型，该循环已启动。

AI模型 Mythos Anthropic 推理模型模型迭代

推荐理由：Anthropic悄悄练成了Mythos，据说它直接改变了研发节奏，领先模型开始帮训练下一代模型了。

原文

15:15

AI Will@FinanceYF5

一位用户分享了他评价Fable模型的方法：不看benchmark数字，只关注模型的思维形状。Fable在理解用户意图和迭代思考方面表现突出，让他感到对面有真人。他比喻这种感受就像回到了2023年。

技巧 Fable 推理模型模型评估

推荐理由：有人分享了一个评价模型的新角度：别看数字，看它能不能让你感觉像在跟真人聊天。Fable就做到了。

原文

03:54

Suhail@Suhail

精选

Z.ai推出GLM-5.2开源模型，采用MIT开放权重。该模型支持1M上下文窗口，在Terminal-Bench 2.1基准上得分81.0，仅比Claude Opus 4.8低几分。Perplexity CEO此前指出，中国已拥有最强开源模型DeepSeek，且美国开发者正基于其构建应用。GLM-5.2的发布进一步表明开源AI竞赛已非理论。

AI模型 GLM-5.2 Z.ai DeepSeek 开源模型推理模型

推荐理由：Z.ai刚刚放出了GLM-5.2，MIT开源、100万上下文、跑分81.0，跟Claude Opus 4.8差距很小，做开源模型的得看看。

原文

6月20日

23:55

AK@_akhaliq

研究人员发布了S-Agent，一个通过空间工具使用来增强空间推理能力的模型。S-Agent在虚拟环境中学习操作和使用空间工具，如旋转、移动物体等，以解决空间任务。该方法在空间智能基准测试中展现了显著的推理能力提升。

AI模型 S-Agent 推理模型空间智能智能体

推荐理由：S-Agent教AI通过操作空间工具来推理空间关系，跟传统只靠视觉的模型不一样，值得关注。

原文

08:47

Sakana AI@SakanaAILabs

精选

Sakana AI 今日发布其首个商业产品 Sakana Marlin。它是一个自主商业研究助手，只需输入研究主题，便能自主运行约8小时，形成假设、收集信息并验证发现。最终输出结构化幻灯片和数十页的研究报告。Marlin 基于长视野推理和 AB-MCTS 方法，并融合了 Sakana AI 在日本的行业部署经验。产品提供按次付费、Pro、团队和企业计划。

AI产品 Sakana AI Marlin 智能体推理模型

推荐理由：Sakana AI 出了个叫 Marlin 的助手，给它一个主题就能自己研究8小时出报告，按次付费没月费，适合做深度商业分析。

原文

6月19日

14:42

Simon Willison@simonw

精选

Jeremy Howard 称 GLM 5.2 是开放权重模型中的奇迹，性能至少与 Opus 4.8 和 GPT 5.5 持平。它速度快、成本低、输出简洁，且擅长长上下文处理。该模型由 Zai_org 发布，目前尚未在 Groq 或 Cerebras 等超快推理提供商上运行，但社区期待其部署。

AI模型 GLM-5.2 Zai_org 开放权重推理模型

推荐理由：GLM 5.2 开放权重、性能比肩闭源顶尖模型，还便宜又快，写代码或处理长文档会很顺手。

原文

09:25

Clement Delangue@ClementDelangue

AA-Briefcase基准测试评估模型在长期知识工作项目中的表现，任务成本差异达800倍。Claude Fable 5以1587 Elo领先，但平均任务成本31美元；Claude Opus 4.8得分1356，成本10.40美元。DeepSeek V4 Flash仅需约0.04美元，性价比最高。GLM-5.2得分1266，成本2.40美元，得分仅低Claude Opus 4.8不到90 Elo，成本不到其25%。

AI模型 Claude Fable 5 DeepSeek V4 Flash GLM-5.2 AA-Briefcase 推理模型

推荐理由：新基准AA-Briefcase测长期项目，Claude Fable 5最强但贵，DeepSeek V4 Flash极便宜，GLM-5.2性价比超赞。

原文

07:06

Greg Brockman@gdb

OpenAI o1推理模型公布后，其他实验室研究者认为这是战略失误，应保密以拉开差距。Noam Brown引用研究表示，公开o1有助于推动医学推理领域的进展。这验证了OpenAI开放模型的正确性，加速了推理范式的应用。

AI模型 OpenAI o1 推理模型医学公开研究

推荐理由：Noam Brown聊了OpenAI开放o1背后的争论，告诉你为什么公开反而能让医学推理进步更快。

原文

06:38

Greg Brockman@gdb

精选72°

OpenAI 与波士顿儿童医院及哈佛大学合作，在 NEJM AI 发表研究。研究使用 o3 Deep Research 模型重新分析 376 个先前未解决的罕见儿科病例。模型帮助临床医生找到了 18 个新诊断。其中包括 Kyra 的病例，她从 9 岁起持续肌肉无力，在 28 岁生日前夕被确诊为罕见的肌原纤维肌病。

AI模型 OpenAI o3 Deep Research 罕见病推理模型医疗AI

推荐理由：OpenAI 的 o3 Deep Research 模型帮医生翻出了 376 个陈年疑难病例，找出了 18 种之前漏诊的病。有个女孩从 9 岁查到 28 岁，终于有了答案。这 AI 真的能救命。

原文

03:09

Sebastian Raschka@rasbt

73°

AI模型 GLM-5.2 DeepSeek V3.2 IndexShare 推理模型开源模型

推荐理由：智谱的GLM-5.2开放权重模型，用DeepSeek V3.2的注意力机制加上自己的IndexShare，把1M长上下文推理搞便宜了，值得看看。

原文

02:39

OpenAI@OpenAI

OpenAI 发布 GPT-5.5 Instant，该模型在健康相关问题上的表现与前端推理模型（如 o1）持平。每周超过 2.3 亿人通过 ChatGPT 咨询健康问题，新模型能更准确识别需要紧急护理的情况，主动询问相关背景，明确解释不确定性，并简化复杂医学术语。所有免费用户均可使用 GPT-5.5 Instant，无需订阅。此次改进基于医生主导的评估，确保了医疗场景下的可靠性。

AI模型 GPT-5.5 Instant OpenAI 健康推理模型 ChatGPT

推荐理由：OpenAI 把 GPT-5.5 Instant 的医疗问答能力做到了和自家顶级推理模型一样好，而且免费用户都能用，生病问AI更放心了。

原文

02:33

Notion@NotionHQ

Fast Company发布了首届"AI 20"榜单，表彰在AI扩散至经济中起关键作用的领袖。Notion的AI负责人Sarah Sachs入选，其团队将Notion AI从简单重写工具演变为检索式问答，再到具有权限和审计追踪的"治理型AI队友"。当推理模型能自主完成序列任务时，他们从头重建了整个Notion AI架构。

行业 Fast Company Notion Sarah Sachs AI治理推理模型

推荐理由：Fast Company选出了20位推动AI普及的领袖，Notion的Sarah Sachs榜上有名。她让Notion AI从改文章进化成带权限的‘AI队友’，还重写了整个架构，很酷。

原文

6月18日

23:34

OpenAI@OpenAI

精选

OpenAI 的 o3 Deep Research 模型在罕见病诊断中发挥辅助作用，它能够处理测序产生的数百万变异。该模型连接临床特征、遗传模式、变异证据和科学文献，生成假设供专家审核。所有结果都经过人工裁决和临床确认，AI的作用是帮助专家更快、更全面地推理复杂、碎片化的证据。

AI模型 o3 Deep Research OpenAI 推理模型医疗AI 智能体

推荐理由：OpenAI 的 o3 Deep Research 能帮医生快速分析海量变异数据，连接文献和临床特征，生成诊断假设。

原文

14:43

小互@imxiaohu

6月，Apodex 向 FutureX 提交了四个基于 Apodex-1.0-mini 35B 的实验预测框架。该模型在6月第一周排名包揽第1至第4名，并在第二周持续霸榜第1名。这一成绩展示了 Apodex-1.0-mini 35B 在预测任务上的竞争力。

AI模型 Apodex Apodex-1.0-mini FutureX 推理模型基准

推荐理由：Apodex 用 35B 参数模型做的预测框架，在 FutureX 排行榜上直接包揽前四名，太猛了。

原文

13:05

@atomic_chat_hq@atomic_chat_hq

精选

Kimi K2.7 Code在三个物理模拟任务上与GPT-5.5进行对比，使用相同的提示词。弹簧摆和1kg块碰撞100000kg块的任务两者表现持平。但在22球自旋六边形任务中，Kimi生成的球随滚筒旋转，而GPT-5.5的球呈现混沌运动，Kimi表现更优。Kimi推理成本为0.28美元（52.4k tokens），GPT-5.5为0.93美元（23.4k tokens），成本降低约70%。

AI模型 Kimi K2.7 Code GPT-5.5 推理模型编程助手

推荐理由：Kimi新出的K2.7 Code模型，花不到三毛钱就能和GPT-5.5打平手，物理模拟甚至更聪明，性价比直接秒杀。

原文

13:03

@atomic_chat_hq@atomic_chat_hq

精选

Diffusion Gemma 在单个H100（FP8）上速度达763 tok/s，比Gemma 4的218 tok/s快约4倍。但事实准确性测试中，Diffusion Gemma 33个事实正确、28个错误，而Gemma 4为45正确、5错误。话题越冷门错误越多：乔布斯传4错、俄罗斯方块12错、BeOS故事12错。Diffusion Gemma胡编了乔布斯的母亲名字和游戏同事名称，并将BeBox价格虚构为$9,999（实际$1,600）。

AI模型 Diffusion Gemma Gemma 4 Google 推理模型事实准确性

推荐理由：想用更快的推理速度就得接受更多幻觉，Google官方也为此打预防针了。

原文

13:01

@atomic_chat_hq@atomic_chat_hq

Nemotron 3 Ultra 在三个物理模拟任务中与 GPT 5.5 表现相当，但成本仅为后者的十分之一。测试用例包括旋转桶中水体、高尔顿板钉球和极端质量碰撞。Nemotron 3 Ultra 输出 11.3k tokens 花费 $0.051，而 GPT 5.5 输出 11.0k tokens 花费 $0.57。质量差距远小于价格差距。

AI模型 Nemotron 3 Ultra GPT 5.5 推理模型成本对比

推荐理由：想用 GPT-5.5 级别能力但嫌贵？Nemotron 3 Ultra 几乎一样好，价格只有十分之一，值得试试。

原文

13:00

@atomic_chat_hq@atomic_chat_hq

精选

Google Gemma 4 12B模型在RTX 4090上实测仅需9GB VRAM，生成8.9k tokens，速度80 tok/s，性能接近26B版本。其对比的Gemma 4 26B-A4B使用15GB VRAM，生成6.9k tokens，速度138 tok/s，所有场景胜出。但12B在近半VRAM下表现十分接近，成为16GB笔记本的理想选择。

AI模型 Gemma 4 12B 26B-A4B Google 推理模型

推荐理由：新Gemma 4 12B别看参数小，实测代码能力接近26B版，而且只需要9GB显存，16GB笔记本就能跑。

原文

05:25

OpenAI@OpenAI

OpenAI推出LifeSciBench新基准，用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流，测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。

AI模型 LifeSciBench GPT-Rosalind GPT-5.5 OpenAI 推理模型

推荐理由：OpenAI搞了个新基准LifeSciBench，专门测生物科学推理，GPT-Rosalind比GPT-5.5还强，值得看看。

原文

05:17

Greg Brockman@gdb

精选

OpenAI的GPT-5.4与Molecule.one的Maria AI合作，推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法，改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。

AI模型 GPT-5.4 OpenAI Molecule.one 推理模型药物研发

推荐理由：OpenAI的GPT-5.4这次不是聊天，而是真帮化学家改进了药物反应，和Molecule.one的AI配合，从文献到实验跑通了

原文

03:58

Sebastian Raschka@rasbt

精选

VibeCoder采用Qwen2.5-Coder-3B作为基座，通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT（先广训再难长推理样本）、MGPO（MaxEnt-Guided Policy Optimization）强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL，并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。

论文 VibeCoder Qwen2.5-Coder-3B 推理模型强化学习微调

推荐理由：Sebastian Raschka分析了VibeCoder的后训练秘诀，基于3B模型就取得惊人成绩，训练顺序和RL方法值得参考。

原文

03:33

lmarena.ai@lmarena_ai

精选

Kimi K2.7 Code 在 Agent Arena 排行榜上总体排名第19，在开源模型中排第6。该模型在 Kimi Code Bench v2 上比 K2.6 提升21.8%，在 Program Bench 上提升11.0%，在 MLS Bench Lite 上提升31.5%。推理 token 使用量降低30%，减少了过度思考。长程编码任务指令遵循和完成率均有提升。目前通过 Kimi API 和 Kimi Code 可用。

AI模型 Kimi-K2.7-Code Kimi_Moonshot 开源模型编程助手推理模型

推荐理由：Kimi 发了新编程模型 K2.7 Code，推理更省 token，基准提升明显，而且在 Agent Arena 上开源模型里排第6，值得一试。

原文

03:06

xAI@xai

精选

xAI的Grok 4.3模型正式在Amazon Bedrock上可用，AWS开发者可通过Bedrock的安全推理引擎调用。Grok 4.3在幻觉率和工具调用两项基准上表现领先，能支持更可靠的生成与外部功能集成。该模型目前向所有AWS区域开放，按token计费。

AI模型 Grok xAI Amazon Bedrock 推理模型

推荐理由：xAI把Grok 4.3放到了AWS上，你用Bedrock就能直接调，幻觉率低、工具调用强，适合做可靠应用。

原文

00:40

orange.ai@oran_ge

用户实测显示，智谱的 glm 5.2 模型在 COLA 基准上表现优于 deepseek 和 mimo，在智商和情商方面都有提升。该模型被评价为国产模型的新高度，但当前版本存在稳定性差和响应缓慢的问题。测试结果基于真实用户反馈，尚未有官方基准数据佐证。

AI模型 glm 5.2 deepseek mimo 推理模型国产模型

推荐理由：如果你在找国产模型，glm 5.2 在 COLA 上比 deepseek 和 mimo 强，但别着急用，现在慢还不稳定。

原文

6月17日

23:06

LMSYS Org (SGLang)@lmsysorg

精选

Zai_org 发布了新旗舰模型 GLM-5.2，支持 1M token 长上下文。在 Terminal-Bench 2.1 上，GLM-5.2 得分 81.0，相比 GLM-5.1 的 62.0 提升明显。IndexShare 机制在 1M 上下文下将每 token 的 FLOPs 降低了 2.9 倍，改进的 MTP 将投机解码接受率提升了 20%。该模型在 SGLang 中已获得即日支持。

AI模型 GLM-5.2 Zai_org SGLang 长上下文推理模型

推荐理由：Zai_org 的 GLM-5.2 来了，1M 长上下文拿下了 81.0 的 Terminal-Bench 分数，比上一代高出一截，而且推理效率也优化了，值得上手试试。

原文

12:40

orange.ai@oran_ge

GLM-5.2 由 Z.ai 发布，在编码和智能体任务上取得显著进步，首次让开源模型在 Coding 能力上达到 Opus 水平。模型支持 1M 上下文窗口，提供两种推理努力级别（max 和 high），权重采用 MIT 开源许可，API 定价与 GLM-5.1 相同。

AI模型 GLM-5.2 Z.ai 开源模型编码能力推理模型

推荐理由：Z.ai 开源了 GLM-5.2，编码水平追上 Opus，还给了 1M 上下文和两种推理模式，MIT 许可随便用。

原文

11:55

歸藏(guizang.ai)@op7418

74°

智谱 AI 正式发布并开源 GLM-5.2 模型。该模型支持 100 万 token 稳定上下文，并引入思考力度控制能力。架构上采用 IndexShare 机制，每四层稀疏注意力共享 indexer，在百万 token 下将每 token 计算量降低约 2.9 倍。基准测试成绩表现出色，定位处理长周期任务。

AI模型 GLM-5.2 智谱开源模型长上下文推理模型

推荐理由：智谱 GLM-5.2 开源了，百万上下文还能省 2.9 倍算力，做长任务的朋友可以上手试试。

原文

11:10

歸藏(guizang.ai)@op7418

智谱发布并开源了 GLM-5.2 模型，核心定位是处理长周期任务，提供稳定的 100 万 token 上下文。模型引入 IndexShare 机制，每四层稀疏注意力共享 indexer，在百万 token 下每 token 计算量降低约 2.9 倍。GLM-5.2 提供两种思考力度模式：GLM-5.2 (max) 追求极致性能，GLM-5.2 (high) 平衡性能与 token 效率。该模型采用 MIT 开源许可，API 定价与 GLM-5.1 相同。在多项基准测试中，GLM-5.2 在编程和智能体任务上表现显著提升。

AI模型 GLM-5.2 智谱 MIT开源百万上下文推理模型

推荐理由：智谱的 GLM-5.2 百万上下文还能降低计算量 2.9 倍，开源且支持思考力度调节，搞长任务和 agent 的赶紧试试。

原文

10:00

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 宣布支持 GLM 5.2 模型，直接运行模型权重而非通过路由转发到其他平台。他们承诺零数据保留、生产级延迟，并开放 1M 上下文窗口。该服务面向长时编码代理，强调稳定性而非基准排名。

AI产品 GLM 5.2 Fireworks AI 推理模型上下文窗口编码代理

推荐理由：Fireworks 直接跑 GLM 5.2 权重，1M 上下文还不存你的数据，做编码代理很稳。

原文

09:34

Fireworks AI@FireworksAI_HQ

精选71°

GLM 5.2 已在 Fireworks 平台零日上线。该模型拥有 1M token 上下文窗口，定位为编码优先的前沿模型。其性能在 SWE-bench、Terminal-Bench、GPQA 和 AIME 等基准上得到独立验证。Fireworks 在智谱开源模型权重后立即在其基础设施上提供服务。

AI模型 GLM 5.2 Fireworks 智谱推理模型编程助手

推荐理由：Fireworks 第一时间上线了 GLM 5.2，百万 token 上下文很能打，编程基准表现不错，做开发的可以试试。

原文

03:05

vLLM@vllm_project

精选

vLLM 发布 0.23.0 版本，为 Zai.org 的 GLM-5.2 模型提供 Day-0 支持。GLM-5.2 拥有 1M token 上下文窗口，专为长周期编码智能体设计，可承载从需求到部署的完整开发流程。该模型针对大规模代码实现、自动化研究和性能优化进行了调优，支持客户端和移动端内调试。用户即日起可通过 vLLM 运行该模型。

AI模型 vLLM GLM-5.2 1M token 编程助手推理模型

推荐理由：vLLM 刚发的 0.23.0 直接支持了 GLM-5.2，这个模型有 100 万 token 上下文，适合一口气写完整个项目代码，还能跨平台部署，写代码的可以试试。

原文

02:17

kimmonismus@kimmonismus

77°

GLM-5.2 以 MIT 许可证开源，权重开放。该模型支持 1M token 上下文窗口。提供 max 和 high 两种推理模式。专门针对大规模部署、自动化研究、性能优化和复杂调试进行训练。API 定价与 GLM-5.1 保持一致。

AI模型 GLM-5.2 智谱开源模型长上下文推理模型

推荐理由：智谱开源了 GLM-5.2，1M 上下文还能选推理模式，做长代码任务更强了。

原文

6月16日

19:02

kimmonismus@kimmonismus

VibeThinker-3B是仅3B参数的小模型，在AIME26上取得94.3分，在LiveCodeBench v6上Pass@1达80.2，在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder，结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明，部分可验证推理能力可被高效压缩到小密集模型中。

AI模型 VibeThinker-3B Qwen2.5-Coder 推理模型小模型代码生成

推荐理由：3B的小模型在数学和代码推理上快追上大模型了，适合部署在低算力场景，值得关注。

原文

14:08

AlphaSignal@AlphaSignalAI

研究人员在论文《Training-Free Looped Transformers via Numerical ODE Integration》中提出一种无需重新训练即可提升冻结大模型性能的方法。该方法将每一层视为解常微分方程的一步，用多个小阻尼步骤替换原始大步骤，使模型获得更多推理时间。在MMLU-Pro上取得+2.64分提升，在GPQA上取得+2.01分提升，并在87%的测试组合中保持正向效果。

AI模型 Looped Transformers MMLU-Pro GPQA 推理模型无训练优化

推荐理由：这篇论文教会你一种骚操作：不重新训练，就能让现成模型在推理时多思考几轮，MMLU-Pro和GPQA分数都涨了，值得看看。

原文