06:03OpenRouter@OpenRouterAIOpenRouter 宣布提供 GLM 5.2 模型的所有服务商入口,共列出 20 个提供商。其中一条服务线路的推理速度超过 125 tokens/秒。用户可在单一页面比较并选择不同服务商。这标志着 GLM 5.2 的部署生态进一步开放。AI模型GLM 5.2OpenRouter开源模型推理模型高速推理推荐理由:想用 GLM 5.2 但不清楚哪家快?OpenRouter 把 20 个提供商列在一起了,还能直接选超 125 TPS 的那条线。原文
03:27AK@_akhaliqLing and Ring 2.6 技术报告发布,展示了在万亿参数规模下实现高效且即时的智能体智能。该模型专注于 agentic intelligence 领域,通过优化架构和推理机制降低延迟。报告详细介绍了其训练方法、性能基准以及与传统大模型的对比结果。具体数字和基准名称需查阅完整报告。AI模型Ling and Ring智能体万亿参数规模推理模型推荐理由:想了解万亿参数级别的智能体模型怎么做吗?Ling and Ring 2.6 报告给出了具体方案。原文
20:18SiliconFlowAI@siliconflowaiSiliconFlow 对 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 进行了同提示词测试。结果显示 GLM-5.2 在性能上逼近 Opus 4.8,同时输入成本仅为 Opus 的约 1/3.6,输出成本为约 1/5.7。这意味着用户可以在 SiliconFlow 平台上以大幅降低的成本获得接近 Opus 级别的前端生成能力。AI模型GLM-5.2Opus 4.8SiliconFlow推理模型模型对比2 个信源在谈推荐理由:SiliconFlow 测了 GLM-5.2,性能跟 Opus 4.8 差不多,但输入输出成本都低了好几倍,想省钱的可以试试。原文
14:46向阳乔木@vista876°百度发布Unlimited OCR,模拟人类抄书注意力模式,每生成一个token时参考完整图像和提示词,但输出侧仅回看前128个token。KV缓存固定为128长度,避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著,已在GitHub和Hugging Face开源。AI模型UnlimitedOCR百度OCR推理模型开源模型6 个信源在谈推荐理由:百度开源了一个超聪明的OCR方案,用固定128 token缓存模拟人眼抄书,长文档不爆内存,快去试试!原文
12:24歸藏(guizang.ai)@op7418Anthropic已训练完成更强版本的Mythos模型,可能命名为Mythos 5.1或Mythos 6。目前不确定是否会公开发布或仅用于内部加速开发。消息称停止发布Fable 5或Mythos 5不会减慢进展,反而释放资源。竞争压力来自开源模型如GLM-5.2,迫使前沿实验室持续训练更强系统。AI模型AnthropicMythosGLM-5.2推理模型开源模型8 个信源在谈推荐理由:有人说Anthropic偷偷训了个更强的Mythos,但可能不对外放。想了解AI前沿动态可以看看。原文
17:54shao__meng@shao__meng社交媒体上发起LLM对比投票,比较GLM-5.2和Gemini 3.5 Flash。投票结果倾向GLM-5.2,用户认为Gemini 3.5 Flash表现不佳。评论指出Google DeepMind自Gemini 3.0多模态发布后缺乏亮眼进展。讨论焦点集中在国产模型与Google模型的性能差距。AI模型GLM-5.2Gemini 3.5 FlashGoogle DeepMind模型对比推理模型推荐理由:看看大家投票选GLM-5.2还是Gemini 3.5 Flash,很多人觉得Gemini近期的模型不太能打。原文
15:18AI Will@FinanceYF5精选Anthropic在2月完成新模型Mythos的训练。Mythos悄然改变了整个研发节奏。过去5个月AI能力跃升部分源于Mythos。领先模型正帮助训练下一代模型,该循环已启动。AI模型MythosAnthropic推理模型模型迭代8 个信源在谈推荐理由:Anthropic悄悄练成了Mythos,据说它直接改变了研发节奏,领先模型开始帮训练下一代模型了。原文
15:15AI Will@FinanceYF5一位用户分享了他评价Fable模型的方法:不看benchmark数字,只关注模型的思维形状。Fable在理解用户意图和迭代思考方面表现突出,让他感到对面有真人。他比喻这种感受就像回到了2023年。技巧Fable推理模型模型评估推荐理由:有人分享了一个评价模型的新角度:别看数字,看它能不能让你感觉像在跟真人聊天。Fable就做到了。原文
03:54Suhail@Suhail精选Z.ai推出GLM-5.2开源模型,采用MIT开放权重。该模型支持1M上下文窗口,在Terminal-Bench 2.1基准上得分81.0,仅比Claude Opus 4.8低几分。Perplexity CEO此前指出,中国已拥有最强开源模型DeepSeek,且美国开发者正基于其构建应用。GLM-5.2的发布进一步表明开源AI竞赛已非理论。AI模型GLM-5.2Z.aiDeepSeek开源模型推理模型推荐理由:Z.ai刚刚放出了GLM-5.2,MIT开源、100万上下文、跑分81.0,跟Claude Opus 4.8差距很小,做开源模型的得看看。原文
23:55AK@_akhaliq研究人员发布了S-Agent,一个通过空间工具使用来增强空间推理能力的模型。S-Agent在虚拟环境中学习操作和使用空间工具,如旋转、移动物体等,以解决空间任务。该方法在空间智能基准测试中展现了显著的推理能力提升。AI模型S-Agent推理模型空间智能智能体推荐理由:S-Agent教AI通过操作空间工具来推理空间关系,跟传统只靠视觉的模型不一样,值得关注。原文
08:47Sakana AI@SakanaAILabs精选Sakana AI 今日发布其首个商业产品 Sakana Marlin。它是一个自主商业研究助手,只需输入研究主题,便能自主运行约8小时,形成假设、收集信息并验证发现。最终输出结构化幻灯片和数十页的研究报告。Marlin 基于长视野推理和 AB-MCTS 方法,并融合了 Sakana AI 在日本的行业部署经验。产品提供按次付费、Pro、团队和企业计划。AI产品Sakana AIMarlin智能体推理模型推荐理由:Sakana AI 出了个叫 Marlin 的助手,给它一个主题就能自己研究8小时出报告,按次付费没月费,适合做深度商业分析。原文
14:42Simon Willison@simonw精选Jeremy Howard 称 GLM 5.2 是开放权重模型中的奇迹,性能至少与 Opus 4.8 和 GPT 5.5 持平。它速度快、成本低、输出简洁,且擅长长上下文处理。该模型由 Zai_org 发布,目前尚未在 Groq 或 Cerebras 等超快推理提供商上运行,但社区期待其部署。AI模型GLM-5.2Zai_org开放权重推理模型推荐理由:GLM 5.2 开放权重、性能比肩闭源顶尖模型,还便宜又快,写代码或处理长文档会很顺手。原文
09:25Clement Delangue@ClementDelangueAA-Briefcase基准测试评估模型在长期知识工作项目中的表现,任务成本差异达800倍。Claude Fable 5以1587 Elo领先,但平均任务成本31美元;Claude Opus 4.8得分1356,成本10.40美元。DeepSeek V4 Flash仅需约0.04美元,性价比最高。GLM-5.2得分1266,成本2.40美元,得分仅低Claude Opus 4.8不到90 Elo,成本不到其25%。AI模型Claude Fable 5DeepSeek V4 FlashGLM-5.2AA-Briefcase推理模型10 个信源在谈推荐理由:新基准AA-Briefcase测长期项目,Claude Fable 5最强但贵,DeepSeek V4 Flash极便宜,GLM-5.2性价比超赞。原文
07:06Greg Brockman@gdbOpenAI o1推理模型公布后,其他实验室研究者认为这是战略失误,应保密以拉开差距。Noam Brown引用研究表示,公开o1有助于推动医学推理领域的进展。这验证了OpenAI开放模型的正确性,加速了推理范式的应用。AI模型OpenAIo1推理模型医学公开研究10 个信源在谈推荐理由:Noam Brown聊了OpenAI开放o1背后的争论,告诉你为什么公开反而能让医学推理进步更快。原文
06:38Greg Brockman@gdb精选72°OpenAI 与波士顿儿童医院及哈佛大学合作,在 NEJM AI 发表研究。研究使用 o3 Deep Research 模型重新分析 376 个先前未解决的罕见儿科病例。模型帮助临床医生找到了 18 个新诊断。其中包括 Kyra 的病例,她从 9 岁起持续肌肉无力,在 28 岁生日前夕被确诊为罕见的肌原纤维肌病。AI模型OpenAIo3 Deep Research罕见病推理模型医疗AI10 个信源在谈推荐理由:OpenAI 的 o3 Deep Research 模型帮医生翻出了 376 个陈年疑难病例,找出了 18 种之前漏诊的病。有个女孩从 9 岁查到 28 岁,终于有了答案。这 AI 真的能救命。原文
03:09Sebastian Raschka@rasbt73°GLM-5.2是智谱发布的最新开放权重模型,基于GLM-5和GLM-5.1架构,复用了DeepSeek V3.2的Multi-head Latent Attention(MLA)和DeepSeek Sparse Attention(DSA)机制。新增的IndexShare机制在每四层运行一次完整索引器,后续三层复用选中的token索引,使100万token推理成本大幅降低。目前GLM-5.2在开放权重模型中表现最佳。AI模型GLM-5.2DeepSeek V3.2IndexShare推理模型开源模型2 个信源在谈推荐理由:智谱的GLM-5.2开放权重模型,用DeepSeek V3.2的注意力机制加上自己的IndexShare,把1M长上下文推理搞便宜了,值得看看。原文
02:39OpenAI@OpenAIOpenAI 发布 GPT-5.5 Instant,该模型在健康相关问题上的表现与前端推理模型(如 o1)持平。每周超过 2.3 亿人通过 ChatGPT 咨询健康问题,新模型能更准确识别需要紧急护理的情况,主动询问相关背景,明确解释不确定性,并简化复杂医学术语。所有免费用户均可使用 GPT-5.5 Instant,无需订阅。此次改进基于医生主导的评估,确保了医疗场景下的可靠性。AI模型GPT-5.5 InstantOpenAI健康推理模型ChatGPT10 个信源在谈推荐理由:OpenAI 把 GPT-5.5 Instant 的医疗问答能力做到了和自家顶级推理模型一样好,而且免费用户都能用,生病问AI更放心了。原文
02:33Notion@NotionHQFast Company发布了首届"AI 20"榜单,表彰在AI扩散至经济中起关键作用的领袖。Notion的AI负责人Sarah Sachs入选,其团队将Notion AI从简单重写工具演变为检索式问答,再到具有权限和审计追踪的"治理型AI队友"。当推理模型能自主完成序列任务时,他们从头重建了整个Notion AI架构。行业Fast CompanyNotionSarah SachsAI治理推理模型1 个信源在谈推荐理由:Fast Company选出了20位推动AI普及的领袖,Notion的Sarah Sachs榜上有名。她让Notion AI从改文章进化成带权限的‘AI队友’,还重写了整个架构,很酷。原文
23:34OpenAI@OpenAI精选OpenAI 的 o3 Deep Research 模型在罕见病诊断中发挥辅助作用,它能够处理测序产生的数百万变异。该模型连接临床特征、遗传模式、变异证据和科学文献,生成假设供专家审核。所有结果都经过人工裁决和临床确认,AI的作用是帮助专家更快、更全面地推理复杂、碎片化的证据。AI模型o3 Deep ResearchOpenAI推理模型医疗AI智能体10 个信源在谈推荐理由:OpenAI 的 o3 Deep Research 能帮医生快速分析海量变异数据,连接文献和临床特征,生成诊断假设。原文
14:43小互@imxiaohu6月,Apodex 向 FutureX 提交了四个基于 Apodex-1.0-mini 35B 的实验预测框架。该模型在6月第一周排名包揽第1至第4名,并在第二周持续霸榜第1名。这一成绩展示了 Apodex-1.0-mini 35B 在预测任务上的竞争力。AI模型ApodexApodex-1.0-miniFutureX推理模型基准推荐理由:Apodex 用 35B 参数模型做的预测框架,在 FutureX 排行榜上直接包揽前四名,太猛了。原文
13:05@atomic_chat_hq@atomic_chat_hq精选Kimi K2.7 Code在三个物理模拟任务上与GPT-5.5进行对比,使用相同的提示词。弹簧摆和1kg块碰撞100000kg块的任务两者表现持平。但在22球自旋六边形任务中,Kimi生成的球随滚筒旋转,而GPT-5.5的球呈现混沌运动,Kimi表现更优。Kimi推理成本为0.28美元(52.4k tokens),GPT-5.5为0.93美元(23.4k tokens),成本降低约70%。AI模型KimiK2.7 CodeGPT-5.5推理模型编程助手推荐理由:Kimi新出的K2.7 Code模型,花不到三毛钱就能和GPT-5.5打平手,物理模拟甚至更聪明,性价比直接秒杀。原文
13:03@atomic_chat_hq@atomic_chat_hq精选Diffusion Gemma 在单个H100(FP8)上速度达763 tok/s,比Gemma 4的218 tok/s快约4倍。但事实准确性测试中,Diffusion Gemma 33个事实正确、28个错误,而Gemma 4为45正确、5错误。话题越冷门错误越多:乔布斯传4错、俄罗斯方块12错、BeOS故事12错。Diffusion Gemma胡编了乔布斯的母亲名字和游戏同事名称,并将BeBox价格虚构为$9,999(实际$1,600)。AI模型Diffusion GemmaGemma 4Google推理模型事实准确性4 个信源在谈推荐理由:想用更快的推理速度就得接受更多幻觉,Google官方也为此打预防针了。原文
13:01@atomic_chat_hq@atomic_chat_hqNemotron 3 Ultra 在三个物理模拟任务中与 GPT 5.5 表现相当,但成本仅为后者的十分之一。测试用例包括旋转桶中水体、高尔顿板钉球和极端质量碰撞。Nemotron 3 Ultra 输出 11.3k tokens 花费 $0.051,而 GPT 5.5 输出 11.0k tokens 花费 $0.57。质量差距远小于价格差距。AI模型Nemotron 3 UltraGPT 5.5推理模型成本对比推荐理由:想用 GPT-5.5 级别能力但嫌贵?Nemotron 3 Ultra 几乎一样好,价格只有十分之一,值得试试。原文
13:00@atomic_chat_hq@atomic_chat_hq精选Google Gemma 4 12B模型在RTX 4090上实测仅需9GB VRAM,生成8.9k tokens,速度80 tok/s,性能接近26B版本。其对比的Gemma 4 26B-A4B使用15GB VRAM,生成6.9k tokens,速度138 tok/s,所有场景胜出。但12B在近半VRAM下表现十分接近,成为16GB笔记本的理想选择。AI模型Gemma 412B26B-A4BGoogle推理模型4 个信源在谈推荐理由:新Gemma 4 12B别看参数小,实测代码能力接近26B版,而且只需要9GB显存,16GB笔记本就能跑。原文
05:25OpenAI@OpenAIOpenAI推出LifeSciBench新基准,用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流,测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。AI模型LifeSciBenchGPT-RosalindGPT-5.5OpenAI推理模型10 个信源在谈推荐理由:OpenAI搞了个新基准LifeSciBench,专门测生物科学推理,GPT-Rosalind比GPT-5.5还强,值得看看。原文
05:17Greg Brockman@gdb精选OpenAI的GPT-5.4与Molecule.one的Maria AI合作,推动了一个药物化学项目从文献综述到实验验证的完整流程。模型提出了一种意想不到的方法,改进药物发现中广泛使用的反应。该结果在专用实验室中得到验证。相关推文获得180个点赞和超过2.3万次查看。AI模型GPT-5.4OpenAIMolecule.one推理模型药物研发10 个信源在谈推荐理由:OpenAI的GPT-5.4这次不是聊天,而是真帮化学家改进了药物反应,和Molecule.one的AI配合,从文献到实验跑通了原文
03:58Sebastian Raschka@rasbt精选VibeCoder采用Qwen2.5-Coder-3B作为基座,通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT(先广训再难长推理样本)、MGPO(MaxEnt-Guided Policy Optimization)强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL,并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。论文VibeCoderQwen2.5-Coder-3B推理模型强化学习微调推荐理由:Sebastian Raschka分析了VibeCoder的后训练秘诀,基于3B模型就取得惊人成绩,训练顺序和RL方法值得参考。原文
03:33lmarena.ai@lmarena_ai精选Kimi K2.7 Code 在 Agent Arena 排行榜上总体排名第19,在开源模型中排第6。该模型在 Kimi Code Bench v2 上比 K2.6 提升21.8%,在 Program Bench 上提升11.0%,在 MLS Bench Lite 上提升31.5%。推理 token 使用量降低30%,减少了过度思考。长程编码任务指令遵循和完成率均有提升。目前通过 Kimi API 和 Kimi Code 可用。AI模型Kimi-K2.7-CodeKimi_Moonshot开源模型编程助手推理模型6 个信源在谈推荐理由:Kimi 发了新编程模型 K2.7 Code,推理更省 token,基准提升明显,而且在 Agent Arena 上开源模型里排第6,值得一试。原文
03:06xAI@xai精选xAI的Grok 4.3模型正式在Amazon Bedrock上可用,AWS开发者可通过Bedrock的安全推理引擎调用。Grok 4.3在幻觉率和工具调用两项基准上表现领先,能支持更可靠的生成与外部功能集成。该模型目前向所有AWS区域开放,按token计费。AI模型GrokxAIAmazon Bedrock推理模型1 个信源在谈推荐理由:xAI把Grok 4.3放到了AWS上,你用Bedrock就能直接调,幻觉率低、工具调用强,适合做可靠应用。原文
00:40orange.ai@oran_ge用户实测显示,智谱的 glm 5.2 模型在 COLA 基准上表现优于 deepseek 和 mimo,在智商和情商方面都有提升。该模型被评价为国产模型的新高度,但当前版本存在稳定性差和响应缓慢的问题。测试结果基于真实用户反馈,尚未有官方基准数据佐证。AI模型glm 5.2deepseekmimo推理模型国产模型推荐理由:如果你在找国产模型,glm 5.2 在 COLA 上比 deepseek 和 mimo 强,但别着急用,现在慢还不稳定。原文
23:06LMSYS Org (SGLang)@lmsysorg精选Zai_org 发布了新旗舰模型 GLM-5.2,支持 1M token 长上下文。在 Terminal-Bench 2.1 上,GLM-5.2 得分 81.0,相比 GLM-5.1 的 62.0 提升明显。IndexShare 机制在 1M 上下文下将每 token 的 FLOPs 降低了 2.9 倍,改进的 MTP 将投机解码接受率提升了 20%。该模型在 SGLang 中已获得即日支持。AI模型GLM-5.2Zai_orgSGLang长上下文推理模型推荐理由:Zai_org 的 GLM-5.2 来了,1M 长上下文拿下了 81.0 的 Terminal-Bench 分数,比上一代高出一截,而且推理效率也优化了,值得上手试试。原文
12:40orange.ai@oran_geGLM-5.2 由 Z.ai 发布,在编码和智能体任务上取得显著进步,首次让开源模型在 Coding 能力上达到 Opus 水平。模型支持 1M 上下文窗口,提供两种推理努力级别(max 和 high),权重采用 MIT 开源许可,API 定价与 GLM-5.1 相同。AI模型GLM-5.2Z.ai开源模型编码能力推理模型推荐理由:Z.ai 开源了 GLM-5.2,编码水平追上 Opus,还给了 1M 上下文和两种推理模式,MIT 许可随便用。原文
11:55歸藏(guizang.ai)@op741874°智谱 AI 正式发布并开源 GLM-5.2 模型。该模型支持 100 万 token 稳定上下文,并引入思考力度控制能力。架构上采用 IndexShare 机制,每四层稀疏注意力共享 indexer,在百万 token 下将每 token 计算量降低约 2.9 倍。基准测试成绩表现出色,定位处理长周期任务。AI模型GLM-5.2智谱开源模型长上下文推理模型推荐理由:智谱 GLM-5.2 开源了,百万上下文还能省 2.9 倍算力,做长任务的朋友可以上手试试。原文
11:10歸藏(guizang.ai)@op7418智谱发布并开源了 GLM-5.2 模型,核心定位是处理长周期任务,提供稳定的 100 万 token 上下文。模型引入 IndexShare 机制,每四层稀疏注意力共享 indexer,在百万 token 下每 token 计算量降低约 2.9 倍。GLM-5.2 提供两种思考力度模式:GLM-5.2 (max) 追求极致性能,GLM-5.2 (high) 平衡性能与 token 效率。该模型采用 MIT 开源许可,API 定价与 GLM-5.1 相同。在多项基准测试中,GLM-5.2 在编程和智能体任务上表现显著提升。AI模型GLM-5.2智谱MIT开源百万上下文推理模型推荐理由:智谱的 GLM-5.2 百万上下文还能降低计算量 2.9 倍,开源且支持思考力度调节,搞长任务和 agent 的赶紧试试。原文
10:00Fireworks AI@FireworksAI_HQ精选Fireworks AI 宣布支持 GLM 5.2 模型,直接运行模型权重而非通过路由转发到其他平台。他们承诺零数据保留、生产级延迟,并开放 1M 上下文窗口。该服务面向长时编码代理,强调稳定性而非基准排名。AI产品GLM 5.2Fireworks AI推理模型上下文窗口编码代理推荐理由:Fireworks 直接跑 GLM 5.2 权重,1M 上下文还不存你的数据,做编码代理很稳。原文
09:34Fireworks AI@FireworksAI_HQ精选71°GLM 5.2 已在 Fireworks 平台零日上线。该模型拥有 1M token 上下文窗口,定位为编码优先的前沿模型。其性能在 SWE-bench、Terminal-Bench、GPQA 和 AIME 等基准上得到独立验证。Fireworks 在智谱开源模型权重后立即在其基础设施上提供服务。AI模型GLM 5.2Fireworks智谱推理模型编程助手1 个信源在谈推荐理由:Fireworks 第一时间上线了 GLM 5.2,百万 token 上下文很能打,编程基准表现不错,做开发的可以试试。原文
03:05vLLM@vllm_project精选vLLM 发布 0.23.0 版本,为 Zai.org 的 GLM-5.2 模型提供 Day-0 支持。GLM-5.2 拥有 1M token 上下文窗口,专为长周期编码智能体设计,可承载从需求到部署的完整开发流程。该模型针对大规模代码实现、自动化研究和性能优化进行了调优,支持客户端和移动端内调试。用户即日起可通过 vLLM 运行该模型。AI模型vLLMGLM-5.21M token编程助手推理模型推荐理由:vLLM 刚发的 0.23.0 直接支持了 GLM-5.2,这个模型有 100 万 token 上下文,适合一口气写完整个项目代码,还能跨平台部署,写代码的可以试试。原文
02:17kimmonismus@kimmonismus77°GLM-5.2 以 MIT 许可证开源,权重开放。该模型支持 1M token 上下文窗口。提供 max 和 high 两种推理模式。专门针对大规模部署、自动化研究、性能优化和复杂调试进行训练。API 定价与 GLM-5.1 保持一致。AI模型GLM-5.2智谱开源模型长上下文推理模型推荐理由:智谱开源了 GLM-5.2,1M 上下文还能选推理模式,做长代码任务更强了。原文
19:02kimmonismus@kimmonismusVibeThinker-3B是仅3B参数的小模型,在AIME26上取得94.3分,在LiveCodeBench v6上Pass@1达80.2,在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder,结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明,部分可验证推理能力可被高效压缩到小密集模型中。AI模型VibeThinker-3BQwen2.5-Coder推理模型小模型代码生成推荐理由:3B的小模型在数学和代码推理上快追上大模型了,适合部署在低算力场景,值得关注。原文
14:08AlphaSignal@AlphaSignalAI研究人员在论文《Training-Free Looped Transformers via Numerical ODE Integration》中提出一种无需重新训练即可提升冻结大模型性能的方法。该方法将每一层视为解常微分方程的一步,用多个小阻尼步骤替换原始大步骤,使模型获得更多推理时间。在MMLU-Pro上取得+2.64分提升,在GPQA上取得+2.01分提升,并在87%的测试组合中保持正向效果。AI模型Looped TransformersMMLU-ProGPQA推理模型无训练优化1 个信源在谈推荐理由:这篇论文教会你一种骚操作:不重新训练,就能让现成模型在推理时多思考几轮,MMLU-Pro和GPQA分数都涨了,值得看看。原文