全部 AI 动态 · AI 热点

6月17日

12:40

orange.ai@oran_ge

GLM-5.2 由 Z.ai 发布，在编码和智能体任务上取得显著进步，首次让开源模型在 Coding 能力上达到 Opus 水平。模型支持 1M 上下文窗口，提供两种推理努力级别（max 和 high），权重采用 MIT 开源许可，API 定价与 GLM-5.1 相同。

AI模型 GLM-5.2 Z.ai 开源模型编码能力推理模型

推荐理由：Z.ai 开源了 GLM-5.2，编码水平追上 Opus，还给了 1M 上下文和两种推理模式，MIT 许可随便用。

原文

11:55

歸藏(guizang.ai)@op7418

74°

智谱 AI 正式发布并开源 GLM-5.2 模型。该模型支持 100 万 token 稳定上下文，并引入思考力度控制能力。架构上采用 IndexShare 机制，每四层稀疏注意力共享 indexer，在百万 token 下将每 token 计算量降低约 2.9 倍。基准测试成绩表现出色，定位处理长周期任务。

AI模型 GLM-5.2 智谱开源模型长上下文推理模型

推荐理由：智谱 GLM-5.2 开源了，百万上下文还能省 2.9 倍算力，做长任务的朋友可以上手试试。

原文

11:10

歸藏(guizang.ai)@op7418

智谱发布并开源了 GLM-5.2 模型，核心定位是处理长周期任务，提供稳定的 100 万 token 上下文。模型引入 IndexShare 机制，每四层稀疏注意力共享 indexer，在百万 token 下每 token 计算量降低约 2.9 倍。GLM-5.2 提供两种思考力度模式：GLM-5.2 (max) 追求极致性能，GLM-5.2 (high) 平衡性能与 token 效率。该模型采用 MIT 开源许可，API 定价与 GLM-5.1 相同。在多项基准测试中，GLM-5.2 在编程和智能体任务上表现显著提升。

AI模型 GLM-5.2 智谱 MIT开源百万上下文推理模型

推荐理由：智谱的 GLM-5.2 百万上下文还能降低计算量 2.9 倍，开源且支持思考力度调节，搞长任务和 agent 的赶紧试试。

原文

10:45

arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto

循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加，信号传播问题加剧，影响模型性能。本文提出FPRM，一种基于Transformer的固定点推理模型，采用预归一化层和残差缩放解决信号传播，并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。

论文 FPRM Transformer 固定点推理推理模型架构优化

推荐理由：这篇论文提出了FPRM，用固定点收敛让循环推理深度自适应任务难度，在Sudoku和ARC-AGI上效果不错，适合关注推理架构的人。

原文

10:00

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 宣布支持 GLM 5.2 模型，直接运行模型权重而非通过路由转发到其他平台。他们承诺零数据保留、生产级延迟，并开放 1M 上下文窗口。该服务面向长时编码代理，强调稳定性而非基准排名。

AI产品 GLM 5.2 Fireworks AI 推理模型上下文窗口编码代理

推荐理由：Fireworks 直接跑 GLM 5.2 权重，1M 上下文还不存你的数据，做编码代理很稳。

原文

09:37

arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis

新基准DiagFlowBench包含50张工业诊断流程图，转化为1676轮多轮对话，对比合规与偏离流程的输入。评估10个商业和开源模型发现，模型在识别超范围输入时表现差异大，常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。

论文 DiagFlowBench 诊断对话推理模型 AI安全多轮对话

推荐理由：DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里，能不能识别用户问跑题的问题。10个模型测下来，差得挺大，而且那种看似合理但不对的答案最危险。论文值得一看。

原文

09:34

Fireworks AI@FireworksAI_HQ

精选71°

GLM 5.2 已在 Fireworks 平台零日上线。该模型拥有 1M token 上下文窗口，定位为编码优先的前沿模型。其性能在 SWE-bench、Terminal-Bench、GPQA 和 AIME 等基准上得到独立验证。Fireworks 在智谱开源模型权重后立即在其基础设施上提供服务。

AI模型 GLM 5.2 Fireworks 智谱推理模型编程助手

推荐理由：Fireworks 第一时间上线了 GLM 5.2，百万 token 上下文很能打，编程基准表现不错，做开发的可以试试。

原文

09:31

arXiv: DeepSeek@Esteban Schafir, Xu Zheng, Hojat Allah Salehi, Zhuomin Chen, Mo Sha, Wei Cheng, Dongsheng Luo

精选

DecoSearch是一个无需训练的Text-to-SQL框架，通过轻量级Schema Selector修剪数据库模式，LLM Judger判断查询是否需要分解为DAG子问题。在BIRD上达到70.53%执行准确率，在Spider上达88.31%，使用DeepSeek作为骨干模型，比训练无关基线消耗少一个数量级的token。该方法还可作为模型无关包装器，一致提升微调后的SQL生成骨干性能。

AI模型 DecoSearch DeepSeek Text-to-SQL 推理模型 RAG

推荐理由：DecoSearch不用训练就能把自然语言转SQL，在BIRD和Spider上准确率分别超70%和88%，比同类方法省十倍token。想提升SQL生成效率可以看看。

原文

09:31

arXiv: DeepSeek@Siyue Chen, Yifu Guo, Yuquan Lu, Zishan Xu, Jiaye Lin, Jianbo Lin, Siyu Zhang, Cheng Yang, Junxin Li, Yujia Li, Yu Huo, Ruixuan Wang

该论文提出了LLM代码推理的内部生命周期概念：模型先在早期层中酝酿答案，使其线性可解，然后在后期层分化为四种解析结果——已解析、过度处理、错误解析、未解析。研究对Qwen、Llama、DeepSeek三个架构的16个模型进行了6类代码推理任务的层析探针和上下文剥离解码（CSD）实验。结果显示已解析平均仅41.5%，且函数调用任务中，调用深度从1层增至3层时已解析率从61.1%骤降至2.5%。所有模型的酝酿持续时长稳定在24%-42%，但解析成功率随模型能力和规模变化。

论文代码推理 Qwen Llama DeepSeek 推理模型

推荐理由：这篇论文用层析探针找到了LLM做代码推理时“酝酿”到“解析”的秘密，发现即便准确率相近，内部失败模式也截然不同，值得想理解推理本质的人读。

原文

03:05

vLLM@vllm_project

精选

vLLM 发布 0.23.0 版本，为 Zai.org 的 GLM-5.2 模型提供 Day-0 支持。GLM-5.2 拥有 1M token 上下文窗口，专为长周期编码智能体设计，可承载从需求到部署的完整开发流程。该模型针对大规模代码实现、自动化研究和性能优化进行了调优，支持客户端和移动端内调试。用户即日起可通过 vLLM 运行该模型。

AI模型 vLLM GLM-5.2 1M token 编程助手推理模型

推荐理由：vLLM 刚发的 0.23.0 直接支持了 GLM-5.2，这个模型有 100 万 token 上下文，适合一口气写完整个项目代码，还能跨平台部署，写代码的可以试试。

原文

02:17

kimmonismus@kimmonismus

77°

GLM-5.2 以 MIT 许可证开源，权重开放。该模型支持 1M token 上下文窗口。提供 max 和 high 两种推理模式。专门针对大规模部署、自动化研究、性能优化和复杂调试进行训练。API 定价与 GLM-5.1 保持一致。

AI模型 GLM-5.2 智谱开源模型长上下文推理模型

推荐理由：智谱开源了 GLM-5.2，1M 上下文还能选推理模式，做长代码任务更强了。

原文

6月16日

19:02

kimmonismus@kimmonismus

VibeThinker-3B是仅3B参数的小模型，在AIME26上取得94.3分，在LiveCodeBench v6上Pass@1达80.2，在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder，结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明，部分可验证推理能力可被高效压缩到小密集模型中。

AI模型 VibeThinker-3B Qwen2.5-Coder 推理模型小模型代码生成

推荐理由：3B的小模型在数学和代码推理上快追上大模型了，适合部署在低算力场景，值得关注。

原文

15:49

15:49IT之家（博客/媒体）

精选

OpenRouter于6月14日发布Fusion API复合AI模型，通过并行调用多个模型并汇总结果实现协同回答。基准测试中，Claude Opus 4.8+GPT-5.5+Gemini 3.1 Pro组合得分68.3%，超过Claude Fable 5的65.3%。而Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro组合以约一半成本实现64.7%的得分，差距不到1%。该服务分为并行请求、审查模型分析、调用模型生成最终答复三个步骤。

AI模型 OpenRouter Fusion Claude Fable 5 多模型协同推理模型

推荐理由：OpenRouter用多个便宜模型拼出顶级效果，成本砍半但性能追上Claude Fable 5，预算有限又想用好模型可以试试。

原文

14:08

AlphaSignal@AlphaSignalAI

研究人员在论文《Training-Free Looped Transformers via Numerical ODE Integration》中提出一种无需重新训练即可提升冻结大模型性能的方法。该方法将每一层视为解常微分方程的一步，用多个小阻尼步骤替换原始大步骤，使模型获得更多推理时间。在MMLU-Pro上取得+2.64分提升，在GPQA上取得+2.01分提升，并在87%的测试组合中保持正向效果。

AI模型 Looped Transformers MMLU-Pro GPQA 推理模型无训练优化

推荐理由：这篇论文教会你一种骚操作：不重新训练，就能让现成模型在推理时多思考几轮，MMLU-Pro和GPQA分数都涨了，值得看看。

原文

12:20

arXiv cs.LG@Violet Xiang, Amrith Setlur, Chase Blagden, Nick Haber, Aviral Kumar

ExpRL提出一种自动化方法，通过基于强化学习的中间训练来提升LLM推理能力。该方法不直接模仿参考解决方案，而是将其作为奖励支架，利用LLM裁判对比策略生成的推理轨迹与参考解，给出稠密奖励。在具有挑战性的数学推理任务上，ExpRL相比SFT、稀疏奖励GRPO和自蒸馏方法，能提供更强的RL初始化和更好的最终性能。此外，混合领域实验表明ExpRL可扩展至数学以外的场景。

论文 ExpRL LLM 强化学习推理模型数学推理

推荐理由：这篇论文用参考答案做奖励支架，让模型自己探索推理路径，数学推理效果超过了SFT和GRPO，想提升推理能力的可以看看。

原文

11:57

arXiv: DeepSeek@Tai Tran Tan, An Dinh Thien

该论文描述了SemEval-2026 Task 6的系统，针对美国总统采访中的政治回避策略分类。比较了两种范式：使用QLoRA对Qwen3（4B-32B）进行参数高效微调，以及使用结构化CoT提示推理模型DeepSeek-V3.2和Grok-4-Fast。Grok-4-Fast在子任务2（9类回避）上取得Macro F1 0.5147，子任务1（3类清晰度）上0.7979，分别排名第8和第13。消融实验表明层次化标签和少样本示例提升了效果，但最强提示变体间Macro F1无显著差异。

论文 Grok-4-Fast DeepSeek-V3.2 Qwen3 推理模型政治回避检测

推荐理由：想知道怎么用CoT提示检测政治回避？这篇论文拿Grok-4-Fast跑出了0.51的F1，比微调Qwen3强，还分析了怎么设计提示最有效。

原文

11:55

arXiv: DeepSeek@Zaifu Zhan, Shuang Zhou, Rui Zhang

提出一种多智能体互审推理方法，让多个LLM独立生成链式推理与候选答案，再互相评审事实正确性与逻辑合理性，选择最高分推理链输出最终答案。在Llama-3.1-8B、Qwen2.5-7B、Phi-4、DeepSeek-LLM-7B、GPT-oss-20B五个模型上对HeadQA、MedQA-USMLE、PubMedQA三个基准测试，平均准确率达0.820，超过单模型最佳0.777和多数投票集成最高0.789。评审可靠性高，能有效区分优质与低质推理链。

论文 Llama-3.1-8B Qwen2.5-7B Phi-4 DeepSeek-LLM-7B 多智能体推理模型

推荐理由：这篇论文让多个AI模型互相评审对方的思考过程，医学问答准确率比单模型高5个百分点，比投票集成也高3个百分点，有意思。

原文

10:47

arXiv: DeepSeek@Haolong Qian, Xianliang Yang, Yinuo ma, Lirong Che, Feng Lu, Ye Guo, Lei Song, Jiang Bian, Chun Yuan

论文在Qwen2.5、LLaMA-3和DeepSeek三个系列上发现：用小模型自身生成并通过拒绝采样选取的轨迹，比用更强Oracle模型精炼的高奖励数据，能更有效提升数学推理。Oracle精炼虽修复逻辑，但引入分布偏移，增加小模型适应成本，抵消了逻辑改进的收益。作者提出风格对齐精炼（Style-Aligned Refinement），保留小模型原生轨迹风格同时融入Oracle逻辑修复，降低适应成本并恢复下游效用。该发现挑战了数学推理蒸馏中依赖奖励模型分数选择数据的常规做法。

论文 Qwen2.5 LLaMA-3 DeepSeek 知识蒸馏推理模型

推荐理由：这篇论文揭穿了一个直觉错误：你以为给小白模型喂“学霸笔记”能变强，结果效果还不如它自己瞎写的解题草稿。原因是学霸的思路和它不匹配，硬学反而费劲。

原文

10:46

arXiv: DeepSeek@Sen Xu, Shixi Liu, Wei Wang, Jixin Min, Yingwei Dai, Zhibin Yin, Yirong Chen, Xin Zhou, Junlin Zhang

VibeThinker-3B是一个3B参数的小型稠密模型，基于Spectrum-to-Signal后训练范式，通过课程监督微调、多域强化学习和离线自蒸馏提升。在AIME26上达到94.3分（测试时扩展至97.1），LiveCodeBench v6上Pass@1为80.2，最新LeetCode竞赛接受率96.1%。其性能与DeepSeek V3.2、GLM-5和Gemini 3 Pro等旗舰大模型相当或超越。IFEval得分为93.4，表明强推理未损害指令遵循能力。该工作提出了参数压缩-覆盖假说：可验证推理可压缩为紧凑推理核心，而开放域知识需宽参数覆盖。

AI模型 VibeThinker-3B 推理模型可验证推理小语言模型基准成绩

推荐理由：想看看3B小模型怎么打平千亿级大模型？VibeThinker-3B用AIME 94.3分、LiveCodeBench 80.2%的成绩告诉你，小模型也能杀进顶级推理梯队。

原文

10:45

arXiv cs.AI@Yizhen Yao, Qinglin Zhu, Runcong Zhao, Xiangxiang Dai, Yanzheng Xiang, Yulan He, Lin Gui

扩散大语言模型(dLLMs)在并行生成中面临解码速度与质量权衡。现有可撤销解码策略存在错误传播和局部错误强化问题。研究提出ASRD框架，通过时间一致性识别锚点令牌并动态缓存，引入锚点引导生成和锚点扰动验证两种机制。在数学和编码基准上，ASRD相比最新基线实现准确率提升最高6.4%，推理吞吐量提升最高7.2倍。

论文 ASRD 扩散LLM Anchor Tokens 可撤销解码推理模型

推荐理由：这篇论文帮你用更少计算让扩散LLM更准更快，数学编程题准确率升6.4%，速度翻7倍，值得看一下。

原文

09:45

arXiv cs.AI@Yaoting Huang, Yifu Yuan, Linqi Han, Chengwen Li, Shuoheng Zhang, Xianze Yao, Hongyao Tang, Yan Zheng, Jianye Hao

RoboPIN提出PinCoT（固定思维链）方法，将每个推理步骤绑定到视觉锚点，每个锚点包含实体名称、唯一标识、视图索引和空间定位。基于4B参数的小模型，在14个基准测试（涵盖空间推理、多视图推理和指向任务）中，平均超越7B开源模型Mimo-Embodied达12%。该方法通过三阶段后训练注入具身知识和过程监督，显著提升定位精度和跨步骤实体一致性。

论文 RoboPIN PinCoT 具身推理推理模型多模态

推荐理由：这篇论文用4B小模型在具身推理上打败了7B的Mimo-Embodied，平均提高12%，靠的是把每一步推理都牢牢钉在视觉证据上，挺有意思。

原文

09:42

arXiv: DeepSeek@Jiakai Li, Ke Qin, Rongzheng Wang, Yizhuo Ma, Qizhi Chen, Muquan Li, Shuang Liang

大推理模型（LRM）常因过度思考生成冗余token，降低准确率。ASAG方法通过分析注意力分布推断推理状态，自适应调整生成策略。该方法无需训练，可即插即用，在DeepSeek-R1-Distill和Qwen3系列等主流模型上测试。在Qwen3-8B上，ASAG平均准确率提升3.2%，生成token减少约40%。

论文 ASAG DeepSeek-R1 Qwen3 推理模型注意力机制

推荐理由：想减少推理模型输出废话？ASAG免费即插即用，在Qwen3-8B上准确率升3.2%还省近40%token，实打实的效果。

原文

6月15日

20:12

小互@imxiaohu

Perceptron AI 发布了 Agentic Detection 模型，用户只需提供一张图片并用自然语言描述目标，模型就能在图中精确框出并标注每个目标。该模型无需预先训练，可直接处理从未见过的检测任务。它还能执行物理推理，例如从森林火灾画面中定位“烟的来源”，识别“需要维修的电线杆”或标记“空着的停车位”。这些能力使其在零样本目标检测领域展现了显著进步。

AI模型 Perceptron AI Agentic Detection 视觉检测多模态推理模型

推荐理由：Perceptron AI 发了新视觉检测模型，不用提前训练，直接说找什么它就圈出来，还能推理物理关系，挺实用。

原文

18:12

AI Will@FinanceYF5

该模型在低effort设置下仍展现极强性能，是新训练轮次的第一个版本。它已被认为是当前最强的模型，但调低effort后不会大材小用。这一结论来自一个推文作者的观察，强调了低档位的强大。

AI模型 effort 推理模型训练轮次最强模型

推荐理由：试试把effort调到最低，这个新版本直接成了最强模型，效果惊人。

原文

17:56

阿里云 Alibaba Cloud@alibaba_cloud

阿里巴巴旗下开源模型 Qwen 现已登陆欧洲 AI 网关 Eden AI，该平台已服务超过 200,000 名开发者。企业可通过 Eden AI 的统一 API 调用 Qwen 的推理、编程等模型，构建多模型工作流并避免供应商锁定。为庆祝上线，所有 Qwen 模型享 35% 折扣。Eden AI CEO 与 CPTO 将在下周二 VivaTech 会场与开发者见面。

AI产品 Qwen Eden AI Alibaba Cloud API 推理模型

推荐理由：Qwen 现在在 Eden AI 上能用了，20 万开发者都在用的平台，通过统一 API 就能调用推理和编码模型，还打 35 折，挺划算的。

原文

14:13

marktechpost@Michal Sutter

79°

Z.ai 于 2026 年 6 月 13 日发布 GLM-5.2，覆盖所有 GLM Coding Plan 层级。该模型支持 100 万 token 的可用上下文窗口，并提供 High 和 Max 两种思考努力级别。GLM-5.2 通过 Anthropic 兼容端点集成到 Claude Code、Cline 和 OpenClaw 等工具中。发布时未公布基准测试结果，MIT 开源权重预计下周发布。

AI模型 Z.ai GLM-5.2 长上下文推理模型开源模型

推荐理由：Z.ai 的 GLM-5.2 支持百万token上下文，还能选思考深度

原文

11:10

arXiv cs.AI@Shikun Liu, Mufei Li, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan Li

Parallel-Synthesis框架使合成器直接消费并行工作线程的KV缓存，避免文本拼接冗余。它通过缓存映射器校准独立分支缓存，并微调合成适配器以支持非顺序缓存接口。在9个数据集（数学、科学问答、代码生成、GAIA、多智能体数据库诊断）上，7个超越或持平文本合成基线，首token延迟降低2.5-11倍。该工作为并行智能体分支的高效合成提供了新接口。

论文 Parallel-Synthesis LLM Agent 智能体推理模型

推荐理由：并行合成提速2.5-11倍

原文

10:22

Gary Marcus@GaryMarcus

精选

一篇arXiv论文（2601.22436）发现，当前LLM智能体系统存储过去任务时包含原始步骤历史或总结规则。研究者通过将正确提示替换为随机垃圾文本来测试记忆使用情况：当步骤历史被破坏时，AI表现显著下降；但当总结规则被破坏时，AI性能无变化。这表明AI并未真正应用抽象规则，而是依赖复制精确历史动作。

论文 LLM智能体推理模型记忆机制抽象推理

推荐理由：论文实锤AI只会照搬历史

原文

6月14日

16:21

宝玉@dotey

Phoenix Yin指出，过去在GPT-3.5提示词中让其冒充GPT-4只能获得性能提升的错觉。Fable 5的真正实力来自Mythos-class底层权重、海量新训练数据和复杂agent架构，而非简单提示词复制。泄露prompt与老模型最多cosplay出味道像的lite版，性能差距巨大。Fable 5在长时程复杂分析、工具链、自验证等硬核任务上直接甩老模型几条街。

AI模型 GPT-3.5 GPT-4 Fable 5 提示词工程推理模型

推荐理由：别信提示词能偷实力，Fable 5靠的是真功夫

原文

02:01

lmarena.ai@lmarena_ai

精选

AI模型 Kimi-K2.7-Code Kimi 开源模型编程助手推理模型

推荐理由：Kimi 开源新编程模型，性能全面超越前代

原文

6月13日

22:51

量子位@鹭羽

HuggingFace CEO和Bengio团队推荐的HRM模型，参数量仅1B，训练成本仅1500美元。该模型在多个基准测试中表现优于同规模模型，如MMLU上达到45.2%，HellaSwag上达到72.1%。其核心创新在于高效训练方法，大幅降低了资源需求。

AI模型 HRM HuggingFace Bengio 开源模型推理模型

推荐理由：1B模型，1500美元，性能超预期

原文

18:21

Decoder@Matthias Bastian

73°

Anthropic 的 Claude Fable 5 在 FrontierMath 最难层级上达到 88% 准确率，较 Opus 4.5 在 2026 年初低于 10% 的成绩大幅提升。OpenAI 的 GPT-5.5 在同一层级上达到约 75%。两者差距为 13 个百分点，显示 AI 数学能力加速提升。

AI模型 Claude Fable 5 GPT-5.5 FrontierMath Anthropic 推理模型

推荐理由：Anthropic 新模型数学碾压 GPT-5.5

原文

17:47

berryxia@berryxia

GLM-5.2 模型更新已发布，目前仅面向 codingPlan 用户开放。API 调用预计下周才支持。该更新是 GLM 系列模型的新版本，具体改进细节尚未公布。

AI模型 GLM-5.2 codingPlan 智谱AI 推理模型

推荐理由：GLM 新版本来了

原文

16:53

Fireworks AI@FireworksAI_HQ

精选

Moonshot 推出 K2.7 Code，这是其 K2 系列的最新编程模型，已在 Fireworks 的 serverless 和 API 上上线。相比 K2.6，K2.7 Code 的推理 token 减少约 30%，同时在 Moonshot 的编程基准测试中得分更高。对于智能体编程任务，这一效率提升显著。

AI模型 K2.7 Code Moonshot Fireworks 编程助手推理模型

推荐理由：编程模型 token 省 30% 还更强

原文

16:53

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 为 Qwen 模型新增长时智能体循环功能，支持观察、推理、编码、执行和验证的重复流程。Qwen 官方演示运行了 11 小时，生成了超过 10,000 行代码并执行了 1,000 多次调用。Fireworks 提供 reasoning_history 参数以跨轮次保留推理上下文，支持按请求切换思考/非思考模式，以及原生图像和文本输入。默认启用 262k 上下文和提示缓存，缓存输入价格为每百万 token 0.10 美元。

AI产品 Fireworks Qwen 智能体 MCP/工具推理模型

推荐理由：Fireworks 让 Qwen 跑 11 小时智能体循环

原文

16:53

Fireworks AI@FireworksAI_HQ

Fireworks 宣布作为真正的推理提供商部署 Qwen 3.7 Plus，请求在其硬件上端到端执行，使用授权权重，无转发。Qwen 3.7 Plus（思考模式）在 AIME 2025 上匹配 Max 性能，端到端吞吐量比 Qwen 3.6 Plus 高 3.55 倍。

AI模型 Qwen 3.7 Plus Fireworks AIME 2025 推理模型

推荐理由：Fireworks 直营 Qwen 3.7 Plus，吞吐量翻倍

原文

16:38

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 指出，在长代理循环中，推理 token 会在后续轮次中作为上下文被重复使用。K2.7 Code 通过缩短推理 token 长度，在不牺牲质量的前提下减少下游上下文大小，从而提升生成速度并降低重试次数，最终降低每个完成任务的真实成本。

AI模型 K2.7 Code Fireworks AI 推理模型智能体

推荐理由：K2.7 Code 省 token 省成本

原文

13:54

13:54IT之家（博客/媒体）

精选

Google Research 推出 Gemini-SQL2 模型，基于 Gemini 3.1 Pro 打造，专攻 Text-to-SQL 任务。在 BIRD 基准的单模型赛道中，执行准确率达 80.04%，超越此前 Gemini-SQL。BIRD 覆盖 95 个数据库、37 个领域和 12751 组问题，数据量 33.4GB，模拟真实企业环境。该模型可让业务人员用自然语言查询营收、流失等数据，但谷歌尚未公布 API 或接入产品。

AI模型 Gemini-SQL2 Google Research Text-to-SQL BIRD 推理模型

推荐理由：谷歌新模型让自然语言查数据库更准

原文

13:17

Epoch AI@EpochAIResearch

精选73°

Anthropic 的 Claude Fable 5 在 FrontierMath 基准测试 v2 版本中取得高分，Tier 1-3 达到 87%，Tier 4 达到 88%。这延续了 Anthropic 模型在数学能力上快速提升的趋势。

AI模型 Claude Fable 5 Anthropic FrontierMath 推理模型

推荐理由：Anthropic 新模型数学超强

原文

13:11

LMSYS Org (SGLang)@lmsysorg

精选73°

SGLang在NVIDIA GB300 NVL72平台上，针对DeepSeek V4 Pro 1.6T模型（FP4精度，8K/1K上下文）实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo（SGLang）和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试，该性能在整个交互性曲线上保持稳定。

AI模型 SGLang GB300 NVL72 DeepSeek V4 Pro NVIDIA Dynamo 推理模型

推荐理由：SGLang在GB300上跑DeepSeek V4 Pro，每GPU超1.2万token

原文