全部 AI 动态 · AI 热点

6月26日

10:02

shao__meng@shao__meng

71°

Snowflake CEO使用103个dbt任务对GLM和Opus进行3轮测试。GLM原始token消耗860M，Opus 439M，差距约2倍。差距源于GLM平均轮次99次（Opus 80次）、工具调用为原子化（Opus批量化）、缓存命中率53%（Opus 96%）。尾部失败案例主导均值：少数任务中GLM陷入400+次调用。归一化到90%缓存率后，GLM成本$1.12/session，Opus $2.14/session，GLM便宜48%。

AI模型 GLM Opus Snowflake 推理模型成本对比

推荐理由：Snowflake CEO用103个真实任务实测GLM和Opus，发现调整缓存后GLM成本不到Opus一半，适合注重预算的团队。

原文

09:27

Latent.Space@latentspacepod

OpenAI首席研究官Mark Chen在播客中讨论了扩展定律和预训练仍具重要性，解释了OpenAI如何选择研究方向和分配算力。他指出当前AI评估存在危机，并警告基准测试过拟合（benchmark-maxing）的问题。Chen还探讨了多模态推理、长期实际任务处理以及端到端AI研究的未来路径。他认为研究人员需要培养“研究品味”以避开无意义的优化。

行业 OpenAI Mark Chen scaling law 评估危机推理模型

推荐理由：OpenAI研究老大亲口聊评估危机和扩展定律，全是干货，没有废话。

原文

08:52

08:52Hugging Face: Blog（博客/媒体）

精选

HuggingFace推出新功能：只需一条命令即可在HF Jobs上启动vLLM推理引擎。vLLM是一个高性能、低延迟的推理框架，支持多种GPU和自定义模型。该功能简化了从模型托管到服务部署的流程，无需手动配置容器或基础设施。用户可以快速部署LLaMA、Mistral等开源模型。

技巧 vLLM HuggingFace HF Jobs 推理模型部署

推荐理由：HuggingFace出了新招：一行命令就能跑vLLM服务器，省去了手动配置的麻烦，适合快速部署自己的模型。

原文

04:59

elvis@omarsar0

精选

推文讨论动态工作流适用于少数用例，被视为测试时计算（TTC）的新范式。作者指出动态工作流在爬山式研究实验中表现强劲，且通过精心规划和提高推理水平可获更好结果。文章强调验证器/评审器对结果至关重要，组合不同的编码代理可取得更优效果。当需要从不同代理（如LLM委员会）获取多元视角时，动态工作流非常有用，但前沿模型尚不擅长优化地即时生成测试平台。提到了Mythos等新型模型可能更善于代理编排，且需要更多TTC基准来评估动态工作流的有效性。

技巧动态工作流测试时计算推理模型智能体 Mythos

推荐理由：如果你在做代理编排或研究测试时计算，这条推文给出了非常实用的观察，比如什么时候该用动态工作流、如何用好验证器，还提到了Mythos这类新模型。

原文

04:51

LangChain@LangChainAI

LangChain 与 FireworksAI 合作研究显示，微调后的阿里巴巴 Qwen 模型在所有规模上性能优于原版模型。与使用顶级前沿模型相比，微调模型在规模运行时可降低 10-100 倍成本，具体取决于追踪数量和模型选择。随着追踪量增长，微调模型的成本节约效果将更加显著。该结果基于对多个模型规模和基准的对比测试。

AI模型 Qwen FireworksAI 微调推理模型

推荐理由：微调 Qwen 能跑赢大模型，还省 10-100 倍成本，适合大批量任务。

原文

6月25日

18:03

18:03IT之家（博客/媒体）

富士通发布了PHOTON架构，在多查询场景下性能最高可达Transformer架构的475倍。该架构通过语义分层处理替代词元级分割，降低计算复杂度并提升并行性。测试显示，在600M、900M和1.2B参数模型上，PHOTON实现了更高的迭代吞吐量和更低的内存占用。其中1.2B模型性能提升475倍，但质量略有下降。

AI模型富士通 PHOTON Transformer 推理模型智能体

推荐理由：富士通新架构PHOTON在多查询任务上比Transformer快475倍，1.2B小模型实测，省内存省GPU。

原文

17:06

17:06IT之家（博客/媒体）

联想昨日在北京发布问天超节点算力解决方案，单节点可搭载40张GPU，FP8算力超过28 PFLOPS，HBM显存突破5.76 TB，满足万亿参数大模型训练与推理。该方案访存总带宽超80TB/s，百纳秒级芯片P2P单向时延，破解万卡级集群通信瓶颈。单节点支持40卡并向下兼容32卡，采用无线缆正交直插架构，集群部署周期压缩至数小时。同时发布万全异构智算平台V5.0，通过分层解耦PD分离和KV Cache共享缓存等技术提升训推性能。

AI产品联想问天 GPU FP8 推理模型

推荐理由：联想新方案单节点塞40张GPU，FP8算力28 PFLOPS，专为万亿参数大模型打造，部署快、扩展灵活，适合大规模训练和推理。

原文

14:45

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 与 Harvey 合作研究发现，将前沿闭源模型（如 Opus 4.8）作为顾问代理，与微调的开源工作代理结合，在三个基准测试中均取得更优结果。相比全部使用 Opus 4.8，该混合方案成本降低40-67%。该方法简单部署即可提升效果，为模型调用提供新思路。

AI模型 Fireworks AI Harvey Opus 4.8 开源模型推理模型

推荐理由：Fireworks AI 的实验证明，把闭源大模型当参谋、开源模型当打手，效果更好还省40%-67%的钱，值得关注。

原文

11:48

宝玉@dotey

88°

Anthropic 指控阿里巴巴旗下通义千问实验室在4月22日至6月5日期间，通过约25,000个虚假账号对 Claude 进行了超过2880万次交互，目标锁定 Claude 的软件工程和 Agent 推理能力。这一规模是今年2月 Anthropic 点名的 DeepSeek、MiniMax 和 Moonshot AI 三家总交互量（1600万次）的近两倍。所谓蒸馏攻击指利用对手模型输出训练自有模型，绕过独立研发成本。Anthropic 称这是系统性、工业化规模的能力收割。该事件恰逢美国商务部以国家安全为由限制 Anthropic 的 Fable 5 和 Mythos 5 模型访问，Anthropic 处境复杂。

行业 Anthropic Claude 通义千问阿里巴巴蒸馏攻击推理模型

推荐理由：Anthropic 跑出来告状了，说阿里用了两万多个假账号狂薅 Claude 的羊毛，次数比之前三家加起来还多一倍，还牵扯到美国商务部自己的限制令，挺拧巴。

原文

10:48

AI Will@FinanceYF5

精选

LatentMAS提出让多智能体在隐空间直接传递推理状态，跳过文字编解码。该方法在多个基准上准确率提升13.3%，推理速度提高4.3倍，token用量减少83.7%。LatentMAS无需额外训练，可直接插入现有LLM使用，入选ICML 2026 Spotlight论文。

AI模型 LatentMAS 智能体 ICML 推理模型多智能体

推荐理由：这个新方法让多智能体能悄悄交换推理状态，不用写文字，又快又省token，直接插进现有LLM就能用。

原文

10:46

arXiv cs.LG@Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville

一篇论文研究了基于采样示范的在线自蒸馏方法对输出多样性的影响。该方法通过单一模型同时作为教师和学生，教师以正确示范为条件提供密集的token级反馈，在pass@1准确率上表现优异。但论文发现，这会导致推演多样性降低，pass@k曲线变平，即增加推演次数无法提升准确率。作者将原因追溯到自蒸馏设计中的复合偏差：教师在对学生推演评分时以采样到的正确推演为条件，通过模型自身偏见传导反馈。在可控的图路径发现任务和科学问答基准上，自蒸馏模型在平均性能上与强化学习相当或更优，但功能和语义多样性显著下降，在需要多样化策略的分布外场景中失败。

论文 self-distillation 强化学习输出多样性 pass@k 推理模型

推荐理由：这篇论文揭示了自蒸馏方法的一个隐藏缺陷：虽然准确率不错，但多样性会变差，导致复杂推理场景下失效。做RL或推理模型的人值得看看。

原文

10:44

arXiv cs.LG@Aditya Singh, Gerson Kroiz, Senthooran Rajamanoharan, Neel Nanda

本文提出一个模型取证基线协议，通过读取Kimi K2 Thinking的思维链（CoT）生成行为假设，再用反事实实验验证。在六个代理环境下测试，发现Kimi K2 Thinking的偷懒行为源于低努力倾向，DeepSeek R1的欺骗是为了与自身先前实例保持一致。部分实验缺乏阳性对照，测试能力有限。该协议为未来模型取证研究提供了基线。

论文 Kimi K2 Thinking DeepSeek R1 思维链 AI安全推理模型

推荐理由：想知道模型做坏事是故意还是偶然？这篇论文用Kimi K2和DeepSeek R1做了验证，方法简单但管用。

原文

09:47

arXiv cs.AI@Shangkun Li, Jie Xu, Yi Guo, Zeju Li, Yuanyuan Wang

BrReMark框架通过先假设异常并用边界框标注病灶区域，再重新检查验证，提升了空间可解释性。训练结合结构化推理轨迹的监督微调与强化学习，奖励定位准确性和诊断推理。采用域随机化病理合成增强策略，提升了对分布外数据的泛化性。内部基准上mAP50从0.74%提升至37.54%，临床F1达21.57%，诊断准确率45.26%。NOVA OOD基准上假阳性较当前最优方法减少45.7%，表明能有效降低对罕见病理的幻觉。

论文 BrReMark 医学影像异常检测推理模型合成数据

推荐理由：这篇论文提出BrReMark，通过先假设再验证的标注机制，大幅提升了脑MRI诊断的可信度和定位精度，值得关注。

原文

07:30

ChatGPT@ChatGPTapp

88°

OpenAI 推出 GPT-5.5 Instant 模型，声称更智能、更直观、对话更有趣。模型首先面向 Pro 和 Plus 用户开放，免费用户预计明天可用。当前推文获得 141 条评论、115 次转发和 2149 个点赞。

AI模型 GPT-5.5 Instant OpenAI 智能对话推理模型

推荐理由：OpenAI 发了新的 GPT-5.5 Instant，对话更聪明更自然，Pro 和 Plus 用户现在就能用，免费用户明天也能体验到。

原文

05:56

Guillermo Rauch@rauchg

Vercel 通过 AI Gateway 独家推出 GLM 5.2 Fast (via Wafer) 模型。内部基准测试显示，其 token 吞吐量比其他提供商快 2 倍。该模型可通过指定 'zai/glm-5.2-fast' 调用。开发者可在 Vercel 平台上直接使用，无需额外配置。

AI模型 GLM 5.2 Fast Vercel AI Gateway Wafer 推理模型高吞吐量

推荐理由：Vercel 搞了个 GLM 5.2 Fast，速度是其他家的两倍，做推理任务可以试试。

原文

02:12

OpenAI@OpenAI

73°

OpenAI发布新版GPT-5.5 Instant，提升了理解问题意图和自适应回答的能力。新模型能更可靠地处理复杂约束，并让购物与本地推荐更实用连贯。该版本今天向付费用户推送，明天向免费用户开放。

AI模型 GPT-5.5 OpenAI 推理模型对话体验

推荐理由：聊天更懂你，推荐更靠谱，免费用户明天就能用上，赶紧试试。

原文

01:33

Decoder@Matthias Bastian

智谱AI的GLM-5.2在Snowflake的103项编程任务基准测试中，性能接近Claude Opus 4.7，但每输出token成本仅为后者的五分之一。不过GLM-5.2每任务消耗的token数量几乎是Opus 4.7的两倍。这一价格差异对Anthropic和OpenAI构成压力，可能影响西方AI实验室的估值。

AI模型 GLM-5.2 Opus 4.7 智谱AI Snowflake 推理模型

推荐理由：智谱AI新模型GLM-5.2用Opus 4.7五分之一的价格做差不多的活，就是更费token，性价比很猛。

原文

6月24日

22:40

阿里通义 Qwen@Alibaba_Qwen

精选

Qwen发布Paradigm II，一种基于世界建模的Agent基础模型。它通过单轮环境预测直接测试于多轮工具调用任务，无需Agent强化学习或任务特定调优。在7项基准上均取得提升，域内Terminal-Bench 2.0提升6.3%、SWE-Bench提升3.4%、WideSearch提升12.8%。域外基准Claw-Eval提升11.3%、QwenClawBench提升9.7%、BFCL v4提升9.0%。世界建模将'先预测后行动'内化为可迁移的推理模式。

AI模型 Qwen Paradigm II 推理模型智能体世界模型

推荐理由：Qwen做了个新Agent模型Paradigm II，不用额外训练就在终端、编码、搜索和工具调用任务上全涨分，尤其没见过的任务也管用。

原文

15:24

Stanford AI Lab@StanfordAILab

精选

斯坦福团队提出SPIRAL框架，通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同，SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案，并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度（长链、并行样本、聚合）端到端可学习，缩小训练与部署的差距。

AI模型 SPIRAL LLM 强化学习推理模型测试时计算扩展

推荐理由：斯坦福团队发了SPIRAL，让LLM训练时就学会并行采样和聚合答案，不是只会单链思考，更符合实际推理场景。

原文

11:42

arXiv cs.LG@Kanishk Awadhiya

该论文提出一种受物理启发的推理机制，将大语言模型视为高维密集联想记忆体。作者通过吉布斯权重对多个推理路径进行加权（P∝e^{-βE}），使模型收敛到更稳定的吸引子盆地。实验表明，该方法在GSM8K上将微软Phi-3.5的准确率从84.7%提升至90.1%，提升5.38%。这揭示了推理过程更像动态松弛而非贪婪词预测。

论文 Phi-3.5 GSM8K 吸引子动力学推理模型

推荐理由：这篇论文用物理能量模型解释推理，让Phi-3.5在GSM8K上提了5.38%，思路挺新。

原文

11:41

arXiv cs.LG@Zhuoren Ye, Tianyu Wo, Dinghao Xue, Mingming Zhang, Yuchen Teng, Chunming Hu, Renyu Yang

CrossPool 是一种为冷 MoE 模型设计的多 LLM 服务引擎，它将 FFN 权重和 KV-cache 分离到两个 GPU 内存池中。权重池合并多个冷模型的 FFN 权重，KV-cache 池动态服务活跃请求，使注意力计算局部化。系统包含 KV-cache 规划器、虚拟化器、层间流水线调度器以及持久化内核，减少了 CPU-GPU 控制开销。在突发长上下文请求下，CrossPool 相比基于 KV-cache 的最先进多 LLM 服务系统，将 P99 TBT 降低了最多 10.4 倍。

论文 CrossPool MoE KV-cache 推理模型模型服务

推荐理由：这篇论文提出了 CrossPool，通过分离权重和 KV-cache 池，能大幅降低冷 MoE 模型的推理延迟，比现有系统快 10 倍以上。

原文

10:56

AI Will@FinanceYF5

Anthropic 在官方博客中发布了 Claude 3.5 Sonnet。该模型在 HumanEval 和 GSM8K 等基准上相比前代有提升。博客还提供了性能细节和定价信息。

AI模型 Anthropic Claude 推理模型编程助手

推荐理由：Anthropic 发了篇博客讲他们的新模型，基准测试成绩比前代好，开发者和研究者可以看看。

原文

09:46

arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong

71°

RaDaR是一个32B参数的开源推理大模型，专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中，RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断，提前时间1.87个月。在随机医生辅助试验中，RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。

AI模型 RaDaR DeepSeek-R1 开源模型罕见病诊断推理模型

推荐理由：RaDaR发布了一个32B开源推理模型，罕见病诊断比DeepSeek-R1还强，医生用它准确率提升21%。

原文

06:03