全部 AI 动态 · AI 热点

6月23日

14:40

marktechpost@Sana Hassan

精选71°

本文通过GLM-5.2的OpenAI兼容API搭建了完整工作流，包括安全加载API密钥和创建可复用聊天封装。演示了思考努力控制、流式推理、函数调用以及工具使用代理的实现。还展示了结构化JSON输出和长上下文检索功能，并记录了token消耗与成本核算。

技巧 GLM-5.2 推理模型函数调用长上下文

推荐理由：这篇教程手把手教你用GLM-5.2 API实现推理控制、函数调用和检索，代码可直接复用。

原文

6月17日

23:33

marktechpost@Asif Razzaq

精选

MiniMax 发布 Sparse Attention (MSA) 机制，基于 Grouped Query Attention (GQA) 架构。MSA 包含一个轻量级索引分支，为每个查询和 GQA 组选择 Top-k 键值块；主分支仅关注这些块。在 1M 上下文长度下，每个 token 的注意力计算量减少 28.4 倍。该机制训练在 109B 参数的 MoE 模型上，使用 3T token 预算，下游基准测试中与 GQA 性能相当。

AI模型 MiniMax MSA 稀疏注意力长上下文

推荐理由：MiniMax 搞了个新稀疏注意力 MSA，1M 上下文计算量降 28 倍，准度却一点没掉，适合长文本场景。

原文

11:36

量子位@十三

智谱AI于2026年6月开源了GLM-5.2模型，支持1M上下文长度。该模型在AI编程评测基准上取得第一，超过此前领先的Fable-5。基于GLM架构的持续优化，GLM-5.2在代码生成任务中展现出更强能力。开源版本已发布在GitHub。

AI模型 GLM-5.2 智谱编程助手开源模型长上下文

推荐理由：智谱开源了GLM-5.2，1M超长上下文，编程能力直接拿下第一，想换编程模型的话可以试试。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

14:13

marktechpost@Michal Sutter

79°

Z.ai 于 2026 年 6 月 13 日发布 GLM-5.2，覆盖所有 GLM Coding Plan 层级。该模型支持 100 万 token 的可用上下文窗口，并提供 High 和 Max 两种思考努力级别。GLM-5.2 通过 Anthropic 兼容端点集成到 Claude Code、Cline 和 OpenClaw 等工具中。发布时未公布基准测试结果，MIT 开源权重预计下周发布。

AI模型 Z.ai GLM-5.2 长上下文推理模型开源模型

推荐理由：Z.ai 的 GLM-5.2 支持百万token上下文，还能选思考深度

原文

6月14日

16:18

Pandaily@contact@pandaily.com (Pandaily)

72°

智谱AI宣布将GLM-5.2模型以MIT许可证开源，支持100万token上下文长度。此举直接回应美国针对Anthropic模型的出口限制。GLM-5.2在多项基准测试中表现优异，其开源策略旨在推动国内AI生态发展。

AI模型 GLM-5.2 Zhipu AI 开源模型长上下文 MIT许可证

推荐理由：智谱开源百万token模型

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

08:12

08:12Simon Willison’s Weblog（博客/媒体）

88°

Simon Willison 在 Claude Fable 5 发布后第一时间进行了约 5.5 小时的测试。该模型与 Claude Mythos 5 性能相同，但增加了严格的安全护栏，触发时 API 会通知用户并可自动回退到其他模型。Fable 5 拥有 100 万 token 上下文窗口、12.8 万最大输出 token，知识截止于 2026 年 1 月，价格是 Opus 4.8 的两倍。Willison 认为它“感觉很大”，不仅体现在速度和成本上，更在于其知识深度，例如能准确列出他的开源项目。当前挑战已从“模型能做什么”转向“找到它做不了的事”。

AI模型 Claude Fable 5 Claude Mythos 5 安全护栏长上下文推理模型

推荐理由：Claude Fable 5 的“大模型感”让开发者重新思考任务边界——如果你经常用 Claude 处理复杂推理或长上下文任务，这个模型值得一试，但要做好预算准备。

原文

6月5日

05:48

marktechpost@Asif Razzaq

83°

NVIDIA 发布了 Nemotron 3 Ultra，一个 550B 总参数（55B 激活）的开放混合专家模型，采用 Mamba-Transformer 混合架构。该模型支持 100 万 token 的上下文窗口，推理吞吐量比同等精度的开放 LLM 高约 6 倍。NVIDIA 同时开源了模型权重、训练数据和配方，遵循 OpenMDW-1.1 许可。这一发布旨在解决长时运行智能体在推理效率和上下文长度上的瓶颈，为 AI 代理和复杂任务自动化提供了更高效的基础模型。

AI模型 NVIDIA Nemotron 3 Ultra 混合专家模型长上下文智能体

推荐理由：长时智能体开发者终于有了一个兼顾超长上下文和高推理效率的开放模型——Nemotron 3 Ultra 的 6 倍吞吐量提升能显著降低部署成本，做 Agent 或 RAG 系统的团队值得直接试。

原文

6月4日

10:02

pandaily@contact@pandaily.com (Pandaily)

精选76°

中国科学技术大学（USTC）研究人员开源了一种创新的智能体驱动长上下文训练范式，该范式通过智能体引导的数据生成和训练策略，显著提升了长上下文处理效率。实验表明，一个30亿参数的模型在长上下文任务上达到了与阿里巴巴Qwen3-235B模型相当的性能，而参数量仅为后者的八分之一。这一突破降低了长上下文模型训练的门槛，为资源有限的团队提供了高效方案。该范式已开源，有望推动长上下文AI应用的普及。

论文长上下文智能体开源/仓库训练范式 USTC

推荐理由：中科大用30B模型打平235B的长上下文能力，做长上下文训练的团队可以直接复用这套开源范式，省下大量算力和数据成本。

原文

6月2日

04:47

marktechpost@Asif Razzaq

78°

MiniMax 正式发布新一代大模型 MiniMax M3，采用自研的 MiniMax Sparse Attention（MSA）架构，支持高达 100 万 token 的超长上下文窗口。该模型原生支持图像、视频理解以及计算机使用（computer use）能力，并具备智能体编程（agentic coding）功能。MSA 架构通过稀疏注意力机制显著降低长序列计算成本，使得处理百万级 token 成为可能。这标志着国产大模型在长上下文和多模态融合方面迈出了重要一步，为复杂文档分析、视频理解和自动化编程等场景提供了新的基础设施。

AI模型 MiniMax M3 MSA架构长上下文多模态智能体编程

推荐理由：MiniMax M3 的 1M 上下文和原生多模态能力直接解决了长文档分析和视频理解的痛点，做 RAG 应用或自动化编程的团队值得关注其 agentic coding 特性。

原文

6月1日

15:16

pandaily@contact@pandaily.com (Pandaily)

精选83°

MiniMax 发布了其旗舰模型 M3，声称这是国内首个将前沿编码、智能体能力、100 万 token 上下文窗口和原生多模态处理整合在单一架构中的 AI 模型。M3 模型在多项基准测试中表现出色，尤其在长文本理解和复杂任务执行方面。该模型支持同时处理文本、图像、音频等多种输入，并具备强大的代码生成和工具调用能力。MiniMax 表示 M3 旨在为开发者和企业提供更高效、更全面的 AI 解决方案。

AI模型 MiniMax M3 多模态长上下文智能体

推荐理由：MiniMax M3 将 1M 上下文、多模态和智能体能力打包进一个模型，做长文本处理或多模态应用的开发者可以直接用它替代多个模型组合，省心又高效。

原文

5月29日

11:17

pandaily@contact@pandaily.com (Pandaily)

卡内基梅隆大学和马里兰大学的研究人员发现，大型语言模型（LLM）在模拟“睡眠”机制后，能够更好地整合长上下文信息，从而提升复杂推理任务的性能。该研究通过让模型在训练或推理过程中插入类似睡眠的“巩固”阶段，有效减少了信息遗忘，并增强了模型对长文本的理解能力。这一发现为优化LLM的长期记忆和推理能力提供了新思路，可能对需要处理大量上下文的应用场景产生重要影响。

论文 LLM 推理模型长上下文睡眠机制 CMU

推荐理由：做LLM推理优化或长上下文应用的团队值得关注——这项研究用“睡眠”机制解决了模型信息遗忘的痛点，直接提升复杂推理表现，建议点开看看具体实现。

原文

5月26日

05:31

marktechpost@Asif Razzaq

72°

Together AI 开源了 OSCAR，一种面向长上下文 LLM 推理的 INT2 KV 缓存量化方法。与依赖数据无关的 Hadamard 变换不同，OSCAR 通过离线估计注意力感知的协方差结构，为键和值分别推导旋转矩阵。在 Qwen3-4B-Thinking-2507 和 Qwen3-8B 上，OSCAR 以每 KV 元素 2.28 比特的精度，将 BF16 精度差距分别缩小至 3.78 和 1.42 分。该方法可实现约 8 倍的 KV 内存缩减，并在 100K 上下文长度下带来最高 3 倍的解码加速。

AI模型量化 KV 缓存长上下文 Together AI 推理优化

推荐理由：长上下文 LLM 推理的内存瓶颈终于有了实用解法——OSCAR 在 2-bit 量化下几乎不损失精度，做长文档/多轮对话推理的团队可以直接集成，显著降低硬件成本。

原文