全部 AI 动态 · AI 热点

6月30日

03:08

03:08

@koltregaskes@koltregaskes

78°

GPT-5.6 Sol Preview 出现在 Cursor 的内部测试中，据称支持 100 万 token 上下文窗口。该发现来自 X 用户 koltregaskes 的截图，暗示 OpenAI 正在推进超长上下文能力。若属实，这将远超 GPT-4 的 128K 上下文上限。目前 OpenAI 尚未官方确认此模型的存在。

AI模型 GPT-5.6 Sol Preview Cursor 上下文窗口 1M上下文

推荐理由：OpenAI 的 GPT-5.6 Sol Preview 悄悄在 Cursor 里测试，上下文直接拉到 1M，能一口气吞整本小说了。

6月17日

10:00

10:00

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 宣布支持 GLM 5.2 模型，直接运行模型权重而非通过路由转发到其他平台。他们承诺零数据保留、生产级延迟，并开放 1M 上下文窗口。该服务面向长时编码代理，强调稳定性而非基准排名。

AI产品 GLM 5.2 Fireworks AI 推理模型上下文窗口编码代理

推荐理由：Fireworks 直接跑 GLM 5.2 权重，1M 上下文还不存你的数据，做编码代理很稳。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:42

12:42

berryxia@berryxia

77°

据社交媒体传闻，OpenAI可能于6月23日发布GPT-5.6。该模型运行成本仅为Fable的三分之一，上下文窗口扩展至150万token，智能体编程工作流将全面升级。目前信息仍属未经证实的泄露阶段。

AI模型 GPT-5.6 OpenAI 上下文窗口智能体编程

推荐理由：传GPT-5.6成本更低、上下文超长，还能提升智能体编程，6月23日可能有动作，值得关注后续。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

22:28

22:28

Qdrant@qdrant_engine

Qdrant 发布了一项基准测试，比较了两种方法：直接将大量上下文发送给 LLM，以及使用 Qdrant 的两步检索管道仅获取最相关信息。结果显示，更大的上下文窗口会增加成本和延迟，而检索有助于减少 LLM 所需的上下文量，同时保持答案质量。随着上下文窗口的增长，检索不会消失，反而对效率、可扩展性和控制变得更加重要。

AI产品向量搜索 Qdrant 检索增强生成上下文窗口基准测试

推荐理由：做 RAG 或向量搜索的团队会关心这个关键权衡——大上下文窗口并非万能，检索仍是降本增效的核心手段，建议点开看具体数据。

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月26日

07:04

07:04IT之家（博客/媒体）

88°

多名开发者在 OpenAI Codex 后端日志中发现未官宣模型 GPT-5.6，内部代号 iris-alpha，支持 150 万 tokens 上下文窗口，预计今年 6 月发布。相比当前 GPT-5.5 API 的 105 万 tokens 提升 43%，极端测试显示 90 万 tokens 仍能流畅响应。该模型还展示了强大的前端界面生成能力，能直接生成极简记事应用界面，接近商用水平。此外，Anthropic、Google 和 xAI 的竞品也可能瞄准同期发布。

AI模型 OpenAI GPT-5.6 上下文窗口长文本处理前端生成

推荐理由：150 万 tokens 上下文窗口让处理超长合同、分析大型代码仓库成为可能，做文档密集型工作或复杂编程的开发者值得关注，可以直接用上更强大的长文本能力。

5月19日

10:25

10:25

arXiv: Anthropic@Nikola Milosevic

精选

本文提出一种双过程记忆架构，将即时情景记忆（固定10条消息窗口）与长期知识（约3 tokens/消息增长）解耦，解决LLM在科学协作中的上下文窗口饱和问题。在15,000条消息、跨6个模型（OpenAI、Anthropic、Google）的1,440次查询评估中，该架构在10,000条消息时仍保持70-85%准确率，延迟1-2秒，且比全上下文模型节省62% tokens。研究发现双过程架构在数值/时间查询上表现优异（65-90%准确率），而RAG在历史检索上更优（60-85%），并揭示了合成测试与现实工作流之间的“模拟到现实”差距。该架构成功管理了14,000+科学事实（125k tokens），证明领域特定记忆整合可支持超长上下文持续运行。

论文记忆架构科学智能体上下文窗口推理模型 LLM

推荐理由：做科学计算或长期实验分析的AI开发者，终于有了对抗上下文饱和的实用方案——双过程架构直接省62% tokens还保持高精度，值得在长链推理任务中试试。

5月17日

21:05

21:05

AI Engineer@aiDotEngineer

Mnemon 是一个开源项目，旨在为 AI 智能体提供持久记忆和状态管理，解决传统上下文窗口的局限性。其创建者表示，新加坡官员 Vivian Balakrishnan 已将其纳入个人 AI 工作流。Mnemon 的长期目标是成为智能体的记忆驱动层，支持持久状态、进化循环和运行时连续性。该项目目前处于早期阶段，但已开放 GitHub 仓库供开发者试用。

AI产品智能体持久记忆开源/仓库 Mnemon 上下文窗口

推荐理由：做智能体开发的团队终于有了一个正经的持久记忆方案——Mnemon 解决了上下文窗口的临时性痛点，想构建自进化智能体的开发者可以直接试。

5月16日

20:41

20:41

宝玉@dotey

精选

本文清晰区分了上下文（Context）和上下文窗口（Context Window）两个易混概念。上下文是 AI Agent 实际拥有的所有信息，包括系统提示、对话历史、检索文档等，是动态可管理的；上下文窗口是模型单次推理能处理的最大 token 数，是硬性容量限制。文章用厨房操作台和食材的比喻帮助理解，并指出 Agent 开发的核心挑战在于如何在有限的窗口内塞入最有价值的上下文。最后强调了 Context Engineering 的重要性。

技巧上下文上下文窗口 Agent开发 Context Engineering 概念辨析

推荐理由：做 Agent 开发的团队经常被这两个概念搞混，本文用一个厨房比喻就讲清楚了，还点出了 Context Engineering 的实战价值——看完能帮你少踩坑，建议收藏。

16:50

16:50

DeepLearning.AI@DeepLearningAI

DeepLearning.AI 发布了一门面向所有人的 AI 提示工程课程《AI Prompting for Everyone》，旨在帮助用户掌握提示词设计、上下文窗口等 AI 系统基础原理。课程适合零基础学习者，无需编程经验即可上手。通过这门课，用户可以更高效地与 AI 交互，提升日常工作和学习中的 AI 使用效果。该课程是 DeepLearning.AI 系列课程的一部分，延续了其高质量教育内容的口碑。

AI产品提示工程 AI 教育 DeepLearning.AI 入门课程上下文窗口

推荐理由：想系统学习提示词工程但怕门槛太高？这门课从零讲起，适合所有想用好 AI 的非技术用户，学完就能直接提升与 ChatGPT 等工具的对话质量。

5月11日

11:42

11:42arXiv cs.AI（学术论文）

研究表明，在多智能体社会困境中，扩展LLM的上下文窗口反而降低合作率。在7个LLM和4个游戏中，28种模型-游戏设置中有18种出现合作退化，作者将其命名为“记忆诅咒”。通过分析37.8万条推理轨迹，发现核心原因是前瞻性意图的减弱而非偏执增强。使用专注于前瞻性推理的LoRA微调可缓解退化，并零样本迁移至其他游戏。记忆内容而非长度是关键触发因素，且显式Chain-of-Thought推理会加剧该现象。这将记忆重新定义为多智能体行为的主动决定因素。

论文推理模型多智能体 LLM智能体社会困境上下文窗口

推荐理由：该研究揭示了LLM能力提升（如上下文窗口扩展）在社会互动场景中的意外负面效应，对多智能体系统设计和部署具有重要警示意义。