DeepSeek-V4 Preview 正式发布并开源,支持 1M 上下文
DeepSeek 发布了 V4 Preview 版本,包含 Pro 和 Flash 两个模型,均支持 1M 上下文长度。Pro 版本总参数量 1.6T,激活参数 49B,性能对标全球顶级闭源模型;Flash 版本总参数量 284B,激活参数 13B,主打高效经济。模型权重和技术报告已开源,API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。
DeepSeek 发布了 V4 Preview 版本,包含 Pro 和 Flash 两个模型,均支持 1M 上下文长度。Pro 版本总参数量 1.6T,激活参数 49B,性能对标全球顶级闭源模型;Flash 版本总参数量 284B,激活参数 13B,主打高效经济。模型权重和技术报告已开源,API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。
DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者,已在 App、Web 和 API 上线;V3.2-Speciale 则专注于极致推理能力,目前仅通过 API 提供。这两个模型以推理优先为设计理念,旨在更好地支持智能体(agent)场景。技术报告已同步公开。
Meta 宣布其新模型 Muse Spark 在预训练、强化学习和测试时推理三个维度上实现了可预测且高效的扩展。通过重建预训练栈,包括改进模型架构、优化和数据整理,Muse Spark 在达到相同能力水平时所需的计算量比前代 Llama 4 Maverick 减少了一个数量级。Meta 分享了其缩放定律研究方法,展示了 Muse Spark 在效率上的显著提升,旨在构建个人超级智能。
DeepSeek 开源了 DeepEP,这是首个专为 MoE(混合专家)模型设计的专家并行(EP)通信库。它提供了高吞吐、低延迟的 GPU 内核,支持训练和推理中的全到全通信。DeepEP 还支持低精度操作,如 FP8,并引入了高效的稀疏通信技术。该库已开源在 GitHub 上,开发者可以访问其 Pull Requests 页面了解更多。
小米发布并开源了 Xiaomi OneVL,一个一步式潜空间语言视觉推理框架。雷军称,该模型在业内率先通过潜空间推理将 VLA(视觉语言动作模型)和世界模型统一到同一框架中。在推理和规划等主流基准上,Xiaomi OneVL 全面刷新了潜在推理方法的性能上限。该模型在精度上超越显式 CoT,速度上对齐“仅答案”预测的潜空间 CoT 方案。小米已将模型权重和训练、推理代码全面开源,邀请全球开发者探索自动驾驶大模型的可能性。
Karpathy 在推文中推荐了 Farzapedia,一个基于个人维基百科的 AI 记忆系统。与主流 AI 的隐式记忆不同,Farzapedia 将用户数据以显式、可浏览的 Markdown 和图片文件形式存储在本地,用户可完全掌控。它支持 BYOAI(自带 AI),可接入 Claude、Codex 等任意模型,甚至可微调开源模型。Karpathy 认为这种“文件优先”的个性化方式让用户拥有数据主权,并强调掌握 AI 代理是 21 世纪核心技能。
OpenAI Codex 团队为了解决 Windows 上缺乏类似 macOS Seatbelt 或 Linux seccomp 的进程级沙箱能力,经历了两轮方案迭代。最初尝试免提权沙箱,通过合成 SID 和 Write-Restricted Token 实现文件写入限制,但网络限制只能靠环境变量软封锁,无法对抗恶意代码。最终不得不接受提权方案,引入两个本地沙箱用户和防火墙规则,并设计四层架构(codex.exe、setup、runner、子进程)来安全执行受限命令。该方案已落地,为 Windows 上的 Codex 用户提供了与 macOS/Linux 一致的默认安全体验。
腾讯云正式开源 TencentDB Agent Memory,面向 Agent 长任务场景提供短期记忆压缩与长期个性化记忆能力。该方案通过“上下文卸载”和 Mermaid 任务画布技术,将完整信息卸载到外部存储,同时以结构化任务图保留关键状态,使 Agent 在长任务中保持轻量上下文。在多任务连续 Session 实验中,最高降低 61% Token 消耗,并提升任务成功率。项目已适配 OpenClaw 和 Hermes 等主流 Agent 框架,支持一键集成,默认使用本地 SQLite 存储,零外部依赖。
LandingAI 发布了一个名为“解析前”的页面级分类 API,能在昂贵的文档解析之前对 PDF 逐页打标签。它解决企业文档混杂的问题:如 50 页房贷 PDF 中混有工资单、银行流水等,直接解析会浪费算力并导致抽取幻觉。API 支持自定义类别列表、并发逐页评估、返回标签及推理说明,还能处理未知页面并建议类别。企业可根据标签丢弃无关页或分流到不同流水线,调用方式为简单的 curl POST 请求。
前 Meta FAIR 总监田渊栋以联合创始人身份正式官宣新公司 Recursive Superintelligence,致力于构建递归自改进超智能。该公司已获超 6.5 亿美元融资,由 GV、Greycroft、NVIDIA、AMD 领投,估值约 46.5 亿美元。核心思路是让 AI 自动发现知识、自我迭代,形成开放式循环,取代人类手动设计 AI 的过程。创始人团队包括 Richard Socher、Tim Rocktäschel、Jeff Clune 等前 Google、Meta、OpenAI、DeepMind 顶尖人才。
Karpathy 在 Sequoia Ascent 2026 炉边谈话中分享了三个核心主题。首先,LLM 远不止是加速现有工作(如编程),他举了三个新例子:menugen 应用完全由 LLM 驱动无需传统代码、用 .md 技能替代 .sh 脚本安装软件、以及基于 LLM 的知识库处理非结构化数据。其次,他深入解释了 LLM 的“锯齿状能力”模式——为何同一个模型既能重构十万行代码,又会建议你去洗车——这源于领域可验证性和经济因素(收入/TAM 决定训练数据分布)。最后,他展望了智能体原生经济,包括产品服务分解为传感器、执行器和逻辑,以及如何让信息对 LLM 更可读,并暗示了全神经计算的未来。
Anthropic CEO Dario Amodei 在推文中强调AI可解释性的紧迫性,指出理解AI模型内部工作机制对于确保安全和控制至关重要。他呼吁业界加大投入,因为随着模型能力增强,黑箱风险也在上升。该观点呼应了Anthropic一贯对AI安全透明度的重视,并暗示缺乏可解释性可能导致不可预测的后果。
Karpathy 指出,很多人对 AI 能力的认知停留在去年免费版 ChatGPT 的水平,忽略了今年最先进的代理模型(如 OpenAI Codex 和 Claude Code)在编程、数学和研究等专业领域的惊人进步。免费版模型在简单查询上仍会犯错,但高端模型已能自动重构整个代码库或发现系统漏洞,这得益于强化学习中的可验证奖励函数和 B2B 场景的高价值驱动。这种认知鸿沟导致两群人(普通用户和专业技术用户)在讨论 AI 时完全说不到一起。
据路透社报道,微软正积极物色人工智能初创企业,为未来减少对OpenAI的依赖做准备。潜在收购旨在储备AI人才并打造顶尖模型,曾考虑收购代码生成公司Cursor但因监管担忧放弃。微软还与斯坦福团队创立的Inception洽谈,该公司采用扩散模型技术研发文本生成,估值期望超10亿美元。微软对OpenAI的累计投入已超1000亿美元,但双方矛盾渐显,近期协议已放宽限制。收购竞争激烈,SpaceX等对手也在争夺同一标的。
这篇论文重新审视了 Valiant 1984 年提出的原始学习模型(不同于 PAC 学习),该模型中学习器只能接收正例、可发起成员查询、且必须输出无假正例的假设。作者对有限域(包括布尔超立方体)给出了可学习性的充要条件:每个可实现的样本必须能被一个多项式大小的自适应查询压缩方案认证。这一刻画表明,Valiant 模型的可学习类严格介于 PAC 模型和无查询的 Valiant 模型之间,是少数成员查询能改变可学习类集合而非仅复杂度的情况。对于任意域,同样的严格夹逼关系仍然成立。此外,论文首次给出了 d 维半空间在 Valiant 模型中的学习算法(多项式样本和查询),并证明了 Ω(d) 的样本或查询下界。
本文从函数空间视角研究几何网格上物理场方程的解算子,揭示了Hodge正交性通过将不可学习的拓扑自由度与可学习的几何动力学分离,从根本上解决频谱干扰问题,从而实现结构保持子空间内的加性逼近。基于Hodge理论和算子分裂,作者推导出原则性的算子级分解,提出一种混合欧拉-拉格朗日架构,并引入称为Hodge谱对偶(HSD)的代数级归纳偏置。该方法使用离散微分形式捕捉拓扑主导成分,并用正交辅助环境空间表示复杂的局部动力学。实验表明,该方法在几何图上实现了更高的精度和效率,并增强了对物理不变量的保真度。代码已开源。
MinT(MindLab Toolkit)是一个专为低秩适配(LoRA)后训练和在线推理设计的托管基础设施系统。它针对在少量昂贵基座模型上产生大量训练策略的场景,通过保持基座模型常驻内存,仅移动导出的LoRA适配器,避免了合并完整检查点的开销。MinT沿三个维度扩展:向上支持超过1T总参数的前沿密集和MoE架构;向下实现适配器仅占基座模型1%以下大小,在4B密集模型上步骤时间减少18.3倍;向外支持百万级可寻址策略目录和千级适配器并发波次。该系统使得在共享的1T级基座模型上训练和推理数百万LoRA策略成为可能。
KVServe 是首个服务感知的自适应 KV 通信压缩框架,专为分离式 LLM 服务设计。它通过模块化策略空间、贝叶斯分析引擎和服务感知在线控制器,动态选择最优压缩方案。相比固定压缩策略,KVServe 在 PD 分离场景下实现高达 9.13 倍的 JCT 加速,在 KV 分离场景下将 TTFT 降低 32.8 倍。该框架已集成到 vLLM 中,适用于不同模型、GPU 和网络环境。
本文是量化矩阵乘法研究的第二部分,探讨在第二因子列协方差矩阵已知时的量化策略,该场景常见于大语言模型的权重量化后训练。作者展示了经典的水填充法(waterfilling)如何改进现有LLM量化算法(如GPTQ),后者目前均匀分配比特率。分析表明,仅使用标量INT量化器的WaterSIC方案在高率下性能与信息论极限相差仅0.25比特/条目,且不受随机旋转影响。而GPTQ在随机旋转下与WaterSIC差距在0.1比特以内,表明其在高率下也接近最优。
AI 研究员 Andrej Karpathy 在 X 上分享了一个实用技巧:在对话结束时让 LLM 将回答结构化为 HTML,然后在浏览器中查看生成的文件。他认为,音频是人类偏好的输入方式,而视觉(图像/动画/视频)是偏好的输出方式。他预测 AI 输出将从纯文本、Markdown 向 HTML 演进,最终走向交互式神经视频/模拟。他还指出,输入方面需要增加指向/手势等交互方式。目前阶段,他建议尝试让 LLM 输出 HTML 以提升信息接收效率。
Ethan Mollick 在 X 上发文,呼吁用户停止将 AI 提示词神秘化,包括使用含义不明的斜杠命令。他认为与 AI 交互应该像与经理沟通一样,用清晰、结构化的格式直接提出需求,而不是像巫师念咒语。这一观点直击当前提示工程中过度复杂化的痛点,强调简单直接才是高效使用 AI 的关键。
该论文提出了一种新的幻觉检测方法,将多步推理中的幻觉视为隐藏状态轨迹的几何特性,而非传统对整个输出打分。作者通过对比PCA构建标签条件教师模型,提取七个几何过渡特征,并蒸馏出BiLSTM学生模型,仅需单次前向传播即可定位首个错误步骤。在ProcessBench、PRM800K等基准测试中,该方法优于基于熵、探针和注意力的基线,教师模型跨语言模型和数据集稳定迁移,但学生模型在分布偏移下失效。研究将步骤级幻觉检测重新定义为轨迹动力学问题,并指出分布偏移下保持对比传输裕度是部署的关键障碍。