AI 代理进化加速，LoRA 基础设施迎百万级挑战

模型发布/更新

Model Releases

5 篇

DeepSeek-V4 Preview 正式发布并开源，支持 1M 上下文

X·KOLX：深度求索 DeepSeek (@deepseek_ai)

DeepSeek 发布了 V4 Preview 版本，包含 Pro 和 Flash 两个模型，均支持 1M 上下文长度。Pro 版本总参数量 1.6T，激活参数 49B，性能对标全球顶级闭源模型；Flash 版本总参数量 284B，激活参数 13B，主打高效经济。模型权重和技术报告已开源，API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。

DeepSeek-V3.2 及 Speciale 发布，专为智能体打造的推理模型

X·KOLX：深度求索 DeepSeek (@deepseek_ai)

DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者，已在 App、Web 和 API 上线；V3.2-Speciale 则专注于极致推理能力，目前仅通过 API 提供。这两个模型以推理优先为设计理念，旨在更好地支持智能体（agent）场景。技术报告已同步公开。

Meta 发布 Muse Spark：预训练效率超 Llama 4 一个数量级

X·KOLX：Meta AI (@AIatMeta)

Meta 宣布其新模型 Muse Spark 在预训练、强化学习和测试时推理三个维度上实现了可预测且高效的扩展。通过重建预训练栈，包括改进模型架构、优化和数据整理，Muse Spark 在达到相同能力水平时所需的计算量比前代 Llama 4 Maverick 减少了一个数量级。Meta 分享了其缩放定律研究方法，展示了 Muse Spark 在效率上的显著提升，旨在构建个人超级智能。

DeepSeek 开源 DeepEP：首个面向 MoE 模型的 EP 通信库

官方DeepSeek: GitHub 新仓库

DeepSeek 开源了 DeepEP，这是首个专为 MoE（混合专家）模型设计的专家并行（EP）通信库。它提供了高吞吐、低延迟的 GPU 内核，支持训练和推理中的全到全通信。DeepEP 还支持低精度操作，如 FP8，并引入了高效的稀疏通信技术。该库已开源在 GitHub 上，开发者可以访问其 Pull Requests 页面了解更多。

雷军谈小米自动驾驶模型 Xiaomi OneVL：率先统一 VLA 与世界模型

官方IT之家

小米发布并开源了 Xiaomi OneVL，一个一步式潜空间语言视觉推理框架。雷军称，该模型在业内率先通过潜空间推理将 VLA（视觉语言动作模型）和世界模型统一到同一框架中。在推理和规划等主流基准上，Xiaomi OneVL 全面刷新了潜在推理方法的性能上限。该模型在精度上超越显式 CoT，速度上对齐“仅答案”预测的潜空间 CoT 方案。小米已将模型权重和训练、推理代码全面开源，邀请全球开发者探索自动驾驶大模型的可能性。

产品发布/更新

Product

4 篇

Karpathy 点赞 Farzapedia：个人维基百科式 AI 记忆方案

X·KOLX：Andrej Karpathy (@karpathy)

Karpathy 在推文中推荐了 Farzapedia，一个基于个人维基百科的 AI 记忆系统。与主流 AI 的隐式记忆不同，Farzapedia 将用户数据以显式、可浏览的 Markdown 和图片文件形式存储在本地，用户可完全掌控。它支持 BYOAI（自带 AI），可接入 Claude、Codex 等任意模型，甚至可微调开源模型。Karpathy 认为这种“文件优先”的个性化方式让用户拥有数据主权，并强调掌握 AI 代理是 21 世纪核心技能。

OpenAI 给 Codex 在 Windows 造沙箱，过程比想象中曲折

X·KOLX：shao__meng (@shao__meng)

OpenAI Codex 团队为了解决 Windows 上缺乏类似 macOS Seatbelt 或 Linux seccomp 的进程级沙箱能力，经历了两轮方案迭代。最初尝试免提权沙箱，通过合成 SID 和 Write-Restricted Token 实现文件写入限制，但网络限制只能靠环境变量软封锁，无法对抗恶意代码。最终不得不接受提权方案，引入两个本地沙箱用户和防火墙规则，并设计四层架构（codex.exe、setup、runner、子进程）来安全执行受限命令。该方案已落地，为 Windows 上的 Codex 用户提供了与 macOS/Linux 一致的默认安全体验。

腾讯开源 TencentDB Agent Memory，长任务 Token 消耗降低 61%

官方IT之家

腾讯云正式开源 TencentDB Agent Memory，面向 Agent 长任务场景提供短期记忆压缩与长期个性化记忆能力。该方案通过“上下文卸载”和 Mermaid 任务画布技术，将完整信息卸载到外部存储，同时以结构化任务图保留关键状态，使 Agent 在长任务中保持轻量上下文。在多任务连续 Session 实验中，最高降低 61% Token 消耗，并提升任务成功率。项目已适配 OpenClaw 和 Hermes 等主流 Agent 框架，支持一键集成，默认使用本地 SQLite 存储，零外部依赖。

LandingAI 推出解析前页面级分类 API，先给 PDF 逐页打标签再分流

X·KOLX：shao__meng (@shao__meng)

LandingAI 发布了一个名为“解析前”的页面级分类 API，能在昂贵的文档解析之前对 PDF 逐页打标签。它解决企业文档混杂的问题：如 50 页房贷 PDF 中混有工资单、银行流水等，直接解析会浪费算力并导致抽取幻觉。API 支持自定义类别列表、并发逐页评估、返回标签及推理说明，还能处理未知页面并建议类别。企业可根据标签丢弃无关页或分流到不同流水线，调用方式为简单的 curl POST 请求。

行业动态

Industry

5 篇

田渊栋官宣新公司 Recursive，获 6.5 亿美元融资构建自改进超智能

X·KOLX：shao__meng (@shao__meng)

前 Meta FAIR 总监田渊栋以联合创始人身份正式官宣新公司 Recursive Superintelligence，致力于构建递归自改进超智能。该公司已获超 6.5 亿美元融资，由 GV、Greycroft、NVIDIA、AMD 领投，估值约 46.5 亿美元。核心思路是让 AI 自动发现知识、自我迭代，形成开放式循环，取代人类手动设计 AI 的过程。创始人团队包括 Richard Socher、Tim Rocktäschel、Jeff Clune 等前 Google、Meta、OpenAI、DeepMind 顶尖人才。

Karpathy 在 Sequoia Ascent 2026 炉边谈话：LLM 的新视野与智能体原生经济

X·KOLX：Andrej Karpathy (@karpathy)

Karpathy 在 Sequoia Ascent 2026 炉边谈话中分享了三个核心主题。首先，LLM 远不止是加速现有工作（如编程），他举了三个新例子：menugen 应用完全由 LLM 驱动无需传统代码、用 .md 技能替代 .sh 脚本安装软件、以及基于 LLM 的知识库处理非结构化数据。其次，他深入解释了 LLM 的“锯齿状能力”模式——为何同一个模型既能重构十万行代码，又会建议你去洗车——这源于领域可验证性和经济因素（收入/TAM 决定训练数据分布）。最后，他展望了智能体原生经济，包括产品服务分解为传感器、执行器和逻辑，以及如何让信息对 LLM 更可读，并暗示了全神经计算的未来。

Dario Amodei：可解释性为何紧迫——理解AI模型至关重要

X·KOLX：Dario Amodei (@DarioAmodei)

Anthropic CEO Dario Amodei 在推文中强调AI可解释性的紧迫性，指出理解AI模型内部工作机制对于确保安全和控制至关重要。他呼吁业界加大投入，因为随着模型能力增强，黑箱风险也在上升。该观点呼应了Anthropic一贯对AI安全透明度的重视，并暗示缺乏可解释性可能导致不可预测的后果。

Karpathy 谈 AI 能力认知鸿沟：免费版 vs Codex/Claude Code 差距巨大

X·KOLX：Andrej Karpathy (@karpathy)

Karpathy 指出，很多人对 AI 能力的认知停留在去年免费版 ChatGPT 的水平，忽略了今年最先进的代理模型（如 OpenAI Codex 和 Claude Code）在编程、数学和研究等专业领域的惊人进步。免费版模型在简单查询上仍会犯错，但高端模型已能自动重构整个代码库或发现系统漏洞，这得益于强化学习中的可验证奖励函数和 B2B 场景的高价值驱动。这种认知鸿沟导致两群人（普通用户和专业技术用户）在讨论 AI 时完全说不到一起。

微软筹备收购AI初创企业，降低对OpenAI依赖

官方IT之家

据路透社报道，微软正积极物色人工智能初创企业，为未来减少对OpenAI的依赖做准备。潜在收购旨在储备AI人才并打造顶尖模型，曾考虑收购代码生成公司Cursor但因监管担忧放弃。微软还与斯坦福团队创立的Inception洽谈，该公司采用扩散模型技术研发文本生成，估值期望超10亿美元。微软对OpenAI的累计投入已超1000亿美元，但双方矛盾渐显，近期协议已放宽限制。收购竞争激烈，SpaceX等对手也在争夺同一标的。

论文研究

Research

5 篇

Valiant 原始学习模型：可学习类与成员查询的严格夹逼

X·KOLX：arXiv cs.LG (@Steve Hanneke, Anay Mehrotra, Grigoris Velegkas, Manolis Zampetakis)

这篇论文重新审视了 Valiant 1984 年提出的原始学习模型（不同于 PAC 学习），该模型中学习器只能接收正例、可发起成员查询、且必须输出无假正例的假设。作者对有限域（包括布尔超立方体）给出了可学习性的充要条件：每个可实现的样本必须能被一个多项式大小的自适应查询压缩方案认证。这一刻画表明，Valiant 模型的可学习类严格介于 PAC 模型和无查询的 Valiant 模型之间，是少数成员查询能改变可学习类集合而非仅复杂度的情况。对于任意域，同样的严格夹逼关系仍然成立。此外，论文首次给出了 d 维半空间在 Valiant 模型中的学习算法（多项式样本和查询），并证明了 Ω(d) 的样本或查询下界。

Hodge分解实现拓扑保持的神经算子学习

X·KOLX：arXiv cs.LG (@Dongzhe Zheng, Tao Zhong, Christine Allen-Blanchette)

本文从函数空间视角研究几何网格上物理场方程的解算子，揭示了Hodge正交性通过将不可学习的拓扑自由度与可学习的几何动力学分离，从根本上解决频谱干扰问题，从而实现结构保持子空间内的加性逼近。基于Hodge理论和算子分裂，作者推导出原则性的算子级分解，提出一种混合欧拉-拉格朗日架构，并引入称为Hodge谱对偶（HSD）的代数级归纳偏置。该方法使用离散微分形式捕捉拓扑主导成分，并用正交辅助环境空间表示复杂的局部动力学。实验表明，该方法在几何图上实现了更高的精度和效率，并增强了对物理不变量的保真度。代码已开源。

MinT：管理百万级LoRA策略的训练与推理基础设施

X·KOLX：arXiv cs.LG (@Mind Lab, :, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Nolan Ho, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Qiuyu Jin, Fancy Kong, Andrew Lei, Kyrie Lei, Alexy Li, Lucian Li, Ray Li, Theo Li, Zhihui Li, Jiayi Lin, Kairus Liu, Kieran Liu, Logan Liu, Xiang Liu, Irvine Lu, Maeve Luo, Runze Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Rio Yang, Maxwell Yao, Carrie Ye, Regis Ye, Wenlin Ye, Josh Ying, Danney Zeng, Yuhan Zhan, Anya Zhang, Di Zhang, Ruijia Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Changhai Zhou, Yuhua Zhou, Xinyue Zhu, Murphy Zhuang)

MinT（MindLab Toolkit）是一个专为低秩适配（LoRA）后训练和在线推理设计的托管基础设施系统。它针对在少量昂贵基座模型上产生大量训练策略的场景，通过保持基座模型常驻内存，仅移动导出的LoRA适配器，避免了合并完整检查点的开销。MinT沿三个维度扩展：向上支持超过1T总参数的前沿密集和MoE架构；向下实现适配器仅占基座模型1%以下大小，在4B密集模型上步骤时间减少18.3倍；向外支持百万级可寻址策略目录和千级适配器并发波次。该系统使得在共享的1T级基座模型上训练和推理数百万LoRA策略成为可能。

KVServe：服务感知的KV缓存压缩，提升分离式LLM服务通信效率

X·KOLX：arXiv cs.AI (@Zedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan)

KVServe 是首个服务感知的自适应 KV 通信压缩框架，专为分离式 LLM 服务设计。它通过模块化策略空间、贝叶斯分析引擎和服务感知在线控制器，动态选择最优压缩方案。相比固定压缩策略，KVServe 在 PD 分离场景下实现高达 9.13 倍的 JCT 加速，在 KV 分离场景下将 TTFT 降低 32.8 倍。该框架已集成到 vLLM 中，适用于不同模型、GPU 和网络环境。

高率量化矩阵乘法 II：水填充法优化LLM量化

X·KOLX：arXiv cs.AI (@Or Ordentlich, Yury Polyanskiy)

本文是量化矩阵乘法研究的第二部分，探讨在第二因子列协方差矩阵已知时的量化策略，该场景常见于大语言模型的权重量化后训练。作者展示了经典的水填充法（waterfilling）如何改进现有LLM量化算法（如GPTQ），后者目前均匀分配比特率。分析表明，仅使用标量INT量化器的WaterSIC方案在高率下性能与信息论极限相差仅0.25比特/条目，且不受随机旋转影响。而GPTQ在随机旋转下与WaterSIC差距在0.1比特以内，表明其在高率下也接近最优。

技巧与观点

Tips & Takes

3 篇

169

今日事件

一手报道

新模型

信源

AITOP日报

模型发布/更新

DeepSeek-V4 Preview 正式发布并开源，支持 1M 上下文

DeepSeek-V3.2 及 Speciale 发布，专为智能体打造的推理模型

Meta 发布 Muse Spark：预训练效率超 Llama 4 一个数量级

DeepSeek 开源 DeepEP：首个面向 MoE 模型的 EP 通信库

雷军谈小米自动驾驶模型 Xiaomi OneVL：率先统一 VLA 与世界模型

产品发布/更新

Karpathy 点赞 Farzapedia：个人维基百科式 AI 记忆方案

OpenAI 给 Codex 在 Windows 造沙箱，过程比想象中曲折

腾讯开源 TencentDB Agent Memory，长任务 Token 消耗降低 61%

LandingAI 推出解析前页面级分类 API，先给 PDF 逐页打标签再分流

行业动态

田渊栋官宣新公司 Recursive，获 6.5 亿美元融资构建自改进超智能

Karpathy 在 Sequoia Ascent 2026 炉边谈话：LLM 的新视野与智能体原生经济

Dario Amodei：可解释性为何紧迫——理解AI模型至关重要

Karpathy 谈 AI 能力认知鸿沟：免费版 vs Codex/Claude Code 差距巨大

微软筹备收购AI初创企业，降低对OpenAI依赖

论文研究

Valiant 原始学习模型：可学习类与成员查询的严格夹逼

Hodge分解实现拓扑保持的神经算子学习

MinT：管理百万级LoRA策略的训练与推理基础设施

KVServe：服务感知的KV缓存压缩，提升分离式LLM服务通信效率

高率量化矩阵乘法 II：水填充法优化LLM量化

技巧与观点

Karpathy 建议：让 LLM 输出 HTML 作为视觉输出新方式

停止把提示词变成魔法咒语：像经理一样提需求

推理在哪断裂？基于隐藏态传输几何的步骤级幻觉检测