字节跳动发布Lance:3B参数原生统一多模态模型
字节跳动开源了Lance,一个仅3B激活参数的原生统一多模态AI模型。Lance能在一个系统中同时处理图像理解、图像生成和视频任务,无需多个模型拼接。该模型采用原生多模态架构,而非传统的视觉编码器+语言模型组合,实现了更高效的跨模态交互。Lance的开源发布为多模态AI研究提供了轻量级基线,尤其适合资源受限场景下的部署。
字节跳动开源了Lance,一个仅3B激活参数的原生统一多模态AI模型。Lance能在一个系统中同时处理图像理解、图像生成和视频任务,无需多个模型拼接。该模型采用原生多模态架构,而非传统的视觉编码器+语言模型组合,实现了更高效的跨模态交互。Lance的开源发布为多模态AI研究提供了轻量级基线,尤其适合资源受限场景下的部署。
由 ModelBest、清华大学和 OpenBMB 社区联合开发的 BitCPM-CANN 成为全球首个完全基于中文 AI 基础设施(华为昇腾 910B NPU)训练的开源 1.58-bit 三元大语言模型。该模型采用三元权重(仅三种状态),大幅降低部署内存需求,适合手机、PC、汽车等本地设备。其训练系统在昇腾 910B 上实现了量化感知训练(QAT)、直通估计器(STE)等全套流程,并开源了可复现的训练脚本。这一成果展示了在硬件成本上升背景下,模型能否在真实约束下训练、复现、部署和优化比单纯追求榜单分数更重要。
阿里通义千问团队发布旗舰模型Qwen3.7-Max,已在OpenRouter平台上线。该模型是Qwen3.7系列的最强版本,专为智能体场景设计,涵盖编程、办公和生产力任务,以及长周期自主执行。相比Qwen3.6,在编程和智能体基准测试上有大幅提升,并支持显式提示缓存以处理重复上下文。这标志着阿里在智能体AI领域的重要进展。
智谱今日面向部分企业客户推出 GLM-5.1 高速版 API,输出速度达到 400 tokens/s,刷新全球大模型 API 速度上限。该模型首次在国产大模型中实现旗舰级能力与低延迟的结合,打破了高速模型通常为轻量级模型的行业惯例。GLM-5.1 高速版由智谱 GLM 团队与 TileRT 团队联合打造,在推理引擎、调度系统和基础设施三个层面进行系统级优化,确保 400 TPS 是稳定可用的生产级能力。该模型适用于 AI 编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景,现已面向部分企业客户开放服务。
英特尔联合力积电(PSMC)和软银旗下SAIMEMORY,将在VLSI 2026会议上展示一种新型3D DRAM堆叠方案Via-in-One TSV。该架构通过多晶圆后通孔和超薄硅基底等技术,实现了约0.25 Tb/s/mm²的带宽和低于0.35 W/mm²的数据传输功耗,同时将数据移动能耗降至0.7 pJ/bit以下。完整9层DRAM堆叠已完成功能验证,工作电压范围0.95V-1.2V,并通过可靠性测试。这一突破有望解决AI训练和推理中带宽与功耗的平衡难题。
智谱AI发布了GLM-5.1-highspeed API,这是其GLM-5.1模型的高速推理版本,输出速度达到每秒400个token。这一速度据称是全球主要大模型提供商中最快的,显著提升了实时应用场景下的响应效率。该API适用于需要低延迟的对话、代码生成和内容创作等场景。此举标志着国产大模型在推理性能上取得重要突破,对开发者构建高并发AI应用具有直接价值。
VSCode 团队发布了《Agent-First Development》系列视频,系统介绍了构建高效 AI 编程助手的五大支柱:Model(思考深度)、Harness(行动边界)、Context(上下文视野)、Prompt(意图精度)和 Tools(工具能力)。文章指出,模型并非越大越好,而应根据任务匹配思考深度;Agent 的行动边界需通过 Ask/Plan/Agent 三种模式渐进信任;上下文是 Agent 做对事的前提,多数改坏代码的案例源于模型未看到关键文件;专业用户的 prompt 应包含目标、范围、约束和验收标准;工具越多越强,但需控制爆炸半径。整体框架强调五个旋钮的协同,而非线性步骤,人的角色正从打字员转向模型选择者、上下文提供者和边界设定者。
NVIDIA 发布了 NVIDIA-Verified Agent Skills,旨在解决 AI 智能体技能引入的安全漏洞问题。这些经过验证的技能提供透明信息,包括技能功能、来源、风险以及是否被修改。每个技能都附带技能卡,并基于 agentskills.io 开放规范构建,确保在 Claude Code、OpenAI Codex 和 Cursor 等平台上可靠运行。此举提升了智能体生态的安全性和互操作性。
Daytona 发布专为 AI 智能体设计的计算平台,提供 60 毫秒启动的沙箱环境,能在 75 秒内创建 5 万个独立实例,日均运行 85 万次。该平台从人类开发环境转向智能体沙箱,支持裸金属、有状态快照,并针对强化学习(RL)和评估(evals)工作负载优化。Daytona 认为 Kubernetes 在智能体规模下失效,AI 云应更像 Stripe 而非 AWS。CEO Ivan Burazin 解释了为何智能体需要可组合计算机,以及 RL 工作负载占比从 0% 增长到约 50% 的趋势。
英伟达CEO黄仁勋在财报电话会议上表示,基于SRAM的AI推理解码加速器芯片(如LPX)将长期属于利基市场,GPU仍将占据主导地位。LPX设计目标是低延迟和高Token速率,但吞吐量和容量较低,适合高定价AI服务中的上下文处理,不擅长代理式任务。其潜在客户群体较少,当前在整体AI市场占比远低于20%,未来可能达到20%。
Dan Shipper 在报告中指出,尽管他们用 AI 代理自动化了所有能自动化的工作,但公司员工数却从 4 人增长到 30 人。他认为,AI 降低了专家能力的成本,反而刺激了对专家服务的需求,导致人类工作不减反增。这种动态随着 AGI 的接近会进一步加剧。文章分析了自动化悖论的结构性原因,挑战了 AI 会消灭工作的普遍预期。
HedgieMarkets 指出,AI 服务的“包月时代”正在结束,按 token 计费成为行业默认。微软因 token 计费成本过高取消了内部 Claude Code 许可证,Uber 在四个月内烧光了 2026 年全年 AI 预算。美国 AI 软件价格上涨 20%-37%,GitHub 放弃固定费率套餐转向按用量计费。当前定价模式(按席位收费)与成本模式(按 token 计费)不匹配,导致使用量越大亏损越深。企业面临两难:要么缩减用量影响 AI 公司收入,要么降价导致单位经济恶化。
据 WSJ 报道,Anthropic 预计在 2025 年 Q2 首次实现运营利润,收入同比增长 130% 至 109 亿美元,远超此前预期的 2028 年盈利。驱动因素是智能体编程(agentic coding),Claude 可执行更长的软件任务,从聊天机器人转变为租赁数字劳动力,客户愿意支付更高费用。同时,Anthropic 的算力成本占比从 Q1 的 71% 降至 Q2 的 56%,得益于更多使用 Google 和 Amazon 芯片、缩小免费用户群以及减少数据中心承诺。这标志着企业 AI 支出正快速转化为真实收入。
据彭博社报道,美国五角大楼正在测试多个竞品AI模型,以评估是否替换目前在军事工作流中使用的Anthropic的Claude。25名高级用户正在对比这些模型处理国防部最严苛AI任务的能力。这一举动表明,军方对AI供应商的选择正变得更加审慎,可能影响未来军事AI的部署格局。
线性注意力模型通过固定大小的循环状态替代软注意力的无限缓存,但如何高效编辑压缩记忆而不打乱已有关联是难点。现有Delta规则模型使用单一标量门控同时控制擦除旧内容和写入新内容,存在耦合限制。Gated DeltaNet-2提出通道级擦除门控b_t和写入门控w_t,将两者解耦,可退化为KDA和Gated DeltaNet。在1.3B参数、100B FineWeb-Edu tokens训练下,该模型在语言建模、常识推理和检索任务上全面超越Mamba-2、Gated DeltaNet、KDA和Mamba-3。尤其在长上下文RULER基准的多键检索设置中优势显著,代码已开源。
DeltaBox 提出了一种新的操作系统级抽象 DeltaState,用于实现 AI 智能体沙箱的毫秒级检查点与回滚。其核心洞察是:智能体运行中连续检查点高度相似,因此只需复制变化部分而非整个状态。DeltaBox 包含两个协同设计的机制:DeltaFS 通过分层文件系统实现基于变化的文件状态 C/R,DeltaCR 通过增量转储和模板进程 fork 加速进程状态回滚。实验表明,DeltaBox 的检查点和回滚延迟分别仅为 14ms 和 5ms,相比传统全量复制方法大幅降低,使得智能体在固定时间预算内能探索更多节点。该工作对需要高频状态探索的 AI 智能体(如测试时树搜索、强化学习)有重要价值。
该研究探讨了预训练数据顺序对大语言模型获取时间敏感事实知识的影响。作者构建了包含7000多个时间锚定问题的基准测试,并训练了6B参数模型,比较了按时间顺序预训练与标准随机打乱预训练的效果。结果显示,按时间顺序训练的模型在通用语言理解和常识方面与随机基线相当,但事实知识更新、更精确。随机预训练模型在旧数据上表现更好,可能是因为事实重复更多。研究为LLM持续学习提供了基础,并开源了代码、检查点和数据集。
基于大语言模型的多智能体系统常通过中间通信协调任务,其中通过Transformer的KV缓存进行潜在通信能提升效率并保留更丰富的任务相关信息。但KV缓存会编码上下文输入、中间推理状态和智能体特定信息,形成不透明通道,可能导致敏感内容在智能体间传播而无需显式文本披露。为此,研究者提出LCGuard框架,将共享KV缓存视为潜在工作记忆,在缓存工件传输前学习表示级变换。通过对抗训练形式化敏感信息泄露:若对抗解码器能从共享缓存中恢复智能体特定敏感输入,则视为不安全。实验表明,LCGuard在多个模型家族和多智能体基准上持续降低基于重建的泄露和攻击成功率,同时保持与标准KV共享基线相当的任务性能。
研究人员首次大规模评估了用大语言模型生成形式化证明(Lean 语言)解决开放数学问题的能力。其最强大的智能体以每个问题几百美元的成本,自主解决了 353 个开放 Erdős 问题中的 9 个,并证明了 492 个 OEIS 猜想中的 44 个。该智能体已被部署在组合数学、优化、图论、代数几何和量子光学研究中。一个更基础的智能体(交替 LLM 生成与 Lean 验证)也复现了 Erdős 问题的成功,但在最难问题上成本更高。这些结果展示了 AI 辅助形式化证明搜索的潜力,并揭示了实现这一能力的智能体设计。
OpenRouter 发布了一篇指南,详细介绍了如何在使用 Qwen 模型时启用显式缓存功能。显式缓存可以显著减少重复请求的响应时间,降低 API 调用成本,尤其适合需要频繁调用相同上下文的场景。指南涵盖了缓存配置、使用方法和最佳实践,帮助开发者更高效地利用 Qwen 模型。这对于依赖 Qwen 进行对话、推理或内容生成的团队来说是一个实用的优化技巧。
当前大语言模型的后训练通常优化单一标量奖励,导致输出分布低熵,难以在推理时搜索(如AlphaEvolve)中展现多样性。本文提出向量策略优化(VPO),一种显式训练模型适应多样化下游奖励函数并产生多样化解决方案的强化学习算法。VPO利用实践中奖励常为向量形式(如代码生成的逐测试用例正确性、多种用户画像或奖励模型),作为GRPO优势估计器的即插即用替代,训练模型输出一组解,每个解专门针对向量奖励空间中的不同权衡。在四个任务上,VPO在测试时搜索(如pass@k和best@k)中匹配或超越最强标量RL基线,且差距随搜索预算增大而扩大。对于进化搜索,VPO模型能解决GRPO模型完全无法解决的问题。
现有自主智能体系统部署后基本静态,无法从用户交互中学习,重复故障需等待人工更新修复。MOSS 提出源码级自我进化方法,直接修改智能体系统的源代码,而非仅调整文本可变的技能文件或提示配置。系统通过自动收集生产故障证据、多阶段确定性流水线生成代码修改,并在临时工作器中验证候选版本,最后通过用户同意的容器热替换实现部署。在 OpenClaw 基准测试中,MOSS 单次循环将平均评分从 0.25 提升至 0.61,无需人工干预。该方法解决了文本层无法触及的结构性故障(如路由、钩子顺序、状态不变量等),为智能体系统持续自我改进提供了更通用的框架。