Deep Principle 发布 MPA,材料科学领域的 AlphaFold,40 项工业任务达 SOTA
Deep Principle 发布了 MPA(Materials Property Axiom),一个用于材料科学的 AI 基础模型。该模型借鉴了大语言模型的训练技术,在 40 项真实工业任务上取得了最先进的结果。MPA 能够预测材料属性,加速新材料发现和设计过程,有望在电池、半导体、合金等领域产生重大影响。这标志着 AI 在材料科学领域的应用迈出了重要一步。
Deep Principle 发布了 MPA(Materials Property Axiom),一个用于材料科学的 AI 基础模型。该模型借鉴了大语言模型的训练技术,在 40 项真实工业任务上取得了最先进的结果。MPA 能够预测材料属性,加速新材料发现和设计过程,有望在电池、半导体、合金等领域产生重大影响。这标志着 AI 在材料科学领域的应用迈出了重要一步。
MiniMax 正式发布新一代大模型 MiniMax M3,采用自研的 MiniMax Sparse Attention(MSA)架构,支持高达 100 万 token 的超长上下文窗口。该模型原生支持图像、视频理解以及计算机使用(computer use)能力,并具备智能体编程(agentic coding)功能。MSA 架构通过稀疏注意力机制显著降低长序列计算成本,使得处理百万级 token 成为可能。这标志着国产大模型在长上下文和多模态融合方面迈出了重要一步,为复杂文档分析、视频理解和自动化编程等场景提供了新的基础设施。
图灵奖得主Richard Sutton指出,传统生成式AI的核心缺陷在于无法评估自身结果,因此无法实现真正的科学发现。他认为,没有内置评估循环,AI产生的创新只是昙花一现,无法积累。相比之下,AlphaGo和AlphaProof等系统通过内置评估机制展现了真正的创造力。Sutton的观点挑战了当前大语言模型在科学研究中的主导地位,强调评估能力是AI实现科学突破的关键。
JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异,超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练,旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源,可在 Hugging Face 上获取。
阿里Qwen团队在百炼平台推出Qwen3.7-Plus,这是一个多模态智能体模型。它不仅能理解图像和视频,还新增了自主编程、工具调用和深度推理能力。该模型支持视觉理解、复杂推理和自动化迭代,可应用于更广泛的AI任务场景。这标志着阿里在构建全能型AI智能体方面迈出重要一步。
Anthropic 将 Claude Mythos 预览版从约 50 个 Project Glasswing 合作伙伴扩展到约 200 个经过审查的组织。该模型更像网络武器检测器而非普通编程助手,能发现软件弱点并构建可用的测试漏洞来证明攻击路径。优先访问名单包括电力、医疗、水务、通信、硬件、政府、非营利组织及关键软件维护者,每个组织需通过安全检查。Anthropic 旨在通过优先访问为行业创造补丁先机,合作伙伴已发现超过 1 万个高危或严重漏洞。Mythos 尚未完全公开,因其测试表明该模型能发现细微旧漏洞、将小问题链式组合成更大攻击,并帮助非专家达到此前需精英安全技能才能实现的结果。
Perplexity CEO Arav Srinivas 宣布,公司正从传统的“搜索作为网络抓取工具调用”转向“搜索即代码”架构。新架构让 AI 智能体直接编写 Python 代码调用搜索栈,而非逐次循环函数调用。这一转变旨在适应未来智能体环境中代码执行成为知识工作主流方式的趋势,使多步骤原语组合更自然,对智能体框架的变更更具适应性,并能受益于下一代模型在编程能力上的持续提升。该架构已通过 Perplexity Agent API 提供,并默认用于 Computer 模式。
初创公司 WindBorne Systems 发布第六代 AI 气象模型 WeatherMesh-6,其预报精度已超越欧洲中期天气预报中心(ECMWF)的传统和 AI 预报产品。该模型利用自有探空气球采集的实测数据,实现逐小时更新预报,空间分辨率在部分地区细化至 3 公里。与传统依赖超级计算机的物理模型相比,WeatherMesh-6 运算效率更高,且提前五天的地表气温预报准确度相当于传统预报提前一天的水平。公司通过自研模型与独家数据源结合的模式,解决了 AI 气象企业依赖外部数据的痛点,目前已完成 2500 万美元融资。
NVIDIA 推出 Factory Operations Blueprint (FOX),这是一个用于构建工厂管理智能体的参考设计。该蓝图能够监控运营、实时推理数据并协调专业 AI 智能体,帮助大规模解决问题。早期采用者包括富士康、和硕、研华和纬创等,已在生产力、质量和效率方面取得显著提升。FOX 旨在为制造业提供统一的 AI 中枢,推动工业自动化进入新阶段。
Memory OS 是一个基于 Hermes Agent 的开源项目,通过六层记忆架构、门控检索和 Wiki 功能,为智能体添加本地持久记忆。该项目解决了智能体缺乏长期记忆的痛点,使 AI 能跨会话保持上下文。六层结构包括工作记忆、情景记忆、语义记忆等,支持高效检索和更新。开发者可直接集成,提升智能体的连续性和个性化能力。
图灵奖得主理查德·萨顿指出,普通生成式AI(如大语言模型)缺乏自我评估与持续筛选能力,因此难以完成真正的科学发现。他认为科学发现需要变异、评估和选择性保留三步,而生成式AI只擅长生成变体,缺少测试环节来筛选更好方案。萨顿列举AlphaGo、AlphaFold等系统作为正面案例,这些系统都有评估闭环。他还批评AI行业过度押注更大语言模型,更看好能与环境互动、从经验中学习的AI智能体。
中国移动联合产业合作伙伴在青岛建成全球首条S+C+L三波段超低损多芯光缆线路,突破传统光纤传输容量极限。该光缆采用四芯光纤结构,每公里传输损耗仅0.189dB,纤芯间串扰低于-40dB/100km,单条光纤容量达到传统光纤的5倍以上。实测完成S+C+L全频谱实时传输,实现无误码、低抖动稳定传输,标志技术从实验室走向现网试点。该线路可满足AI智算、T比特级超高速传输需求,是5G-A/6G和全光网络的核心升级方向。
SK hynix 表示,AI 内存需求巨大,计划在 5 年内将晶圆产能翻倍,但供应紧张预计将持续到 2030 年。晶圆是制造内存芯片的硅基板,翻倍产能意味着扩大物理产出基础,而非仅提高现有产线利用率。AI 供应受限于内存制造的物理节奏,如晶圆、封装、良率和供应协议,其速度远慢于 GPU 路线图。压力主要来自 HBM(高带宽内存),这种堆叠内存用于英伟达 GPU,扩展困难,需要先进 DRAM、堆叠、封装、测试及与 GPU 设计方的紧密协作。SK hynix 正与英伟达和台积电合作开发 HBM4 基础芯片。全球内存市场中,DRAM 前三强(三星、SK hynix、美光)控制约 90% 营收,SK hynix 在 HBM 领域以 58% 份额领先。
吴恩达指出,AI 时代企业更倾向于培养内部 AI Engineer,而非依赖厂商派驻的 Forward Deployed Engineer (FDE)。FDE 虽由 Palantir 开创并在 OpenAI、Anthropic 等公司复兴,但长期来看岗位规模有限,因为企业担心供应商锁定,更愿保持技术可选性。当前最抢手的是能用 LLM 搭建应用、熟练使用 AI 编程工具的通才型 AI Engineer。吴恩达预测 AI Engineer 会像传统软件工程师一样分化出 LLMOps、Evals 等专才,但现阶段通才仍能创造巨大价值。他强调 AI 在创造新工种,而非单纯消灭就业。
Rippling AI 基于 LangChain 的 Deep Agents 和 LangSmith 平台构建其 AI 系统,在 6 个月内成功将产品交付给数百万用户。Deep Agents 提供了强大的智能体能力,而 LangSmith 则用于监控和优化 AI 工作流。这一案例展示了如何利用现有工具快速扩展 AI 应用,对需要大规模部署 AI 的团队具有重要参考价值。
本文研究跨 GPU 实例的注意力机制优化问题。传统方法在查询需要访问其他 GPU 上的 KV 缓存块时,会移动缓存块到查询所在 GPU,但多查询注意力(MLA)将每个 token 的键和值压缩为窄向量,使得路由查询(约 1KB)比移动缓存块更便宜。作者在真实多节点 H100 集群上测量了跨实例 MLA 注意力,提出了拓扑感知成本模型和路由/获取/本地决策谓词,发现解码时路由查询可将缓存移动的约 3 毫秒开销降低到几十微秒。该模型不限于 MLA,可推广到 DeepSeek-V3.2、V4 和 GLM-5.1 等架构。
该论文质疑了Archetypal SAEs声称的稳定性优势。研究发现,其稳定性主要源于所有训练运行使用相同的确定性k-means解码器初始化,而非算法本身的约束。作者区分了“稳定性”(独立训练模型间的一致性)和“稳定化”(不同初始化向共同解收敛)两个概念,后者才是可解释性研究真正需要的。当移除共享初始化后,Archetypal约束并未带来额外的稳定化优势。此外,论文还指出预处理依赖的余弦几何问题会干扰终点稳定性指标的解读。研究建议,评估SAE稳定性时应包含轨迹诊断和初始化消融实验。
该研究揭示了多域强化学习(RL)中一个关键问题:在数学推理、代码生成等单一领域训练会损害其他领域性能。现有解释(如灾难性遗忘或全局梯度冲突)不完整,因为即使全模型梯度几乎正交时,干扰仍会发生。研究发现,单域RL产生稀疏、小幅度的参数编辑,不同领域共享大量活跃计算路径,更新方向决定协同或冲突。基于局部扰动模型,作者证明后期训练主要通过二阶损伤项损害早期领域,该损伤集中在低维共享冲突子空间。通过短暂领域刷新(如代码→数学→问答→创意写作后重新训练数学),数学性能从57.66恢复至66.04,且其他领域性能保持良好,平均得分达66.39。此外,无训练的回滚方法也部分恢复了数学性能,提供了局部损伤的直接证据。
低精度训练在降低大模型训练成本的同时,常因少数算子的数值不稳定导致训练失败。论文提出GNMR(梯度范数与均值比)轻量控制器,通过比较当前梯度范数与历史均值,并结合Δ-GNMR检测短窗口内的突变,在固定预算和锁定间隔内执行恢复操作,无需改变数值格式或底层实现。在激活量化、DeepSeek式训练和LLaMA-2 13B微调等场景中,GNMR以稀疏的恢复动作保持高保真质量。该方法为低精度训练提供了一种后端无关的稳定性控制方案。
本文介绍了如何通过NVIDIA Apex库中的FusedAdam优化器和FusedLayerNorm层,结合PyTorch原生的torch.amp混合精度训练,来加速Transformer模型的训练。作者从源码编译Apex,检测融合内核是否可用,并进行了基准测试。实验表明,这些优化可以显著提升训练速度,同时保持模型精度。对于需要高效训练Transformer的开发者,这是一份实用的性能优化指南。
Lee Robinson 分享了四条让代码库更适配 AI Agent 的原则:源码必须是真相或提供可编程访问路径(如 MCP/CLI),Agent 需能通过类型、测试、Linter 自检,AGENTS.md 应精简只写项目特有信息而非通用常识,以及通过自动化实现持续改进。他以 Cursor 官网从 CMS 迁回 Markdown 为例,说明移除抽象层后 Agent 效率显著提升。这些原则旨在降低 Agent 的认知与验证成本,让 token 和人力聚焦于产品价值。
离散掩码扩散语言模型在少步解码时面临长度与质量的权衡:固定步数下,要么生成短而高质量的输出,要么生成长但重复的文本。连续去噪通过在嵌入空间联合演化所有位置来规避此问题,但大规模从头构建此类模型仍是难题。本文证明,预训练的掩码DLM可轻量适配以支持连续嵌入空间去噪:从LLaDA-8B-Instruct出发,仅用1000步继续预训练(离散随机定位DSL),将二元掩码替换为连续逐token高斯噪声作为软掩码。适配后的模型支持连续推理,在嵌入空间联合演化所有位置,并在最后一步才做出硬token承诺。在低步数(≤16次前向传播)的零样本摘要任务中,DSL-LLaDA-SDE在所有四个基准上取得最佳ROUGE-1,并大幅避免了迭代去掩码的提前终止/重复权衡。该适配还带来选择性噪声状态鲁棒性:模型能纠正被破坏的token,同时保留干净的token。对照实验表明,使用相同计算量的标准掩码扩散训练无法产生这两种行为。