基础模型正从通用语言/视觉领域向垂直学科和物理世界快速扩展,同时开源与闭源间的差距在缩小,但个性化、隐私等问题也逐渐浮现。
- 近期主要进展包括:
- 开源模型的能力跃升:Allen AI 的 MolmoAct 2 在开源社区下载量超 40 万次,并提供了完整代码与训练数据,展示了开源模型在动作理解任务的竞争力 (MolmoAct 2 下载超 40 万次,开源完整代码与训练数据)。同时,Ideogram 发布的 9.3B 开源图像模型在多项指标上逼近闭源水平 (Ideogram 发布 9.3B 开源图像模型,逼近闭源水平)。
- 垂直领域的基础模型涌现:NVIDIA 的 Cosmos 3 为机器人物理 AI 提供基础模型,旨在让机器人更好地理解物理世界 (NVIDIA Cosmos 3 助力机器人物理AI入门);Deep Principle 发布的 MPA 被视为材料科学领域的 AlphaFold,在 40 项工业任务上达到 SOTA (Deep Principle 发布 MPA,材料科学领域的 AlphaFold,40 项工业任务达 SOTA);Atlas H&E-TME 在组织病理分析上达到专家级精度 (Atlas H&E-TME:AI 组织分析达到病理专家级精度);Hypnos 用下一词预测学习睡眠生理学通用表征 (Hypnos:用下一词预测学习睡眠生理学通用表征)。
- 产业合作与产品集成:Apple 宣布其新基础模型与 Google Gemini 深度合作,将用于升级 Siri AI 独立应用,标志着消费电子巨头对基础模型的整合进入新阶段 (Apple 新基础模型深度合作 Google Gemini,Siri AI 登场)。
- 个性化与隐私挑战:研究提出了在极大规模下进行高效微调的方法(PEFT),百万级个性化模型可与万亿参数基础模型共存 (PEFT 新视角:百万个性化模型与万亿参数基础模型的扩展);同时,联邦学习下的基础模型个性化存在“静默失败”问题,即模型更新错误不易被察觉,对可靠部署构成威胁 (联邦学习下基础模型个性化中的“静默失败”问题)。
当前焦点集中于:基础模型如何在不同领域实现专用化与泛化能力的平衡,开源生态能否持续缩小与闭源性能差距,以及个性化部署中的隐私和可靠性问题。未来需关注行业标准、数据治理以及模型在物理世界中的安全落地。