多模态模型正从实验室快速走向应用,各厂商密集发布支持文本、图像、视频乃至代码推理的新模型,并探索更自然的实时交互与终端部署。
当前焦点在于两个方向:一是从感官融合(文本+图像+视频)到实时交互(全双工),二是从云端大模型向终端轻量化迁移。未来值得观察:厂商能否在开放权重与闭源之间找到平衡,以及端侧模型是否能在复杂推理任务上取得突破。
多模态模型正从实验室快速走向应用,各厂商密集发布支持文本、图像、视频乃至代码推理的新模型,并探索更自然的实时交互与终端部署。
当前焦点在于两个方向:一是从感官融合(文本+图像+视频)到实时交互(全双工),二是从云端大模型向终端轻量化迁移。未来值得观察:厂商能否在开放权重与闭源之间找到平衡,以及端侧模型是否能在复杂推理任务上取得突破。