图像编辑领域近期迎来多项技术突破,竞争格局加速演变。微软发布的MAI-Image-2.5模型成为焦点,其在多项基准测试中表现亮眼:据OpenRouter报道,该模型在图像生成与编辑排行榜上登顶(OpenRouter),而lmarena.ai则指出其在图像编辑竞技场位列第二,仅次于GPT-Image-2(lmarena.ai)。此外,微软官方展示的模型自生成宣传图强调其照片级真实感(Microsoft AI),Paul Couvert评论其单图编辑能力已超越Nano Banana 2(Paul Couvert)。
与此同时,学术界与开源社区也在推动创新。arXiv上发布的ProductWebGen提出了多模态产品网页生成基准(arXiv),而MRT(Masked Region Transformer)则面向大规模分层图像生成与编辑(AK)。ETCHR工作尝试解耦图像编辑与理解以提升多模态推理(arXiv)。此外,Black Forest Labs发布的FLUX Erase实现了可控图像擦除(Justine Moore),进一步丰富了编辑工具生态。
当前焦点集中在模型性能排名与实用化能力上:微软MAI-Image-2.5虽已占据第二位置,但与GPT-Image-2的差距仍受关注;同时,多模态生成、分层编辑及精细控制方向的新方法不断涌现。未来观察点包括:头部模型是否会有新一轮迭代、开源方案能否进一步缩小与闭源模型的差距,以及图像编辑在多模态任务中的集成应用进展。