De-biased VLM-as-3D-Judge协议用于单图像3D生成优化

Judging to Improve: A De-biased VLM-as-3D-Judge Protocol for Single-Image 3D Generation

精选理由

这篇论文介绍了一种让AI自动评判并优化3D生成质量的方法,不用人工打标签。它把VLM评委从打分变成训练的一部分,在特定类别(家具)上达到了和强基线持平的效果,但说明了简单微调还不够。

AI 摘要

该论文提出了一种去偏见的、跨模型的VLM-as-3D-Judge协议,用于可靠地评估单图像到3D网格质量,弥补了传统几何和CLIP代理的不足。研究者将该评分器用于优化开源生成模型TRELLIS在特定资产类别(家具)上的表现,无需人工标注。他们使用训练评委(Qwen2.5-VL-7B)和评估评委(InternVL3-8B)分离以避免循环,并修复了图像过载、几何隐藏渲染和无参考评分等三种失败模式。实验表明,在轻度参数高效适应下,该方法与强基线持平(胜率0.50),但无法超过65%的胜率目标,且发现干净输入会饱和评委。

AI 翻译 · 中文

该论文提出了一种去偏见的、跨模型的VLM-as-3D-Judge协议,用于可靠地评估单图像到3D网格质量,弥补了传统几何和CLIP代理的不足。研究者将该评分器用于优化开源生成模型TRELLIS在特定资产类别(家具)上的表现,无需人工标注。他们使用训练评委(Qwen2.5-VL-7B)和评估评委(InternVL3-8B)分离以避免循环,并修复了图像过载、几何隐藏渲染和无参考评分等三种失败模式。实验表明,在轻度参数高效适应下,该方法与强基线持平(胜率0.50),但无法超过65%的胜率目标,且发现干净输入会饱和评委。

arXiv cs.LGA companion study established a de-biased, cross-model VLM-as-3D-judge that reliably ranks single-image-to-3D mesh quality where cheap geometry and CLIP proxies fall short. This paper asks: can that judge's preferences s