6月29日
6月27日
6月26日
6月25日
6月23日
6月19日
6月18日
09:37
09:37arXiv: Google DeepMind@Tim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth
该研究系统审计了Physics-IQ视频物理理解基准,发现其提示质量和真实标注存在缺陷。作者提出三项改进措施,包括优化提示与真值、引入样本级评分系统,并应用六种图像到视频生成模型验证。新版Physics-IQ Verified改进了57.6%的样本和34.8%的提示,模型排名变化中度显著(Kendall's τ=0.46)。
推荐理由:DeepMind发布了Physics-IQ验证版,专门评测视频模型对物理世界的理解。现有基准有缺陷,他们修正后让模型排名更可信了。
6月17日