LLM可视化素养已超人类，但作为评估者仍不可靠

精选理由

这篇论文测了Claude、GPT和Gemini最新版，看图能力比人强，但让它们判断图表有没有骗人，还是不行。有意思的发现。

AI 摘要

最新研究测试了Anthropic Claude Opus 4.5、OpenAI GPT 5.2 Pro和Google Gemini 3 Flash在可视化评估上的能力。使用修改后的VLAT测试，发现这三款模型的可视化素养均超过人类平均水平。但在指令遵循方面，few-shot和chain-of-thought提示技术对提升可视化素养已无明显效果。在识别误导性可视化时，无专门提示下模型准确率偏低。结论认为LLM作为可视化评估者的能力仍需重新审视。

AI 翻译 · 中文

arXiv: AnthropicAs Large Language Models (LLMs) become more popular within the visualization community, researchers increasingly leverage them for diverse visualization tasks such as design guideline suggestions and visualization evalua…

lmarena.ai06-11 19:35原文
Artificial Analysis06-12 04:48原文
Decoder06-13 10:16原文
AI Will06-11 07:28原文
歸藏(guizang.ai)06-11 08:12原文
rohanpaul_ai06-11 13:00原文
berryxia06-11 17:18原文
Claude Code: GitHub Releases06-12 01:16原文
Dylan Patel (SemiAnalysis)06-12 04:39原文
Cognition06-13 01:36原文

阅读原文