10:03arXiv: Anthropic@Christian Seto, Jacqueline Nguyen, Jiayi Hong, Ross Maciejewski最新研究测试了Anthropic Claude Opus 4.5、OpenAI GPT 5.2 Pro和Google Gemini 3 Flash在可视化评估上的能力。使用修改后的VLAT测试,发现这三款模型的可视化素养均超过人类平均水平。但在指令遵循方面,few-shot和chain-of-thought提示技术对提升可视化素养已无明显效果。在识别误导性可视化时,无专门提示下模型准确率偏低。结论认为LLM作为可视化评估者的能力仍需重新审视。论文ClaudeGPTGeminiLLM可视化素养10 个信源在谈推荐理由:这篇论文测了Claude、GPT和Gemini最新版,看图能力比人强,但让它们判断图表有没有骗人,还是不行。有意思的发现。原文