精选理由
这篇论文测了Claude、GPT和Gemini最新版,看图能力比人强,但让它们判断图表有没有骗人,还是不行。有意思的发现。
最新研究测试了Anthropic Claude Opus 4.5、OpenAI GPT 5.2 Pro和Google Gemini 3 Flash在可视化评估上的能力。使用修改后的VLAT测试,发现这三款模型的可视化素养均超过人类平均水平。但在指令遵循方面,few-shot和chain-of-thought提示技术对提升可视化素养已无明显效果。在识别误导性可视化时,无专门提示下模型准确率偏低。结论认为LLM作为可视化评估者的能力仍需重新审视。
AI 翻译 · 中文
最新研究测试了Anthropic Claude Opus 4.5、OpenAI GPT 5.2 Pro和Google Gemini 3 Flash在可视化评估上的能力。使用修改后的VLAT测试,发现这三款模型的可视化素养均超过人类平均水平。但在指令遵循方面,few-shot和chain-of-thought提示技术对提升可视化素养已无明显效果。在识别误导性可视化时,无专门提示下模型准确率偏低。结论认为LLM作为可视化评估者的能力仍需重新审视。
As Large Language Models (LLMs) become more popular within the visualization community, researchers increasingly leverage them for diverse visualization tasks such as design guideline suggestions and visualization evalua…