精选理由
这篇论文用9490个对话数据证明,AI辅导系统在测试中的表现和实际使用差很多,学生根本不吃那套引导。做教育AI的值得看看。
该论文引入了一个评估管道,包含两个指标——聊天机器人脚手架和学生吸收率,并在9个数据集(共9490个对话)上应用,涵盖AI导师基准测试和现实部署。分析发现,基准测试假设高脚手架、高学生吸收率环境,但现实中的学生整体吸收率较低,经常绕过聊天机器人的教学框架。论文认为,绕过脚手架不一定有害,反而常突显了聊天机器人的教学框架与学生目标之间的不匹配。未来基准测试应评估聊天机器人如何导航多样化的学习情境和学生驱动的交互模式。
AI 翻译 · 中文
该论文引入了一个评估管道,包含两个指标——聊天机器人脚手架和学生吸收率,并在9个数据集(共9490个对话)上应用,涵盖AI导师基准测试和现实部署。分析发现,基准测试假设高脚手架、高学生吸收率环境,但现实中的学生整体吸收率较低,经常绕过聊天机器人的教学框架。论文认为,绕过脚手架不一定有害,反而常突显了聊天机器人的教学框架与学生目标之间的不匹配。未来基准测试应评估聊天机器人如何导航多样化的学习情境和学生驱动的交互模式。
A central pedagogical value evaluated in AI tutor benchmarks is scaffolding: guiding students through graduated steps toward a solution. Alignment and evaluation methods for embedding scaffolding behaviour into chatbots,…