Info-Synth：主动查询合成框架优化偏好学习

精选理由

偏好学习是许多决策系统的核心，但标注成本高。Info-Synth 解决了传统主动学习计算昂贵和反馈不可靠的问题，做推荐系统、人机交互或机器人调优的团队可以直接参考该方法来降低数据成本。

AI 摘要

该论文提出了一种名为 Info-Synth 的主动查询合成框架，用于高效学习用户偏好。传统主动学习方法依赖池评估，计算成本高，且忽略了查询反馈的可靠性差异（如相似或完全不同物品的比较会产生模糊反馈）。Info-Synth 通过连续空间中的互信息最大化目标生成最优查询，并引入置信度感知响应模型处理模糊比较。此外，论文还提出了 Pair M-dist 和 Pair Opt-dist 两种策略，用于在有限查询池中高效选择查询。实验在合成偏好学习、文本摘要和机器人控制器调优等任务中验证了该方法的有效性。

AI 翻译 · 中文

arXiv cs.LGEfficient learning of user preferences is crucial for many modern decision making systems but typically requires costly labeled data. Active learning reduces this cost, yet standard methods are computationally expensive …

阅读原文