11:59arXiv cs.AI@Haimin Hu该论文提出了一种基于共形预测的算法,用于验证交互式机器人中信念空间安全过滤器(BeliefSF)的高概率安全性。传统安全过滤器仅考虑物理空间,而BeliefSF在运行时结合推理主动降低机器人对人行为的不确定性,从而减少过滤的保守性。然而,由于运行时推理误差和神经网络近似的高维性,提供形式化安全保证极具挑战。作者通过聚焦于推理可靠区域进行验证,保留了共形预测的简单性和样本复杂度,同时显著降低了安全过滤器的保守性。在模拟人车交互基准测试中,该方法比标准共形预测基线验证了更宽松的安全过滤器。论文安全过滤器共形预测人机交互信念空间机器人安全推荐理由:做交互式机器人安全验证的团队终于有了兼顾宽松性和形式化保证的方法——BeliefSF结合共形预测,在减少保守性的同时保持样本效率,做自动驾驶或人机协作的开发者值得关注。原文
19:12arXiv cs.AI@Eric Bigelow, Raphaël Sarfati, Daniel Wurgaft, Owen Lewis, Thomas McGrath, Jack Merullo, Atticus Geiger, Ekdeep Singh Lubana精选该研究提出大语言模型(LLM)的上下文学习可视为在低维几何空间(概念信念空间)中的轨迹更新。通过故事理解任务,结合行为与表征分析发现:信念更新在低维结构化流形上可被良好描述;模型行为与内部表征一致反映该结构,且可用简单线性探针解码预测行为;对表征的干预能因果性地引导信念轨迹,效果可从概念空间几何预测。该工作为 LLM 的贝叶斯解释提供了结构化几何基础。论文上下文学习信念空间几何表征可解释性贝叶斯推理推荐理由:这项研究把 LLM 上下文学习的黑箱过程可视化成了几何轨迹,做可解释性、推理机制或认知建模的研究者值得关注——它提供了干预模型信念的实操方法,看完会有启发。原文