10:06arXiv cs.LG@Abhranil Chandra, Sankaran Vaidyanathan, Utsav Dhanuka, Varun Gandhi, Scott NiekumHExA是一个无需训练的上下文学习框架,让LLM通过主动实验设计、迭代优化和技能库复用来解决新颖领域的长时任务。在Interphyre基准(基于PHYRE 2D物理环境)上,Claude Sonnet 4.6原本只有2%的成功率,而HExA将其提升至77%。HExA还优于ReAct和Reflexion等基线,并支持开源模型。仅使用从简单关卡学到的技能转移,HExA在新关卡上也能达到44%成功率,证明技能可复用。论文HExAClaude Sonnet 4.6Interphyre智能体推理模型1 个信源在谈推荐理由:Claude 4.6在困难物理任务上从2%蹿到77%,全靠HExA这个主动实验框架。不用复杂训练,自己试错学技能,还能跨任务迁移。原文