全部 AI 动态 · AI 热点

6月30日

10:06

10:06

arXiv cs.LG@Abhranil Chandra, Sankaran Vaidyanathan, Utsav Dhanuka, Varun Gandhi, Scott Niekum

HExA是一个无需训练的上下文学习框架，让LLM通过主动实验设计、迭代优化和技能库复用来解决新颖领域的长时任务。在Interphyre基准（基于PHYRE 2D物理环境）上，Claude Sonnet 4.6原本只有2%的成功率，而HExA将其提升至77%。HExA还优于ReAct和Reflexion等基线，并支持开源模型。仅使用从简单关卡学到的技能转移，HExA在新关卡上也能达到44%成功率，证明技能可复用。

论文 HExA Claude Sonnet 4.6 Interphyre 智能体推理模型

推荐理由：Claude 4.6在困难物理任务上从2%蹿到77%，全靠HExA这个主动实验框架。不用复杂训练，自己试错学技能，还能跨任务迁移。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？