AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:GPT-5.1×
6月19日
09:33
09:33arXiv: DeepSeek@Gregory Matsnev
该论文提出一种基于提示的不确定性分解方法,将动作置信度与请求不确定性分离,使智能体在任务规格模糊时主动请求澄清。作者引入WebShop-Clarification和ALFWorld-Clarification两个基准,其中50%任务故意模糊。在GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B、GPT-OSS-120B五个大模型上测试,该方法在ALFWorld-Clarification上的澄清F1比ReAct+UE提升73%,比UAM提升36%。
论文GPT-5.1DeepSeek-v3.2-expGLM-4.7Qwen3.5-35B智能体

推荐理由:这篇论文给出了一个简单实用的方法,让智能体在任务模糊时主动提问,而非盲目执行。五个大模型上都有提升,值得做Agent的同学看看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录