AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:推理深度×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
11:17
11:17arXiv cs.AI@Sanjay Basu
精选
研究者标注313个MedAlign EHR问答对的四层跃点分类,评估301个问题。三个模型(Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05)准确率随跃点增加单调下降:Claude从30.6%(hop=1)降至17.6%(hop=4),GPT-4o从37.8%降至14.7%,GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差,准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线,思考token使用量与跃点正相关(r=0.31)。
论文Claude SonnetGPT-4oGPT-5.4MedAlign推理深度

推荐理由:这篇论文用实验告诉你,临床AI回答EHR问题时,推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过,部署前得重点防多步推理。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录