11:17arXiv cs.AI@Sanjay Basu精选研究者标注313个MedAlign EHR问答对的四层跃点分类,评估301个问题。三个模型(Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05)准确率随跃点增加单调下降:Claude从30.6%(hop=1)降至17.6%(hop=4),GPT-4o从37.8%降至14.7%,GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差,准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线,思考token使用量与跃点正相关(r=0.31)。论文Claude SonnetGPT-4oGPT-5.4MedAlign推理深度1 个信源在谈推荐理由:这篇论文用实验告诉你,临床AI回答EHR问题时,推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过,部署前得重点防多步推理。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
06:44Ethan Mollick@emollick精选Ethan Mollick在推文中透露,他们的实验使用了GPT-4和GPT-4o的混合模型,因为发表论文需要时间。他指出,如果使用更新的模型,尤其是最新的智能体工具,实验结果可能会更加显著。这表明AI技术的快速迭代对研究结果有重要影响,最新模型和工具能带来更大提升。论文GPT-4GPT-4o实验模型迭代智能体推荐理由:AI研究者或实验设计者注意了:模型版本差异可能显著影响结论,使用最新智能体工具能放大效果,建议在论文中明确标注模型版本。原文