精选 AI 资讯 · AI 热点

6月16日

11:17

11:17

arXiv cs.AI@Sanjay Basu

精选

研究者标注313个MedAlign EHR问答对的四层跃点分类，评估301个问题。三个模型（Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05）准确率随跃点增加单调下降：Claude从30.6%（hop=1）降至17.6%（hop=4），GPT-4o从37.8%降至14.7%，GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差，准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线，思考token使用量与跃点正相关（r=0.31）。

论文 Claude Sonnet GPT-4o GPT-5.4 MedAlign 推理深度

推荐理由：这篇论文用实验告诉你，临床AI回答EHR问题时，推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过，部署前得重点防多步推理。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月18日

06:44

06:44

Ethan Mollick@emollick

精选

Ethan Mollick在推文中透露，他们的实验使用了GPT-4和GPT-4o的混合模型，因为发表论文需要时间。他指出，如果使用更新的模型，尤其是最新的智能体工具，实验结果可能会更加显著。这表明AI技术的快速迭代对研究结果有重要影响，最新模型和工具能带来更大提升。

论文 GPT-4 GPT-4o 实验模型迭代智能体

推荐理由：AI研究者或实验设计者注意了：模型版本差异可能显著影响结论，使用最新智能体工具能放大效果，建议在论文中明确标注模型版本。