全部 AI 动态 · AI 热点

6月23日

10:48

10:48

arXiv cs.LG@Despina Christou, Grigorios Tsoumakas

论文对比了5个小型语言模型（360M至3B参数）在通用域和文学域关系抽取上的表现。在通用域，Qwen2.5-0.5B经过微调后达到0.83 micro-F1，超过零样本的GPT-5.4（0.69）和Claude Sonnet 4.6（0.66）。在文学域，调优后的SLM在Biographical基准上达0.92，GPT-5.4为0.83，文学均值0.833 vs 0.578。结果表明，任务特定调优的SLM可在单张消费级GPU上部署，提供准确、隐私且硬件高效的关系抽取。

AI模型 Qwen2.5-0.5B GPT-5.4 Claude Sonnet 关系抽取小语言模型

推荐理由：Qwen2.5-0.5B调优后，在关系抽取任务上干掉了GPT-5.4和Claude Sonnet，而且模型很小，单卡就能跑，适合隐私敏感场景。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:17

11:17

arXiv cs.AI@Sanjay Basu

精选

研究者标注313个MedAlign EHR问答对的四层跃点分类，评估301个问题。三个模型（Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05）准确率随跃点增加单调下降：Claude从30.6%（hop=1）降至17.6%（hop=4），GPT-4o从37.8%降至14.7%，GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差，准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线，思考token使用量与跃点正相关（r=0.31）。

论文 Claude Sonnet GPT-4o GPT-5.4 MedAlign 推理深度

推荐理由：这篇论文用实验告诉你，临床AI回答EHR问题时，推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过，部署前得重点防多步推理。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？