全部 AI 动态 · AI 热点

6月29日

15:42

@koltregaskes@koltregaskes

精选

Nature Medicine论文对GPT-5、Gemini 2.5 Pro等前沿模型进行了医学视觉推理压力测试，通过移除图像、替换图像、调整问题格式来检验模型是否真正理解。结果显示，在标准基准上表现优异的模型在条件变化时出现推理不稳、幻觉视觉细节等问题。作者将测试框架开源，随后有人用GPT-5.5 Pro重新运行，得分从之前最好的67-70%提升至79%，约10个百分点的进步。这解决了论文发表时模型已过时的问题，使评估能随模型更新而保持时效性。

论文 GPT-5 Gemini 2.5 Pro 医学视觉推理压力测试开源

推荐理由：Nature Medicine那篇论文把模型考倒了，但作者直接把考卷开源了。后来GPT-5.5 Pro重新考，分数涨了10%！

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

11:52

AI Will@FinanceYF5

83°

开发者 Victor Taelin 测试其编写的 HVM5 交互网求值器优化效果，使用 32 个 GPT-5 agent 运行 20 小时仅获得最多 2 倍加速，Opus 4.8 运行 8 小时最多提升 34%，而 Fable 5 仅用 2 小时就实现了单个基准 1770% 的加速，其他 4 个基准超 100%，平均 22%。Fable 不仅找到了最高效的优化策略（动态模式匹配节点的垃圾回收），还发现了作者代码中一个深层 bug。Taelin 称这是他的“个人奇点时刻”，并表达了对 AI 不平等问题的担忧。

AI产品 Fable 5 HVM5 GPT-5 Opus 4.8 系统优化

推荐理由：Fable 5 用 2 小时干赢了 32 个 GPT-5 agent 跑 20 小时，做系统优化或高性能计算的开发者看完会沉默——这不仅是效率碾压，还顺手修了作者都没发现的 bug，值得点开看细节。

原文

6月2日

10:17

AI Will@FinanceYF5

一款语音Agent现在具备了GPT-5级别的推理能力，能够在说话的同时进行实时思考，实现了真正的智能交互。这一突破意味着语音助手不再只是简单响应指令，而是能像人类一样边思考边表达，大幅提升对话的自然度和深度。该进展可能改变语音交互的应用场景，从客服到个人助理都将受益。

AI产品语音Agent 推理模型 GPT-5 智能交互实时思考

推荐理由：语音Agent终于能边说话边推理了，做语音交互或智能客服的团队值得关注，这可能是体验质变的关键一步。

原文

5月19日

05:47

rohanpaul_ai@rohanpaul_ai

精选

PolyAI 发布 Raven 3.5，一个专为客服场景设计的小型语音 AI 模型，在四个客服基准测试中全面超越 GPT-5 和 Claude Sonnet 4.6，且延迟低于 300 毫秒。该研究证明了领域专用模型在特定任务上可以大幅超越百倍规模的通用模型。同时，PolyAI 推出两款新产品：ADK（代码优先的智能体开发工具包）和 PolyPhone（10 分钟将网站转为语音 AI 代理），推动企业语音 AI 从呼叫中心项目走向快速部署的基础设施。

AI模型 Raven 3.5 客服语音AI 小模型 PolyAI GPT-5

推荐理由：客服团队和语音 AI 开发者可以亲眼看到：小模型专精化路线在延迟和效果上碾压通用大模型，PolyAI 的新工具让 10 分钟部署语音代理成为现实，值得立即关注。

原文