AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:GPT-5×
6月29日
15:42
15:42@koltregaskes@koltregaskes
精选
Nature Medicine论文对GPT-5、Gemini 2.5 Pro等前沿模型进行了医学视觉推理压力测试,通过移除图像、替换图像、调整问题格式来检验模型是否真正理解。结果显示,在标准基准上表现优异的模型在条件变化时出现推理不稳、幻觉视觉细节等问题。作者将测试框架开源,随后有人用GPT-5.5 Pro重新运行,得分从之前最好的67-70%提升至79%,约10个百分点的进步。这解决了论文发表时模型已过时的问题,使评估能随模型更新而保持时效性。
论文GPT-5Gemini 2.5 Pro医学视觉推理压力测试开源

推荐理由:Nature Medicine那篇论文把模型考倒了,但作者直接把考卷开源了。后来GPT-5.5 Pro重新考,分数涨了10%!
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月10日
11:52
11:52AI Will@FinanceYF5
83°
开发者 Victor Taelin 测试其编写的 HVM5 交互网求值器优化效果,使用 32 个 GPT-5 agent 运行 20 小时仅获得最多 2 倍加速,Opus 4.8 运行 8 小时最多提升 34%,而 Fable 5 仅用 2 小时就实现了单个基准 1770% 的加速,其他 4 个基准超 100%,平均 22%。Fable 不仅找到了最高效的优化策略(动态模式匹配节点的垃圾回收),还发现了作者代码中一个深层 bug。Taelin 称这是他的“个人奇点时刻”,并表达了对 AI 不平等问题的担忧。
AI产品Fable 5HVM5GPT-5Opus 4.8系统优化

推荐理由:Fable 5 用 2 小时干赢了 32 个 GPT-5 agent 跑 20 小时,做系统优化或高性能计算的开发者看完会沉默——这不仅是效率碾压,还顺手修了作者都没发现的 bug,值得点开看细节。
原文
6月2日
10:17
10:17AI Will@FinanceYF5
一款语音Agent现在具备了GPT-5级别的推理能力,能够在说话的同时进行实时思考,实现了真正的智能交互。这一突破意味着语音助手不再只是简单响应指令,而是能像人类一样边思考边表达,大幅提升对话的自然度和深度。该进展可能改变语音交互的应用场景,从客服到个人助理都将受益。
AI产品语音Agent推理模型GPT-5智能交互实时思考

推荐理由:语音Agent终于能边说话边推理了,做语音交互或智能客服的团队值得关注,这可能是体验质变的关键一步。
原文
5月19日
05:47
05:47rohanpaul_ai@rohanpaul_ai
精选
PolyAI 发布 Raven 3.5,一个专为客服场景设计的小型语音 AI 模型,在四个客服基准测试中全面超越 GPT-5 和 Claude Sonnet 4.6,且延迟低于 300 毫秒。该研究证明了领域专用模型在特定任务上可以大幅超越百倍规模的通用模型。同时,PolyAI 推出两款新产品:ADK(代码优先的智能体开发工具包)和 PolyPhone(10 分钟将网站转为语音 AI 代理),推动企业语音 AI 从呼叫中心项目走向快速部署的基础设施。
AI模型Raven 3.5客服语音AI小模型PolyAIGPT-5

推荐理由:客服团队和语音 AI 开发者可以亲眼看到:小模型专精化路线在延迟和效果上碾压通用大模型,PolyAI 的新工具让 10 分钟部署语音代理成为现实,值得立即关注。
原文
精选全部日报登录