15:42@koltregaskes@koltregaskes精选Nature Medicine论文对GPT-5、Gemini 2.5 Pro等前沿模型进行了医学视觉推理压力测试,通过移除图像、替换图像、调整问题格式来检验模型是否真正理解。结果显示,在标准基准上表现优异的模型在条件变化时出现推理不稳、幻觉视觉细节等问题。作者将测试框架开源,随后有人用GPT-5.5 Pro重新运行,得分从之前最好的67-70%提升至79%,约10个百分点的进步。这解决了论文发表时模型已过时的问题,使评估能随模型更新而保持时效性。论文GPT-5Gemini 2.5 Pro医学视觉推理压力测试开源推荐理由:Nature Medicine那篇论文把模型考倒了,但作者直接把考卷开源了。后来GPT-5.5 Pro重新考,分数涨了10%!原文
10:49IT之家(博客/媒体)前英国政府数据科学家Liam Wilkinson用76个MCP工具将Claude、GPT-5、Gemini等四个AI模型投入《文明VI》进行23局测试。Claude在游戏中研发核弹摧毁法国城市图卢兹,但法国以20外交分获胜。AI主动检查全局状态的行为仅占1-2%,且48%-66%的计划在10回合内未执行。GPT-5在GovBench选择题中获99.26分,但在游戏中表现不佳。实验暴露了scaling law无法解决的感知盲区和知行差距问题。AI模型ClaudeGPT-5Gemini文明VI感知盲区推荐理由:有人让Claude、GPT-5、Gemini玩《文明VI》,结果Claude造核弹炸了法国却还是输了,暴露了AI在复杂决策中根本的感知和执行缺陷,比单纯比分数有意思多了。原文
09:40arXiv: OpenAI@Nikolaos D. Tantaroudas, Ilias Karachalios, Andrew J. McCracken论文介绍了Falco eleonorae,一个面向希腊小岛农民的双语(希腊语主、英语次)对话式AI助手。系统利用OpenAI GPT-5家族模型进行回答生成,并通过MCP工具查询本地作物、季节性日历、方言词汇等结构化数据。它支持语音输入(使用欧盟流式语音转文字服务)和图像描述(由视觉模型处理),并设计为渐进式Web应用以适应低带宽环境。作者论证,对于资源受限的农村部署,这种托管式检索增强方案比自托管模型更可靠且更易实现。论文Falco eleonoraeGPT-5MCP/工具多模态RAG5 个信源在谈推荐理由:OpenAI的GPT-5给希腊农民做了个接地气的AI助手,能说方言、看图、查作物日历,比通用聊天更实用。原文
01:08OpenAI Blog(博客/媒体)GPT-5 Pro协助免疫学家Derya Unutmaz破解了持续3年的T细胞行为之谜,为癌症和自身免疫疾病研究提供新线索。该模型通过分析复杂免疫数据,识别出此前未知的T细胞激活模式。研究成果被OpenAI以案例形式发布,展示了大模型在基础科学中的应用潜力。AI模型GPT-5OpenAI免疫学T细胞科研应用9 个信源在谈推荐理由:OpenAI用GPT-5 Pro帮科学家搞定了3年没解的免疫难题,不是画饼是真能干活,科研党可以看看怎么用的。原文
10:41arXiv: Anthropic@Elias Lumer, Sahil Sen, Kevin Paul, Vamse Kumar Subbiah精选本文提出 Recursive Agent Harness (RAH) 概念,将递归从模型调用扩展到完整智能体框架,包含文件系统、代码执行和规划能力。在长上下文推理任务上,RAH 在 GPT-5 骨干上比 Codex 基线提升近 10 个百分点(71.75% → 81.36%),使用 Claude Sonnet 4.5 时达到 89.77%。该方法通过父智能体生成可执行脚本并行启动子智能体,结合结构化函数调用处理细粒度任务,为生产级编码智能体提供了新范式。论文递归智能体长上下文推理智能体框架编码智能体GPT-5推荐理由:RAH 解决了长上下文推理中智能体扩展性的核心瓶颈,做复杂编码任务或智能体系统的开发者可以直接参考其设计思路,效果提升显著。原文
11:52AI Will@FinanceYF583°开发者 Victor Taelin 测试其编写的 HVM5 交互网求值器优化效果,使用 32 个 GPT-5 agent 运行 20 小时仅获得最多 2 倍加速,Opus 4.8 运行 8 小时最多提升 34%,而 Fable 5 仅用 2 小时就实现了单个基准 1770% 的加速,其他 4 个基准超 100%,平均 22%。Fable 不仅找到了最高效的优化策略(动态模式匹配节点的垃圾回收),还发现了作者代码中一个深层 bug。Taelin 称这是他的“个人奇点时刻”,并表达了对 AI 不平等问题的担忧。AI产品Fable 5HVM5GPT-5Opus 4.8系统优化10 个信源在谈推荐理由:Fable 5 用 2 小时干赢了 32 个 GPT-5 agent 跑 20 小时,做系统优化或高性能计算的开发者看完会沉默——这不仅是效率碾压,还顺手修了作者都没发现的 bug,值得点开看细节。原文
10:17AI Will@FinanceYF5一款语音Agent现在具备了GPT-5级别的推理能力,能够在说话的同时进行实时思考,实现了真正的智能交互。这一突破意味着语音助手不再只是简单响应指令,而是能像人类一样边思考边表达,大幅提升对话的自然度和深度。该进展可能改变语音交互的应用场景,从客服到个人助理都将受益。AI产品语音Agent推理模型GPT-5智能交互实时思考推荐理由:语音Agent终于能边说话边推理了,做语音交互或智能客服的团队值得关注,这可能是体验质变的关键一步。原文
14:05arXiv: DeepSeek@Anika Tabassum, Md Sifat Hossain, Md. Fahim Arefin, Tariqul Islam, Tarannum Shaila Zaman精选72°A-ProS 是一个自主 AI 智能体,通过混合多模型反馈框架解决竞争编程问题,将解决方案生成与专门调试分离。它结合了 ChatGPT 生成器(GPT-4 和 GPT-5)与三个调试批评模型:Codestral-2508、Llama-3.3-70B 和 DeepSeek-R1,采用 2x3 因子设计。在 367 个 ICPC 世界总决赛(2011-2024)和 Codeforces(评级 1200-1800)问题上的评估显示,GPT-5 工作流经过三轮优化后,初始接受解决方案从 39 个提升到 85-90 个,GPT-4 从 15 个提升到 31-38 个。控制消融实验表明,有状态优化比无状态方法性能提升 8.5-10.6 个百分点,重复失败减少高达 3.5 倍。与基线智能体循环相比,A-ProS 的增益超过 2 倍,凸显了持久上下文和多模型反馈对于可靠自主程序合成的重要性。论文自主编程多模型反馈竞争编程GPT-5调试智能体推荐理由:竞争编程开发者终于有了一个能可靠迭代的 AI 助手——A-ProS 通过多模型反馈将 GPT-5 的初始通过率提升 2 倍以上,做算法竞赛或自动化代码生成的团队可以直接参考其架构设计。原文
05:47rohanpaul_ai@rohanpaul_ai精选PolyAI 发布 Raven 3.5,一个专为客服场景设计的小型语音 AI 模型,在四个客服基准测试中全面超越 GPT-5 和 Claude Sonnet 4.6,且延迟低于 300 毫秒。该研究证明了领域专用模型在特定任务上可以大幅超越百倍规模的通用模型。同时,PolyAI 推出两款新产品:ADK(代码优先的智能体开发工具包)和 PolyPhone(10 分钟将网站转为语音 AI 代理),推动企业语音 AI 从呼叫中心项目走向快速部署的基础设施。AI模型Raven 3.5客服语音AI小模型PolyAIGPT-5推荐理由:客服团队和语音 AI 开发者可以亲眼看到:小模型专精化路线在延迟和效果上碾压通用大模型,PolyAI 的新工具让 10 分钟部署语音代理成为现实,值得立即关注。原文
21:36Simon Willison’s Weblog(博客/媒体)LLM 命令行工具发布 0.32a2 版本,核心更新是支持 OpenAI 最新的 /v1/responses 端点,替代旧的 /v1/chat/completions。这意味着 GPT-5 等推理模型可以在工具调用时展示推理过程,用户运行提示时能看到彩色推理 token。新增 -R 或 --hide-reasoning 参数可隐藏推理输出。该版本还包含其他多项改进,适合使用 LLM 与 OpenAI 模型交互的开发者。AI产品LLMOpenAI推理模型命令行工具GPT-52 个信源在谈推荐理由:LLM 用户终于能直观看到 GPT-5 等模型的推理过程了,做 AI 工具链和命令行调用的开发者值得升级体验。原文