09:40arXiv: OpenAI@Nikolaos D. Tantaroudas, Ilias Karachalios, Andrew J. McCracken论文介绍了Falco eleonorae,一个面向希腊小岛农民的双语(希腊语主、英语次)对话式AI助手。系统利用OpenAI GPT-5家族模型进行回答生成,并通过MCP工具查询本地作物、季节性日历、方言词汇等结构化数据。它支持语音输入(使用欧盟流式语音转文字服务)和图像描述(由视觉模型处理),并设计为渐进式Web应用以适应低带宽环境。作者论证,对于资源受限的农村部署,这种托管式检索增强方案比自托管模型更可靠且更易实现。论文Falco eleonoraeGPT-5MCP/工具多模态RAG5 个信源在谈推荐理由:OpenAI的GPT-5给希腊农民做了个接地气的AI助手,能说方言、看图、查作物日历,比通用聊天更实用。原文
10:41arXiv: Anthropic@Elias Lumer, Sahil Sen, Kevin Paul, Vamse Kumar Subbiah精选本文提出 Recursive Agent Harness (RAH) 概念,将递归从模型调用扩展到完整智能体框架,包含文件系统、代码执行和规划能力。在长上下文推理任务上,RAH 在 GPT-5 骨干上比 Codex 基线提升近 10 个百分点(71.75% → 81.36%),使用 Claude Sonnet 4.5 时达到 89.77%。该方法通过父智能体生成可执行脚本并行启动子智能体,结合结构化函数调用处理细粒度任务,为生产级编码智能体提供了新范式。论文递归智能体长上下文推理智能体框架编码智能体GPT-5推荐理由:RAH 解决了长上下文推理中智能体扩展性的核心瓶颈,做复杂编码任务或智能体系统的开发者可以直接参考其设计思路,效果提升显著。原文
14:05arXiv: DeepSeek@Anika Tabassum, Md Sifat Hossain, Md. Fahim Arefin, Tariqul Islam, Tarannum Shaila Zaman精选72°A-ProS 是一个自主 AI 智能体,通过混合多模型反馈框架解决竞争编程问题,将解决方案生成与专门调试分离。它结合了 ChatGPT 生成器(GPT-4 和 GPT-5)与三个调试批评模型:Codestral-2508、Llama-3.3-70B 和 DeepSeek-R1,采用 2x3 因子设计。在 367 个 ICPC 世界总决赛(2011-2024)和 Codeforces(评级 1200-1800)问题上的评估显示,GPT-5 工作流经过三轮优化后,初始接受解决方案从 39 个提升到 85-90 个,GPT-4 从 15 个提升到 31-38 个。控制消融实验表明,有状态优化比无状态方法性能提升 8.5-10.6 个百分点,重复失败减少高达 3.5 倍。与基线智能体循环相比,A-ProS 的增益超过 2 倍,凸显了持久上下文和多模型反馈对于可靠自主程序合成的重要性。论文自主编程多模型反馈竞争编程GPT-5调试智能体推荐理由:竞争编程开发者终于有了一个能可靠迭代的 AI 助手——A-ProS 通过多模型反馈将 GPT-5 的初始通过率提升 2 倍以上,做算法竞赛或自动化代码生成的团队可以直接参考其架构设计。原文