11:12Simon Willison’s Weblog(博客/媒体)精选Simon Willison 更新了其 OpenAI WebRTC 音频会话工具,新增对 GPT-Realtime-2 模型的支持,该模型具备 GPT-5 级推理能力,知识截止日期为 2024 年 9 月 30 日。用户现在可以在浏览器中粘贴文档上下文,与模型进行基于文档内容的音频对话。该工具最初于 2024 年 12 月发布,用于测试 OpenAI 的 WebRTC 实时音频 API。技巧OpenAIWebRTCGPT-Realtime-2音频对话文档上下文6 个信源在谈推荐理由:用 GPT-Realtime-2 模型边聊边读文档原文
11:09Simon Willison@simonw开发者Simon Willison因不满OpenAI迟迟未将gpt-realtime-2语音模型集成到ChatGPT,自行升级了OpenAI-WebRTC playground工具。新工具支持gpt-realtime-2实时语音对话,并允许用户粘贴文档进行讨论。该工具在GitHub上开源,已获得2次转发和3次点赞。AI产品gpt-realtime-2OpenAIWebRTC语音对话开源工具10 个信源在谈推荐理由:自己动手用gpt-realtime-2做语音对话原文
08:05shao__meng@shao__meng精选本文介绍了如何通过 Codex 快速安装 Agora Skills,并基于它搭建一个浏览器端的实时语音 AI Agent Demo。整个过程由 Codex 自动完成,从安装到运行仅需几分钟,无需手动编码。Demo 实现了流畅的实时语音对话,响应延迟接近人与人通话水平,RTC/RTM/Conversational AI 启动在 2-3 秒内,语音输出延迟约 1 秒。Agora Skills 集成了 RTC、RTM、Conversational AI 等能力,适合快速验证语音交互场景。AI产品Voice AgentAgora SkillsCodex实时语音WebRTC推荐理由:做 Voice Agent 的开发者终于有了开箱即用的集成方案——Agora Skills 配合 Codex 几分钟就能跑通实时语音对话,延迟接近真人通话,建议做陪伴、交互类 Agent 的团队直接试。原文