01:01Vercel AI@vercelVercel 宣布其 AI Gateway 新增实时语音和转录能力,开发者可使用 useRealtime、generateSpeech 和 transcribe 三个工具。该功能基于 AI SDK 7 构建,支持实时语音交互、语音合成和语音识别。无需从零搭建基础设施,即可快速为应用加入语音代理功能。AI产品VercelAI Gatewayvoice agents语音识别实时交互推荐理由:Vercel 把语音代理直接做到 AI Gateway 里了,用 useRealtime 就能接入实时对话,省掉搭服务器。原文
00:41Paul Couvert@itsPaulAiMaineCoon 是一个支持无限时长实时交互的音视频 AI 模型,用户可即时与虚拟角色对话、接收回复。与多数仅支持文本或单次视频生成的 AI 不同,MaineCoon 实现了持续不间断的音视频在场感。该模型基于 Catnips AI 团队开发,目前已在官网 mainecoon.tech 开放体验。AI模型MaineCoon实时交互音视频模型智能体推荐理由:Catnips AI 新发布的 MaineCoon 模型能实时跟你对话、做表情,不像以前只能生成一段视频完事。原文
23:31阿里云 Alibaba Cloud@alibaba_cloud阿里Token Hub业务集团升级了HappyOyster 1.0,推出冒险(Adventure)与导演(Directing)两种新模式。新版本支持更丰富的环境交互、扩展玩家控制以及可回溯的剧情线,用于游戏、互动剧、直播和文旅场景。该模型由阿里云旗下ATH团队开发,旨在提升沉浸式体验。AI模型HappyOysterAlibaba实时交互游戏AI互动剧推荐理由:阿里新出的HappyOyster 1.0,能让你在游戏和互动剧里回溯剧情、控制场景,比之前版本多了两种玩法模式。原文
23:23IT之家(博客/媒体)阿里云6月17日发布HappyOyster 1.0(快乐生蚝1.0),支持一句话生成可实时交互的数字世界。该产品基于原生多模态架构,能推演物理因果链并保持人物与环境长程一致性。不同于传统“写prompt等渲染”的流程,用户可实时输入指令,画面即时响应。目前官网开放“实时导演”和“世界探索”两种玩法,支持虚拟男友互动、短剧剧情改写、开放世界移动等功能。2025年4月16日起开放内测,至7月17日官网可领取体验积分。AI产品HappyOyster阿里云快乐生蚝世界模型实时交互推荐理由:阿里云搞了个好玩的:一句话就能生成能边玩边改的动态世界,像游戏一样探索,还能和虚拟男友实时互动,快去体验。原文
00:59AK@_akhaliqJoyAI发布了JoyAI-VL-Interaction模型,这是一个实时视觉语言交互智能系统。该模型支持实时视觉理解与语言生成,能够处理视频帧序列并生成自然语言响应。目前尚未公布具体基准测试成绩或版本号。AI模型JoyAI-VL-InteractionJoyAI多模态实时交互推荐理由:JoyAI出了个能实时看懂画面并跟你聊天的模型,适合做交互式AI应用。原文
12:44John Schulman@johnschulman2精选Thinky 团队分享了全双工多模态模型的研究成果,该模型支持实时、自然的交互,同时不牺牲智能水平。创始人 John Schulman 指出,人机协作能力在 AI 领域常被低估,因为其评估难度高于智能或自主性。他们认为未来每个 AI 系统都将以交互模型作为面向用户的外层,持续了解用户意图并保持信息同步。这项技术有望推动 AI 从单向输出转向双向对话式协作。AI模型全双工多模态模型实时交互人机协作Thinky推荐理由:全双工交互解决了 AI 对话中“你说我听”的延迟感,做实时语音/视频助手或协作工具的团队可以直接参考——Thinky 把自然交互和智能水平平衡好了。原文
12:33Mira Murati (TML)@miramuratiMira Murati 在X上发文强调,协作AI的核心在于实时交互,机器与人需跨所有模态协同工作。她指出解决这一挑战需要社区共同努力,并邀请大家加入。这反映了AI发展从单机智能向人机协作生态的转变,强调多模态实时交互的重要性。行业协作AI实时交互多模态人机协作Mira Murati推荐理由:关注人机协作未来的开发者,这条信息点明了AI的下一个关键方向——实时多模态交互,值得思考如何参与其中。原文
12:30Mira Murati (TML)@miramurati精选OpenAI 宣布正在开发一种全新的交互模型,该模型从零开始训练,原生支持实时交互,而非像传统模型那样将实时功能附加到回合制模型上。这意味着模型可以更自然地处理对话中的打断、停顿和同时发言,提升交互流畅度。这一方向可能改变语音助手、客服机器人等实时对话场景的体验。目前该工作仍处于研究阶段,具体发布时间未定。AI模型实时交互OpenAI语音助手对话模型交互模型8 个信源在谈推荐理由:做语音交互或实时对话产品的团队值得关注——原生实时模型能解决当前 AI 对话中“等说完才能回应”的痛点,直接提升用户体验。原文
14:48AI Will@FinanceYF576°前 OpenAI CTO Mira Murati 在 Bloomberg Tech Live 上指出,当前 AI 模型是回合制交互——用户说完后模型才思考,思考期间对外界“又聋又盲”。她认为未来人机协作需要时间基交互,模型能持续接收音频、文本、视频并实时输出,捕捉打断、同时说话等细微信号,实现高带宽互动。这一观点挑战了现有对话式 AI 的设计范式,强调更自然、更丰富的人机协作体验。AI产品人机协作实时交互Mira Murati对话式AI交互模型10 个信源在谈推荐理由:Mira Murati 点出了当前 AI 交互的根本局限——思考时“失聪失明”,做对话产品、语音助手或实时协作工具的团队,看完会重新思考产品架构。原文
19:15Decoder@Jonathan Kemper78°一款名为 Audio Interaction 的新型开源语音模型发布,它能够持续监听音频流,并每 0.4 秒决定是否说话或保持沉默,无需等待录音结束。该模型支持翻译、转录、聊天以及识别日常噪音(如咳嗽),实现了真正的实时交互。与 GPT-4o 或 Qwen3.5-Omni 不同,它在一个流中处理所有任务。代码、模型权重和下载说明已在 GitHub 上以 Apache 2.0 开源许可证发布,训练数据也将随后提供。AI模型开源/仓库语音模型实时交互Audio InteractionApache 2.0推荐理由:这款模型解决了实时语音交互中“等待录音结束”的痛点,做语音助手或实时翻译的开发者可以直接在 GitHub 上试玩,体验每 0.4 秒的决策能力。原文
06:43HeyGen@HeyGen_Official76°HeyGen 将一个 AI 化身部署在 Twitch 上,实现 24/7 不间断直播。观众可以在聊天中发送 GitHub 仓库链接,AI 化身会自动打开链接、审查代码、吐槽糟糕的设计决策,并实时自主操作浏览器。这一实验展示了 AI 在代码审查和实时交互方面的潜力,也引发了关于 AI 幽默感和开发者体验的讨论。AI产品AI 化身代码审查Twitch 直播HeyGen实时交互推荐理由:做开源项目或代码审查的开发者,可以围观 AI 如何实时吐槽你的代码——既有趣又能反思设计,建议去直播间看看。原文
05:21Google AI Developers@googleaidevsGoogle Magenta 项目发布了 Magenta RealTime 2 (MRT2),一个开源的实时音乐生成模型。该模型支持通过 MIDI 键盘、实时文本提示甚至手势进行控制,延迟低于 200 毫秒,可在 MacBook 上原生运行。MRT2 提供了开源权重、开源推理引擎以及配套的应用和插件,让用户像演奏乐器一样与 AI 互动创作音乐。这标志着 AI 音乐生成从离线工具向实时交互乐器的重要转变。AI产品Google MagentaMRT2音乐生成开源/仓库实时交互推荐理由:音乐创作者和 AI 爱好者现在可以像弹奏乐器一样实时与模型互动,延迟低至 200ms,直接上手试试开源权重和插件。原文
10:17AI Will@FinanceYF5GPT Realtime 2.0 的发布被评价为“相当惊人”,因为它解锁了6个月前完全无法实现的17个创业方向。这些想法完全依赖该模型的实时交互能力,涵盖语音、视频、多模态等场景。该模型大幅降低了实时AI应用的开发门槛,可能引发新一轮创业浪潮。对于关注AI产品落地的创业者和开发者,这是值得深入研究的信号。AI产品GPT Realtime 2.0创业实时交互多模态语音AI1 个信源在谈推荐理由:GPT Realtime 2.0 把实时AI应用的可行性推到了新高度,做语音/视频交互产品的创业者可以从中找到17个具体方向,建议直接点开看想法列表。原文
08:05LangChain@LangChainAI精选LangChain 发布新的流式协议,旨在解决 Agent 流式输出中工具、状态、子代理、媒体、中断和重连等复杂场景的解析难题。传统流式方案依赖原始事件流,开发者需手动解析大量日志,效率低下。新协议将 Agent 运行转化为类型化投影,应用可直接订阅,大幅降低开发复杂度。该协议特别适合需要实时渲染多模态 Agent 输出的应用场景。AI产品LangChain流式协议Agent开发者工具实时交互推荐理由:Agent 流式输出一直是个痛点,LangChain 的新协议让开发者不再需要手动解析原始事件流,做 Agent 应用或实时交互界面的团队可以直接用,省去大量底层工作。原文
08:00歸藏(guizang.ai)@op7418谷歌最新的视频模型 Gemini Omni 已开始向部分用户推送,标志着该模型从测试阶段进入更广泛可用阶段。Gemini Omni 支持多模态输入,包括视频、图像和文本,能够进行实时视频理解和交互。这一放量意味着更多开发者可以尝试其视频分析能力,如实时场景理解、物体识别和对话式交互。对于 AI 视频应用和实时多模态交互领域,这是一个重要进展。AI产品谷歌Gemini Omni视频模型多模态实时交互推荐理由:做视频分析和多模态应用的开发者终于可以上手测试了——Gemini Omni 的实时视频理解能力可能改变视频交互方式,建议有相关需求的团队尽早体验。原文
02:34rohanpaul_ai@rohanpaul_ai78°OpenBMB 发布 MiniCPM-o 4.5,一个 9B 参数的全双工多模态模型,能同时看、听、说。它基于 Omni-Flow 框架,将交互视为连续时间流,打破传统轮询式对话,实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B,且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。AI模型MiniCPM-o 4.5全双工多模态开源/仓库实时交互推荐理由:做多模态 AI 交互的开发者终于有了可部署的全双工开源方案——MiniCPM-o 4.5 把实时语音视频对话从概念变成 9B 模型,值得直接上手试。原文
09:11Runway ML@runwayml70°Runway推出Characters功能,可将单张图片转化为实时视频智能体,以24帧/秒的HD画质流式输出,端到端延迟仅1.75秒。该技术实现了从静态图像到表情丰富、可对话视频的即时转换,标志着视频生成进入实时交互阶段。这一突破将推动虚拟角色、直播和客户服务等场景的AI应用。AI产品视频生成智能体实时交互Runway推荐理由:Runway Characters将视频生成延迟降至1.75秒,实现实时交互,为AI视频智能体在对话和直播领域的落地提供了关键技术基础。原文
18:00Ethan Mollick@emollickOpenAI推出了gpt-realtime-2语音模型,该模型原生处理语音而非转录为文本,因此模型本身的智能水平至关重要。旧版语音模型相当于GPT-4o水平,而新版被形容为“更聪明”,但OpenAI未提供任何基准测试数据。此举意味着语音交互体验将显著提升,但缺乏具体指标也引发了对透明度的讨论。AI模型语音模型gpt-realtime-2OpenAI实时交互2 个信源在谈推荐理由:gpt-realtime-2的发布表明OpenAI在语音AI领域持续迭代,直接提升交互体验。但由于缺乏基准对比,开发者需自行评估其实际性能。原文