全部 AI 动态 · AI 热点

6月30日

01:01

Vercel AI@vercel

Vercel 宣布其 AI Gateway 新增实时语音和转录能力，开发者可使用 useRealtime、generateSpeech 和 transcribe 三个工具。该功能基于 AI SDK 7 构建，支持实时语音交互、语音合成和语音识别。无需从零搭建基础设施，即可快速为应用加入语音代理功能。

AI产品 Vercel AI Gateway voice agents 语音识别实时交互

推荐理由：Vercel 把语音代理直接做到 AI Gateway 里了，用 useRealtime 就能接入实时对话，省掉搭服务器。

原文

6月18日

00:41

Paul Couvert@itsPaulAi

MaineCoon 是一个支持无限时长实时交互的音视频 AI 模型，用户可即时与虚拟角色对话、接收回复。与多数仅支持文本或单次视频生成的 AI 不同，MaineCoon 实现了持续不间断的音视频在场感。该模型基于 Catnips AI 团队开发，目前已在官网 mainecoon.tech 开放体验。

AI模型 MaineCoon 实时交互音视频模型智能体

推荐理由：Catnips AI 新发布的 MaineCoon 模型能实时跟你对话、做表情，不像以前只能生成一段视频完事。

原文

6月17日

23:31

阿里云 Alibaba Cloud@alibaba_cloud

阿里Token Hub业务集团升级了HappyOyster 1.0，推出冒险（Adventure）与导演（Directing）两种新模式。新版本支持更丰富的环境交互、扩展玩家控制以及可回溯的剧情线，用于游戏、互动剧、直播和文旅场景。该模型由阿里云旗下ATH团队开发，旨在提升沉浸式体验。

AI模型 HappyOyster Alibaba 实时交互游戏AI 互动剧

推荐理由：阿里新出的HappyOyster 1.0，能让你在游戏和互动剧里回溯剧情、控制场景，比之前版本多了两种玩法模式。

原文

23:23

23:23IT之家（博客/媒体）

阿里云6月17日发布HappyOyster 1.0（快乐生蚝1.0），支持一句话生成可实时交互的数字世界。该产品基于原生多模态架构，能推演物理因果链并保持人物与环境长程一致性。不同于传统“写prompt等渲染”的流程，用户可实时输入指令，画面即时响应。目前官网开放“实时导演”和“世界探索”两种玩法，支持虚拟男友互动、短剧剧情改写、开放世界移动等功能。2025年4月16日起开放内测，至7月17日官网可领取体验积分。

AI产品 HappyOyster 阿里云快乐生蚝世界模型实时交互

推荐理由：阿里云搞了个好玩的：一句话就能生成能边玩边改的动态世界，像游戏一样探索，还能和虚拟男友实时互动，快去体验。

原文

00:59

AK@_akhaliq

JoyAI发布了JoyAI-VL-Interaction模型，这是一个实时视觉语言交互智能系统。该模型支持实时视觉理解与语言生成，能够处理视频帧序列并生成自然语言响应。目前尚未公布具体基准测试成绩或版本号。

AI模型 JoyAI-VL-Interaction JoyAI 多模态实时交互

推荐理由：JoyAI出了个能实时看懂画面并跟你聊天的模型，适合做交互式AI应用。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:44

John Schulman@johnschulman2

精选

Thinky 团队分享了全双工多模态模型的研究成果，该模型支持实时、自然的交互，同时不牺牲智能水平。创始人 John Schulman 指出，人机协作能力在 AI 领域常被低估，因为其评估难度高于智能或自主性。他们认为未来每个 AI 系统都将以交互模型作为面向用户的外层，持续了解用户意图并保持信息同步。这项技术有望推动 AI 从单向输出转向双向对话式协作。

AI模型全双工多模态模型实时交互人机协作 Thinky

推荐理由：全双工交互解决了 AI 对话中“你说我听”的延迟感，做实时语音/视频助手或协作工具的团队可以直接参考——Thinky 把自然交互和智能水平平衡好了。

原文

12:33

Mira Murati (TML)@miramurati

Mira Murati 在X上发文强调，协作AI的核心在于实时交互，机器与人需跨所有模态协同工作。她指出解决这一挑战需要社区共同努力，并邀请大家加入。这反映了AI发展从单机智能向人机协作生态的转变，强调多模态实时交互的重要性。

行业协作AI 实时交互多模态人机协作 Mira Murati

推荐理由：关注人机协作未来的开发者，这条信息点明了AI的下一个关键方向——实时多模态交互，值得思考如何参与其中。

原文

12:30

Mira Murati (TML)@miramurati

精选

OpenAI 宣布正在开发一种全新的交互模型，该模型从零开始训练，原生支持实时交互，而非像传统模型那样将实时功能附加到回合制模型上。这意味着模型可以更自然地处理对话中的打断、停顿和同时发言，提升交互流畅度。这一方向可能改变语音助手、客服机器人等实时对话场景的体验。目前该工作仍处于研究阶段，具体发布时间未定。

AI模型实时交互 OpenAI 语音助手对话模型交互模型

推荐理由：做语音交互或实时对话产品的团队值得关注——原生实时模型能解决当前 AI 对话中“等说完才能回应”的痛点，直接提升用户体验。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

14:48

AI Will@FinanceYF5

76°

前 OpenAI CTO Mira Murati 在 Bloomberg Tech Live 上指出，当前 AI 模型是回合制交互——用户说完后模型才思考，思考期间对外界“又聋又盲”。她认为未来人机协作需要时间基交互，模型能持续接收音频、文本、视频并实时输出，捕捉打断、同时说话等细微信号，实现高带宽互动。这一观点挑战了现有对话式 AI 的设计范式，强调更自然、更丰富的人机协作体验。

AI产品人机协作实时交互 Mira Murati 对话式AI 交互模型

推荐理由：Mira Murati 点出了当前 AI 交互的根本局限——思考时“失聪失明”，做对话产品、语音助手或实时协作工具的团队，看完会重新思考产品架构。

原文

6月6日

19:15

Decoder@Jonathan Kemper

78°

一款名为 Audio Interaction 的新型开源语音模型发布，它能够持续监听音频流，并每 0.4 秒决定是否说话或保持沉默，无需等待录音结束。该模型支持翻译、转录、聊天以及识别日常噪音（如咳嗽），实现了真正的实时交互。与 GPT-4o 或 Qwen3.5-Omni 不同，它在一个流中处理所有任务。代码、模型权重和下载说明已在 GitHub 上以 Apache 2.0 开源许可证发布，训练数据也将随后提供。

AI模型开源/仓库语音模型实时交互 Audio Interaction Apache 2.0

推荐理由：这款模型解决了实时语音交互中“等待录音结束”的痛点，做语音助手或实时翻译的开发者可以直接在 GitHub 上试玩，体验每 0.4 秒的决策能力。

原文

6月5日

06:43

HeyGen@HeyGen_Official

76°

HeyGen 将一个 AI 化身部署在 Twitch 上，实现 24/7 不间断直播。观众可以在聊天中发送 GitHub 仓库链接，AI 化身会自动打开链接、审查代码、吐槽糟糕的设计决策，并实时自主操作浏览器。这一实验展示了 AI 在代码审查和实时交互方面的潜力，也引发了关于 AI 幽默感和开发者体验的讨论。

AI产品 AI 化身代码审查 Twitch 直播 HeyGen 实时交互

推荐理由：做开源项目或代码审查的开发者，可以围观 AI 如何实时吐槽你的代码——既有趣又能反思设计，建议去直播间看看。

原文

05:21

Google AI Developers@googleaidevs

Google Magenta 项目发布了 Magenta RealTime 2 (MRT2)，一个开源的实时音乐生成模型。该模型支持通过 MIDI 键盘、实时文本提示甚至手势进行控制，延迟低于 200 毫秒，可在 MacBook 上原生运行。MRT2 提供了开源权重、开源推理引擎以及配套的应用和插件，让用户像演奏乐器一样与 AI 互动创作音乐。这标志着 AI 音乐生成从离线工具向实时交互乐器的重要转变。

AI产品 Google Magenta MRT2 音乐生成开源/仓库实时交互

推荐理由：音乐创作者和 AI 爱好者现在可以像弹奏乐器一样实时与模型互动，延迟低至 200ms，直接上手试试开源权重和插件。

原文

6月2日

10:17

AI Will@FinanceYF5

GPT Realtime 2.0 的发布被评价为“相当惊人”，因为它解锁了6个月前完全无法实现的17个创业方向。这些想法完全依赖该模型的实时交互能力，涵盖语音、视频、多模态等场景。该模型大幅降低了实时AI应用的开发门槛，可能引发新一轮创业浪潮。对于关注AI产品落地的创业者和开发者，这是值得深入研究的信号。

AI产品 GPT Realtime 2.0 创业实时交互多模态语音AI

推荐理由：GPT Realtime 2.0 把实时AI应用的可行性推到了新高度，做语音/视频交互产品的创业者可以从中找到17个具体方向，建议直接点开看想法列表。

原文

5月22日

08:05

LangChain@LangChainAI

精选

LangChain 发布新的流式协议，旨在解决 Agent 流式输出中工具、状态、子代理、媒体、中断和重连等复杂场景的解析难题。传统流式方案依赖原始事件流，开发者需手动解析大量日志，效率低下。新协议将 Agent 运行转化为类型化投影，应用可直接订阅，大幅降低开发复杂度。该协议特别适合需要实时渲染多模态 Agent 输出的应用场景。

AI产品 LangChain 流式协议 Agent 开发者工具实时交互

推荐理由：Agent 流式输出一直是个痛点，LangChain 的新协议让开发者不再需要手动解析原始事件流，做 Agent 应用或实时交互界面的团队可以直接用，省去大量底层工作。

原文

5月21日

08:00

歸藏(guizang.ai)@op7418

AI产品谷歌 Gemini Omni 视频模型多模态实时交互

推荐理由：做视频分析和多模态应用的开发者终于可以上手测试了——Gemini Omni 的实时视频理解能力可能改变视频交互方式，建议有相关需求的团队尽早体验。

原文

5月18日

02:34

rohanpaul_ai@rohanpaul_ai

78°

OpenBMB 发布 MiniCPM-o 4.5，一个 9B 参数的全双工多模态模型，能同时看、听、说。它基于 Omni-Flow 框架，将交互视为连续时间流，打破传统轮询式对话，实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B，且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。

AI模型 MiniCPM-o 4.5 全双工多模态开源/仓库实时交互

推荐理由：做多模态 AI 交互的开发者终于有了可部署的全双工开源方案——MiniCPM-o 4.5 把实时语音视频对话从概念变成 9B 模型，值得直接上手试。

原文

5月13日

09:11

Runway ML@runwayml

70°

Runway推出Characters功能，可将单张图片转化为实时视频智能体，以24帧/秒的HD画质流式输出，端到端延迟仅1.75秒。该技术实现了从静态图像到表情丰富、可对话视频的即时转换，标志着视频生成进入实时交互阶段。这一突破将推动虚拟角色、直播和客户服务等场景的AI应用。

AI产品视频生成智能体实时交互 Runway

推荐理由：Runway Characters将视频生成延迟降至1.75秒，实现实时交互，为AI视频智能体在对话和直播领域的落地提供了关键技术基础。

原文

5月12日

18:00

Ethan Mollick@emollick

OpenAI推出了gpt-realtime-2语音模型，该模型原生处理语音而非转录为文本，因此模型本身的智能水平至关重要。旧版语音模型相当于GPT-4o水平，而新版被形容为“更聪明”，但OpenAI未提供任何基准测试数据。此举意味着语音交互体验将显著提升，但缺乏具体指标也引发了对透明度的讨论。

AI模型语音模型 gpt-realtime-2 OpenAI 实时交互

推荐理由：gpt-realtime-2的发布表明OpenAI在语音AI领域持续迭代，直接提升交互体验。但由于缺乏基准对比，开发者需自行评估其实际性能。

原文