全部 AI 动态 · AI 热点

6月25日

01:25

01:25

elvis@omarsar0

精选

作者完全改用语音而非文字输入与AI代理交互，发现音频描述越详细、越长，代理结果越好。他还开发了屏幕录制、截图、追踪鼠标动作和语音注释功能，帮助代理处理设计和精确开发任务。多模态提示（语音+屏幕+动作）显著提升了代理的可靠性，尽管消耗更多token。作者将这些经验制作为可复用的命令集，插入循环后效果显著改善。

技巧智能体多模态提示词工程语音交互

推荐理由：有人分享用语音+屏幕录制和多模态提示跟AI代理唠嗑，提示越啰嗦结果越靠谱，还教你怎么录屏加注释，值得试试

6月24日

05:42

05:42

LangChain@LangChainAI

LangChain发布了与Pipecat AI集成的教程，17分钟演示如何将现有LangGraph agent转变为语音agent。同时LangSmith更新了语音轨迹功能，新增内联音频播放器，无需打开新标签即可查看语音回放。该教程适合已有LangGraph agent的开发者快速接入语音交互。

技巧 LangGraph Pipecat AI LangSmith 语音交互教程

推荐理由：想让你写的LangGraph agent开口说话？这篇17分钟教程直接用pipecat_ai搞定，还顺带教你怎么用LangSmith看语音回放。

6月18日

04:03

04:03

Amjad Masad@amasad

Replit Agent 现在支持语音交互，用户可以通过说话与 AI 协作编程。该功能已在移动应用、移动网页和桌面网页端全面可用。Replit 创始人 Amasad 称这是最自然的协作方式。此前 Replit Agent 已能通过文字生成代码，语音模式进一步降低了使用门槛。

AI产品 Replit Agent 语音交互编程助手

推荐理由：你直接跟 Replit Agent 说话就能让它写代码，手机和电脑都能用，比打字快多了

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月7日

09:42

09:42

向阳乔木@vista8

Spotify 在其 App 中新增了一个 AI Agent 功能，用户可以通过语音指令让 AI 思考并找到歌曲，自动生成歌单。这一更新提升了音乐搜索和推荐的智能化水平，让用户无需手动搜索即可获得个性化歌单。该功能目前可能处于测试阶段，但标志着流媒体平台在 AI 交互上的重要尝试。

AI产品 AI Agent 语音交互音乐推荐 Spotify 流媒体

推荐理由：Spotify 用 AI Agent 简化了找歌流程，做音乐推荐或流媒体产品的团队值得关注，语音交互的体验可以直接参考。

6月6日

05:51

05:51

a16z@a16z

72°

Mira Murati 在 Bloomberg Tech Live 上指出，当前 AI 模型基于回合制交互（你讲完它再想），思考时如同“又聋又瞎”，无法感知用户沉默、打断等细微信号。她提出下一代交互模型应是“基于时间”的连续流式交互，能同时处理音频、文本、视频并实时输出，从而捕捉打断和同时说话等丰富信息。这标志着人机协作从“轮流发言”向“高带宽对话”的范式转变，可能重塑 AI 助手、语音交互和协作工具的设计逻辑。

AI产品人机协作交互模型实时对话 Mira Murati 语音交互

推荐理由：Murati 点破了当前 AI 交互的硬伤——思考时无法感知用户，做语音助手或实时协作产品的团队值得关注这个方向，它直接决定了下一代交互体验的边界。

6月4日

18:53

18:53

岚叔@lufzzliz

83°

Open-LLM-VTuber 是一个开源项目，拥有 8.9k stars 和 1.1k forks，最新版本 v1.2.1，v2 正在规划重写。它将 LLM、语音识别、TTS 和 Live2D 集成，实现用户说话后 AI 理解、回复、合成语音并驱动角色开口。支持“可打断”功能：AI 说话时用户可直接插话，前端 VAD 检测到人声即停播，后端取消当前任务并将“被打断”写入上下文。本地运行需要一定硬件基础，推荐 M 系列 Mac、Nvidia GPU 或较新的 AMD GPU（支持 ROCm 更佳），其他 GPU 或强 CPU 也可尝试。噪音处理依赖 VAD 和停麦，适合本地桌宠和 VTuber Agent 原型开发，公网或商用需自行补充鉴权、限流和测试。

AI产品开源/仓库 VTuber 语音交互 LLM Live2D

推荐理由：想做本地 AI 桌宠或 VTuber Agent 原型的开发者，这个项目把 LLM、语音和 Live2D 串成一条龙，还支持可打断对话，值得直接 fork 折腾。

6月2日

10:50

10:50

@OpenAIDevs@OpenAIDevs

OpenAI Devs 举办的 Voice Hack Night 上，@isausmanov 的“Agentic OS for a Phone”项目获得人民选择奖。这是一个以语音为先的移动操作系统，用户只需说话，智能体就能理解并跨手机执行操作。团队赢得了价值 5 万美元的 API 额度。该项目展示了语音交互与智能体结合的新方向，让手机操作更自然、更高效。

AI产品语音交互智能体移动操作系统 OpenAI API

推荐理由：语音交互+智能体操作手机，这个方向对移动端开发者、语音产品团队和智能体应用开发者都很有启发，值得关注其后续开源或产品化进展。

09:56

09:56

小互@imxiaohu

76°

在 OpenAI Voice Hack Night 上，一个团队现场演示了为手机打造的“agentic 操作系统”。其核心思路是“UI 即系统”：手机没有传统 app，所有界面由端侧本地模型实时生成，重推理则交给云端 GPT。演示中，开发者全程用语音指挥手机订机票、删日历日程、查 AI 新闻、发邮件、列待办，展示了 AI 助理的全新形态。这种模式可能颠覆苹果 App Store 的商业模式，因为所有界面都是即时生成的，无需调用任何 APP 界面。不过演示中也出现了翻车情况（发邮件因登录未配置失败），说明技术仍在早期阶段。

AI产品 AI助理 agentic操作系统语音交互即时生成UI OpenAI

推荐理由：这个 demo 展示了 AI 助理的终极形态——手机界面由 AI 实时生成，不再依赖传统 app，做产品经理或移动端开发的建议点开看看，这可能是下一代交互范式的雏形。

6月1日

00:31

00:31

berryxia@berryxia

一位开发者使用Claude模型和Three.js，在两周内通过Vibe Coding方式构建了一个实时语音交互的古代中国殿堂风格小游戏。该项目展示了AI辅助编程在快速原型开发中的潜力，尤其是结合语音交互和3D渲染的创意应用。开发者将代码和体验链接公开，供社区参考和体验。

AI产品 Vibe Coding Claude Three.js 语音交互游戏开发

推荐理由：这个项目展示了Vibe Coding在游戏原型开发中的实际落地，做实时语音交互或3D小游戏的开发者可以看看两周能做出什么。

5月31日

14:13

14:13

小互@imxiaohu

GPT-Realtime 2.0 展示了通过实时语音直接操控电脑的能力，用户无需动手即可完成操作。该演示被网友称为“真正的Siri”，并引发了对背后技术（如是否接入Codex）的讨论。这一进展意味着语音交互从简单的问答升级为真正的电脑控制，可能改变操作系统的人机交互方式。目前该功能仍处于演示阶段，但已引起广泛关注。

AI产品 GPT-Realtime 2.0 语音交互电脑操控实时AI 人机交互

推荐理由：实时语音操控电脑解决了传统语音助手只能做简单任务的痛点，做AI交互或桌面自动化的开发者值得关注这个方向。

01:51

01:51

@OpenAIDevs@OpenAIDevs

OpenAI Devs 发布了一款名为 Wagner 的多智能体虚拟会议室，专为基础设施规划场景设计。团队可以在虚拟房间中与多个 AI 智能体对话，共同讨论和优化规划方案。该工具结合了语音交互与多智能体协作，旨在提升团队沟通与决策效率。目前已在 cerebralvalley.ai 上线，支持通过 OpenAI 语音技术进行交互。

AI产品多智能体虚拟会议室基础设施规划语音交互 OpenAI

推荐理由：基础设施规划团队终于有了专属的 AI 协作工具——Wagner 让多智能体在虚拟会议室中实时参与讨论，做工程规划或项目管理的团队可以直接体验，提升方案评审效率。

01:50

01:50

@OpenAIDevs@OpenAIDevs

OpenAI 在推特上展示了一个名为“Agentic OS”的语音优先手机操作系统概念。用户可以通过语音与智能体对话，智能体能够理解指令并在手机上执行操作。这标志着 AI 从聊天工具向操作系统级交互的演进，可能改变人机交互方式。视频演示了语音驱动手机操作的全流程，但目前尚未公布具体发布日期或产品细节。

AI产品语音交互智能体手机操作系统 OpenAI Agentic OS

推荐理由：这是 AI 从工具走向操作系统的关键一步，做移动端产品、语音交互或智能体开发的团队值得关注——语音优先的 OS 可能重新定义手机使用方式。

5月21日

07:59

07:59

Sundar Pichai@sundarpichai

Google CEO Sundar Pichai 宣布，Gemini 的自然语音对话能力将扩展到更多产品。YouTube 将推出“Ask YouTube”功能，用户可以用语音搜索内容，系统会以易浏览的布局展示最匹配的视频，并直接跳转到相关部分。Docs 将推出“Docs Live”语音功能，用户可以直接口述想法，由 Gemini 自动整理。这些功能将于今年夏季上线，随后 Gmail 和 Keep 也将获得同样的语音能力。

AI产品 Gemini 语音交互 YouTube Google Docs 产品更新

推荐理由：Google 把 Gemini 的语音交互塞进 YouTube 和 Docs，做内容搜索和文档整理的效率会明显提升，视频创作者和重度文档用户值得关注。

5月17日

00:16

00:16

Geek@geekbb

精选

OpenAI 发布了一个官方示例项目，展示如何利用 Realtime API 构建一个能管理看板的会议助手。该项目演示了语音实时交互与任务流转的结合，为会议场景的产品原型提供了参考。开发者可以通过 GitHub 仓库获取代码和实现细节，快速上手类似应用的开发。

AI产品 Realtime API 会议助手看板管理语音交互开源/仓库

推荐理由：做会议工具或语音交互产品的开发者可以直接参考这个官方示例，快速理解 Realtime API 在任务管理场景的落地方式，建议点开仓库看看实现细节。

5月14日

18:29

18:29

阿里云 Alibaba Cloud@alibaba_cloud

阿里云分享了如何通过RocketMQ LiteTopic解决智能体语音交互在高并发场景下的稳定性与延迟问题。当并发量上升时，消息链路可能成为隐藏瓶颈，导致交互卡顿或失败。LiteTopic通过优化消息通道，实现了大规模下的稳定、低延迟交互。这对于构建实时语音助手、客服机器人等智能体应用至关重要。开发者可以借鉴该方案来提升自身系统的并发处理能力。

AI产品智能体语音交互消息队列阿里云 RocketMQ

推荐理由：做语音交互智能体的团队，高并发下消息链路容易成为瓶颈，RocketMQ LiteTopic 的方案值得参考，能直接提升稳定性。