全部 AI 动态 · AI 热点

6月29日

13:51

13:51

Together AI@togethercompute

精选

Together AI 在 X 上演示语音智能体利用屏幕交互的功能。该方案整合了语音转文本（STT）、语音合成和推理，具体使用 Parakeet 进行 STT，MiniMax Speech 2.8 处理语音，MiniMax M3 进行推理。实时系统要求堆叠每一层保持低延迟。演示展示了完整循环在 Together AI 平台上运行。

AI产品 Together AI Parakeet MiniMax Speech 2.8 MiniMax M3 语音智能体

推荐理由：Together AI 搞了个语音智能体 demo，能边看屏幕边说话，用了 Parakeet、MiniMax Speech 2.8 和 M3，实时性很强。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

13:13

13:13

Together AI@togethercompute

精选

Together AI的Rish Bhargava在推文中指出，部署语音智能体时延迟超过500ms用户会注意到，超过1秒用户会挂断。他详细分析了整个管道，包括75ms网络延迟为何增加30%开销，以及通过共置所有组件可将延迟降至5ms。推文附有链接，可能提供更深入的技术细节。

技巧语音智能体延迟优化 Together AI 网络延迟共置部署

推荐理由：语音智能体延迟优化实战

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

20:14

20:14

ElevenLabs@elevenlabsio

欧洲最大火车订票平台 Trainline 与 ElevenLabs 合作，利用语音智能体自动化处理因列车取消或延误导致的退款流程。该智能体直接集成 Trainline 的电话系统和票务系统，能够规模化应用于更广泛的客户服务场景。此举有望大幅提升退款处理效率，减少人工客服压力，为 2700 万用户提供更快捷的体验。

AI产品语音智能体客服自动化 Trainline ElevenLabs 退款处理

推荐理由：客服自动化在交通行业落地了——Trainline 用语音智能体处理退款，做客户服务或票务系统的团队值得关注这个实际用例。

5月27日

11:13

11:13

Paul Couvert@itsPaulAi

LiveAvatar 宣布与 LiveKit、Pipecat、Agora 和 VisionAgent 集成，使得开发者只需几行代码就能为已有的语音智能体添加实时面部动画。这意味着语音助手不再只是“只闻其声”，还能拥有逼真的虚拟形象，实现更自然的交互体验。该功能将开启许多新用例，例如虚拟客服、教育辅导、社交陪伴等。对于已经构建了语音智能体的团队，现在可以快速为其增加视觉存在感，而无需更换底层技术栈。

AI产品语音智能体 LiveAvatar 实时面部动画虚拟形象集成工具

推荐理由：语音智能体终于有了“脸”，做客服、教育、社交等场景的开发者可以直接用几行代码升级交互体验，值得一试。

5月24日

10:36

10:36

Demis Hassabis@demishassabis

Garry Tan 宣布开源项目 GBrain 发布 v0.40.0 版本，基于 Gemini Live 构建语音智能体。该智能体支持大上下文、优秀工具使用和完整大脑访问，可赋予 OpenClaw/Hermes Agent 语音交互能力。Garry Tan 将其描述为“火星是朋友，金星是你的 EA”，并作为开源礼物分享。此项目展示了 Gemini Live 在语音智能体领域的实际应用潜力。

AI产品语音智能体 Gemini Live 开源/仓库 GBrain 智能体

推荐理由：语音智能体开发者可以直接用 GBrain 快速搭建基于 Gemini Live 的语音交互系统，开源且功能完整，值得一试。

5月22日

13:52

13:52

Ate-a-Pi@svpino

开发者Santiago Valdarrama发布了一个从零开始构建语音智能体的分步视频教程。他使用Claude Code编写代码，并利用AssemblyAI新推出的Voice Agent API，该API整合了语音识别、自然语言处理和语音合成等12个组件，简化了开发流程。教程展示了如何快速搭建一个功能完整的语音智能体，无需手动编写大量代码或拼接多个服务。

AI产品语音智能体 Claude Code AssemblyAI API 教程

推荐理由：想快速上手语音智能体开发的开发者，这个教程直接给你一条捷径——用Claude Code和AssemblyAI的API，省去拼接12个组件的麻烦，建议跟着视频实操一遍。

5月21日

08:01

08:01

ElevenLabs@elevenlabsio

ElevenLabs 发布了 Speech Engine，允许开发者通过一条提示词将现有的聊天智能体转换为完整的语音智能体。该引擎整合了 ElevenLabs 领先的语音合成、转录和语音编排模型，形成一个统一管道，各组件专为协同工作而优化。这意味着开发者无需从头构建语音系统，即可快速为聊天机器人添加语音交互能力。该产品旨在降低语音 AI 开发门槛，加速语音助手、客服等应用落地。

AI产品语音智能体 ElevenLabs 开发者工具语音合成提示词工程

推荐理由：做语音助手或客服机器人的开发者，现在可以用一条提示词把聊天智能体变成语音智能体，省去集成多个模型的麻烦，值得直接上手试。

07:59

07:59

ElevenLabs@elevenlabsio

ElevenLabs 宣布将阿尔伯特·爱因斯坦的语音引入平台，并推出一个基于其书面档案的智能体，能够以爱因斯坦标志性的声音进行互动。这一功能将语音智能体应用于教育领域，让用户能够与历史人物进行对话式学习，为知识传递带来全新维度。该智能体目前已在 ElevenLabs 上线，支持语音交互。

AI产品语音智能体 ElevenLabs 教育历史人物语音合成

推荐理由：做教育科技或语音交互的团队值得关注——ElevenLabs 把历史人物语音化，让学习从单向阅读变成双向对话，直接可用的场景比想象中多。

5月14日

01:10

01:10

Noam Shazeer@NoamShazeer

Google 发布了 Gemini 3.1 Flash Live 模型，专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先，支持多语言，已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体，完成复杂任务。

AI模型 Gemini 语音智能体函数调用多语言推理模型

推荐理由：语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先，做语音交互的团队可以直接上手试试。