全部 AI 动态 · AI 热点

6月25日

01:09

01:09

AWS Machine Learning Blog@Bojan Jakimovski

Loka 利用 Amazon Nova 2 Sonic 模型打造了自然且低延迟的语音代理，解决了传统机器人式助手导致客户挂断的问题。该架构将响应延迟优化至接近人类对话水平，显著降低用户等待时长。Loka 的方案减少了客服流失率并提升了品牌口碑。

技巧 Loka Amazon Nova 2 Sonic 语音代理低延迟

推荐理由：Loka 用 Amazon Nova 2 Sonic 做出了几乎没延迟的语音代理，客户不挂电话，客服成本也降了。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

17:30

17:30

腾讯混元 Tencent Hunyuan@TencentCloud

精选

腾讯云推出AI驱动的全球体育流媒体解决方案，支持4K优化和亚秒级延迟直播。该方案提供20+语言的AI实时解说和自动集锦生成，降低制作成本。全球部署3200+节点，200 Tbps带宽覆盖70+地区，实现全天候无人值守检测和SSAI精准广告货币化。

AI产品 Tencent Cloud AI体育直播 4K流媒体视频生成低延迟

推荐理由：腾讯云这个体育流媒体方案挺强的，4K画质亚秒延迟，还能自动用20种语言解说比赛，全球覆盖也广，搞直播的可以看看。

6月12日

16:13

16:13

marktechpost@Asif Razzaq

Zyphra 发布了 Zamba2-VL 系列开源视觉语言模型，包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构，在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比，Zamba2-VL 在保持竞争力的同时，将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展，尤其适合对延迟敏感的应用场景。

AI模型视觉语言模型 Mamba2 Transformer 开源/仓库低延迟

推荐理由：做视觉语言模型部署或实时推理的开发者，Zamba2-VL 的首 token 延迟优势能显著提升用户体验，值得直接尝试。

13:10

13:10

Guillaume Lample (Mistral)@GuillaumeLample

精选73°

Guillaume Lample 宣布推出首个语音模型 Voxtral TTS，该模型在性能上达到业界领先水平，同时大幅降低成本和延迟。它采用新架构，结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告，详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展，未来将有更多音频相关成果。

AI模型语音模型 TTS 低成本低延迟 Voxtral

推荐理由：Voxtral TTS 在成本和延迟上显著优于现有方案，做语音合成或实时语音应用的开发者可以直接关注，技术报告也值得细读。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

17:27

17:27

Together AI@togethercompute

精选

DeepCogito团队需要为其前沿推理模型实现低于500毫秒的首令牌时间，并支持每分钟1000+请求。Together AI提供了解决方案，满足了这一严苛的性能要求。DeepCogito团队分享了在创业公司时间线上构建前沿模型的经验。这展示了AI基础设施提供商如何帮助初创企业实现高性能推理。

AI产品推理模型 Together AI DeepCogito 低延迟 AI基础设施

推荐理由：做推理模型部署的团队会关心这个案例——Together AI帮DeepCogito在创业节奏下实现了500ms首令牌延迟，值得点开看看他们怎么做到的。

03:07

03:07

Patrick Loeber@patloeber

78°

Google 在 Gemini API 和 AI Studio 中推出了 Gemini 3.5 Live Translate，这是一个全新的音频模型，专注于实时翻译。它支持 70 多种语言的低延迟翻译，能自动检测多语言输入，并在单个会话中处理。该模型原生处理音频，保留语调和节奏，并具备强大的噪声过滤能力，适合嘈杂环境。目前处于公开预览阶段，开发者可通过 Gemini Live API 和 AI Studio 试用。

AI产品 Gemini 3.5 实时翻译音频模型低延迟 Google AI Studio

推荐理由：做多语言实时翻译或语音应用的开发者，终于有了一个低延迟、支持 70+ 语言且能自动检测语种的音频模型，值得在 AI Studio 上直接试玩。

6月9日

23:23

23:23

Google AI Developers@googleaidevs

精选

Gemini 3.5 Live Translate 是谷歌最新的音频模型，支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音，实现近实时的翻译输出，并具备多语言输入、自动语言检测、原生音频处理（保留语调、节奏和音高）以及噪声鲁棒性（在嘈杂环境中过滤背景噪音）等特点。开发者可利用该模型构建更自然的语音交互应用。

AI模型 Gemini 3.5 Live Translate Google 语音翻译多语言低延迟

推荐理由：谷歌新模型，能实时翻译70+语言

5月28日

04:47

04:47

Perplexity@perplexity_ai

72°

Perplexity AI 开源了其重构的 Unigram 分词器，该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行，CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈，尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布，供开发者使用和贡献。

AI产品 Perplexity 分词器开源/仓库 CPU优化低延迟

推荐理由：Perplexity 解决了推理管线中 CPU 分词这个容易被忽视的瓶颈，做低延迟 AI 应用或自建搜索/重排序系统的团队可以直接用这个开源方案来加速。

5月21日

09:35

09:35SuperTechFans（博客/媒体）

83°

谷歌发布了 Gemini 3.5 系列模型，其中 3.5 Flash 版本在多项基准测试中表现优异，输出速度是其他前沿模型的 4 倍，特别适合大规模多步骤代理任务。该模型已通过 Gemini 应用、Google 搜索等渠道上线，开发者可通过 Antigravity 平台和 API 使用。推测其采用混合精度（FP4/FP8）和较少活跃参数，在保持高性能的同时降低成本。这一发布标志着智能代理技术的新突破，有望推动 AI 在复杂场景中的广泛应用。

AI模型 Gemini 3.5 Flash 推理模型低延迟代理任务谷歌

推荐理由：Gemini 3.5 Flash 解决了高智能与低延迟的矛盾，做多步骤代理和编码的开发者可以直接用上，成本还更低，值得一试。

5月20日

04:25

04:25

Google AI Developers@googleaidevs

Google AI 发布了 Gemini 3.5 Flash 模型，其延迟经过专门调优，旨在支持实时编程场景中的“心流状态”。该模型通过 Gemini API、Antigravity、Google AI Studio 和 Android Studio 提供访问。它能在高强度编码会话中快速响应，减少等待时间，提升开发效率。这一发布标志着 Google 在 AI 辅助编程领域进一步优化了用户体验。

AI产品 Gemini 3.5 Flash 低延迟实时编程心流状态 Google AI

推荐理由：实时编程最怕打断思路，Gemini 3.5 Flash 的低延迟设计正好解决这个痛点，做高频编码的开发者可以直接在 Android Studio 里试试，体验心流状态。

5月15日

10:02

10:02

arXiv cs.AI@Titouan Parcollet, Shucong Zhang, Xianrui Zheng, Rogier C. van Dalen

精选

传统语音翻译系统依赖语音识别和文本翻译两个独立模块，容易产生级联错误。本文提出一种基于LLM的流式语音翻译架构，让模型不仅能输出翻译结果，还能自主判断是否已听到足够音频来输出。该系统通过输入语音与输出文本的自动对齐进行训练，在多个语言对上的翻译质量接近非流式基线，但延迟仅为1-2秒。这项研究解决了现有SpeechLLM系统无法实时流式输出的痛点，使语音翻译更适用于实时应用场景。

论文语音翻译流式处理 SpeechLLM 低延迟实时系统

推荐理由：做实时语音翻译的团队终于有了低延迟方案——延迟降到1-2秒且翻译质量不降，做会议同传或语音助手的开发者可以直接参考。

5月11日

22:18

22:18

NVIDIA AI@NVIDIAAI

70°

NVIDIA AI在X上发布推文，总结了大多数Agent系统面临的核心问题：推理与工具解析在多轮交互中漂移、KV缓存复用失效、工具触发延迟。为此，NVIDIA正通过强化Dynamo框架，使其更好支持Claude Code、OpenClaw、Codex等Agent模式。关键改进包括：稳定提示词以支持KV复用并降低首个Token生成时间（TTFT）、保留多轮推理与工具调用的交错模式、实现流式工具分发而非回合末缓冲、以及对齐真实多轮Agent运行时的行为。这篇博客详细介绍了这些基础设施问题和修复模式，对于正在构建自定义Agent栈或推理端点的开发者有直接参考价值。

AI产品 Agent 推理模型工具调用低延迟 NVIDIA Dynamo

推荐理由：推文直指当前Agent系统在基础设施层面的共性痛点，NVIDIA给出的优化路径对降低延迟、保持上下文一致性及提升工具调用实时性有实际意义。