全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

17:30

17:30

腾讯混元 Tencent Hunyuan@TencentCloud

精选

腾讯云推出AI驱动的全球体育流媒体解决方案，支持4K优化和亚秒级延迟直播。该方案提供20+语言的AI实时解说和自动集锦生成，降低制作成本。全球部署3200+节点，200 Tbps带宽覆盖70+地区，实现全天候无人值守检测和SSAI精准广告货币化。

AI产品 Tencent Cloud AI体育直播 4K流媒体视频生成低延迟

推荐理由：腾讯云这个体育流媒体方案挺强的，4K画质亚秒延迟，还能自动用20种语言解说比赛，全球覆盖也广，搞直播的可以看看。

6月12日

13:10

13:10

Guillaume Lample (Mistral)@GuillaumeLample

精选73°

Guillaume Lample 宣布推出首个语音模型 Voxtral TTS，该模型在性能上达到业界领先水平，同时大幅降低成本和延迟。它采用新架构，结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告，详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展，未来将有更多音频相关成果。

AI模型语音模型 TTS 低成本低延迟 Voxtral

推荐理由：Voxtral TTS 在成本和延迟上显著优于现有方案，做语音合成或实时语音应用的开发者可以直接关注，技术报告也值得细读。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

17:27

17:27

Together AI@togethercompute

精选

DeepCogito团队需要为其前沿推理模型实现低于500毫秒的首令牌时间，并支持每分钟1000+请求。Together AI提供了解决方案，满足了这一严苛的性能要求。DeepCogito团队分享了在创业公司时间线上构建前沿模型的经验。这展示了AI基础设施提供商如何帮助初创企业实现高性能推理。

AI产品推理模型 Together AI DeepCogito 低延迟 AI基础设施

推荐理由：做推理模型部署的团队会关心这个案例——Together AI帮DeepCogito在创业节奏下实现了500ms首令牌延迟，值得点开看看他们怎么做到的。

03:07

03:07

Patrick Loeber@patloeber

78°

Google 在 Gemini API 和 AI Studio 中推出了 Gemini 3.5 Live Translate，这是一个全新的音频模型，专注于实时翻译。它支持 70 多种语言的低延迟翻译，能自动检测多语言输入，并在单个会话中处理。该模型原生处理音频，保留语调和节奏，并具备强大的噪声过滤能力，适合嘈杂环境。目前处于公开预览阶段，开发者可通过 Gemini Live API 和 AI Studio 试用。

AI产品 Gemini 3.5 实时翻译音频模型低延迟 Google AI Studio

推荐理由：做多语言实时翻译或语音应用的开发者，终于有了一个低延迟、支持 70+ 语言且能自动检测语种的音频模型，值得在 AI Studio 上直接试玩。

6月9日

23:23

23:23

Google AI Developers@googleaidevs

精选

Gemini 3.5 Live Translate 是谷歌最新的音频模型，支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音，实现近实时的翻译输出，并具备多语言输入、自动语言检测、原生音频处理（保留语调、节奏和音高）以及噪声鲁棒性（在嘈杂环境中过滤背景噪音）等特点。开发者可利用该模型构建更自然的语音交互应用。

AI模型 Gemini 3.5 Live Translate Google 语音翻译多语言低延迟

推荐理由：谷歌新模型，能实时翻译70+语言

5月28日

04:47

04:47

Perplexity@perplexity_ai

72°

Perplexity AI 开源了其重构的 Unigram 分词器，该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行，CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈，尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布，供开发者使用和贡献。

AI产品 Perplexity 分词器开源/仓库 CPU优化低延迟

推荐理由：Perplexity 解决了推理管线中 CPU 分词这个容易被忽视的瓶颈，做低延迟 AI 应用或自建搜索/重排序系统的团队可以直接用这个开源方案来加速。

5月20日

04:25

04:25

Google AI Developers@googleaidevs

Google AI 发布了 Gemini 3.5 Flash 模型，其延迟经过专门调优，旨在支持实时编程场景中的“心流状态”。该模型通过 Gemini API、Antigravity、Google AI Studio 和 Android Studio 提供访问。它能在高强度编码会话中快速响应，减少等待时间，提升开发效率。这一发布标志着 Google 在 AI 辅助编程领域进一步优化了用户体验。

AI产品 Gemini 3.5 Flash 低延迟实时编程心流状态 Google AI

推荐理由：实时编程最怕打断思路，Gemini 3.5 Flash 的低延迟设计正好解决这个痛点，做高频编码的开发者可以直接在 Android Studio 里试试，体验心流状态。