17:30腾讯混元 Tencent Hunyuan@TencentCloud精选腾讯云推出AI驱动的全球体育流媒体解决方案,支持4K优化和亚秒级延迟直播。该方案提供20+语言的AI实时解说和自动集锦生成,降低制作成本。全球部署3200+节点,200 Tbps带宽覆盖70+地区,实现全天候无人值守检测和SSAI精准广告货币化。AI产品Tencent CloudAI体育直播4K流媒体视频生成低延迟推荐理由:腾讯云这个体育流媒体方案挺强的,4K画质亚秒延迟,还能自动用20种语言解说比赛,全球覆盖也广,搞直播的可以看看。原文
13:10Guillaume Lample (Mistral)@GuillaumeLample精选73°Guillaume Lample 宣布推出首个语音模型 Voxtral TTS,该模型在性能上达到业界领先水平,同时大幅降低成本和延迟。它采用新架构,结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告,详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展,未来将有更多音频相关成果。AI模型语音模型TTS低成本低延迟Voxtral推荐理由:Voxtral TTS 在成本和延迟上显著优于现有方案,做语音合成或实时语音应用的开发者可以直接关注,技术报告也值得细读。原文
17:27Together AI@togethercompute精选DeepCogito团队需要为其前沿推理模型实现低于500毫秒的首令牌时间,并支持每分钟1000+请求。Together AI提供了解决方案,满足了这一严苛的性能要求。DeepCogito团队分享了在创业公司时间线上构建前沿模型的经验。这展示了AI基础设施提供商如何帮助初创企业实现高性能推理。AI产品推理模型Together AIDeepCogito低延迟AI基础设施推荐理由:做推理模型部署的团队会关心这个案例——Together AI帮DeepCogito在创业节奏下实现了500ms首令牌延迟,值得点开看看他们怎么做到的。原文
03:07Patrick Loeber@patloeber78°Google 在 Gemini API 和 AI Studio 中推出了 Gemini 3.5 Live Translate,这是一个全新的音频模型,专注于实时翻译。它支持 70 多种语言的低延迟翻译,能自动检测多语言输入,并在单个会话中处理。该模型原生处理音频,保留语调和节奏,并具备强大的噪声过滤能力,适合嘈杂环境。目前处于公开预览阶段,开发者可通过 Gemini Live API 和 AI Studio 试用。AI产品Gemini 3.5实时翻译音频模型低延迟Google AI Studio推荐理由:做多语言实时翻译或语音应用的开发者,终于有了一个低延迟、支持 70+ 语言且能自动检测语种的音频模型,值得在 AI Studio 上直接试玩。原文
23:23Google AI Developers@googleaidevs精选Gemini 3.5 Live Translate 是谷歌最新的音频模型,支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音,实现近实时的翻译输出,并具备多语言输入、自动语言检测、原生音频处理(保留语调、节奏和音高)以及噪声鲁棒性(在嘈杂环境中过滤背景噪音)等特点。开发者可利用该模型构建更自然的语音交互应用。AI模型Gemini 3.5 Live TranslateGoogle语音翻译多语言低延迟推荐理由:谷歌新模型,能实时翻译70+语言原文
04:47Perplexity@perplexity_ai72°Perplexity AI 开源了其重构的 Unigram 分词器,该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行,CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈,尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布,供开发者使用和贡献。AI产品Perplexity分词器开源/仓库CPU优化低延迟推荐理由:Perplexity 解决了推理管线中 CPU 分词这个容易被忽视的瓶颈,做低延迟 AI 应用或自建搜索/重排序系统的团队可以直接用这个开源方案来加速。原文
04:25Google AI Developers@googleaidevsGoogle AI 发布了 Gemini 3.5 Flash 模型,其延迟经过专门调优,旨在支持实时编程场景中的“心流状态”。该模型通过 Gemini API、Antigravity、Google AI Studio 和 Android Studio 提供访问。它能在高强度编码会话中快速响应,减少等待时间,提升开发效率。这一发布标志着 Google 在 AI 辅助编程领域进一步优化了用户体验。AI产品Gemini 3.5 Flash低延迟实时编程心流状态Google AI推荐理由:实时编程最怕打断思路,Gemini 3.5 Flash 的低延迟设计正好解决这个痛点,做高频编码的开发者可以直接在 Android Studio 里试试,体验心流状态。原文