AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:低延迟×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
17:30
17:30腾讯混元 Tencent Hunyuan@TencentCloud
精选
腾讯云推出AI驱动的全球体育流媒体解决方案,支持4K优化和亚秒级延迟直播。该方案提供20+语言的AI实时解说和自动集锦生成,降低制作成本。全球部署3200+节点,200 Tbps带宽覆盖70+地区,实现全天候无人值守检测和SSAI精准广告货币化。
AI产品Tencent CloudAI体育直播4K流媒体视频生成低延迟

推荐理由:腾讯云这个体育流媒体方案挺强的,4K画质亚秒延迟,还能自动用20种语言解说比赛,全球覆盖也广,搞直播的可以看看。
原文
6月12日
13:10
13:10Guillaume Lample (Mistral)@GuillaumeLample
精选73°
Guillaume Lample 宣布推出首个语音模型 Voxtral TTS,该模型在性能上达到业界领先水平,同时大幅降低成本和延迟。它采用新架构,结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告,详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展,未来将有更多音频相关成果。
AI模型语音模型TTS低成本低延迟Voxtral

推荐理由:Voxtral TTS 在成本和延迟上显著优于现有方案,做语音合成或实时语音应用的开发者可以直接关注,技术报告也值得细读。
原文
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月10日
17:27
17:27Together AI@togethercompute
精选
DeepCogito团队需要为其前沿推理模型实现低于500毫秒的首令牌时间,并支持每分钟1000+请求。Together AI提供了解决方案,满足了这一严苛的性能要求。DeepCogito团队分享了在创业公司时间线上构建前沿模型的经验。这展示了AI基础设施提供商如何帮助初创企业实现高性能推理。
AI产品推理模型Together AIDeepCogito低延迟AI基础设施

推荐理由:做推理模型部署的团队会关心这个案例——Together AI帮DeepCogito在创业节奏下实现了500ms首令牌延迟,值得点开看看他们怎么做到的。
原文
03:07
03:07Patrick Loeber@patloeber
78°
Google 在 Gemini API 和 AI Studio 中推出了 Gemini 3.5 Live Translate,这是一个全新的音频模型,专注于实时翻译。它支持 70 多种语言的低延迟翻译,能自动检测多语言输入,并在单个会话中处理。该模型原生处理音频,保留语调和节奏,并具备强大的噪声过滤能力,适合嘈杂环境。目前处于公开预览阶段,开发者可通过 Gemini Live API 和 AI Studio 试用。
AI产品Gemini 3.5实时翻译音频模型低延迟Google AI Studio

推荐理由:做多语言实时翻译或语音应用的开发者,终于有了一个低延迟、支持 70+ 语言且能自动检测语种的音频模型,值得在 AI Studio 上直接试玩。
原文
6月9日
23:23
23:23Google AI Developers@googleaidevs
精选
Gemini 3.5 Live Translate 是谷歌最新的音频模型,支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音,实现近实时的翻译输出,并具备多语言输入、自动语言检测、原生音频处理(保留语调、节奏和音高)以及噪声鲁棒性(在嘈杂环境中过滤背景噪音)等特点。开发者可利用该模型构建更自然的语音交互应用。
AI模型Gemini 3.5 Live TranslateGoogle语音翻译多语言低延迟

推荐理由:谷歌新模型,能实时翻译70+语言
原文
5月28日
04:47
04:47Perplexity@perplexity_ai
72°
Perplexity AI 开源了其重构的 Unigram 分词器,该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行,CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈,尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布,供开发者使用和贡献。
AI产品Perplexity分词器开源/仓库CPU优化低延迟

推荐理由:Perplexity 解决了推理管线中 CPU 分词这个容易被忽视的瓶颈,做低延迟 AI 应用或自建搜索/重排序系统的团队可以直接用这个开源方案来加速。
原文
5月20日
04:25
04:25Google AI Developers@googleaidevs
Google AI 发布了 Gemini 3.5 Flash 模型,其延迟经过专门调优,旨在支持实时编程场景中的“心流状态”。该模型通过 Gemini API、Antigravity、Google AI Studio 和 Android Studio 提供访问。它能在高强度编码会话中快速响应,减少等待时间,提升开发效率。这一发布标志着 Google 在 AI 辅助编程领域进一步优化了用户体验。
AI产品Gemini 3.5 Flash低延迟实时编程心流状态Google AI

推荐理由:实时编程最怕打断思路,Gemini 3.5 Flash 的低延迟设计正好解决这个痛点,做高频编码的开发者可以直接在 Android Studio 里试试,体验心流状态。
原文
精选全部日报登录