全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

16:25

16:25IT之家（博客/媒体）

精选

微信支付 AI 接入工具箱 2.0 全面支持中、英、日、韩、法等 9 种语言，全球开发者可用母语对接。2.0 版本覆盖微信支付全线产品知识，新增技术专家与金融级研发专家能力，实现报错定位修复闭环及代码质量审查。新增 CLI 动态排障，开发者可通过自然语言实时查询支付单状态，无需切换环境。文档转为 Mermaid 格式后，Token 消耗比原始 HTML 文档降低 50%，并支持自动同步官网更新。

AI产品微信支付 AI 接入工具箱支付接入多语言

推荐理由：微信支付更新了 AI 接入工具箱，现在能直接用中文等9种语言对接，Token 省一半，还加了自动排障和代码审查，开发接入更方便。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

04:32

04:32Hugging Face: Blog（博客/媒体）

ServiceNow AI 发布了一项针对前沿自动语音识别（ASR）模型在代码切换语音上的基准测试。代码切换指说话者在同一句话中混合使用两种语言，这在多语言用户中很常见。测试发现，当前最先进的ASR模型在处理这种混合语言时表现不佳，错误率显著高于单语言场景。该研究强调了构建能理解双语用户的语音代理的挑战，并提供了公开基准供开发者评估和改进模型。这对于开发面向多语言市场的语音助手和客服系统至关重要。

论文语音代理 ASR 代码切换多语言基准测试

推荐理由：做语音助手或客服系统的团队会发现，当前ASR模型在双语用户面前漏洞百出——代码切换场景的错误率远高于单语言，这个基准测试直接暴露了痛点，建议点开看看你的模型能否过关。

原文

01:33

Decoder@Matthias Bastian

Google 发布了 Gemini 3.5 Live Translate，这是一个音频模型，支持超过70种语言的实时语音翻译。系统无需等待句子结束即可连续翻译，并声称能保留说话者的语调、语速和音高。在 Google Meet 中，语言支持从5种跃升至70多种。这标志着实时翻译技术的重要进步，尤其对跨国会议和多语言沟通场景有重大影响。

AI产品实时翻译语音模型 Google Meet Gemini 3.5 多语言

推荐理由：跨国团队和频繁开会的用户终于有了靠谱的实时翻译工具——Gemini 3.5 不仅支持70+语言，还能保留说话者的语气和节奏，建议在 Google Meet 中直接体验。

原文

6月9日

23:36

23:36IT之家（博客/媒体）

76°

谷歌发布实时语音互译音频模型 Gemini 3.5 Live Translate，可自动识别70多种语言并生成保留说话者语调、语速和音高的自然翻译语音。该模型在等待上下文和即时翻译之间取得平衡，避免传统轮流翻译的尴尬停顿，仅比说话者慢几秒。即日起陆续登陆谷歌翻译App、Gemini Live API、Google AI Studio和Google Meet等产品。普通用户通过Android和iOS版谷歌翻译即可使用，Android还将推出“聆听模式”，用户可像接电话一样将手机贴耳收听翻译。

AI产品谷歌 Gemini 3.5 Live Translate 实时语音翻译多语言翻译App

推荐理由：跨语言交流的痛点终于被解决了——Gemini 3.5 Live Translate 让实时翻译不再尴尬停顿，做国际会议、多语言直播或海外业务的团队可以直接在谷歌翻译 App 里体验，建议试试。

原文

6月8日

17:03

marktechpost@Asif Razzaq

精选

微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5，这是该系列的第二代。该模型支持 43 种语言，在 Artificial Analysis 排行榜上词错误率低至 2.4%，在 FLEURS 基准测试中达到最佳精度。它引入了关键词（实体）偏置功能，可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍，1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。

AI模型语音识别微软 MAI-Transcribe-1.5 Azure AI Foundry 多语言

推荐理由：语音转文字场景的开发者终于有了微软官方的强力选项——MAI-Transcribe-1.5 在精度和速度上双双突破，做会议转录、客服质检或多语言内容处理的团队可以直接在 Azure 上试用，省去自建模型的麻烦。

原文

6月6日

15:55

marktechpost@Asif Razzaq

精选

NVIDIA发布了Nemotron 3.5 ASR，一个600M参数的流式语音识别模型。该模型采用cache-aware架构，可从单个检查点实时转录40种语言-区域。它针对低延迟场景优化，支持多种语言的实时语音转文字。

AI模型 Nemotron 3.5 ASR NVIDIA 语音识别流式模型多语言

推荐理由：600M模型转40语言实时

原文

5月21日

17:31

17:31IT之家（博客/媒体）

腾讯混元发布新一代多语言翻译模型 Hy-MT2 并正式开源，包含 1.8B、7B、30B-A3B 三种尺寸，支持 33 种语言互译及 5 种民族语言/方言互译。轻量级 1.8B 模型通过极端量化仅需 440MB 存储空间，可在苹果、高通、联发科等手机芯片上本地部署，推理速度比上一代提升 1.5 倍，且性能超越微软等主流商业 API。同步推出的腾讯 Hy 翻译小程序支持语音输入、自定义翻译风格和离线翻译，解决了弱网络场景下的翻译需求。IFMTBench 翻译指令遵循测试集也一并开源，用于评估模型对翻译风格、术语指定等指令的遵循能力。

AI模型翻译模型开源/仓库腾讯混元端侧部署多语言

推荐理由：手机端就能跑的高质量翻译模型来了，做本地化应用、离线翻译工具或移动端 AI 产品的开发者可以直接下载试用，440MB 的轻量版值得关注。

原文

5月14日

01:10

01:10IT之家（博客/媒体）

谷歌在 Android Show 上宣布推出 AI 语音听写功能 Rambler，集成于 Gboard 输入法。该功能由 Gemini 多语言模型驱动，能自动删除填充词（如“呃”“啊”），并理解句中的即时修正。Rambler 支持“代码切换”，即在同一句话中混合使用多种语言而不丢失上下文。谷歌强调该功能不会存储语音录音，结合设备端与云端处理以保护隐私。初期仅限三星 Galaxy 和谷歌 Pixel 手机在夏季上线，后续扩展至其他 Android 设备。

AI产品 Gemini 语音听写 Gboard 多语言隐私保护

推荐理由：多语言混合输入是很多用户的痛点，Rambler 用 Gemini 模型解决了跨语言听写时的上下文断裂问题，经常用语音输入或需要中英混说的用户值得关注。

原文