全部 AI 动态 · AI 热点

6月22日

22:50

22:50

berryxia@berryxia

本教程演示如何将低成本大模型接入沉浸式翻译插件。操作步骤包括：进入沉浸式翻译设置，点击左侧“翻译服务”，右上角添加自定义翻译服务并选择“自定义AI”。填入API Key和大模型API接口地址，例如小米MiMo模型的Base URL为https://t.co/n4qZ4OEcJQ。选择对应模型或勾选“输入自定义模型名称”，测试通过后即可使用。配置完成后可在服务选项中切换使用自定义模型。

技巧沉浸式翻译 MiMo API 翻译工具教程

推荐理由：教你把免费模型塞进沉浸式翻译，跟着视频几步搞定，小米MiMo也能用，省下订阅费。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

13:55

13:55

歸藏(guizang.ai)@op7418

76°

MiMo 推出了 V2.5 Pro UltraSpeed 模型，实现每秒输出超过 1000 Token，成为全球首个达到此速度的万亿参数模型。博主归藏进行了三项测试，包括复杂 3D 游戏和官网动画生成，峰值速度达 1426 Token/s，首次响应最快仅 0.83 秒。该模型在保持高速度的同时未出现能力下降，优于此前 Groq 等方案。这种超高速推理在 Agent 场景下能显著提升效率，尤其适合并发 Sub-Agent 任务。MiMo 主要面向对效率要求极高的 To B 客户，未来有望优化成本惠及普通用户。

AI模型 MiMo 超高速推理万亿参数模型 Agent效率 3D生成

推荐理由：MiMo 把万亿参数模型的推理速度拉到 1000+ Token/s，做 Agent 和实时交互的开发者值得关注——速度提升直接缩短任务等待时间，并发场景下体验翻倍。

6月9日

20:09

20:09

Viking@vikingmute

小米发布了 MiMo-V2.5-Pro-UltraSpeed 模型，拥有 1T 参数，生成速度达到 1000 TPS。官方演示视频显示速度极快，引发关注。目前该模型开放试用申请，但用户对其实际质量存疑，因为小米此前在 AI 模型领域知名度不高。该模型在 HackerNews 上引起讨论，速度指标令人印象深刻，但最终效果仍需实测验证。

AI模型小米 MiMo 大模型推理速度 TPS

推荐理由：1T 参数模型跑出 1000 TPS 的生成速度，对追求低延迟推理的开发者来说是个值得关注的指标，建议申请试用实测质量。

17:09

17:09

歸藏(guizang.ai)@op7418

78°

MiMo 推出 V2.5 Pro UltraSpeed 模型，实现每秒输出超过 1000 Token，成为全球首个达到此速度的万亿参数模型。实测中，复杂 3D 游戏生成峰值达 1426 Token/s，32 秒输出 25624 Token。该模型在保持高推理速度的同时，未出现能力下降，适合 Agent 和并发场景。藏师傅的测试显示，其首次响应时间低至 0.83 秒，代码生成质量高。目前面向 To B 客户，成本有待优化。

AI模型 MiMo 超高速模型万亿参数推理模型 Agent场景

推荐理由：万亿参数模型跑出 1000+ Token/s 的速度，做 Agent 和实时交互的开发者可以直接体验，效率提升肉眼可见。

13:29

13:29

xiaomimimo@xiaomimimo

88°

小米与TileRT AI合作发布MiMo-V2.5-Pro-UltraSpeed，首次在1万亿参数模型上实现超过1000 tokens/s的输出速度。该突破仅使用单个标准8-GPGPU节点，无需Cerebras的晶圆级集成或Groq的纯片上SRAM芯片。技术细节已公开，并提供限时免费试用和API服务。这标志着大模型推理效率的重大飞跃，有望推动实时AI应用的普及。

AI产品小米 MiMo 推理加速大模型 GPU

推荐理由：大模型推理速度的里程碑——1T模型跑出1000+ tokens/s，做实时AI应用和推理优化的团队值得关注，可以直接申请试用体验。

5月31日

00:16

00:16

berryxia@berryxia

精选72°

小米MiMo模型近期大幅降价，背后是团队对推理系统的彻底重构。他们采用Hybrid Sliding Window Attention架构，将KVCache存储压缩至全注意力的约1/7。团队针对SWA缓存难题重新设计了KVCache管理、层级缓存和prefix-cache tree，并优化了调度策略与Prefill/Decode流水线。在真实生产流量下，有效KVCache容量提升近5倍，缓存命中率稳定在93%-95%。结合MoE配置调优和多模态推理优化，最终实现了长上下文推理成本的降低，支撑了此次降价。

AI产品小米 MiMo 推理优化 KVCache Hybrid Sliding Window Attention

推荐理由：做模型推理优化的团队值得看看——小米MiMo团队用Hybrid SWA和系统级优化把成本打下来，证明了架构落地比参数更重要，建议点开了解具体实现。

5月28日

00:16

00:16

xiaomimimo@xiaomimimo

小米宣布MiMo-V2.5系列API永久降价，最高降幅达99%，并统一所有上下文长度的定价。MiMo Token计划升级，同等价格下可用Token数量增加5-8倍，计费规则更简单透明。现有用户的Token计划积分将全部重置。MiMo-V2.5-TTS语音合成API限时免费。这些改进得益于MiMo堆栈的推理优化和服务效率提升。

AI产品 API降价推理优化 MiMo 定价调整 Token计划

推荐理由：API价格直降99%并统一定价，做AI应用开发的团队成本压力骤减，建议立即查看新定价。