AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:高效推理×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
01:49
01:49Philipp Schmid@_philschmid
78°
DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型,推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式,实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM,且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈,为高效文本生成提供了新思路。
AI模型扩散模型Gemma 4MoE高效推理开源/仓库

推荐理由:每秒 1000+ tokens 的生成速度让推理成本大幅降低,做大规模文本生成或实时应用的开发者值得关注,量化后 18GB VRAM 就能跑,门槛很低。
原文
6月4日
11:13
11:13AK@_akhaliq
精选
dMoE 是一种新型动态混合专家(Mixture of Experts)架构,通过引入可学习的块专家(Learnable Block Experts)来替代传统固定专家。该方法允许模型根据输入动态调整专家组合,提升效率和性能。实验表明,dMoE 在多个基准测试上优于标准 MoE 和密集模型,同时计算成本更低。该工作由研究团队在 Twitter 上公开,引发了社区关注。
论文dMoE混合专家模型动态架构高效推理论文

推荐理由:dMoE 解决了传统 MoE 专家固定、效率低的问题,做模型压缩和高效推理的团队值得关注,可以尝试复现或集成到自己的工作中。
原文
5月21日
08:00
08:00Poe@poe_platform
72°
Google 的最新 Flash 模型 Gemini-3.5-Flash 已在 Poe 平台上线。该模型专为快速、高效的响应设计,在编程、复杂工作流和智能体任务上表现强劲。用户可直接通过 Poe 访问并试用。这标志着 Google 在轻量级高性能模型领域的又一进展,为开发者提供了更便捷的 AI 工具选择。
AI产品Gemini-3.5-FlashPoe编程助手智能体高效推理

推荐理由:做编程和智能体开发的团队终于有了一个轻量又高效的选择——Gemini-3.5-Flash 在 Poe 上直接可用,建议立即上手试试响应速度和任务处理能力。
原文
精选全部日报登录