01:49Philipp Schmid@_philschmid78°DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型,推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式,实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM,且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈,为高效文本生成提供了新思路。AI模型扩散模型Gemma 4MoE高效推理开源/仓库7 个信源在谈推荐理由:每秒 1000+ tokens 的生成速度让推理成本大幅降低,做大规模文本生成或实时应用的开发者值得关注,量化后 18GB VRAM 就能跑,门槛很低。原文
11:13AK@_akhaliq精选dMoE 是一种新型动态混合专家(Mixture of Experts)架构,通过引入可学习的块专家(Learnable Block Experts)来替代传统固定专家。该方法允许模型根据输入动态调整专家组合,提升效率和性能。实验表明,dMoE 在多个基准测试上优于标准 MoE 和密集模型,同时计算成本更低。该工作由研究团队在 Twitter 上公开,引发了社区关注。论文dMoE混合专家模型动态架构高效推理论文推荐理由:dMoE 解决了传统 MoE 专家固定、效率低的问题,做模型压缩和高效推理的团队值得关注,可以尝试复现或集成到自己的工作中。原文
08:00Poe@poe_platform72°Google 的最新 Flash 模型 Gemini-3.5-Flash 已在 Poe 平台上线。该模型专为快速、高效的响应设计,在编程、复杂工作流和智能体任务上表现强劲。用户可直接通过 Poe 访问并试用。这标志着 Google 在轻量级高性能模型领域的又一进展,为开发者提供了更便捷的 AI 工具选择。AI产品Gemini-3.5-FlashPoe编程助手智能体高效推理推荐理由:做编程和智能体开发的团队终于有了一个轻量又高效的选择——Gemini-3.5-Flash 在 Poe 上直接可用,建议立即上手试试响应速度和任务处理能力。原文