00:55AWS Machine Learning Blog@Andrea Gallo精选本文介绍如何在Amazon SageMaker AI上利用NVIDIA Blackwell架构优化训练配置。包括根据模型大小(1B到64B参数)选择合适精度格式,调整batch size和序列长度以利用Blackwell扩展内存,以及策略性应用激活检查点。通过P6-B200实例启动分布式训练,提供一套实用的训练调优框架。技巧Amazon SageMaker AINVIDIA BlackwellP6-B200实例训练优化编程助手5 个信源在谈推荐理由:AWS发了篇实战教程,教你用NVIDIA Blackwell在SageMaker上调优训练,从选精度到调batch size都讲清了,搞大模型训练的人别错过。原文
15:30marktechpost@Asif Razzaq76°UC San Diego推出DFlash,用轻量级块扩散模型替代自回归起草器,实现投机解码。该方法通过单次前向传播生成整块token,并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速,NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点,支持SGLang、vLLM和TensorRT-LLM。AI模型DFlashQwen3-8BNVIDIA Blackwell投机解码推理加速8 个信源在谈推荐理由:UC San Diego搞了个新方法DFlash,用扩散模型直接生成整段token,比自回归快几倍,Qwen3-8B上6倍加速,Blackwell上15倍,还开源了检查点,搞推理加速的可以看看。原文
18:38Together AI@togethercomputeDecagonAI 通过与 Together AI 合作,将语音代理每轮对话成本降低近6倍,同时保持实时语音所需的低延迟。他们从闭源模型迁移到微调的开源模型,实现 p95 模型延迟低于400ms。采用自定义投机解码和提示缓存技术,并在 NVIDIA Blackwell 上优化服务部署。模型更新频率达到每周甚至每日,体现了从封闭 API 到开放模型的转变。行业DecagonAITogether AINVIDIA Blackwell语音代理开源模型6 个信源在谈推荐理由:DecagonAI 把语音成本砍到原来的1/6,延迟还压到400ms以下,实时语音项目可以参考他们迁移开源模型的做法。原文
14:56Cohere@cohere精选Cohere 发布了新模型 Command A+,该模型针对 NVIDIA Blackwell 架构进行了优化,并使用了 NVIDIA CUDA-X 库进行训练。NVIDIA AI 基础设施团队公开祝贺,强调了双方在 AI 基础设施上的紧密合作。这一合作意味着 Command A+ 将充分利用 NVIDIA 最新硬件的性能,为企业和开发者提供更高效的 AI 推理能力。AI模型CohereCommand A+NVIDIA BlackwellAI 基础设施模型优化推荐理由:Cohere 与 NVIDIA 的深度合作让 Command A+ 在 Blackwell 上跑出最佳性能,做企业级 AI 部署的团队值得关注这个新选择。原文