13:52Together AI@togethercompute开放模型推动AI栈走向模块化,模型、API、工具和推理各自独立进步。Together AI认为开放模型的价值远超定价优势,正在构建模块化推理层。这种架构让不同组件可以独立优化,降低整体AI应用成本。行业开放模型Together AI推理层模块化AI栈推荐理由:Together AI聊开放模型不是拼价格,而是拼模块化。他们正在做AI推理层,让模型、工具自由组合。原文
13:51Together AI@togethercomputeTogether AI 宣布其处理 token 量已达 400 万亿,认为这标志着开放模型在真实生产中进入规模采用阶段。团队将实际工作负载迁移到开放模型,是为了获得前沿质量、更好的 tokenomics 和更强的推理控制力。Together AI 提供基础设施支持这一转型。行业Together AI开放模型tokenomics推理生产部署推荐理由:400万亿 token 的量级,说明开放模型在真实生产里站稳了,看 Together AI 怎么搭台子。原文
13:49Ethan Mollick@emollickAA-Briefcase评分由@ArtificialAnlys发布,用于衡量AI完成多周复杂咨询任务的能力。最新得分曲线显示,AI模型在短期内取得了快速进步。开放权重模型与封闭模型之间存在明显的差距,封闭模型整体表现更优。该评测揭示了当前AI在多步骤复杂任务中的能力差异。AI模型AA-Briefcase开放模型封闭模型AI基准推荐理由:新评测让AI做多周复杂咨询,结果看到开放模型和封闭模型差距挺大,进步也很快。原文
12:25Fireworks AI@FireworksAI_HQFactoryAI 将模型管理平台标准化为 Fireworks,实现部署扩展。此举带来开放模型增长 2-3 倍,每美元工作量提升 5-15 倍,并能第一时间获取新开放权重模型。团队负责人 Leo Tchourakov 在视频中详解了具体实现。技巧FireworksFactoryAI开放模型模型管理部署优化推荐理由:想提升AI模型部署效率?看看FactoryAI怎么用Fireworks实现5-15倍成本效益,还能第一时间用上新模型。原文
18:43Together AI@togethercomputeTogether AI 在推文中指出,当团队运行数十亿 tokens 时,缓存、吞吐量和服务效率的微小差异会转化为产品级的经济性。以 MiniMax M3 模型为例,该模型在 Together AI 平台上提供前沿品质和开放模型经济学,其服务栈专为规模化设计。这体现了开放模型在生产中的实际成本竞争力。AI模型MiniMax M3Together AI开放模型推理效率经济性2 个信源在谈推荐理由:看看 Together AI 怎么用 MiniMax M3 把开放模型做大,跑几十亿 tokens 还省钱。不是吹概念,是实打实的缓存和吞吐量优化。原文
18:42Together AI@togethercomputeTogether AI的James Zou与NVIDIA的Venkat Srinivasan将于7月1日在AI Engineer World's Fair上讨论开放模型如何实现集体智能。该活动聚焦开源模型在协作智能系统中的作用。演讲将结合两家公司的技术实践,分析开放模型对多智能体架构的影响。行业Together AINVIDIA开放模型AI Engineer World's Fair6 个信源在谈推荐理由:想了解开放模型怎么支撑多智能体协作?Together AI和NVIDIA的人要聊这个,7月1日别错过。原文
03:28lmarena.ai@lmarena_aiAgent Arena 是一个智能体性能排行榜,现已在 arena.ai/leaderboard/ag... 上线。用户可通过按开放模型或按实验室(lab)筛选来查看详细数据。该排行榜为不同智能体模型提供了直接的性能对比基准。AI模型Agent Arena智能体排行榜基准测试开放模型推荐理由:想比对比不同智能体模型?去Agent Arena排行榜,能按开放模型或实验室筛选,帮你找到合适的。原文
04:04Together AI@togethercompute精选Trajectory Labs 在 Together Compute 和 NVIDIA 的支持下,仅用不到 24 小时就在一个开放模型上实现了前沿模型级别的性能。这展示了当优秀开源模型与合适的训练基础设施结合时,可以快速取得显著成果。Together Compute 为此提供了算力支持,凸显了开放模型生态的潜力。AI模型开放模型后训练算力基础设施Together ComputeNVIDIA10 个信源在谈推荐理由:对于关注开源模型训练效率的团队,这个案例证明了 24 小时内就能让开放模型达到前沿水平,值得研究其训练流程。原文
11:51Latent.Space@latentspacepod精选Sarah Guo 在最新一期 AINews 中提出了一个关键框架,区分了“模型实验室”和“智能体实验室”的不同发展方向,并探讨了开放模型的重要性。她认为,理解什么是“不可训练”的——即那些无法通过更多数据或算力解决的问题——对于决定投入方向至关重要。这一观点被视为当前 AI 领域最有价值的思考之一,帮助从业者明确哪些工作真正值得投入。行业开放模型智能体模型实验室不可训练性Sarah Guo推荐理由:Sarah Guo 的框架帮你分清“模型”和“智能体”两条路,做 AI 战略或投资的团队值得一读,看完能少走弯路。原文
06:13Sundar Pichai@sundarpichai78°Google 发布了 DiffusionGemma,这是一个基于 Gemma 4 的实验性开放模型,采用文本扩散技术。与传统逐词预测不同,DiffusionGemma 能同时生成整段文本,实现高达 4 倍的推理加速。该模型目前以研究预览形式开放,旨在探索更高效的文本生成方式。这对于需要低延迟文本生成的场景(如实时对话、内容创作)具有重要意义。AI模型文本扩散推理加速Gemma 4开放模型Google7 个信源在谈推荐理由:推理速度提升 4 倍意味着更低的延迟和更低的成本,做实时文本生成或大规模内容生产的团队值得关注这个新方向。原文
03:03Google AI Developers@googleaidevs72°Google 发布了 DiffusionGemma,一款基于文本扩散技术的实验性开放模型,采用 Apache 2.0 许可证。该模型通过将瓶颈从内存带宽转移到原始计算,在专用 GPU 上实现高达 4 倍的 token 输出速度。推理时仅激活 3.8B 参数,量化后可在 24GB VRAM 的高端消费级 GPU 上运行。它支持并行 token 生成和自我纠正,特别适合代码填充、内联编辑和非线性结构任务。DiffusionGemma 优先考虑速度而非原始质量,在计算受限的硬件上加速效果最佳,而标准 Gemma 4 仍推荐用于生产环境和内存受限设备。AI模型文本扩散开放模型GoogleDiffusionGemma代码填充推荐理由:DiffusionGemma 把文本生成速度推到了新高度,做代码补全、实时编辑的开发者可以直接在消费级 GPU 上体验 4 倍加速,值得一试。原文
00:39Google DeepMind@GoogleDeepMindGoogle DeepMind 推出实验性开放模型 DiffusionGemma,采用块级文本生成技术,不再逐词预测,而是同时生成整段文本。该模型在专用 GPU 上输出速度提升高达 4 倍,并能实时自我修正和格式化复杂 Markdown。这标志着文本生成范式的转变,尤其适合需要快速、高质量输出的场景。AI模型DiffusionGemma文本生成块级生成速度提升开放模型推荐理由:做文本生成或需要快速格式化 Markdown 的开发者,可以试试这个块级生成模型,速度提升明显且能自我纠错,值得关注。原文
02:36NVIDIA AI@NVIDIAAINVIDIA 宣布其 Nemotron Coalition 新增三家成员:@hcompany_ai、@NousResearch 和 @PrimeIntellect。该联盟旨在协作开发前沿开放模型,现有成员包括 Black Forest Labs、Cursor、LangChain、Mistral AI 等。Nemotron 3 Ultra 模型已在联盟成员贡献下完成开发,未来将继续合作推进新模型发布。Prime Intellect 表示将贡献其强化学习基础设施,帮助扩展智能体能力。行业NVIDIANemotron开放模型联盟智能体10 个信源在谈推荐理由:开放模型生态再添生力军,做 AI 模型训练或智能体开发的团队值得关注——联盟协作模式可能加速下一代开源模型落地。原文
00:03LangChain@LangChainAI76°LangChain 宣布原生支持 NVIDIA 最新发布的 Nemotron 3 Ultra 模型,并在发布当天即提供对 Deep Agents 的支持。Nemotron 3 Ultra 是一个 550B 参数的 MoE 架构开放模型,专为长时间运行的智能体任务设计,推理速度提升 5 倍,复杂智能体任务成本降低 30%。作为 Nemotron Coalition 成员,LangChain 将与 NVIDIA 合作,推动开放模型的共享与构建。这一集成让开发者能立即在 LangChain 生态中使用该模型构建高性能智能体应用。AI产品LangChainNVIDIA Nemotron 3 Ultra智能体MoE开放模型10 个信源在谈推荐理由:做智能体应用的开发者可以立即在 LangChain 中调用 Nemotron 3 Ultra,推理快 5 倍、成本降 30%,值得直接上手试。原文