02:42Google AI Developers@googleaidevsGoogle AI 开发者团队宣布推出 Gemma 3 模型,该模型兼容 llama.cpp、MLX、LM Studio、vLLM、Ollama、UnslothAI 和 SGLang 等主流推理框架。权重已同步上传至 Kaggle 和 Hugging Face 平台,开发者可自由下载使用。这一发布意味着 Gemma 3 能无缝融入现有 AI 工具链,降低部署门槛。AI模型Gemma 3Google推理框架开源/仓库模型部署推荐理由:Google 终于把 Gemma 3 的兼容性做全了——主流推理框架全覆盖,做本地部署或模型微调的开发者可以直接去 Hugging Face 下载权重,省去适配烦恼。原文
02:36Google AI Developers@googleaidevs78°Google 发布了 Gemma 4 12B,一款无编码器的多模态模型,可直接在笔记本电脑上运行。该模型去除了传统的视觉和音频编码器,让输入直接进入 LLM 主干,实现高效的多模态推理。在 16GB VRAM 下即可运行复杂智能体工作流,性能接近其 26B 的 MoE 模型。采用 Apache 2.0 许可,适合本地部署和开发。AI模型Gemma 4多模态模型无编码器本地推理Apache 2.010 个信源在谈推荐理由:无编码器架构让多模态模型更轻量、更高效,做本地 AI 应用或智能体开发的团队可以直接在笔记本上跑,值得一试。原文
02:35Demis Hassabis@demishassabis精选Google 发布 Gemma 4 12B 模型,庆祝其总下载量突破 1.5 亿次。该模型体积小巧,仅需 16GB VRAM 即可在笔记本上本地运行。采用 Apache 2.0 开源许可证,开发者可自由使用和修改。AI模型GemmaGemma 4Google开源模型10 个信源在谈推荐理由:小模型也能本地跑,性能强原文
01:54Patrick Loeber@patloeber78°Google 发布 Gemma 4 12B 模型,采用全新统一架构,去除了独立的多模态编码器,原生支持图像、音频、视频和文本输入。该模型还具备高级智能体推理能力,并首次推出基于 LiteRT 的 macOS 桌面应用。这一架构简化了多模态处理流程,降低了部署门槛,适合本地运行和边缘设备。开发者可立即在 macOS 上体验其多模态与推理能力。AI模型Gemma 4多模态统一架构智能体推理macOS10 个信源在谈推荐理由:Gemma 4 12B 的统一架构让多模态模型更轻量、更易部署,做本地 AI 应用或智能体开发的团队可以直接在 macOS 上试跑,值得关注。原文
01:28SiliconFlowAI@siliconflowai83°MiniMax 最新开源模型 M3 已在 SiliconFlow 平台上线,首周提供 50% 折扣。M3 是首个同时具备编码与智能体能力、1M 上下文窗口和原生多模态的开源模型。在 SWE-Bench Pro 基准测试中,M3 的编码能力超越了 GPT-5.5 和 Gemini 3.1 Pro。其 1M 上下文窗口通过 MiniMax 稀疏注意力技术实现,原生多模态支持图像、视频和计算机使用。定价方面,缓存/输入/输出分别为每百万 token 0.06/0.30/1.20 美元,折扣后性价比突出。AI模型MiniMaxM3开源模型编码能力多模态推荐理由:M3 把编码、长上下文和多模态三合一开源了,做 AI 应用开发的团队可以直接在 SiliconFlow 上低成本试用,编码能力还超过了 GPT-5.5,值得上手体验。原文
01:23Ideogram@ideogram_ai78°Ideogram 宣布开源其最新模型 Ideogram 4.0,旨在与开发者、研究人员和企业合作,共同探索生成式媒体与设计的新前沿。该模型在图像生成质量、风格多样性和文本渲染方面有显著提升。开源版本已在 GitHub 上发布,技术细节可在官网查看。此举有望降低生成式 AI 的使用门槛,促进社区创新。AI模型Ideogram 4.0开源/仓库图像生成生成式媒体设计4 个信源在谈推荐理由:Ideogram 4.0 开源让图像生成模型更易定制,做设计工具或内容创作的团队可以直接上手尝试,值得关注。原文
01:21Fireworks AI@FireworksAI_HQ78°MiniMax 发布了新模型 M3,其核心创新是 MiniMax Sparse Attention (MSA) 机制,在 1M token 长上下文场景下解码速度提升 15.6 倍。Fireworks AI 宣布与 MiniMax 合作,为本次发布提供推理支持。用户可前往 minimax.io 试用,模型权重发布后也将对 Fireworks 社区开放。这一突破显著降低了长上下文推理的延迟和成本,对需要处理超长文档、代码库或对话历史的开发者意义重大。AI模型MiniMaxM3稀疏注意力长上下文推理加速推荐理由:长上下文推理的瓶颈被 MSA 大幅缓解,做 RAG、长文档分析或大上下文应用的团队值得立即体验,速度提升意味着更低的成本和更好的用户体验。原文
01:18Geek@geekbbGoogle 发布了 Gemma 4 12B 模型,这是一款统一的无编码器多模态模型,专为在笔记本电脑上高效运行而设计,采用 Apache 2.0 许可证。该模型在边缘效率与高级推理之间取得了平衡,适合本地部署。对于 Mac mini 用户来说,这可能是一个理想的本地 AI 模型选择,因为其轻量级设计和高性能推理能力。AI模型Gemma 4 12B本地模型多模态Mac mini开源2 个信源在谈推荐理由:Mac mini 用户终于有了一个高性能的本地多模态模型选择——Gemma 4 12B 在笔记本上就能跑,做本地 AI 开发或隐私敏感应用的团队可以直接试试。原文
01:14Justine Moore@venturetwinsIdeogram AI 团队发布了其最新模型,该模型为开源权重,支持多种风格的图像生成。创始人 Mo Norouzi 及团队在 X 上宣布了这一消息,并展示了在测试阶段生成的示例图片。模型的开源性质允许开发者基于自己的数据进行微调,这为个性化图像生成和 AI 艺术创作提供了新的可能性。此举在 AI 社区引发关注,被认为将推动图像生成技术的民主化。AI模型图像生成开源/仓库Ideogram AI模型发布AI 艺术推荐理由:图像生成模型终于有了开源权重版本,做 AI 艺术或需要定制化图像生成的开发者可以直接下载微调,值得一试。原文
01:14Justine Moore@venturetwinsVentureTwins 在 X 上分享了对某模型的评测,指出该模型的一大优点是既能处理简短提示词也能处理长提示词,并且都能很好地遵循指令。他举例说明,在 WIRED 图片中他给出了完整文案,而在另外两张图中只给了一句模糊的指导,模型就自动完成了其余内容。这表明该模型在指令遵循能力上表现突出,对提示词长度不敏感,适合需要精确控制或快速生成内容的场景。AI模型模型评测指令遵循提示词内容生成VentureTwins推荐理由:对提示词长度和复杂度不敏感,做内容生成或创意设计的团队可以试试,能省去反复调优提示词的麻烦。原文
01:09Justine Moore@venturetwins72°Ideogram 4.0 是一款新发布的开源图像模型,权重可下载,支持在自有硬件上运行和微调。该模型在文本渲染、高分辨率图像生成和设计方面表现优异,被官方称为“世界上最好的开源图像模型”。目前已在所有 Ideogram 计划和 API 上可用。用户可下载权重、用自己的数据微调,并在本地硬件上运行。AI模型开源/仓库图像生成文本渲染设计Ideogram推荐理由:开源图像模型又添猛将,做设计、生成海报或需要高质量文本渲染的团队可以直接下载权重微调,值得一试。原文
01:03Hugging Face@huggingface88°Ideogram 发布了其最新、最强的 v4 图像模型,并开放了模型权重。该模型号称是“世界上最好的开放图像模型”,用户可下载权重、在自己的数据上微调,并运行在自己的硬件上。目前已在所有 Ideogram 计划和 API 上可用。此举将最先进的图像生成能力与开放权重相结合,对 AI 图像生成社区意义重大。AI模型图像生成开放权重Ideogramv4开源推荐理由:开放权重意味着你可以自由微调和部署,做图像生成应用或研究的团队可以直接下载使用,值得关注。原文
00:45a16z@a16z精选72°Ideogram 4.0 正式发布,并宣布开源权重。该模型被官方称为“世界上最好的开源图像模型”,支持用户下载权重、在自有数据上微调,并可在本地硬件上运行。目前已在所有 Ideogram 套餐和 API 上可用。这一举措将推动图像生成领域的开源生态发展,为开发者和创作者提供更多自主权和灵活性。AI模型开源/仓库图像生成Ideogram 4.0模型权重本地部署4 个信源在谈推荐理由:图像生成领域终于有了一个真正能打的开源模型——Ideogram 4.0 权重可下载、可微调、可本地跑,做 AI 图像应用或研究的团队可以直接上手试试。原文
00:33Philipp Schmid@_philschmid76°Google 发布了 Gemma 4 12B,这是其首个支持原生音频输入的中型多模态模型。该模型采用无编码器架构,直接将视觉和音频信息融入大语言模型,仅需 16GB 内存即可运行。在基准测试中,其性能接近 26B 参数模型,且采用 Apache 2.0 开源许可。这标志着中小型模型在多模态能力上的重要突破,尤其适合资源受限的开发者。AI模型Gemma 4多模态模型音频输入开源/仓库Google10 个信源在谈推荐理由:Gemma 4 12B 让中小团队也能用上原生音频多模态模型,16GB 内存门槛极低,做语音交互或视觉应用的开发者可以直接下载试试。原文
00:32lmarena.ai@lmarena_ai76°Ideogram-4.0-Quality 在文生图领域成为新的开源模型第一名,在所有子类别上相比前代有巨大提升。尤其在文本渲染和产品、品牌与商业设计方面进步最为显著。该模型在公开评测中表现优异,标志着开源文生图模型质量迈上新台阶。AI模型Ideogram-4.0-Quality文生图开源模型文本渲染商业设计推荐理由:做设计或品牌营销的团队终于有了一个能打的开源文生图模型——Ideogram-4.0-Quality 在文本渲染和商业设计上进步明显,值得直接上手试试。原文
00:31阶跃星辰 Stepfun@Stepfun_AIStep 3.7 Flash 模型专为真实世界的智能体编程任务设计,不仅追求代码生成速度,更注重在复杂输出中保持逻辑、视觉和执行的一致性。该模型在演示中展示了其在多步骤、多模态任务中的连贯性,适合需要高可靠性的编程场景。开发者 @atomic_chat_hq 的创意测试进一步验证了其能力。AI模型智能体编程助手推理模型Step 3.7 Flash多模态推荐理由:做智能体编程的开发者终于有了一个兼顾速度和一致性的模型——Step 3.7 Flash 在复杂任务中保持逻辑连贯,值得在真实项目中试试。原文
00:30lmarena.ai@lmarena_aiIdeogram 4.0 开源模型在 Text-to-Image Arena 中排名第8,成为该榜单上最强的开源图像生成模型。该模型得分为1204,性能接近闭源模型 Nano Banana Pro。Ideogram 4.0 支持权重下载、微调和本地部署,已在所有 Ideogram 计划和 API 上线。这一发布标志着开源图像生成模型在质量上迈出了重要一步。AI模型开源/仓库图像生成IdeogramText-to-Image Arena模型评测推荐理由:开源图像生成模型终于追上闭源水平了,做 AI 绘画应用或自建图像生成管线的开发者可以直接下载权重和微调,值得试试。原文
00:23Replicate@replicate精选Ideogram 4.0 图像模型正式发布,原生支持 2K 分辨率,并显著提升了排版能力。该模型完全开源,用户可下载权重进行微调,并在本地硬件上运行。模型已上线所有 Ideogram 计划和 API。此前版本在文本渲染方面较弱,4.0 版本在这一领域取得了突破。AI模型IdeogramIdeogram 4.0开源模型图像生成2K分辨率4 个信源在谈推荐理由:Ideogram 4.0 开源,2K原生,排版强原文
00:13Hugging Face@huggingface精选Ideogram 推出了最新的 v4 图像生成模型,并开放了模型权重。该模型自称是目前最强的开放图像模型,用户可下载权重在自己的硬件上运行,并基于自有数据进行微调。v4 模型已在 Ideogram 所有订阅计划和 API 上可用。AI模型Ideogramv4开放权重图像生成推荐理由:Ideogram 开放最强 v4 图像模型,可自部署微调原文
23:58Ideogram@ideogram_ai精选Ideogram 4.0 正式发布,声称是当前最好的开源图像模型。模型权重可下载,支持用户在自己的数据上微调并在本地硬件运行。该模型已上线所有 Ideogram 订阅计划和 API。AI模型Ideogram开源模型图像生成推荐理由:Ideogram 4.0 开源了,能自己微调原文
20:03Geek@geekbbDatawhale 推出了一套开源的世界模型课程,包含五讲和五个配套项目,覆盖从 VAE 到 Dreamer 再到评估仪表盘的完整学习路径。课程强调动手实践,帮助学习者系统理解世界模型的原理、架构和实现。对于想深入世界模型领域的研究者、学生或开发者来说,这是一份难得的免费学习资源。AI模型世界模型开源/仓库课程VAEDreamer推荐理由:想系统入门世界模型的开发者终于有了一条清晰的动手路径——五讲五项目从 VAE 到 Dreamer 全覆盖,比啃论文高效得多,建议直接跟着项目跑一遍。原文
16:41marktechpost@Asif Razzaq83°NVIDIA 发布了 Cosmos 3,这是一款开源的“全模态世界模型”,采用双塔混合 Transformer 架构,将自回归 VLM 推理器与扩散生成器结合。该模型能够统一物理推理、世界生成和动作生成,为物理 AI 提供基础能力。Cosmos 3 旨在让机器人、自动驾驶等系统更好地理解物理世界并生成合理动作。其开源特性有望加速物理 AI 领域的研究与应用开发。AI模型NVIDIACosmos 3物理 AI世界模型开源/仓库10 个信源在谈推荐理由:NVIDIA 把物理推理和世界生成塞进一个开源模型,做机器人或自动驾驶的团队可以直接拿来用,省去从头训练物理世界模型的成本。原文
14:48Pandaily@contact@pandaily.com (Pandaily)精选中国开源世界模型 Boundless 在全球排行榜上超越 Google、NVIDIA 等巨头的产品,成为第一名。世界模型是能理解和模拟物理现实的 AI 系统,对机器人、自动驾驶等领域至关重要。Boundless 的开源特性降低了研究门槛,让更多团队能参与开发。这一突破显示中国在 AI 基础模型领域的竞争力正在增强。AI模型世界模型开源/仓库物理模拟中国AIBoundless10 个信源在谈推荐理由:世界模型是 AI 的下一个前沿,做机器人或自动驾驶的团队可以直接用 Boundless 开源代码加速研发,值得关注。原文
13:48Mustafa Suleyman@mustafasuleyman88°微软CEO Mustafa Suleyman宣布推出7款全新MAI系列模型,包括文本基础模型MAI-Thinking-1、图像模型MAI-Image-2.5及高效编程模型MAI-Code-1-Flash。MAI-Thinking-1拥有350亿激活参数的MoE架构,256K上下文窗口,在AIME 2025上达到97%,SWE Bench Pro上53%,与Opus 4.6持平,且盲测中整体质量优于Sonnet 4.6。该模型针对微软自研MAIA 200芯片优化,性能每美元提升30%,每瓦性能提升1.4倍。MAI-Code-1-Flash仅5B参数,SWE Bench Pro达51%,成本更低。微软还推出Frontier Tuning服务,允许企业定制专属模型,早期案例中为McKinsey定制模型以10倍低成本超越GPT-5.5。AI模型MAI-Thinking-1MAI-Code-1-FlashMAI-Image-2.5推理模型编程助手5 个信源在谈推荐理由:微软一口气推出7款新模型,覆盖推理、编程、图像三大方向,MAI-Thinking-1在推理和编码上直接对标Claude Sonnet 4.6和Opus 4.6,做AI应用或企业定制化模型的团队值得关注——尤其是Frontier Tuning让企业用更低成本获得超越GPT-5.5的效果。原文
12:21IT之家(博客/媒体)精选智元机器人开源了行业首个聚焦物理交互的具身数据集 AGIBOT WORLD 2026 第二期“多样交互”。该数据集系统记录了机器人与真实物理世界之间的复杂、高密度、非理想交互过程,旨在补齐当前世界模型训练中缺失的真实物理交互数据。它将具身智能的数据范式从“学习成功动作”推进到“理解完整的物理分布”,对世界模型、神经仿真器、物理感知等研究至关重要。目前数据集已在 Hugging Face 开放下载。AI模型具身智能开源/仓库数据集物理交互智元推荐理由:做具身智能或世界模型研究的团队终于有了真实物理交互数据,不再是模拟器里的完美动作——补齐了训练的关键短板,搞机器人的建议直接去 Hugging Face 下载。原文
09:52berryxia@berryxia微软发布的新模型 MAI-Image-2.5 在图像编辑能力评测中取得第二名,仅次于 OpenAI 的 GPT-Image-2。该模型超越了 Google 的 Nano Banana 模型,显示出微软在图像生成与编辑领域的快速进步。评测结果引发了对 Google 在 AI 图像领域创新速度的讨论,部分用户表示期待 Google 推出更强的新模型。AI模型图像编辑微软MAI-Image-2.5GPT-Image-2模型评测10 个信源在谈推荐理由:图像编辑模型竞争白热化,微软 MAI-Image-2.5 已超越 Google,做 AI 图像生成或编辑的开发者可以关注这个新选择,看看它和 GPT-Image-2 的差距在哪。原文
09:52berryxia@berryxia精选微软AI今日发布了七个全新MAI模型,包括MAI-Thinking-1、MAI-Code-1-Flash、MAI-Image-2.5等,覆盖推理、编码、图像、语音和转录任务。这些模型是从零开始、使用干净数据训练,不依赖蒸馏,强调血统纯净。其中MAI-Code-1-Flash在SWE-Bench Verified上达到71.6分,超越Claude Haiku 4.5,且节省60% token。MAI-Image-2.5在图像编辑和文本生图排名靠前,已集成到PowerPoint和OneDrive。微软的策略是构建专精任务、可协作的模型家族,而非追求单一通用大模型。AI模型微软MAI模型编程助手推理模型图像生成5 个信源在谈推荐理由:微软这次反主流而行,用干净数据从零训练专精模型,做AI开发或选型的人值得关注——MAI-Code-1-Flash在编码任务上性价比突出,Copilot用户可以直接体验。原文
08:22lmarena.ai@lmarena_ai微软在官方博客中介绍了其最新的图像生成模型 MAI-Image-2.5。该模型在图像质量、细节和多样性方面有显著提升,旨在为开发者和企业提供更强大的图像生成能力。MAI-Image-2.5 的发布标志着微软在 AI 图像领域的重要进展,可能对内容创作、设计等行业产生深远影响。目前该模型的具体技术细节和应用场景尚未完全公开,但预计将集成到微软的 AI 产品生态中。AI模型微软MAI-Image-2.5图像生成AI模型内容创作5 个信源在谈推荐理由:微软在图像生成赛道的新动作值得关注,做内容创作或 AI 应用开发的团队可以看看这个模型能否提升你的工作流效率。原文
08:17Clement Delangue@ClementDelangueHugging Face CEO Clement Delangue 在 X 上发文,呼吁社区更多关注 Arcee 这家美国开源 AI 模型公司。他指出,美国优秀的开源 AI 模型公司并不多,而 Arcee 是其中之一。Arcee 在 Hugging Face 上发布了多个开源模型,其模型在特定任务上表现优异,且完全开源可商用。这一呼吁引发了社区对 Arcee 及其模型的重新关注,也反映了开源 AI 生态中美国公司的稀缺性。AI模型开源/仓库ArceeHugging FaceAI模型美国推荐理由:美国开源 AI 模型公司稀缺,Arcee 是少数值得关注的玩家。做开源模型研究或寻找可商用模型的开发者,建议去 Hugging Face 看看他们的模型仓库。原文
08:12lmarena.ai@lmarena_ai精选76°微软在Build大会上发布了七款全新的MAI系列模型,涵盖推理、代码、图像、转录和语音等能力。这些模型从零开始训练,基于干净的数据溯源,设计注重效率,并作为模型家族无缝协作。其中MAI-Image-2.5是图像生成模型,其他模型包括推理、代码生成、语音识别等。这标志着微软在自研AI模型上的重大投入,旨在为开发者提供一体化AI解决方案。AI模型微软MAI模型Build大会图像生成推理模型5 个信源在谈推荐理由:微软一口气推出七款自研模型,覆盖推理到语音全场景,做AI应用开发的团队可以直接集成,省去拼凑多家模型的麻烦。原文
08:12OpenRouter@OpenRouterAI微软发布 MAI-Image-2.5 模型,在文本到图像和图像到图像排行榜上分别位列第3和第2,性价比领先市场。该模型支持精准的图像生成与编辑,目前已在 OpenRouter 平台上线。对于需要高质量图像生成且预算有限的团队,这是一个值得关注的选择。AI模型微软MAI-Image-2.5图像生成图像编辑OpenRouter5 个信源在谈推荐理由:微软 MAI-Image-2.5 以市场领先的性价比登顶排行榜,做图像生成或编辑的团队可以直接在 OpenRouter 上试用,省下不少成本。原文
06:32Simon Willison’s Weblog(博客/媒体)76°微软今日发布两款新文本 LLM:MAI-Thinking-1(35B 参数,推理模型,面向早期合作伙伴)和 MAI-Code-1-Flash(5B 参数,专为 GitHub Copilot 和 VS Code 设计,已向个人用户推出)。MAI-Thinking-1 在盲测中优于 Sonnet 4.6,且参数规模较小,运行成本更低。两款模型均使用清洁、商业授权数据从头训练,未蒸馏第三方模型,也未使用未授权的网络数据。这标志着微软在低成本、合规数据训练的高效模型上迈出重要一步。AI模型微软MAI-Thinking-1MAI-Code-1-Flash推理模型编程助手推荐理由:微软用 35B 参数模型挑战 Sonnet 4.6,证明小模型也能出奇迹——做推理应用或 Copilot 开发的团队值得关注,尤其是对数据合规有要求的项目。原文
05:02rohanpaul_ai@rohanpaul_ai88°微软发布了 MAI-Thinking-1,这是其自研推理模型系列的首个成果。该模型采用 1T 总参数的混合专家架构,每次推理仅激活 35B 参数,在 AIME 2025 上达到 97.0%,LiveCodeBench v6 上 87.7%,SWE-Bench Pro 上 52.8%。微软称其训练流程为“爬山机器”,通过持续优化数据、训练、奖励和安全测试形成闭环。预训练基于 30T 主要人工生成 token,避免使用第三方模型蒸馏,随后通过强化学习提升数学、编程、工具使用和安全能力。这标志着微软在推理模型领域建立了完整的自研能力。AI模型推理模型微软MAI-Thinking-1混合专家模型强化学习推荐理由:微软用自研数据+强化学习打造了强推理模型,做 AI 推理或模型训练的团队值得关注其“爬山机器”方法论,尤其是 35B 激活参数就能达到接近顶尖水平的效率。原文
04:50lmarena.ai@lmarena_ai微软发布的MAI-Image-2.5模型在Image Edit Arena(单图编辑)中排名第二,得分1401,并推进了帕累托前沿,意味着在其价格区间内没有模型得分更高。该模型比Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity高出10分以上。这一成就展示了微软在图像编辑AI领域的竞争力,为开发者提供了高性价比的优质选择。AI模型微软MAI-Image-2.5图像编辑竞技场排名帕累托前沿5 个信源在谈推荐理由:图像编辑开发者或团队如果追求性价比,MAI-Image-2.5在同等价位下性能领先,值得关注并尝试集成。原文
04:50lmarena.ai@lmarena_ai微软AI团队正式发布MAI-Image-2.5图像编辑模型,在单图编辑竞技场中排名第二,得分1401,领先Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity等模型10分以上。该模型推进了帕累托前沿,意味着在质量和效率之间取得了更好的平衡。对于从事图像编辑、AI绘画或需要高质量图像生成的开发者与创作者来说,这是一个值得关注的新选择。AI模型微软MAI-Image-2.5图像编辑模型发布竞技场5 个信源在谈推荐理由:微软MAI-Image-2.5在图像编辑质量上超越了多个主流模型,做AI图像生成或编辑的团队可以关注这个新基准,直接对比现有方案。原文
04:44OpenRouter@OpenRouterAI微软发布MAI-Voice-2,一款支持15种语言的情感可控文本转语音模型,可表达兴奋、尴尬、耳语等情绪,并在长文本中保持稳定的说话人身份。该模型与MAI-Transcribe-1.5语音识别模型搭配使用,已在OpenRouter上线。这为多语言内容创作、有声读物、语音助手等场景提供了更自然、富有表现力的语音合成能力。AI模型微软MAI-Voice-2文本转语音情感控制多语言推荐理由:做多语言内容或语音应用的团队终于有了一个能控制情绪、长文本不跑调的TTS模型,直接上OpenRouter就能用,值得试试。原文
04:40Together AI@togethercompute76°MiniMax-M3 是一款结合了 1M 上下文窗口、原生多模态能力和 MiniMax 稀疏注意力机制的新模型。Together 的推理和内核团队通过 KV-block-major 稀疏注意力、分页 MSA 解码、优化索引评分以及 GPU 工作前的多模态预处理,将常见智能体流量下的吞吐量提升了 81-125%。该模型在长上下文和多模态任务上表现出色,适合需要处理大量信息和多种数据类型的应用场景。AI模型MiniMax-M3稀疏注意力多模态长上下文推理优化7 个信源在谈推荐理由:做长上下文和多模态应用的团队可以关注——MiniMax-M3 的稀疏注意力优化让吞吐量提升显著,直接降低推理成本,值得一试。原文
03:38Paul Couvert@itsPaulAi微软发布了一款新的图像编辑模型,在单图编辑任务上排名第二,仅次于GPT-Image-2,同时在文生图和文字渲染任务上分别排名第三。该模型经过数天测试,表现令人惊讶,但目前仅支持单图上传编辑,不支持多图编辑。这一发布表明微软在图像生成与编辑领域正快速追赶领先者。AI模型图像编辑微软文生图模型排名Nano Banana 25 个信源在谈推荐理由:图像编辑开发者或AI绘画爱好者可以关注这款新模型,它提供了接近GPT-Image-2的编辑质量,且目前免费可用,值得一试。原文
02:53NVIDIA AI@NVIDIAAI78°NVIDIA 宣布推出 Cosmos 3,号称首个面向物理 AI 的全模态模型。该模型能够处理多种输入模态(如文本、图像、视频等),并应用于机器人、自动驾驶等物理世界场景。官方展示了多个令人惊叹的示例,体现了模型在理解与生成物理交互方面的能力。这标志着 AI 从数字世界向物理世界迈出了重要一步。AI模型物理AI全模态模型NVIDIA机器人自动驾驶10 个信源在谈推荐理由:做机器人或自动驾驶的开发者终于有了一个能统一处理多模态输入的物理 AI 模型,值得看看它能带来哪些新可能。原文
02:32Harrison Chase@hwchase17验证器对于扩展评估和强化学习至关重要,但成本高昂。Harvey 团队与 LangChain 合作,探索如何降低验证器成本。该研究由 Vtrivedy10、jakebroekhuizen 等人主导,旨在解决验证器在规模化应用中的经济瓶颈。这项工作可能为 AI 评估和 RL 训练提供更经济的方案。AI模型验证器评估强化学习成本优化LangChain推荐理由:做 AI 评估或强化学习的团队,验证器成本一直是个头疼问题——Harvey 和 LangChain 的这项研究直接给出了降本思路,值得关注。原文