全部 AI 动态 · AI 热点

5月14日

13:37

百川智能 Baichuan@BaichuanAI

百川AI在HealthBench、Hard、Hallucination和ScanBench等多项基准测试中取得领先成绩，其中HealthBench得分65.1，Hard得分44.4，幻觉率仅3.5%低于ChatGPT，ScanBench全站排名第一。这显示了百川AI在医疗、推理和抗幻觉方面的显著进步，对AI应用开发者具有重要参考价值。

AI模型百川AI 基准测试医疗AI 抗幻觉推理模型

推荐理由：百川AI在多个关键基准上超越ChatGPT，做医疗AI或高可靠性应用的团队值得关注其低幻觉率表现。

原文

13:37

深度求索 DeepSeek@deepseek_ai

78°

DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者，已在 App、Web 和 API 上线；V3.2-Speciale 则专注于极致推理能力，目前仅通过 API 提供。这两个模型以推理优先为设计理念，旨在更好地支持智能体（agent）场景。技术报告已同步公开。

AI模型 DeepSeek 推理模型智能体模型发布 API

推荐理由：做智能体开发或需要强推理能力的团队，DeepSeek 这次直接给了两个新选择——V3.2 可立即上手，Speciale 适合追求极致推理的 API 用户，值得关注技术报告里的细节。

原文

13:37

深度求索 DeepSeek@deepseek_ai

78°

DeepSeek 发布了 V4 Preview 版本，包含 Pro 和 Flash 两个模型，均支持 1M 上下文长度。Pro 版本总参数量 1.6T，激活参数 49B，性能对标全球顶级闭源模型；Flash 版本总参数量 284B，激活参数 13B，主打高效经济。模型权重和技术报告已开源，API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。

AI模型 DeepSeek-V4 开源/仓库长上下文推理模型性价比

推荐理由：长上下文和低成本是当前 AI 应用的两大痛点，DeepSeek-V4 同时解决这两个问题，做 RAG、文档分析或长对话的开发者可以直接上手试试。

原文

13:36

xAI@xai

xAI 发布了 Grok 4.3 模型，已在其 API 上可用。该模型在代理工具调用和指令遵循方面领先 @ArtificialAnlys 排行榜，并在 @ValsAI 的企业领域（如判例法和公司金融）中排名第一。Grok 4.3 支持 100 万 token 上下文窗口，输入价格为每百万 token 1.25 美元，输出价格为 2.50 美元。开发者可以立即创建 API 密钥开始使用。

AI模型 Grok 4.3 xAI 推理模型 API 企业应用

推荐理由：Grok 4.3 在代理工具调用和企业场景（如法律、金融）中表现突出，做智能体或企业级应用的开发者可以直接用 API 体验，性价比也不错。

原文

13:26

arXiv: DeepSeek@Zhongkai Yu, Yichen Lin, Chenyang Zhou, Yuwei Zhang, Kun Zhou, Junxia Cui, Haotian Ye, Zhengding Hu, Zaifeng Pan, Ruiyi Wang, Yujie Zhao, Hejia Zhang, Jingbo Shang, Jishen Zhao, Yufei Ding

精选

ChipMATE是首个自训练的多智能体RTL代码生成框架，解决了现有API系统依赖黄金测试平台、无法在气隙环境中部署、不能利用厂商私有代码库的问题。它通过Verilog智能体与Python参考模型智能体相互验证，无需黄金标准即可实现正确性。采用回溯推理工作流防止错误传播，两阶段训练先独立训练再联合协作。在VerilogEval V2上，4B和9B模型分别达到75.0%和80.1%的pass@1，超越所有自训练模型甚至1600B参数的DeepSeek V4。代码和权重已开源。

AI模型 RTL生成多智能体自训练 Verilog 芯片设计

推荐理由：芯片设计团队终于有了可私有化部署的RTL生成方案——ChipMATE不依赖闭源API、无需黄金测试平台，还能用厂商内部代码训练，做数字IC设计的开发者可以直接试。

原文

11:24

berryxia@berryxia

精选

ExaAILabs完成了一项关键实验，在强化学习阶段训练LLM的搜索能力。一组使用Google数据，另一组使用Exa搜索API。结果显示，使用Exa API的模型性能更高，同时训练算力节省了70%。这一发现挑战了“堆算力才能提升AI搜索”的传统认知，表明搜索工具的质量和效率比算力数量更关键。对AI Agent、RAG和带搜索能力的大模型团队有重要启示。

AI模型强化学习搜索能力 Exa API 算力效率 AI Agent

推荐理由：这个实验直接挑战了“堆算力才能提升AI搜索”的行业共识，做AI Agent、RAG或训练搜索模型的团队，看完会重新思考工具选型——建议点开原文看完整blog。

原文

11:23

11:23IT之家（博客/媒体）

小米发布并开源了 Xiaomi OneVL，一个一步式潜空间语言视觉推理框架。雷军称，该模型在业内率先通过潜空间推理将 VLA（视觉语言动作模型）和世界模型统一到同一框架中。在推理和规划等主流基准上，Xiaomi OneVL 全面刷新了潜在推理方法的性能上限。该模型在精度上超越显式 CoT，速度上对齐“仅答案”预测的潜空间 CoT 方案。小米已将模型权重和训练、推理代码全面开源，邀请全球开发者探索自动驾驶大模型的可能性。

AI模型自动驾驶 Xiaomi OneVL VLA 世界模型潜空间推理

推荐理由：小米把 VLA 和世界模型统一到一套框架，解决了自动驾驶多模型协同的痛点，做自动驾驶或具身智能的开发者可以直接用开源代码试试，性能还刷新了基准。

原文

09:20

berryxia@berryxia

70°

Moonshot AI创始人杨植麟发布40分钟视频，详细拆解Kimi K2模型的训练过程，仅花费460万美元。在8模型实时编程大战中，Kimi K2排名第一，超越GPT-5.5和Claude Opus 4.7。视频重点介绍了极致优化、线性注意力、子代理等硬核架构，展示了小团队如何通过聪明架构抹平资源差距。杨植麟本人是Transformer-XL和XLNet共同作者，背景深厚。这段视频对AI代理开发者和2026年大模型赛道入场者极具参考价值。

AI模型 Kimi K2 Moonshot AI 训练优化 AI代理小团队逆袭

推荐理由：杨植麟用460万美元和极致架构打脸烧钱竞赛，做AI代理或准备2026年入场的团队，看完会重新思考资源分配策略——建议存下来周末细看。

原文

01:12

01:12Anthropic: Research（资讯）

Anthropic 更新了其研究页面，展示了多个团队的最新成果。可解释性团队发布了自然语言自编码器，能将 Claude 的内部思维转化为人类可读文本。对齐团队研究了如何减少智能体对齐失败。社会影响团队发布了基于 81,000 名用户反馈的 AI 使用研究。前沿红队分析了前沿模型在网络安全、生物安全和自主系统方面的影响。这些工作共同推动了更安全、更透明的 AI 发展。

AI模型 Anthropic 可解释性对齐社会影响 AI安全

推荐理由：Anthropic 的可解释性研究让 Claude 的思维过程透明化，做 AI 安全或模型调试的开发者值得关注。对齐团队的智能体对齐研究对构建可靠 AI 代理的团队有直接参考价值。

原文

01:10

01:10IT之家（博客/媒体）

95°

中国科学技术大学潘建伟团队成功研制出“九章四号”量子计算原型机，拥有1024个量子压缩态输入和8176个模式，首次操纵3050个光子的量子态，求解高斯玻色取样问题比全球最快超级计算机快10的54次方倍。该成果发表在《自然》期刊，解决了光量子计算中光子损耗的瓶颈，通过高效光源和时空混合编码技术实现连接度立方级扩展。这标志着光量子计算在规模和复杂度上的重大飞跃，巩固了中国在光量子计算领域的领先地位。

AI模型九章四号量子计算光量子中国科学技术大学自然期刊

推荐理由：量子计算研究者或关注前沿科技的读者，这是光量子计算里程碑式突破——九章四号将算力提升到超经典计算机10^54倍，直接刷新世界纪录，值得深入了解其技术细节。

原文

01:10

Noam Shazeer@NoamShazeer

Google 发布了 Gemini 3.1 Flash Live 模型，专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先，支持多语言，已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体，完成复杂任务。

AI模型 Gemini 语音智能体函数调用多语言推理模型

推荐理由：语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先，做语音交互的团队可以直接上手试试。

原文

01:10

01:10DeepSeek: GitHub 新仓库（资讯）

75°

DeepSeek 开源了 DeepEP，这是首个专为 MoE（混合专家）模型设计的专家并行（EP）通信库。它提供了高吞吐、低延迟的 GPU 内核，支持训练和推理中的全到全通信。DeepEP 还支持低精度操作，如 FP8，并引入了高效的稀疏通信技术。该库已开源在 GitHub 上，开发者可以访问其 Pull Requests 页面了解更多。

AI模型 DeepSeek MoE EP通信库开源/仓库分布式训练

推荐理由：MoE 模型的通信瓶颈一直是训练和推理的痛点，DeepEP 专为此优化，做大规模分布式训练的团队值得关注。

原文

01:00

Microsoft Research@MSFTResearch

精选

微软研究院推出GridSFM，一个小型基础模型。该模型能在毫秒内预测AC最优潮流（ACOPF），显著提升电网运行效率。GridSFM为运营商直接提供拥堵、稳定性和系统健康的可视性，并有望帮助降低运营成本。

AI模型 GridSFM 微软基础模型电力系统优化

推荐理由：电网优化新利器

原文

00:33

00:33DeepSeek: GitHub 新仓库（资讯）

精选

DeepSeek发布DeepEP，一个专为MoE模型设计的开源专家并行通信库。DeepEP利用NVLink实现高吞吐量、低延迟的全对全通信。该库同时支持训练和推理场景，优化了分布式MoE的效率。

AI模型 DeepEP DeepSeek MoE 专家并行开源

推荐理由：DeepSeek开源了让MoE训练更快的通信库

原文

5月13日

21:36

21:36Anthropic: Engineering（资讯）

Anthropic 发布了一篇关于托管智能体（Managed Agents）的工程博客，提出将智能体的“大脑”（规划与推理）与“手”（执行工具）解耦的架构设计。这种架构允许更灵活地扩展智能体能力，同时降低复杂度和成本。文章详细介绍了如何通过托管智能体实现更可靠、可维护的自动化系统。这对于构建大规模 AI 自动化系统的开发者具有重要参考价值。

AI模型智能体架构设计 Anthropic 自动化托管智能体

推荐理由：Anthropic 把智能体架构的瓶颈点拆开了——大脑和手解耦后，做复杂自动化系统的团队可以更灵活地扩展能力，建议做 AI 智能体开发的直接点开看架构细节。

原文

21:36

21:36Moonshot AI: Kimi Blog（资讯）

70°

AI模型智能体开源/仓库推理模型 Moonshot Kimi K2

推荐理由：Kimi K2 开源让开发者直接获得了一个在工具使用和推理上超越 GPT-4 的智能体模型，做 AI 应用和自动化流程的团队建议立即上手试试。

原文

21:35

21:35Moonshot AI: Kimi Blog（资讯）

Kimi K2 模型迎来重要更新，主要提升了代码生成与理解能力，并优化了 API 响应速度。更新后的模型在编程任务上表现更出色，能够更准确地理解复杂指令并生成高质量代码。同时，API 的延迟显著降低，为开发者提供了更流畅的集成体验。这一更新对于依赖 Kimi 进行代码辅助的团队来说是一个实用升级。

AI模型 Kimi K2 代码能力 API 加速模型更新编程助手

推荐理由：Kimi K2 的代码能力增强和 API 加速直接提升了开发者的编程效率，做 AI 编程或使用 Kimi API 的团队值得立即体验。

原文

21:35

21:35Moonshot AI: Kimi Blog（资讯）

Kimi 发布了 K2 Thinking 模型并开源，该模型在 Agent 和推理能力上实现显著提升。K2 Thinking 基于 K2 架构，通过强化学习优化了长链推理和多步决策能力，在多个基准测试中表现优异。开源版本允许开发者自由部署和二次开发，降低了使用门槛。这一发布标志着 Kimi 在 Agent 和推理模型领域的持续投入，为开发者和企业提供了更强大的工具。

AI模型 Kimi K2 Thinking 开源/仓库推理模型智能体

推荐理由：K2 Thinking 的开源让 Agent 和推理能力更强的模型触手可及，做智能体或复杂推理应用的开发者可以直接下载试用，降低自研成本。

原文

21:35

21:35DeepSeek: GitHub 新仓库（资讯）

DeepSeek 发布了 DeepEP，这是一个专为 MoE（混合专家）模型设计的高效通信库，旨在优化专家并行场景下的 GPU 通信效率。它支持低延迟推理和高吞吐量训练，并提供了节点内和节点间的通信优化。该库还引入了低精度操作和 FP8 调度，进一步提升了性能。对于使用 MoE 架构的团队，DeepEP 可以直接集成到现有框架中，显著减少通信开销。

AI模型 MoE 通信库 DeepSeek 开源/仓库 GPU优化

推荐理由：MoE 模型的通信瓶颈是训练和推理的常见痛点，DeepEP 直接解决了这个问题。做大规模 MoE 训练或推理的团队，值得集成试试。

原文

21:35

21:35DeepSeek: GitHub 新仓库（资讯）

70°

DeepSeek 开源了 FlashMLA，一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化，已在生产中部署。该项目支持 BF16 精度，分页和块大小 64 的块大小，并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算，显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。

AI模型 DeepSeek FlashMLA 开源/仓库推理优化 Hopper GPU

推荐理由：DeepSeek 开源 FlashMLA 解决了大模型推理中 MLA 解码的性能瓶颈，做推理优化和模型部署的开发者可以直接拿来用，值得一试。

原文

21:35

21:35MiniMax: News（资讯）

AI模型语音合成 MiniMax Speech 2.8 多语言情感表达

推荐理由：语音合成质量再上台阶，做语音助手、有声内容或虚拟主播的团队可以直接用上更自然的声音，建议体验一下效果。

原文

21:35

21:35Anthropic: Newsroom（资讯）

85°

Anthropic 于 2026 年 4 月 16 日发布了 Claude Opus 4.7，这是其最新旗舰模型。该模型在编程、智能体、视觉和多步骤任务上性能显著提升，尤其在需要深度推理和一致性的复杂工作中表现更佳。Opus 4.7 的推出进一步巩固了 Anthropic 在高端 AI 模型领域的竞争力，为开发者和企业用户提供了更可靠的自动化解决方案。

AI模型 Claude Opus 4.7 推理模型编程助手智能体 Anthropic

推荐理由：做复杂编程和智能体开发的团队终于有了更靠谱的选择——Opus 4.7 在多步骤任务上的一致性提升明显，建议直接上手测试。

原文

21:35

21:35Anthropic: Engineering（资讯）

Anthropic 发布 Contextual Retrieval 技术，通过为每个文本块添加上下文说明，显著提升检索增强生成（RAG）的准确性。传统 RAG 中，孤立文本块常因缺乏上下文导致检索错误，而 Contextual Retrieval 利用 Claude 模型为每个块生成简短描述，使检索更精准。该方法结合 BM25 和嵌入搜索，在多个基准测试中错误率降低 67%。Anthropic 还提供了高效实现指南，包括使用 prompt caching 降低 1.6% 的成本。

AI模型 RAG Contextual Retrieval Anthropic Claude 检索增强

推荐理由：做 RAG 应用的开发者终于有了解决上下文丢失问题的实用方案，错误率直降 67%，建议直接看实现指南。

原文

21:35

21:35Anthropic: Engineering（资讯）

75°

Anthropic 宣布其 Claude 3.5 Sonnet 模型在 SWE-bench Verified 基准测试中取得了 49.7% 的通过率，较此前最佳成绩提升了约 10 个百分点。该测试评估 AI 模型解决真实 GitHub 问题的能力，包括代码修复、功能实现等。Claude 3.5 Sonnet 在多个类别中表现优异，尤其在需要多步推理和上下文理解的复杂任务上。这一进展表明 AI 在软件工程自动化领域正快速接近人类水平。

AI模型 Claude 3.5 Sonnet SWE-bench 代码修复基准测试编程助手

推荐理由：Claude 3.5 Sonnet 在 SWE-bench 上的突破意味着 AI 编程助手离真正解决复杂工程问题更近了一步，做软件开发的团队可以关注这一能力提升对日常代码修复和功能开发的潜在影响。

原文

20:25

AK@_akhaliq

精选

商汤科技推出 SenseNova-U1，基于 NEO-unify 架构实现多模态理解与生成的统一。该模型将视觉与语言任务整合至单一框架，无需分离。NEO-unify 架构通过共同表示学习，兼顾高效推理与生成质量。SenseNova-U1 在多个多模态基准上取得竞争力表现。

AI模型 SenseNova-U1 NEO-unify 商汤多模态统一模型

推荐理由：商汤新模型，统一看和写

原文

18:18

berryxia@berryxia

Interfaze 提出了一种全新混合架构，将任务专用的 DNN/CNN 编码器与全能 Transformer 融合，在 OCR、视觉、STT、结构化输出等确定性任务上准确率超越 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3。该架构通过 <task> 标签实现部分模型激活，大幅提升速度和性价比。在 9 个硬核基准上全面领先，尤其在高频场景中速度和成本优势明显。作者认为，未来真实生产力任务不需要越来越大的通用模型，而是需要这种“专为确定性任务而生”的混合架构。

AI模型 Interfaze 混合架构 OCR 视觉模型确定性任务

推荐理由：做 OCR、视觉或音频处理的团队，终于有了一个又准又快又便宜的替代方案——Interfaze 用混合架构把通用大模型的痛点解决了，建议直接看博客跑一下自己的用例。

原文

17:17

17:17IT之家（博客/媒体）

精选70°

小米技术发布并开源了 Xiaomi OneVL 一步式潜空间语言视觉推理框架，首次将 VLA（视觉语言动作）与世界模型统一到同一框架中。该模型在多个自动驾驶基准上刷新了潜在推理方法的性能上限，同时提供语言和视觉双维度的可解释性。相比传统方法，OneVL 在精度上超越显式 CoT，在速度上对齐“仅答案”预测。小米已将模型权重、训练和推理代码全面开源。

AI模型自动驾驶 VLA 世界模型开源/仓库小米

推荐理由：自动驾驶研究者终于有了一个统一 VLA 与世界模型的开源方案——OneVL 在精度和速度上均优于现有方法，做端到端驾驶或世界模型开发的团队可以直接拿来用。

原文

15:51

阿里通义 Qwen@Alibaba_Qwen

阿里巴巴 Qwen 团队宣布 Qwen3.6-Plus 模型已上线 NousResearch 的 Nous Portal 平台，并限时免费开放使用。该模型与 Hermes Agent 结合，为开发者提供更强大的智能体能力。此举降低了高端模型的使用门槛，适合 AI 应用开发者快速体验和集成。

AI模型 Qwen3.6-Plus Nous Portal Hermes Agent 智能体限时免费

推荐理由：做智能体开发的团队可以零成本试用 Qwen3.6-Plus 的 Hermes Agent 能力，限时免费窗口值得抓紧体验。

原文

15:51

Perplexity@perplexity_ai

精选

Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明，GB200 不仅是训练平台，更是大型 MoE 模型高吞吐推理的重大升级，性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率，为大规模 AI 服务提供新思路。

AI模型推理模型 Perplexity Qwen3 NVIDIA GB200 MoE

推荐理由：做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著，Perplexity 的实践给出了可直接参考的优化路径。

原文

13:05

13:05IT之家（博客/媒体）

精选70°

面壁智能联合清华大学及 OpenBMB 开源社区发布 MiniCPM-V 4.6，参数规模 1.3B，仅需约 6GB 内存即可在端侧流畅运行。该模型在 Artificial Analysis 评测中以 13 分超越 Ministral 3 3B，整体能力接近 Qwen3.5-2B 级别。效率方面，基于 vLLM 框架的 Token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍，计算 Token 消耗仅为后者的 2.5%。技术创新包括 LLaMA-UHD v4 架构，将图像编码计算量降低 55.8%，处理 3132×3132 高清图首字延迟仅 75.7 毫秒。模型已全面开源，支持 iOS、Android 和 HarmonyOS 等系统。

AI模型大模型多模态开源/仓库 MiniCPM-V 面壁智能

推荐理由：1.3B模型6G内存就能跑

原文

12:33

12:33Claude: Blog（资讯）

精选

Claude Opus 是Anthropic最新旗舰模型，在MMLU基准测试中达到90.2%，在HumanEval代码生成测试中达到90.1%，均超越GPT-4。它支持200K token上下文窗口，在复杂推理、多语言对话和编程等任务上表现领先。该模型采用Constitutional AI训练方法，提升了安全性和可控性。

AI模型 Claude Opus Anthropic MMLU 编程助手推理模型

推荐理由：推理编程都碾压，性价比高

原文

12:33

12:33Claude: Blog（资讯）

精选

Anthropic推出Claude Haiku，这是其Claude 3系列中最快速且成本最低的模型。Haiku每秒可处理100余个token，延迟低至150毫秒。在MMLU基准测试中得分为75.4，上下文窗口达100K tokens。定价为每百万输入token 0.25美元，每百万输出token 1.25美元。

AI模型 Claude Haiku Anthropic 推理模型轻量级

推荐理由：轻量高性价比的Claude

原文

12:33

12:33DeepSeek: GitHub 新仓库（资讯）

精选

DeepGEMM 是 DeepSeek 开源的矩阵乘法库。近期其 GitHub 仓库 commit activity 显示开发持续活跃。项目团队进行了多项代码优化和问题修复。开发者可以关注仓库以获取最新进展。

AI模型 DeepGEMM DeepSeek 矩阵乘法开源库

推荐理由：DeepGEMM 又在更新了

原文

12:33

12:33MiniMax: News（资讯）

精选

MiniMax 推出音乐生成模型 MiniMax Music 2.5 版本。新版本对音乐结构和音质进行了优化。支持更长的音频生成。适用于多种创作场景。

AI模型 MiniMax 音乐生成音频模型

推荐理由：国产音乐模型又升级了

原文

12:33

12:33MiniMax: News（资讯）

精选

MiniMax 发布了新一代通用多模态模型 Hailuo 02。该模型在 MMMU 基准上达到 74.4%，在 MathVista 上达到 77.9%，在 MMBench 上达到 87.5%。它支持文本、图像和语音输入，具备强大推理能力。此外还提供语音克隆等特色功能。

AI模型 MiniMax Hailuo 02 多模态推理模型语音克隆

推荐理由：MiniMax 新模型多模态强

原文

12:33

12:33MiniMax: News（资讯）

精选

MiniMax 发布了 Music 1.5 音乐生成模型，这是该系列的最新版本。新模型在生成质量、时长控制和风格多样性上有所提升。Music 1.5 支持更长的音频创作，并优化了高保真度输出。

AI模型 MiniMax Music 1.5 音乐生成

推荐理由：音乐生成模型更新到1.5版

原文

12:33

12:33MiniMax: News（资讯）

精选

MiniMax 发布了新一代语音模型 Speech 2.5，支持多语言语音合成和情感控制。该模型在语音自然度和实时性上相比 Speech 2.0 有显著提升。它能够生成带笑、怒、悲等多种情绪的语音，并支持角色音色定制。MiniMax 同时开放了 API 接口供开发者集成。

AI模型 MiniMax Speech 2.5 语音合成多语言

推荐理由：MiniMax 语音模型升级了，能控制情感和角色音色

原文

12:33

12:33MiniMax: News（资讯）

精选

MiniMax推出Music 2.0模型，能生成最长30秒的带人声歌曲。支持中文和英文歌词创作，提供超过10种预设音色和多种音乐风格。用户可自定义歌词、旋律、节奏等参数。模型在歌曲生成基准测试中达到领先水平。

AI模型 MiniMax Music 2.0 MiniMax 音乐生成 AI音乐文生歌曲

推荐理由：能生成带人声的歌曲

原文

08:42

阶跃星辰 Stepfun@StepFun_ai

Stepfun 发布了 Step Image Edit 2，一个 3.5B 参数的图像模型，在指令式图像编辑基准 KRIS-Bench 上排名第一，涵盖总体、事实和概念类别。其性能超越参数规模 5-6 倍的模型，支持文本到图像生成、指令编辑、双语文字渲染和风格迁移。推理速度快，文本到图像仅需 0.7 秒，每次编辑 1.6 秒，每张图像成本仅 $0.003。该模型已在 Stepfun 开放平台上线，模型 ID 为 step-image-edit-2。

AI模型图像编辑文本到图像多模态 Stepfun 开源/仓库

推荐理由：该模型以极小参数量在图像编辑基准上取得领先，推理速度快且成本低，为图像编辑和生成任务提供了高效的新选择。

原文

02:41

NVIDIA AI@NVIDIAAI

NVIDIA AI官方发布了关于Nemotron 3 Nano Omni的专家问答内容，来自Nemotron Labs。该模型是Nemotron系列的最新进展，专注于边缘设备上的高效AI推理。问答中探讨了模型架构、量化技术与实际部署场景，强调了小模型在保持高性能同时降低计算成本的重要性。这标志着NVIDIA在小型化多模态AI模型上的持续投入。

AI模型 NVIDIA Nemotron 边缘推理模型压缩多模态

推荐理由：对于关注边缘AI部署和模型压缩的开发者，Nemotron系列的技术细节具有实际参考价值，尤其适合了解NVIDIA在小模型领域的最新动态。

原文