全部 AI 动态 · AI 热点

6月1日

02:25

阶跃星辰 Stepfun@Stepfun_AI

精选

在 ClawCon Macao 上，阶跃星辰开发者业务总经理 EileenTal 阐述了智能体发展的下一阶段，并发布了 Step 3.7 Flash 模型。该模型强调在保持智能水平的同时大幅提升效率，旨在让 AI 真正落地到实际工作中。Step 3.7 Flash 针对开发者场景优化，降低了推理成本与延迟，使得复杂任务可以更快完成。这一发布标志着阶跃星辰从追求模型智能转向关注实际应用效率的战略转变。

AI模型阶跃星辰 Step 3.7 Flash 智能体效率优化开发者

推荐理由：阶跃星辰把 AI 从「炫技」拉回「干活」——Step 3.7 Flash 在保持智能的同时大幅提升效率，做 AI 应用落地的开发者值得关注，能直接降低推理成本。

原文

5月31日

22:54

Viking@vikingmute

DeepSWE 对 Opus 4.8 的评分显示，该模型在性能上优于 Opus 4.7，且成本更低、效率更高，但相比 GPT5.5 仍有明显差距。作者表示尚未深度使用 4.8，仍在使用更便宜的 4.6 版本，并指出对基准测试已逐渐祛魅，更看重推特上的真实用户评价。目前普遍认为 GPT5.5 仍是大多数用户的最强模型。

AI模型 Opus 4.8 GPT5.5 模型评测成本效率基准测试

推荐理由：如果你在纠结是否升级到 Opus 4.8，这篇推文帮你省了试错成本——作者用真实体验告诉你，4.8 性价比提升但远不及 GPT5.5，做模型选型的开发者建议看看推文下的真实讨论。

原文

19:45

Decoder@Jonathan Kemper

精选

伦敦初创公司 Kaikaku.AI 推出名为 Epicure 的三个 AI 模型，首次明确区分食材搭配是基于食谱还是化学分子。模型基于 414 万条多语言食谱和 FlavorDB 风味数据库训练，不同变体给出不同推荐。纯化学模型在口味和营养价值分类上甚至优于食谱模型，尽管从未直接接触这些信息。这项研究揭示了 AI 在食品科学中的新应用方向。

AI模型 AI模型食材搭配食谱化学分子 Kaikaku.AI

推荐理由：做食品推荐系统或菜谱应用的开发者，可以看看化学模型如何超越食谱模型——它可能改变你设计食材搭配逻辑的方式。

原文

18:30

18:30IT之家（博客/媒体）

精选

开放媒体联盟（AOMedia）于5月29日发布AV2 v1.0规范，这是AV1的继任者。官方测试显示，AV2在PSNR-YUV指标下码率较AV1降低约28.63%，VMAF指标下降32.59%，画质基本保持不变。AV2增强了对AR/VR应用、分屏多节目传输和屏幕内容编码的支持。不过，参考软件AVM在主流硬件上仅约1帧/秒，距离实际商用尚需时间。

AI模型 AV2 AV1 AOMedia 视频编码压缩效率

推荐理由：新一代编码标准，省码率近30%

原文

17:48

17:48IT之家（博客/媒体）

精选

西北工业大学、西安电子科技大学等团队提出 HG-STR（异构图时空推理）算法，解决通信中断、视野受限下的无人机蜂群自主作战难题。模拟测试中，任务成功率 96%，目标杀伤率 100%，单步决策耗时 6.6 毫秒，较传统规则算法任务完成率提升 37.14%。即使在通信半径极度受限的弱连通条件下，仍能保持 94% 的任务成功率。该算法通过为每架无人机配备记忆模块和分层决策机制，实现了从小场景训练到大场景即时部署。

AI模型 HG-STR 无人机蜂群多智能体国防AI

推荐理由：中国团队发布无人机蜂群算法HG-STR，通信中断下仍能100%消灭目标

原文

16:38

AI Will@FinanceYF5

72°

Arena.ai 宣布 Grok-Imagine-Video-1.5-Preview (720p) 在 Image-to-Video Arena 中排名第一，相比前代 Grok-Imagine-Video (720p) 提升了 52 分，超越了 Seedance-2.0 和 HappyHorse 等顶级模型。这是 xAI 在视频生成领域的重要突破，展示了 Grok 系列模型的持续进化能力。该模型在图像到视频的转换质量上取得了显著进步，为 AI 视频生成树立了新标杆。

AI模型 Grok xAI 视频生成图生视频 Arena

推荐理由：xAI 的视频模型首次登顶 Arena，做 AI 视频生成或内容创作的团队值得关注这个新选择，看看它能否在效果和速度上带来惊喜。

原文

10:19

marktechpost@Michal Sutter

精选72°

Trajectory 与 UC Berkeley Sky Lab 和 Anyscale 合作，构建了一个用于持续学习的并发多 LoRA 训练栈。该方案将每个强化学习实验映射到始终热运行的引擎上的专用 LoRA 适配器，相比单租户基线实现了 2.81 倍的端到端实验吞吐量提升，且无奖励回归。代码已在 NovaSky-AI/SkyRL 开源。这一进展解决了持续学习中多实验并行效率低下的问题，对强化学习研究和工程团队有直接价值。

AI模型 LoRA 持续学习强化学习开源/仓库训练栈

推荐理由：做强化学习持续训练的团队终于有了高效的并行方案——2.81 倍吞吐量提升且不损失奖励，直接开源可用，建议试试。

原文

10:10

NVIDIA AI@NVIDIAAI

NVIDIA AI 宣布 Arcee.ai 的 Trinity 模型将迁移至 OpenMDW-1.1 平台。这一迁移意味着 Trinity 模型将获得更好的性能优化和生态支持。OpenMDW-1.1 是 NVIDIA 推出的开放模型部署框架，旨在简化 AI 模型的部署和运行。此举进一步丰富了 OpenMDW 生态，为开发者提供了更多高质量模型选择。

AI模型 Arcee.ai Trinity OpenMDW-1.1 模型部署 NVIDIA

推荐理由：Arcee.ai 的 Trinity 模型迁移至 OpenMDW-1.1，意味着开发者可以更便捷地部署和运行该模型，做模型部署和推理优化的团队值得关注。

原文

09:59

elvis@omarsar0

Claude Opus 4.8 在 DeepSWE Bench 上取得 58% Pass@1 的成绩，排名第二，仅次于 GPT-5.5。该模型在原始分数上略逊一筹，但在多个最新基准测试中展现出最高的可靠性和效率。这一结果延续了近期趋势：模型在追求极致性能的同时，更注重实际应用中的稳定性和资源效率。对于关注 AI 编程和模型选型的开发者来说，这是一个值得关注的信号。

AI模型 Claude Opus 4.8 GPT-5.5 DeepSWE Bench 编程模型效率

推荐理由：Claude Opus 4.8 在 DeepSWE Bench 上以 58% Pass@1 证明了自己是效率与可靠性的标杆，做 AI 编程选型的团队可以把它作为性价比参考。

原文

09:37

lmarena.ai@lmarena_ai

AI模型 xAI Elon Musk 新模型文档 AI模型

推荐理由：xAI的新模型值得AI开发者和研究者关注，建议点开文档看看具体技术细节。

原文

09:03

lmarena.ai@lmarena_ai

72°

xAI 的 Grok-Imagine-Video-1.5-Preview 在图像转视频竞技场中排名第一，相比前代 Grok-Imagine-Video 提升了 52 分，超越了 Seedance-2.0 和 HappyHorse 等顶级模型。该模型支持 720p 分辨率输出，标志着 xAI 在视频生成领域的重大突破。这一进展表明 AI 视频生成竞争正加速，xAI 已跻身第一梯队。

AI模型 xAI Grok 视频生成图像转视频模型竞技场

推荐理由：做视频生成或关注多模态模型的开发者值得关注——Grok 视频模型首次超越主流竞品，意味着又多了一个高性价比选择，建议去竞技场实测对比效果。

原文

05:10

rohanpaul_ai@rohanpaul_ai

精选72°

atomic.chat 在 MacBook Pro M5 Max 64GB 上对比了本地 AI 智能体的工具调用能力。Liquid 的 LFM2.5-8B-A1B 模型（8B 参数，MoE 架构）在规划旅行任务中，成功完成所有 7 次外部工具调用（天气查询、货币转换、邮件和提醒），而 gpt-oss-20b 仅完成 3/7 次。LFM2.5-8B-A1B 运行速度达 266 tok/s，内存占用仅 4.8GB，而 gpt-oss-20b 为 146 tok/s 和 11GB。这表明工具调用本质上是控制问题而非语言问题，更小但训练更聚焦的模型可以胜过更大但泛化的模型。

AI模型本地模型工具调用智能体 LFM2.5-8B-A1B gpt-oss-20b

推荐理由：做本地 AI 智能体或工具调用开发的团队，这个对比直接告诉你：模型大小不是关键，控制能力才是。LFM2.5-8B-A1B 的性价比碾压，值得在本地部署试试。

原文

5月30日

23:18

23:18IT之家（博客/媒体）

精选72°

智元机器人自研的世界模型 Genie Envisioner-Sim 2.0（GE 2.0）在具身领域热门榜单 WorldArena Track1 中登顶，该赛道评测世界模型的感知与动作响应能力。GE 2.0 仅用 20 亿参数，就超越了英伟达、微软等团队的超大参数模型，验证了轻量化模型在人形机器人应用中的适配性。该模型首次全面覆盖长时序生成、多视角生成、本体状态生成、近实时推理及奖励判别等核心环节，在长时序推理中能稳定生成 40-50 秒高质量视频，且与真实世界保持强相关性。GE 2.0 还具备奖励模型机制，可自动筛选高质量数据回流给策略模型，助力多项任务性能提升。

AI模型世界模型具身智能智元 GE 2.0 轻量化模型

推荐理由：智元用 2B 参数模型在具身智能世界模型赛道击败英伟达等巨头，做机器人或具身智能的开发者值得关注——轻量化方案可能改写行业路线。

原文

13:34

Cohere@cohere

Cohere 宣布其 Command A+ 模型在机器翻译方面取得新突破，性能显著超越开源对手如 Mistral Medium 3.5、DeepSeek 和 OpenAI 的 gpt-oss，甚至优于专业翻译系统 Google Translate。与 RWS 合作开发的系统表现更佳，但 A+ 已拉开明显差距。这标志着 Cohere 在翻译领域的竞争力大幅提升，尤其对需要高质量翻译的企业用户意义重大。

AI模型 Cohere Command A+机器翻译模型对比企业级AI

推荐理由：做多语言内容或翻译服务的团队值得关注——Cohere 的 A+ 模型在翻译质量上已经超过主流开源和专有方案，可以直接用于生产环境，省去自研或调优的麻烦。

原文

13:33

Cohere@cohere

精选

Cohere 宣布其 Command A+ 模型在多语言翻译基准测试 WMT24++（xCOMET-XL）中，在所有主要欧洲语言上均超越竞争对手。具体表现为法语提升 2.4 分，西班牙语提升 1.9 分，德语提升 0.9 分。更高的翻译质量意味着更少的修正、更强的检索能力和更可靠的多语言智能体。这一进展对需要高质量多语言支持的团队尤为重要。

AI模型 Cohere Command A+多语言翻译 WMT24++智能体

推荐理由：做多语言应用或智能体的团队，翻译质量直接决定产品体验——Command A+ 在法语、西语、德语上全面领先，值得关注。

原文

12:00

Google AI@GoogleAI

Google AI发布了一期《Release Notes》播客，邀请了Gemini模型的核心架构师Jeff Dean、Koray Kavukcuoglu、Oriol Vinyals和Noam Shazeer共同出镜。他们分享了从愿景到模型落地的幕后故事，探讨了如何持续推动AI前沿。这期节目为关注大模型研发的从业者提供了难得的第一手视角。

AI模型 Gemini Google AI 大模型架构师访谈前沿探索

推荐理由：Gemini核心团队首次集体出镜聊幕后，做大模型研发的从业者能从他们的思考中看到前沿方向，值得花时间听一听。

原文

10:33

10:33IT之家（博客/媒体）

精选72°

英伟达联合香港理工大学、南京大学发布 LocateAnything 模型，专为机器人和 AI Agent 设计，实现高速、高精度对象检测。该模型通过并行框解码在单步内预测边界框，提供 Fast、Slow 和 Hybrid 三种模式，兼顾速度和精度。在单张 H100 GPU 上，Hybrid 模式每秒处理 12.7 个框，远超 Qwen3-VL 等模型。训练数据涵盖 12M 图像和 138M 查询，覆盖多种定位场景。该模型在 LVIS 高精度任务和 ScreenSpot-Pro 等基准上表现优异。

AI模型英伟达 LocateAnything 对象检测机器人感知 AI Agent

推荐理由：机器人感知和 GUI 自动化开发者终于有了一个兼顾速度和精度的检测方案——LocateAnything 的并行解码设计让实时交互成为可能，做具身智能或屏幕操作 Agent 的团队值得直接试。

原文

08:06

Julien Chaumond@julien_c

NVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的修复版本，该模型基于 DeepSeek-V4 架构，采用 NVFP4 精度优化，旨在提升推理效率和性能。修复版解决了之前版本中的一些问题，使模型更加稳定可靠。对于使用 NVIDIA 硬件进行 AI 推理的开发者来说，这是一个值得关注的更新。

AI模型 DeepSeek-V4 NVIDIA NVFP4 模型修复推理优化

推荐理由：NVIDIA 官方修复版解决了 DeepSeek-V4 在自家硬件上的精度和稳定性问题，用 NVIDIA GPU 做推理的团队可以直接拉取使用，省去自己调优的麻烦。

原文

05:27

marktechpost@Asif Razzaq

StepFun 发布了 Step 3.7 Flash，一个 198B 参数的 MoE（混合专家）视觉语言模型，原生支持视觉理解、256k 上下文窗口和 Advisor Mode（顾问模式）。该模型针对编程智能体和搜索工作流进行了优化，能够在复杂任务中提供高效推理和代码生成能力。Step 3.7 Flash 的发布标志着多模态大模型在专业领域应用的重要进展，尤其适合需要长上下文理解和视觉-语言联合推理的场景。

AI模型 Step 3.7 Flash MoE 视觉语言模型编程智能体搜索工作流

推荐理由：做 AI 编程智能体或搜索应用的团队可以直接用上 256k 上下文和视觉能力，Step 3.7 Flash 的 Advisor Mode 能显著提升复杂任务处理效率，值得关注。

原文

05:15

NVIDIA AI@NVIDIAAI

NVIDIA AI 宣布，Harvey 与 Trajectory Labs 合作，基于 NVIDIA Nemotron 3 Super 模型进行后训练，专注于复杂法律任务。他们在 Harvey 的 Legal Agent Benchmark（LAB）上测试了 1200+ 端到端法律任务，覆盖 24 个业务领域。初始结果显示，后训练的 Nemotron 3 Super 在性能上可媲美闭源前沿模型。该项目强调开放权重、可审计性和数据主权，支持持续学习（continual learning），使法律智能体能够从反馈中不断改进。这标志着开放模型在专业领域应用的重要突破。

AI模型 NVIDIA Nemotron 3 Super 法律 AI 后训练开放权重

推荐理由：法律 AI 团队终于有了可审计、可定制的开放模型选择——Nemotron 3 Super 在复杂法律任务上追平闭源模型，做法律科技或合规自动化的开发者可以直接关注这个开源方案。

原文

03:36

Logan Kilpatrick@OfficialLoganK

精选

Gemini联合负责人Jeff Dean、Koray Kavukcuoglu、Noam Shazeer和Oriol Vinyals在一场对话中回顾了Gemini的发展历程。他们讨论了Gemini在多模态推理和编程任务上的性能表现。对话还展望了下一步在Agent和工具使用能力上的增强方向。

AI模型 Gemini Google 多模态对话

推荐理由：Gemini团队亲自聊未来

原文

02:21

Cohere@cohere

精选

Cohere 发布 Command A+，在非拉丁语系语言测试中表现突出。在韩语、日语、希伯来语、中文和阿拉伯语上均超越 Mistral Medium 3.5。尤其在阿拉伯语上，Command A+ 比 Mistral Medium 3.5 高 5 个百分点，比 DeepSeek V4 Pro Sovereign AI 高 10 个百分点。

AI模型 Command A+Mistral Medium 3.5 DeepSeek V4 Pro Cohere 多语言模型

推荐理由：非拉丁语表现更优

原文

01:29

rohanpaul_ai@rohanpaul_ai

83°

Kog AI 在 8× AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度，在 8× NVIDIA H200 上达到 2100 tokens/s（FP16，无投机解码）。这一速度比常规低批次解码快 10-30 倍。其核心创新是将 LLM 解码视为内存流问题而非数学问题，通过 monokernel 技术将整个解码过程作为单个持久 GPU 程序运行，消除了内核启动、CPU 调度和中间内存往返的开销。他们还优化了同步机制和内存访问，并设计了 Laneformer 模型使用延迟张量并行技术。目前技术预览基于 2B 模型，但声称可扩展到大型 MoE 模型。

AI模型推理优化 GPU Kog AI AMD MI300X NVIDIA H200

推荐理由：Kog AI 把 GPU 推理的隐藏效率瓶颈挖出来了，做 LLM 推理优化的开发者可以直接关注他们的技术预览，看看 monokernel 和延迟张量并行能否复现到自己的模型上。

原文

01:17

berryxia@berryxia

Liquid AI 发布 LFM2.5-8B-A1B 模型，这是一个 8B MoE 模型，但仅需 1.5B 活跃参数即可运行。该模型经过 38T tokens 训练和大规模 RL，支持 128K 上下文，工具调用和多步 Agent 能力接近 4 倍参数模型。单台笔记本即可运行完整本地 Agent 循环，延迟低且全程隐私安全，无需调用 GPT-4o 或 Claude。支持 llama.cpp、MLX、vLLM 等框架，覆盖 Apple、NVIDIA、AMD 硬件，表明本地 Agent 落地比预期更快。

AI模型 Liquid AI LFM2.5-8B-A1B MoE 本地Agent 工具调用

推荐理由：本地 Agent 开发者终于不用等大模型了——1.5B 活跃参数就能跑出接近 4 倍参数模型的效果，笔记本就能部署，隐私和延迟都解决了，做本地自动化的建议直接试。

原文

00:23

AK@_akhaliq

精选

DynaFLIP 提出一种基于三模态（视觉、触觉、动力学）的表示学习方法，用于提升机器人对物体动态交互的理解。在 RoboTouch 和 DexYCB 等基准上，DynaFLIP 相比单模态基线提升了 15% 的抓取成功率。该方法利用自监督动力学预测任务对齐多模态特征，无需大量标注数据。实验显示，DynaFLIP 在零样本迁移到新物体时泛化性优于现有方法。

AI模型 DynaFLIP 机器人感知多模态表示学习

推荐理由：让机器人看懂手-物交互

原文

00:08

AK@_akhaliq

精选

minWM是一个全栈开源框架，专门用于构建实时交互式视频世界模型。该框架提供了从模型设计到部署的完整工具链。开发者可以利用minWM创建能够实时响应输入的环境模拟。

AI模型 minWM 世界模型视频生成开源框架

推荐理由：开源实时视频世界模型框架

原文

5月29日

23:55

AK@_akhaliq

OmniRetrieval 是一个新提出的统一检索框架，能够跨结构化数据库、非结构化文本和知识图谱等多种异构知识源进行检索。通过单一模型，它无需为每种数据源单独设计检索器，在多个基准测试中降低了检索延迟约30%。该工作由学术界联合发布，参数规模为7B，已开源模型权重。

AI模型 OmniRetrieval 统一检索异构知识源开源模型

推荐理由：跨源检索统一方案

原文

23:50

AK@_akhaliq

精选

Qwen-VLA 是一个统一的视觉-语言-动作模型，旨在跨任务、环境和机器人本体进行泛化。该模型通过融合视觉与语言指令，直接输出机器人动作。在多个基准测试中，Qwen-VLA 展示了优于现有方法的性能，尤其是在零样本泛化场景。其架构基于 ViT-L 视觉编码器和 Qwen2.5 语言基座。

AI模型 Qwen-VLA 机器人多模态视觉-语言-动作

推荐理由：通才机器人模型来了

原文

23:00

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 发布了 Step 3.7 Flash 模型，专为智能体工作流优化。该模型旨在提升 AI 代理在复杂任务中的执行效率。NousResearch 的用户将在其 Hermes Agent 平台上率先使用该模型。这一合作将推动智能体技术的发展，为开发者提供更强大的工具。

AI模型智能体 Step 3.7 Flash NousResearch Hermes Agent 工作流优化

推荐理由：智能体开发者终于有了专门优化工作流的模型——Step 3.7 Flash 直接解决了代理任务执行效率问题，做自动化流程的团队值得关注。

原文

22:53

rohanpaul_ai@rohanpaul_ai

72°

一场由顶尖研究者参与的 Transformer 与 Post-Transformer 辩论，以拳击擂台形式呈现，兼具技术深度与娱乐性。Transformer 阵营强调其规模化优势、硬件友好性和当前统治地位，认为替代者需 10 倍更好才能迫使生态切换。Post-Transformer 阵营则指出原生推理、持续学习和真正记忆是当前架构的短板，未来可能是混合架构。辩论持续 1 小时 20 分钟，涵盖从注意力机制到 latent reasoning 的多个关键点。

AI模型 Transformer Post-Transformer 推理模型持续学习架构辩论

推荐理由：这场辩论把 AI 架构之争讲得既硬核又好玩，做模型研究或关注下一代架构的开发者看完会有新视角，建议直接看原视频。

原文

18:37

AI Will@FinanceYF5

一条推文指出，旧模型正在被淘汰，新模型的空间已经腾出，暗示GPT-5.6即将到来。该推文获得少量互动，但浏览量达519次，反映出社区对下一代模型的期待。这标志着AI模型迭代加速，旧模型可能面临被快速替代的局面。

AI模型 GPT-5.6 模型迭代旧模型淘汰 AI趋势

推荐理由：关注模型迭代的开发者可以提前感知GPT-5.6的临近，旧模型被淘汰意味着新机会，值得留意。

原文

18:36

AI Will@FinanceYF5

一位名为 Chubby♨️ 的 X 用户发帖称，旧模型正在被淘汰，为新模型腾出空间，并暗示 GPT-5.6 即将到来。该言论引发了社区对 OpenAI 下一代模型发布的猜测。目前尚无官方确认，但用户基于模型迭代节奏和近期动态做出推断。这一消息若属实，将标志着 AI 模型能力的又一次重大跃升。

AI模型 GPT-5.6 OpenAI 模型迭代 AI 预测下一代模型

推荐理由：OpenAI 模型迭代节奏的线索对 AI 从业者和开发者至关重要，GPT-5.6 可能带来推理、多模态等能力的突破，建议关注后续动态。

原文

17:57

AI SDK@aisdk

Anthropic 发布了 Claude Opus 4.8，这是 Opus 4.7 的升级版本。新模型在判断力上更加敏锐，对自身进展的表述更诚实，并且能够比前代更长时间地独立工作。该模型现已可用，价格与 Opus 4.7 相同。AI SDK 已支持集成该模型，开发者可以立即使用。

AI模型 Claude Opus 4.8 推理模型 AI SDK 自主工作 Anthropic

推荐理由：Claude Opus 4.8 提升了判断力和自主工作能力，做复杂推理和长任务自动化的开发者可以直接用上，价格不变值得升级。

原文

17:17

17:17IT之家（博客/媒体）

76°

小米大模型应用团队开源了 ControlFoley，一个统一的可控视频音效生成框架，解决了视频配音中“按意图控制声音”的难题。该模型支持三类任务：文本引导视频配音、文本控制视频配音（当文本与画面冲突时优先遵循文本）、以及参考音频控制视频配音（保持音色风格同时同步动作）。ControlFoley 采用时空音视频编码器 CAV-MAE-ST 增强音画同步理解，并通过时间-音色解耦策略避免参考音频干扰节奏。在多个基准测试上，ControlFoley 达到开源 SOTA，甚至在某些指标上超越商业闭源系统 Kling-Foley。代码、模型权重、在线 Demo 均已开放。

AI模型小米 ControlFoley 视频音效生成可控生成开源模型

推荐理由：做视频创作或音效生成的开发者终于有了可控的配音工具——ControlFoley 让声音按文本或参考音频来，而不是被画面牵着走。建议直接试在线 Demo，看看它如何解决“画面是A但想要B声音”的痛点。

原文

16:39

pandaily@contact@pandaily.com (Pandaily)

精选

X-Square Robot 推出了 WALL-WM，这是全球首个事件级预测的具身 AI 世界模型。与传统逐帧预测不同，WALL-WM 转向语义事件理解，让机器人能够理解任务目标而非记忆像素序列。该模型预计于 2026 年 5 月正式发布。这一突破意味着机器人可以更高效地规划动作，减少对大量训练数据的依赖，推动具身智能从感知走向认知。

AI模型具身智能世界模型事件预测 X-Square Robot WALL-WM

推荐理由：做机器人或具身智能的团队终于有了能理解任务目标的模型——WALL-WM 从像素预测升级到事件理解，直接降低训练成本，做自主导航或操作任务的开发者值得关注。

原文

15:35

marktechpost@Asif Razzaq

精选72°

Hexo Labs 开源了 SIA，一个自改进循环系统，采用 MIT 许可证。SIA 通过反馈智能体读取每次运行的轨迹，然后重写脚手架或触发 gpt-oss-120b 的 LoRA 权重更新。结合这两种杠杆，在 LawBench、TriMul GPU 内核和 scRNA-seq 去噪任务上，SIA 的表现优于仅更新脚手架的方法。这为 AI 智能体的持续自我优化提供了新范式，开发者可以直接使用或修改。

AI模型自改进智能体开源/仓库 LoRA 权重更新 Hexo Labs gpt-oss-120b

推荐理由：SIA 解决了智能体无法自主改进代码和模型权重的问题，做 AI 智能体或自动化系统的开发者可以直接用这个开源框架来提升任务性能，值得一试。

原文

14:36

阶跃星辰 Stepfun@Stepfun_AI

88°

阶跃星辰发布了 Step 3.7 Flash 模型，专注于智能体效率，在 ClawEval-1.1、SimpleVQA Search 等基准测试中取得领先成绩。该模型采用 198B 稀疏 MoE 架构，约 11B 活跃参数，支持 400 TPS 推理速度和 256K 上下文，并提供三种推理级别。它擅长理解 UI、图表、文档和图像，并能直接编写代码或调用工具执行操作，在 τ²-bench 上工具调用可靠性超过 98%。模型权重以 Apache 2.0 开源，可在 Mac Studio M4 Max、DGX Spark 等设备本地运行，并兼容 Claude Code、MCP 等生态。

AI模型阶跃星辰 Step 3.7 Flash 智能体开源/仓库推理模型

推荐理由：做智能体、编程或搜索应用的开发者终于有了一个兼顾速度、成本和可靠性的开源模型——Step 3.7 Flash 在工具调用和视觉理解上表现突出，而且能在本地跑，建议直接试试。

原文

14:33

阶跃星辰 Stepfun@Stepfun_AI

精选

Step 3.7 Flash 模型在发布首日即获得 NVIDIA 的全面支持，包括 NIM 推理微服务、NeMo 框架以及 GPU 加速端点。这意味着开发者可以立即在 NVIDIA 的生态系统中部署和运行该模型，无需额外适配。NVIDIA 的首日支持通常意味着模型经过了优化，能充分利用 GPU 硬件性能，降低推理延迟和成本。这对于需要高性能推理的 AI 应用团队来说是一个重要信号，表明 Step 3.7 Flash 已具备企业级部署条件。

AI模型 Step 3.7 Flash NVIDIA NIM NeMo GPU加速

推荐理由：NVIDIA 首日支持意味着 Step 3.7 Flash 可直接用于生产环境，做推理部署的团队可以省去适配工作，直接使用 NIM 和 NeMo 加速。

原文

13:38

岚叔@lufzzliz

精选

本文揭示大模型在生成低频词汇（如冷门人名）时表现不佳，并非小bug，而是底层偏好高频表达所致。作者串联了“马嘉祺”事件、Anthropic tokenizer调整以及FaceMind团队的SLoW和Adam's Law研究，指出频率是大模型数据工程的关键变量。FaceMind早于大众关注低频token退化问题，将其写成论文并落地产品场景。文章还解释了为何prompt并非越多越好，以及高频同义表达更稳定。最后介绍了FaceMind的动态弹幕产品，暗示其可能应用于世界杯等场景。

AI模型大模型低频token FaceMind SLoW 数据工程

推荐理由：做AI应用或数据工程的团队，这篇把低频token退化讲透了——FaceMind的SLoW方法直接给出了解决方案，值得点开看看怎么从模型规律里建立产品差异。

原文

12:15

OpenRouter@OpenRouterAI

精选76°

StepFun 发布了 Step 3.7 Flash 模型，这是一款面向智能体、编码、搜索和多模态工作流的高效模型。该模型采用 198B 稀疏 MoE 架构，仅激活约 11B 参数，支持 256K 上下文和三种推理级别，推理速度达 400 TPS。在 ClawEval-1.1、SimpleVQA Search 和 SWE-PRO 等基准测试中表现领先，并支持视觉理解、工具调用和本地运行。模型权重以 Apache 2.0 开源，可在 Mac Studio、DGX Spark 等设备上运行。

AI模型智能体推理模型开源/仓库编程助手多模态

推荐理由：Step 3.7 Flash 解决了智能体场景中速度与可靠性的平衡问题，做智能体开发、编码自动化和多模态应用的团队可以直接用开源权重部署，值得一试。

原文