全部 AI 动态 · AI 热点

6月29日

13:49

Microsoft AI@MicrosoftAI

微软的 MAI-Image-2.5 在 Artificial Analysis 的文本到图像榜单中排名第2，图像编辑排名第3。该模型能对图像进行精确编辑，例如将雨窗模糊场景转换为清晰街景，同时保持物体一致性、光照、反射和场景几何。模型现已通过 Foundry API、MAI Playground 和 OpenRouter 提供使用。

推荐理由：微软 MAI-Image-2.5 图像生成排第2、编辑排第3，还能把雨窗变清晰，想用去 Foundry API 或 OpenRouter 试试。

原文

13:49

Microsoft AI@MicrosoftAI

微软AI在推文中介绍了构建编码模型的全流程，包括训练阶段的优化策略、评估方法、性能调优、安全性考量以及收集真实开发者反馈。文章深入展示了从模型设计到部署的每个环节，帮助理解如何让编码模型适配开发者的实际工作场景。

AI模型微软AI 编码模型模型训练 AI安全编程助手

推荐理由：微软AI分享了他们训练编码模型的实战细节，从评估到安全都有，做编程助手的人值得看看。

原文

13:49

阶跃星辰 Stepfun@Stepfun_AI

StepFun 的 Step 3.7 Flash 模型已在 AI 平台 ZenMuxAI 上架。该模型支持多模态输入，针对实际工作流优化，推理速度较快。用户可在 ZenMuxAI 上免费使用该模型30天。

AI模型 Step 3.7 Flash ZenMux StepFun 多模态免费试用

推荐理由：StepFun 的新模型 Step 3.7 Flash 上线 ZenMux，多模态且快，还能免费用一个月，想试试的别错过。

原文

13:49

Jasper AI@heyjasperai

精选72°

Jasper Research 宣布推出 MONET 数据集，从 29 亿张图片中精炼出 1.049 亿张高质量样本，成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可，可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。

AI模型 MONET Jasper Research nano-t2i Apache 2.0 多模态

推荐理由：Jasper Research 放出了 MONET 数据集，有 1 亿多张图，免费商用，还能用 nano-t2i 在单卡上训练模型，做文生图的值得试试。

原文

13:49

Together AI@togethercompute

GLM-5.2模型已在Together AI平台上架，并通过OpenRouter快速提供服务。Together AI优化推理路径，使模型在长上下文编码和智能体工作负载中每GPU能处理更多token，同时保持低延迟。该模型展现出强劲性能，适合需要高吞吐的复杂任务。

AI模型 GLM-5.2 Together AI OpenRouter 推理模型长上下文

推荐理由：GLM-5.2跑得快，长上下文和智能体场景下Together的优化让token更多更流畅，试试看。

原文

13:49

Ethan Mollick@emollick

AA-Briefcase评分由@ArtificialAnlys发布，用于衡量AI完成多周复杂咨询任务的能力。最新得分曲线显示，AI模型在短期内取得了快速进步。开放权重模型与封闭模型之间存在明显的差距，封闭模型整体表现更优。该评测揭示了当前AI在多步骤复杂任务中的能力差异。

AI模型 AA-Briefcase 开放模型封闭模型 AI基准

推荐理由：新评测让AI做多周复杂咨询，结果看到开放模型和封闭模型差距挺大，进步也很快。

原文

13:49

Ethan Mollick@emollick

GLM-5.2是一款开源模型，其性能不及GPT-5.5和Opus 4.8，更远不及Mythos。但它表现扎实，表明开源模型持续追赶前沿。当前开源权重已触及GPT-5.2水平，在该能力区间表现显著。这一进展说明开源模型正在缩小与闭源前沿的差距。

AI模型 GLM-5.2 GPT-5.5 Opus 4.8 Mythos 开源模型

推荐理由：GLM-5.2虽然没追上GPT-5.5，但开源模型又往前迈了一大步，能力提升明显，值得关注。

原文

13:48

Ethan Mollick@emollick

一项实验测试了AI在端到端编码任务中的能力。Opus 4.7在14小时内构建了一个软件包，相当于人类工程师2-17周的工作量，总花费251美元。虽然模型仍不完美，但进步速度显著。

AI模型 Opus 4.7 编程助手编码能力 AI基准测试

推荐理由：Opus 4.7只用14小时和251块就干完了人类几周的活，虽然还有瑕疵，但进步真的快。

原文

13:48

岚叔@lufzzliz

GPT-5.5-Cyber 在安全基准 CyberGym 上击败了 Mythos 5，取得领先成绩。使用该模型需向官方申请权限，个人和企业均可，用途限定为授权防御场景，如漏洞研究、红队、渗透测试、恶意软件分析、威胁情报、事件响应。此外，Codex 推出了新插件，可利用 gpt-5.5（reasoning 设 high/xhigh）进行代码安全扫描与修复。

AI模型 GPT-5.5-Cyber Mythos 5 CyberGym 安全模型 Codex

推荐理由：GPT-5.5-Cyber 在安全基准 CyberGym 上直接碾压了 Mythos 5，想搞红队或漏洞分析的话可以申请权限试试。

原文

13:09

vLLM@vllm_project

精选

vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理，在H20×2上音频吞吐量提升61.5%，P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理，音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量，实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。

AI模型 vLLM Qwen3-TTS VoxCPM2 Higgs Audio V3 Fish Speech S2 Pro 语音合成推理优化

推荐理由：vLLM团队分享了优化四种主流TTS模型服务的具体技巧，包括性能提升数据和实现细节，对部署TTS服务很有参考价值。

原文

11:51

Browser Use@browser_use

Browser Use 团队对 Opus 4.7 和 GLM 5.2 进行前端设计基准测试。测试使用 Browser Use v4 工具，从 LLM Arena 数据集中选取一个 prompt。每个模型根据该 prompt 生成网站并自动评分。结果对比了这两款模型在代码生成和界面设计上的能力。

AI模型 Opus 4.7 GLM 5.2 Browser Use LLM Arena 前端生成

推荐理由：Browser Use 团队拿 Opus 4.7 和 GLM 5.2 比前端设计，一个 prompt 生成网站打分，看看谁画页面更强。

原文

08:15

AK@_akhaliq

DiffusionBench是一个专门针对扩散变换器（Diffusion Transformers）的全面评估基准。它涵盖了生成质量、推理效率、模型鲁棒性等多个关键维度。该基准基于ImageNet等公开数据集提供了标准化测试协议。它为不同扩散变换器架构的性能比较建立了统一框架。

AI模型 DiffusionBench 扩散变换器评估基准图像生成

推荐理由：想了解不同扩散变换器到底谁更强？试试这个新基准DiffusionBench，评估维度很全，结果很直观。

原文

06:45

Clement Delangue@ClementDelangue

DeepSeek 推出加速模型集合，其中 Gemma-4-12B 可能包含视觉能力。该模型在其 12B 参数量级别中，本地运行性能显著优于同类竞品。该集合未包含 Qwen 3.5，推测因 DeepSeek 未采用线性注意力机制。

AI模型 DeepSeek Gemma-4-12B 加速模型本地模型视觉

推荐理由：DeepSeek 把 Gemma-4-12B 加速了，还带视觉，本地跑起来应该是同尺寸里最强的之一。

原文

06:18

Gary Marcus@GaryMarcus

GLM 5.2 被称作开源界的 Claude 时刻，在 Databricks 平台上需求惊人。Yuchen Jin 指出，该模型遵循已知公式，导致技术壁垒消失、市场趋同、价格战开始，利润率趋小或为负。越来越多公司将转向基于开源模型进行后训练并拥有权重。GaryMarcus 认为这是其三年来论证的无技术护城河、价格战、低利润率趋势的最终体现。

AI模型 GLM 开源模型价格战 Databricks AI市场

推荐理由：GLM 5.2 开源版火了，Databricks 上抢着用，价格战要来了，想用低成本模型得看看这个趋势。

原文

03:06

AK@_akhaliq

百度发布的Unlimited-OCR模型在Hugging Face模型排行榜上位列第一，超越其他模型。该模型专注于OCR文字识别任务，具体基准成绩尚未公布。其排名基于社区下载量和交互数据，反映出较高的关注度。

AI模型 baidu/Unlimited-OCR Hugging Face OCR 文字识别

推荐理由：百度这个OCR模型居然冲到Hugging Face第一了，想搞文字识别的可以看看它有什么本事。

原文

01:31

vLLM@vllm_project

精选

百度Unlimited-OCR现已集成到vLLM推理框架中，基于Reference Sliding Window Attention（R-SWA）机制实现恒定KV缓存，避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档，且编辑距离极低。在6K输出token场景下，推理速度比DeepSeek-OCR快35%，GPU内存和吞吐量保持恒定。

AI模型 Unlimited-OCR Baidu vLLM OCR R-SWA

推荐理由：百度开源了Unlimited-OCR，在vLLM上跑，能一次性解析整本书，内存不涨，比DeepSeek-OCR快35%，做文档OCR的好东西。

原文

00:36

Yangyi@Yangyixxxx

Nous Research 的 Hermes Agent 发布 MoA（Mixture-of-Agents）预置虚拟模型，允许在不同时刻为同一 Agent 路由不同模型，类似快慢脑逻辑。在新基准测试中，该方案比 Opus 4.8 高出 8%，比 GPT 5.5 高出 11%。多 Agent 场景下效果更显著，延续了 Hermes 的工程化优势。

AI模型 Hermes Nous Research 智能体推理模型 MoA

推荐理由：Nous Research 让 Agent 在不同时刻自动切换不同模型，比单一模型更强，新基准上比 Opus 4.8 高8%、比 GPT 5.5 高11%。

原文

00:21

berryxia@berryxia

精选73°

DeepSeek开源了DSpark投机解码框架，用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题，并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中，单用户生成速度比MTP-1基线快60-85%，不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。

AI模型 DeepSeek DSpark DeepSeek-V4 投机解码推理优化

推荐理由：DeepSeek开源了DSpark框架，能让你的V4模型推理提速60%以上，且不影响质量。它解决了投机解码在真实部署中的难题，已经稳定跑在生产环境。

原文

6月28日

23:45

Aadit Sheth@aaditsh

Elon Musk 宣布 Grok 4.5 基于 1.5T 参数的 V9 基础模型，并加入 Cursor 代码数据进行补充训练，已在 SpaceX 和 Tesla 内部私有 beta 测试。早期评估显示其性能接近甚至可能超过 Opus 模型，RL 持续优化模型。SpaceX 计划今年每月发布一个完全从零训练的新模型。目前 Cursor 拥有 700 万日活开发者，多数因使用 Claude 开始使用 Cursor。

AI模型 Grok 4.5 Cursor SpaceX Opus 代码生成

推荐理由：Grok 4.5 用 Cursor 数据训练，性能直逼 Opus，而且 SpaceX 要每月发新模型，代码圈和 AI 圈都该看看。

原文

21:39

小互@imxiaohu

71°

马斯克透露Grok 4.5基于1.5T参数的V9基础模型，并在补充训练中加入了Cursor数据。该模型已在SpaceX和Tesla进入早期测试阶段。初步评估显示其性能接近甚至可能超过Anthropic的Opus模型。马斯克还表示强化学习持续提升模型性能，今年将每月发布完全从头训练的新模型。

AI模型 Grok 4.5 马斯克 XAI 1.5T V9 推理模型

推荐理由：马斯克刚发了Grok 4.5，基于1.5T参数的V9模型，还加了Cursor数据，测试阶段就快超过Opus了，值得关注。

原文

19:16

@elonmusk@elonmusk

Grok 4.5 基于 xAI 的 1.5T V9 基础模型，并使用 Cursor 数据进行补充训练。该版本目前已在 SpaceX 和 Tesla 内部私测。早期评估显示其性能接近甚至超过 Opus。RL 训练仍在持续改进模型，Grok Build 工具每日提升。xAI 计划今年每月发布完全从头训练的新模型。

AI模型 Grok 4.5 Cursor SpaceX 模型更新

推荐理由：Musk 说 Grok 4.5 私测版已经接近 Opus，而且后面每月都会出新模型，想追动态可以瞅一眼。

原文

15:45

Geek@geekbb

Hermes MoA 是一种混合智能体（Mixture of Agents）模式，当前仅 Hermes CLI 支持使用，Hermes Studio 尚未集成。该模式允许用户添加多个辅助模型协同回答，但每增加一个辅助模型就会额外消耗大量 token。体验者称短期玩玩尚可，长期使用即使白嫖也难以承受 token 消耗。

AI模型 Hermes MoA CLI 混合智能体 token消耗

推荐理由：你想试试多模型协作吗？Hermes 出了个 MoA 模式，CLI 已经能用了，加几个辅助模型就多费多少 token，白嫖党慎入。

原文

12:39

berryxia@berryxia

精选

Google Research在2024年ICML发布了时间序列基础模型TimesFM，2025年9月推出2.5版本。参数从500M降至200M，上下文从2048扩展到16K，新增30M分位数预测头可输出10%-90%置信区间。该模型在跨领域数据上预训练后，能零样本预测任意新序列。2026年4月增加通过HuggingFace Transformers和PEFT的LoRA微调能力。TimesFM已集成BigQuery ML、Google Sheets和Vertex AI，开源版本可用两行Python代码调用。

AI模型 TimesFM Google Research 时间序列预测预训练模型零样本

推荐理由：Google搞了个时间序列神器TimesFM，零样本预测，参数200M一张GPU就能跑，还能在Google Sheets里用，pip install两行代码搞定，做预测的别错过。

原文

10:49

Guillermo Rauch@rauchg

智谱AI发布的新模型在安全漏洞发现任务中与Claude Mythos性能相当。该模型可搭配deepsec等工具进行自动化漏洞扫描。如果对手获得类似攻击能力，可能对美国公司构成严重威胁。

AI模型 Zhipu AI Claude Mythos 安全漏洞漏洞发现

推荐理由：智谱AI新模型找漏洞能力不输Claude Mythos，做安全的小伙伴快试试！

原文

07:07

Suhail@Suhail

精选

Hamish Ivison等人发布了Tmax，一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下，Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts，方便复现和进一步研究。

AI模型 Tmax RL terminal agent 开源模型智能体

推荐理由：Tmax把终端智能体的RL训练配方全开源了，65k token里就跑赢之前的工作，想自己训智能体的可以抄作业。

原文

05:49

Marc Andreessen@pmarca

Marc Andreessen在X上援引多位AI内部人士观点，称GLM-5.2是首个匹配并经常超越美国大模型的中国AI模型。该推文获得3553次查看。另有5个点赞和1次转发。

AI模型 GLM-5.2 智谱AI 推理模型

推荐理由：有AI圈内人说GLM-5.2性能已经不输美国主流模型了，而且是智谱AI做的，可以关注一下。

原文

05:01

ollama@ollama

精选

Ollama 宣布支持运行 Ornith 1.0 系列模型，包括 9B、31B Dense、35B MoE 和 397B MoE 四个版本。该模型在 SWE-Bench verified 上达到 82.4，Terminal-Bench 2.1 得分 77.5，多语言 SWE-Bench 得分 78.9。它基于 Gemma4 和 Qwen3.5 后训练，采用强化学习联合优化 scaffold 和解决方案。所有模型以 MIT 许可证开源，支持商业和研究用途。

AI模型 Ollama Ornith SWE-Bench 编程助手开源模型

推荐理由：Ollama 现在可以直接跑 Ornith 编程智能体了，从 9B 到 397B 都有，SWE-Bench 拿了 82.4 分，本地搞智能体编码超方便。

原文

00:49

Geek@geekbb

73°

DeepSeek 在 Pro Max 模式下于多个编码/工程基准取得领先成绩：LiveCodeBench 93.5%、Codeforces Rating 3206、SWE Verified 80.6%，超越 GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 等闭源模型。这些结果来自 X 用户 @geekbb 的推文，并关联到 DeepSeek 的 Hugging Face 仓库。目前该模型尚未开放本地部署，引发社区期待。

AI模型 DeepSeek Pro Max 编码基准开源模型

推荐理由：DeepSeek 拿 Pro Max 模式在 LiveCodeBench 等三大编码基准上直接碾压 GPT-5.4 和 Claude Opus 4.6，分数拉满，但还没开放下载，先来围观一下。

原文

6月27日

23:12

歸藏(guizang.ai)@op7418

Seedance 2.0 原生支持 4K 分辨率生成视频，文字清晰度远超 1080P 超分效果。在 Codepilot 宣传片测试中，材质质感也明显更好。这一改进解决了以往 AI 视频文字模糊的问题。

AI模型 Seedance 2.0 Codepilot 4K 视频生成文字渲染

推荐理由：Seedance 2.0 直接跑 4K，文字和材质细节比超分强太多，做视频宣传片很实用。

原文

21:12

LMSYS Org (SGLang)@lmsysorg

精选

英伟达与智谱AI合作，发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构（40B活跃参数），专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现，在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器，实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。

AI模型 GLM-5.2 NVFP4 NVIDIA SGLang 推理模型

推荐理由：英伟达把GLM-5.2压缩成NVFP4，内存省一大截，推理编码在Blackwell上直接跑，SGLang第一时间就能用。

原文

21:12

LMSYS Org (SGLang)@lmsysorg

精选

Liquid AI 发布了 LFM2.5-230M 模型，参数规模仅 230M，是其最小模型。该模型基于 LFM2 架构，专为设备端部署设计，推理速度极快。它可在云端 GPU 和低成本 CPU 上运行，并支持工具调用和结构化数据提取。性能超过两倍参数量的模型，且已获 SGLang 的 Day 0 支持。

AI模型 LFM2.5-230M Liquid AI SGLang 推理模型设备端部署

推荐理由：Liquid AI 新出的 230M 小模型，跑得飞快，还能干工具调用的活，比两倍大的模型还强。

原文

13:54

vLLM@vllm_project

精选

NVIDIA发布GLM-5.2的NVFP4检查点，在Blackwell GPU上相比FP8内存占用降低一半。该模型在推理、编码和长上下文基准测试中保持与FP8相同的准确率。用户可通过vLLM直接加载运行：vllm serve nvidia/GLM-5.2-NVFP4。

AI模型 GLM-5.2 NVFP4 vLLM NVIDIA 推理模型

推荐理由：想省显存又不想降精度？GLM-5.2的NVFP4版在vLLM上线了，比FP8省一半内存，推理编码长文本都稳。

原文

13:28

lmarena.ai@lmarena_ai

精选

Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token，质量提升+9.2%；Fable达到+14.1%的最高质量。GPT-5.5系列模型（+6.2%至+8.6%）以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳，Grok Build 0.1消耗20K+ token却出现负提升。

AI模型 Agent Arena Opus Fable GPT-5.5 推理模型

推荐理由：想找token性价比高的模型？Agent Arena告诉你Opus和Fable有多能打，GPT-5.5也很省token。

原文

13:13

elvis@omarsar0

84°

OpenAI 宣布了 GPT-5.6 系列，包括前沿模型 Sol、均衡模型 Terra 以及快速廉价模型 Luna。目前仅提供有限预览，少数用户可访问。评论者担忧这种策略不利于行业，呼吁开源AI取胜。

AI模型 GPT-5.6 OpenAI Sol Terra Luna 开源模型

推荐理由：OpenAI 刚出了三个 GPT-5.6 模型，有强有快有便宜，但只给少数人用，引起争议。

原文

13:06

lmarena.ai@lmarena_ai

精选72°

GLM-5.2 (Max) 在 Code Arena 前端排行榜上获得第2名，比 Claude Opus 4.7 (Thinking) 高出 29 分。在 React 子榜单排名第2，HTML 子榜单第4。在品牌营销、数据与分析、消费产品等6个子类别中均位列第一。该模型是开源模型中对 Kimi-K2.6 和 Minimax-M3 优势最大的。在社区投票的单次前端编码测试中展示了10个对比案例。

AI模型 GLM-5.2 Code Arena Claude Opus 4.8 开源模型编程助手

推荐理由：GLM-5.2 在社区投票的编码竞技场上压过 Claude Opus，你可以在前端任务中试试它的单次生成效果。

原文

12:56

Epoch AI@EpochAIResearch

精选

Epoch AI 推出了 MirrorCode，一个长周期软件工程基准，允许 AI 模型自主编程数天。最佳模型（如 GPT-4、Claude 3.5）在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务，每个任务需要多步代码修改和调试。结果显示，当前 AI 在处理持续数小时的工程任务时仍面临挑战，但进步显著。

AI模型 MirrorCode Epoch AI 编程助手基准测试推理模型

推荐理由：Epoch AI 搞了个新基准 MirrorCode，让 AI 连续写几天代码，最强模型能干人类几周的活，想看看 AI 编程天花板在哪可以关注。

原文

12:55

Cohere@cohere

88°

OpenAI计划在未来几周内广泛发布GPT-5.6的三个变体Sol、Terra和Luna。应美国政府要求，目前仅在Codex和API中对少数可信合作伙伴开放有限预览。OpenAI表示相信广泛访问，但需确保安全。

AI模型 OpenAI GPT-5.6 AI安全编程助手

推荐理由：OpenAI要发GPT-5.6了，有三个版本（Sol、Terra、Luna）。现在只有政府批准的合作伙伴能试，几周后全面开放。想尝鲜可以关注Codex和API的预览。

原文

12:53

lmarena.ai@lmarena_ai

AI模型 Agent Arena 智能体评测基准开源模型实验室

推荐理由：想看看谁家的智能体最强？Agent Arena排行榜刚上线，可以按开源模型和实验室筛选，挺方便。

原文

12:48

ChatGPT@ChatGPTapp

86°

OpenAI 推出 GPT-5.6 系列，包括前沿模型 GPT-5.6 Sol、平衡模型 GPT-5.6 Terra 和快速经济模型 GPT-5.6 Luna。Sol 面向复杂推理任务，Terra 优化日常效率，Luna 适合高吞吐量工作。该系列目前处于有限预览阶段。

AI模型 GPT-5.6 OpenAI GPT-5.6 Sol GPT-5.6 Terra GPT-5.6 Luna

推荐理由：OpenAI 一口气发了三个 GPT-5.6 变体：Sol 强在推理、Terra 平衡、Luna 快又便宜，看你需要哪个。

原文

12:43

berryxia@berryxia

83°

OpenAI正式推出GPT-5.6系列，包含旗舰版Sol、性价比版Terra和低成本高吞吐版Luna。Sol在复杂命令行工作流和网络安全长时程任务上表现大幅领先；Terra性能接近GPT-5.5但成本减半。此次发布应美国政府要求，仅限受信任合作伙伴有限预览，普通用户暂不可用。

AI模型 GPT-5.6 OpenAI Sol Terra Luna

推荐理由：OpenAI出了GPT-5.6三个版本，Sol的智能体编程和安全任务很强，但只有美国批准的才能用，普通人还得等几周。

原文