全部 AI 动态 · AI 热点

6月26日

02:56

AK@_akhaliq

开发者使用GLM 5.2模型在hf-claude环境下，为9B参数的Ornith-1.0-9B模型搭建了一个Gradio服务器应用。该推文获得3条回复和3197次浏览。应用通过Gradio界面提供交互式推理，可直接测试模型的文本生成能力。代码可能开源，用户可自行部署。

技巧 GLM 5.2 hf-claude Ornith-1.0-9B Gradio 模型部署

推荐理由：有人用GLM 5.2和hf-claude给Ornith-1.0-9B做了个Gradio界面，直接就能上手试，省了写前端代码的功夫。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

20:47

Julien Chaumond@julien_c

oMLX 项目现已支持 Hugging Face 标准缓存模型目录，这意味着用户可以直接使用本地已下载的模型，无需额外配置。该更新由开发者 @jundotkim 实现，旨在简化 MLX 框架下的本地 AI 部署流程。对于使用 Apple Silicon 设备运行本地大模型的用户来说，这一改进显著降低了使用门槛。社区对此反响积极，认为这是提升 MLX 生态易用性的重要一步。

AI产品 oMLX MLX 本地AI Hugging Face 模型部署

推荐理由：对于在 Apple Silicon 上跑本地模型的开发者，oMLX 支持 HF 缓存目录意味着省去模型重复下载和路径配置的麻烦，建议直接更新体验。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

03:42

Fireworks AI@FireworksAI_HQ

在微软 Build 大会上，Fireworks AI、Unsloth AI 和 CoreAuto AI 的专家讨论了从模型微调到生产推理之间的关键瓶颈。他们聚焦于模型定制权衡、服务基础设施决策以及大规模优化成本和延迟。这场讨论揭示了团队在将微调模型投入生产时常遇到的挑战，并提供了实用建议。对于正在构建或部署 AI 应用的团队，这是一次值得关注的经验分享。

行业微调生产推理模型部署成本优化 MSBuild

推荐理由：微调模型上线难是很多团队的痛点，做模型部署或 AI 工程化的开发者可以听听一线专家的实战经验，直接避开常见坑。

原文

02:42

Google AI Developers@googleaidevs

Google AI 开发者团队宣布推出 Gemma 3 模型，该模型兼容 llama.cpp、MLX、LM Studio、vLLM、Ollama、UnslothAI 和 SGLang 等主流推理框架。权重已同步上传至 Kaggle 和 Hugging Face 平台，开发者可自由下载使用。这一发布意味着 Gemma 3 能无缝融入现有 AI 工具链，降低部署门槛。

AI模型 Gemma 3 Google 推理框架开源/仓库模型部署

推荐理由：Google 终于把 Gemma 3 的兼容性做全了——主流推理框架全覆盖，做本地部署或模型微调的开发者可以直接去 Hugging Face 下载权重，省去适配烦恼。

原文

6月3日

08:36

Fireworks AI@FireworksAI_HQ

Fireworks AI 宣布其平台现已集成到 Microsoft Foundry，开发者与企业可在该平台上构建下一代智能应用。该公司将在 MSBuild 大会的 F111 展位进行现场演示。这一合作意味着 Fireworks AI 的模型部署和推理能力将通过微软的云基础设施触达更广泛的用户群体。

AI产品 Fireworks AI Microsoft Foundry MSBuild 模型部署企业级AI

推荐理由：AI 应用开发者终于可以在 Microsoft Foundry 上直接使用 Fireworks AI 的推理服务，部署效率会大幅提升，做企业级 AI 应用的建议去 MSBuild 展位看看。

原文

6月1日

17:17

Marc Andreessen@pmarca

精选

Marc Andreessen转发了一条关于AI领域新人如何避免落后的建议。建议包括深入学习模型内部原理、线性代数、非凸优化、训练小模型和大模型、掌握vLLM和Tensor并行、手写内核、集群编排、合成数据、SFT和PPO、学习Triton、了解半导体供应链、构建大型集群、预训练800B模型并后训练、服务数百万用户、在基准测试上超越DeepSeek。这些建议强调从理论到实践的全面技能，是AI领域职业安全的关键。

行业 AI职业发展技能路线深度学习集群训练模型部署

推荐理由：AI新人想快速成长？这份硬核路线图从数学到集群全覆盖，建议逐条对照执行，做AI开发的值得收藏。

原文

5月31日

10:10

NVIDIA AI@NVIDIAAI

NVIDIA AI 宣布 Arcee.ai 的 Trinity 模型将迁移至 OpenMDW-1.1 平台。这一迁移意味着 Trinity 模型将获得更好的性能优化和生态支持。OpenMDW-1.1 是 NVIDIA 推出的开放模型部署框架，旨在简化 AI 模型的部署和运行。此举进一步丰富了 OpenMDW 生态，为开发者提供了更多高质量模型选择。

AI模型 Arcee.ai Trinity OpenMDW-1.1 模型部署 NVIDIA

推荐理由：Arcee.ai 的 Trinity 模型迁移至 OpenMDW-1.1，意味着开发者可以更便捷地部署和运行该模型，做模型部署和推理优化的团队值得关注。

原文

5月30日

11:35

AK@_akhaliq

HuggingFace 宣布其推理 API 现在支持超过 81,000 个模型，覆盖文本、图像、音频等多种模态。这意味着开发者可以直接通过 API 调用海量预训练模型，无需自行部署基础设施。这一更新大幅降低了 AI 模型的使用门槛，尤其适合快速原型开发和实验。对于需要灵活选择模型的团队来说，这是一个重要的资源整合。

AI产品 HuggingFace 推理 API 模型部署开发者工具开源/仓库

推荐理由：81k 模型一键调用，省去部署烦恼——做 AI 应用开发的团队可以直接用 API 快速验证想法，值得收藏。

原文

5月29日

14:34

阶跃星辰 Stepfun@Stepfun_AI

StepFun 宣布其模型获得 vLLM 的 Day-0 支持，这意味着新模型发布当天即可在 vLLM 推理框架中使用。vLLM 是流行的开源大模型推理引擎，支持高效部署。这一合作让开发者能更快地使用 StepFun 模型进行推理和部署。感谢 vLLM 项目的贡献。

AI产品 vLLM StepFun 推理引擎开源/仓库模型部署

推荐理由：vLLM 的 Day-0 支持意味着 StepFun 模型发布即可用，做模型推理部署的团队可以省去等待适配的时间，建议关注。

原文

5月28日

00:09

rohanpaul_ai@rohanpaul_ai

Trajectory 是一家由前 DeepMind、OpenAI 和 Meta 超级智能研究员创立的初创公司，近日推出了一个持续学习平台，并获得了 1500 万美元融资。该平台旨在解决当前 AI 产品“冻结软件”的问题——用户每天都在纠正模型错误，但这些纠正很少被用来更新模型。Trajectory 的核心单元是“轨迹”，它结合了智能体的操作和用户的接受、拒绝、编辑、重试或修复行为，使公司能够基于完整的失败链进行训练，同时改进模型权重、提示词和智能体工作流。持续学习被认为是 AI 的下一个重大飞跃，能让模型在部署后从实际使用中不断改进。

AI产品持续学习智能体模型部署 Trajectory 用户反馈

推荐理由：Trajectory 解决了 AI 产品部署后无法从用户反馈中持续学习的痛点，做 AI 产品落地的团队可以直接关注这个平台，看看如何利用用户纠错来提升模型能力。

原文

5月25日

13:07

openclaw@openclaw

精选

OpenClaw 发布了 2026.5.22 版本，主要优化了网关和模型启动路径，使其更精简。模型加载延迟降至约 5 毫秒，大幅提升了响应速度。npm 包现在附带锁定依赖，增强了安全性。Windows 安装和更新路径也得到加固，减少了意外问题。整体体验更流畅，等待时间更短。

AI产品 OpenClaw 模型部署性能优化安全加固依赖管理

推荐理由：对于使用 OpenClaw 做模型部署或网关服务的团队，这次更新直接降低了启动延迟和依赖风险，值得立即升级体验。

原文

5月22日

16:34

阿里云 Alibaba Cloud@alibaba_cloud

阿里云发布了在PAI-EAS平台上部署DeepSeek V4-Flash的成本效益分析，通过实际基准测试和定价数据比较了不同部署选项。该分析旨在帮助用户找到每美元性能最佳的方案，适合需要优化AI模型部署成本的开发者和企业。视频演示了具体对比结果，为选择最经济的部署方式提供参考。

AI产品 DeepSeek 阿里云 PAI-EAS 模型部署性价比

推荐理由：做AI模型部署的团队终于有了明确的性价比参考——阿里云用真实数据告诉你DeepSeek V4-Flash怎么部署最省钱，建议做成本优化的点开看看。

原文

13:55

Cohere@cohere

精选

Cohere 发布了其最强开源大模型 Command A+，并已在 Hugging Face 上提供 W4A4 量化版本。该量化技术能在几乎不损失性能的情况下大幅降低模型部署的硬件需求，显著减少服务占用空间。开发者可以直接下载使用，适合资源受限的部署场景。

AI模型 Cohere Command A+W4A4量化开源/仓库模型部署

推荐理由：Cohere 把最强模型做到 W4A4 量化还开源了，做推理部署的团队可以直接拿来降成本，值得一试。

原文

10:54

阿里云 Alibaba Cloud@alibaba_cloud

阿里云与 Novita AI 合作，将最新模型 Qwen3.7-Max 部署在 Novita 平台上。该模型专为智能体时代设计，旨在支持更复杂的自动化任务和智能体应用。开发者现在可以通过 Novita AI 直接使用该模型进行构建。此举标志着阿里云在智能体领域的进一步布局，为开发者提供了更强大的工具。

AI产品 Qwen3.7-Max 阿里云 Novita AI 智能体模型部署

推荐理由：Qwen3.7-Max 专为智能体时代优化，做自动化或智能体开发的团队可以直接在 Novita AI 上体验，值得一试。

原文

5月16日

19:32

ollama@ollama

Ollama 宣布为其云服务大幅增加 NVIDIA Blackwell GPU，以更好地支持 GLM-5.1 模型。同时，Ollama 也在每日为其他模型增加 GPU 资源。用户可通过 Ollama 的 Claude Code、Codex App 和 Hermes Agent 等工具调用 GLM-5.1 模型。该模型可通过命令 `ollama run glm-5.1:cloud` 直接运行。此举旨在提升模型推理性能和可用性。

AI产品 Ollama GLM-5.1 NVIDIA Blackwell GPU 云服务模型部署

推荐理由：Ollama 为 GLM-5.1 加 GPU 意味着推理速度更快、并发更高，做 AI 应用开发或依赖云端大模型的团队值得关注，可以直接用命令体验。

原文

5月15日

07:09

Together AI@togethercompute

Together AI 研究团队将有七篇论文在 MLSys 2026 会议上发表，展示从研究到生产的 AI 原生云平台成果。这些论文涵盖 AI 系统优化、模型部署效率等关键领域，体现了 Together AI 在 AI 基础设施方面的技术积累。MLSys 是机器学习系统领域的顶级会议，入选多篇论文说明其技术实力获得学术界认可。

行业 MLSys 2026 AI 基础设施系统优化模型部署 Together AI

推荐理由：做 AI 基础设施和模型部署的团队值得关注——Together AI 这七篇论文覆盖了从研究到落地的关键环节，能帮你了解当前 AI 系统优化的前沿方向。

原文

5月14日

14:13

Cohere@cohere

精选

Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中，通过结合 4 位权重（低内存）和 8 位激活（高计算），在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16，TTFT（首 token 生成时间）提升高达 58%，TPOT（每 token 输出时间）提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率，适合生产环境部署。

AI模型推理优化 vLLM W4A8 Cohere 模型部署

推荐理由：Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题，做模型部署和推理优化的团队可以直接在 vLLM 中体验，值得关注。

原文