全部 AI 动态 · AI 热点

6月29日

13:51

13:51

Together AI@togethercompute

Together AI 工程师将在 AI Engineer World’s Fair 举办 hands-on workshop，讨论 Agentic Coding 如何改变推理引擎需求。workshop 将讲解推理引擎的工作原理及服务生产级 agentic workloads 的要点。活动时间为6月29日上午9-11点，地点在 Room 2020。

技巧 Together AI AI Engineer World’s Fair agentic coding 推理引擎智能体

推荐理由：想了解 agentic coding 对推理引擎的新要求？Together AI 的这个实操 workshop 直接带你上手，时间是6月29日上午。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

20:16

20:16

vLLM@vllm_project

精选73°

vLLM v0.23.0 包含 408 次提交，来自 200 位贡献者（63 位新贡献者）。主要亮点：DeepSeek-V4 在多个后端上成熟，引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified（无编码器）及 MTP 支持。还提供了多层级 KV 缓存卸载（含对象存储层）和统一的推理与工具调用解析器。

AI产品 vLLM DeepSeek-V4 Llama Gemma 4 推理引擎

推荐理由：vLLM v0.23.0 大更新，DeepSeek-V4 和 Llama 用户值得升级，新的 KV 缓存卸载能省显存，推理与工具调用解析也更顺了。

6月13日

09:48

09:48

Together AI@togethercompute

精选

Together AI 发布了基于 Blackwell 的推理引擎，在 AgentPerf 基准测试中，其 TPS 比次快的开源引擎高出 31%。该引擎通过为 Blackwell 的 Tensor Core 指令定制内核实现性能提升。Cursor 已将其实时编程助手部署在该推理栈上。Together AI 在推文中详细介绍了构建过程。

AI模型 Together AI Blackwell 推理引擎编程助手 Tensor Core

推荐理由：Blackwell 上推理快了 31%

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:08

12:08

vLLM@vllm_project

精选

vLLM-Omni 项目在 GitHub 上达到 5000 星标，从去年 11 月社区启动至今，已发展为支持 30 多种多模态模型的高效推理引擎。它覆盖 Qwen3-Omni、HunyuanImage-3.0、Wan 2.2、BAGEL、MiMo-Audio 和 Flux2 等模型，并兼容 NVIDIA、AMD、华为昇腾、Intel 等多种硬件。该项目致力于提供可扩展、开源的多模态推理方案，吸引了大量社区贡献。

AI产品 vLLM-Omni 多模态推理开源/仓库推理引擎 GitHub Stars

推荐理由：多模态推理开发者终于有了一个统一的高效引擎——vLLM-Omni 支持 30+ 模型和多种硬件，做多模态应用或推理优化的团队可以直接拿来用，省去重复造轮子的时间。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月29日

14:34

14:34

阶跃星辰 Stepfun@Stepfun_AI

StepFun 宣布其模型获得 vLLM 的 Day-0 支持，这意味着新模型发布当天即可在 vLLM 推理框架中使用。vLLM 是流行的开源大模型推理引擎，支持高效部署。这一合作让开发者能更快地使用 StepFun 模型进行推理和部署。感谢 vLLM 项目的贡献。

AI产品 vLLM StepFun 推理引擎开源/仓库模型部署

推荐理由：vLLM 的 Day-0 支持意味着 StepFun 模型发布即可用，做模型推理部署的团队可以省去等待适配的时间，建议关注。

08:39

08:39

Together AI@togethercompute

精选

Together AI 的 DevRel 团队发布了一篇关于 LLM 推理引擎的入门指南，解释了 tokenization、调度、prefill、decode、KV 缓存、批处理和流式处理等关键组件如何影响 API 调用的速度、可扩展性和生产就绪性。这些底层系统决定了 AI 原生应用的体验质量。对于开发者而言，理解推理引擎有助于优化应用性能和成本。

AI产品推理引擎 LLM API Together AI 系统层性能优化

推荐理由：做 AI 原生应用开发的团队，理解推理引擎能帮你优化 API 调用成本和响应速度，建议点开这篇入门指南。

5月20日

04:40

04:40

Together AI@togethercompute

76°

Together AI 的 VP of Kernels 指出，当前推理基准测试与生产负载不匹配。针对多并发编码智能体（每个上下文 45k-200k token）的真实场景，Together AI 的推理引擎在 KV 缓存、调度器限制和吞吐量方面进行了优化。测试结果显示，其 TPS 比最快的开源引擎高 31%，饱和状态下首 token 时间快 2 倍，每请求成本比 Claude Opus 4.6 低 76%。这为运行大规模 AI 智能体的团队提供了更高效、更低成本的推理方案。

AI产品推理引擎 Together AI KV 缓存成本优化编码智能体

推荐理由：做多智能体编码或高并发推理的团队，终于有基准测试对准真实负载了——Together AI 的引擎在成本和速度上都有明显优势，值得跑一下自己的场景试试。