AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:推理引擎×
6月29日
13:51
13:51Together AI@togethercompute
Together AI 工程师将在 AI Engineer World’s Fair 举办 hands-on workshop,讨论 Agentic Coding 如何改变推理引擎需求。workshop 将讲解推理引擎的工作原理及服务生产级 agentic workloads 的要点。活动时间为6月29日上午9-11点,地点在 Room 2020。
技巧Together AIAI Engineer World’s Fairagentic coding推理引擎智能体

推荐理由:想了解 agentic coding 对推理引擎的新要求?Together AI 的这个实操 workshop 直接带你上手,时间是6月29日上午。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
20:16
20:16vLLM@vllm_project
精选73°
vLLM v0.23.0 包含 408 次提交,来自 200 位贡献者(63 位新贡献者)。主要亮点:DeepSeek-V4 在多个后端上成熟,引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified(无编码器)及 MTP 支持。还提供了多层级 KV 缓存卸载(含对象存储层)和统一的推理与工具调用解析器。
AI产品vLLMDeepSeek-V4LlamaGemma 4推理引擎

推荐理由:vLLM v0.23.0 大更新,DeepSeek-V4 和 Llama 用户值得升级,新的 KV 缓存卸载能省显存,推理与工具调用解析也更顺了。
原文
6月13日
09:48
09:48Together AI@togethercompute
精选
Together AI 发布了基于 Blackwell 的推理引擎,在 AgentPerf 基准测试中,其 TPS 比次快的开源引擎高出 31%。该引擎通过为 Blackwell 的 Tensor Core 指令定制内核实现性能提升。Cursor 已将其实时编程助手部署在该推理栈上。Together AI 在推文中详细介绍了构建过程。
AI模型Together AIBlackwell推理引擎编程助手Tensor Core

推荐理由:Blackwell 上推理快了 31%
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
12:08
12:08vLLM@vllm_project
精选
vLLM-Omni 项目在 GitHub 上达到 5000 星标,从去年 11 月社区启动至今,已发展为支持 30 多种多模态模型的高效推理引擎。它覆盖 Qwen3-Omni、HunyuanImage-3.0、Wan 2.2、BAGEL、MiMo-Audio 和 Flux2 等模型,并兼容 NVIDIA、AMD、华为昇腾、Intel 等多种硬件。该项目致力于提供可扩展、开源的多模态推理方案,吸引了大量社区贡献。
AI产品vLLM-Omni多模态推理开源/仓库推理引擎GitHub Stars

推荐理由:多模态推理开发者终于有了一个统一的高效引擎——vLLM-Omni 支持 30+ 模型和多种硬件,做多模态应用或推理优化的团队可以直接拿来用,省去重复造轮子的时间。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月29日
14:34
14:34阶跃星辰 Stepfun@Stepfun_AI
StepFun 宣布其模型获得 vLLM 的 Day-0 支持,这意味着新模型发布当天即可在 vLLM 推理框架中使用。vLLM 是流行的开源大模型推理引擎,支持高效部署。这一合作让开发者能更快地使用 StepFun 模型进行推理和部署。感谢 vLLM 项目的贡献。
AI产品vLLMStepFun推理引擎开源/仓库模型部署

推荐理由:vLLM 的 Day-0 支持意味着 StepFun 模型发布即可用,做模型推理部署的团队可以省去等待适配的时间,建议关注。
原文
08:39
08:39Together AI@togethercompute
精选
Together AI 的 DevRel 团队发布了一篇关于 LLM 推理引擎的入门指南,解释了 tokenization、调度、prefill、decode、KV 缓存、批处理和流式处理等关键组件如何影响 API 调用的速度、可扩展性和生产就绪性。这些底层系统决定了 AI 原生应用的体验质量。对于开发者而言,理解推理引擎有助于优化应用性能和成本。
AI产品推理引擎LLM APITogether AI系统层性能优化

推荐理由:做 AI 原生应用开发的团队,理解推理引擎能帮你优化 API 调用成本和响应速度,建议点开这篇入门指南。
原文
5月20日
04:40
04:40Together AI@togethercompute
76°
Together AI 的 VP of Kernels 指出,当前推理基准测试与生产负载不匹配。针对多并发编码智能体(每个上下文 45k-200k token)的真实场景,Together AI 的推理引擎在 KV 缓存、调度器限制和吞吐量方面进行了优化。测试结果显示,其 TPS 比最快的开源引擎高 31%,饱和状态下首 token 时间快 2 倍,每请求成本比 Claude Opus 4.6 低 76%。这为运行大规模 AI 智能体的团队提供了更高效、更低成本的推理方案。
AI产品推理引擎Together AIKV 缓存成本优化编码智能体

推荐理由:做多智能体编码或高并发推理的团队,终于有基准测试对准真实负载了——Together AI 的引擎在成本和速度上都有明显优势,值得跑一下自己的场景试试。
原文
精选全部日报登录