13:52Together AI@togethercompute开放模型推动AI栈走向模块化,模型、API、工具和推理各自独立进步。Together AI认为开放模型的价值远超定价优势,正在构建模块化推理层。这种架构让不同组件可以独立优化,降低整体AI应用成本。行业开放模型Together AI推理层模块化AI栈推荐理由:Together AI聊开放模型不是拼价格,而是拼模块化。他们正在做AI推理层,让模型、工具自由组合。原文
13:51Together AI@togethercompute在 aiDotEngineer World's Fair 上,James Zou 将展示 EinsteinArena 和 DSGym 两项工作。EinsteinArena 用于多智能体数学发现,DSGym 则为数据科学智能体提供更好的评估。这两项基准旨在推动 AI 在科学协作中的能力。AI模型EinsteinArenaDSGymTogether AI多智能体数据科学智能体推荐理由:想知道多智能体怎么一起搞科研、怎么评估数据科学智能体?James Zou 分享了两个新基准,很实用。原文
13:51Together AI@togethercompute精选随着Token使用量爆发式增长,模型选择已从技术决策变为产品策略。团队正在测试GLM-5.2等新模型,追求前沿质量与更好的Token经济学。Together AI正在构建面向开源模型未来的推理层,以提供更可控的成本、数据和部署选项。行业GLM-5.2Together AI推理层开源模型Token经济学推荐理由:团队开始用GLM-5.2替换闭源模型?Together AI的推理层让开源模型更可控,想省钱又保质量可以看看。原文
13:51Together AI@togethercomputeTogether AI 构建了基于 Parakeet 的语音转文本堆栈,每秒可处理约 302 秒音频,这是 Artificial Analysis 报告中最高速度因子。该堆栈在 Together 平台上运行,通过系统级优化实现低延迟转录。文章由 @FeelTheBeurn 详细拆解了背后的工程工作。AI模型ParakeetTogether AI语音识别推理优化速度基准推荐理由:Together AI 把 Parakeet 优化到每秒转写 302 秒音频,比别的服务快一大截,想搞语音识别的可以看看这篇系统调优拆解。原文
13:51Together AI@togethercomputeGLM-5.2模型在Together AI平台上运行,生成精美Web应用的成本仅需几美分。开发者可以以极低开销探索多个方向、比较不同版本,并保留最佳结果。这显著改变了传统的构建迭代循环,降低了实验门槛。AI模型GLM-5.2Together AI编程助手推荐理由:GLM-5.2在Together AI上几美分就能生成网页应用,开发者可以随便试不同版本,挑最好的,省钱又高效。原文
13:51Together AI@togethercomputeTogether AI 工程师将在 AI Engineer World’s Fair 举办 hands-on workshop,讨论 Agentic Coding 如何改变推理引擎需求。workshop 将讲解推理引擎的工作原理及服务生产级 agentic workloads 的要点。活动时间为6月29日上午9-11点,地点在 Room 2020。技巧Together AIAI Engineer World’s Fairagentic coding推理引擎智能体推荐理由:想了解 agentic coding 对推理引擎的新要求?Together AI 的这个实操 workshop 直接带你上手,时间是6月29日上午。原文
13:51Together AI@togethercomputeTogether AI 宣布其处理 token 量已达 400 万亿,认为这标志着开放模型在真实生产中进入规模采用阶段。团队将实际工作负载迁移到开放模型,是为了获得前沿质量、更好的 tokenomics 和更强的推理控制力。Together AI 提供基础设施支持这一转型。行业Together AI开放模型tokenomics推理生产部署推荐理由:400万亿 token 的量级,说明开放模型在真实生产里站稳了,看 Together AI 怎么搭台子。原文
13:51Together AI@togethercompute精选Together AI与5C合作部署NVIDIA GB300 NVL72系统,该系统采用高密度计算、先进冷却和AI优化存储。专为大规模推理和推理任务设计,提升基础设施的算力密度和能效。部署的重点是支撑下一代AI推理需求,尤其是长链推理场景。行业Together AI5CNVIDIA GB300 NVL72推理基础设施高密度计算4 个信源在谈推荐理由:Together AI和5C搞了套GB300 NVL72,算力密度高、散热好,专门跑大规模推理,适合那种费算力的长推理任务。原文
13:51Together AI@togethercomputeGLM-5.2 现已上线,用户可通过 Together Chat 免费体验。无需 API 设置,直接选择模型即可开始使用。Together AI 在安全的北美基础设施上提供服务,方便开发者快速测试。该模型免费试用的入口已公开,降低了体验门槛。AI模型GLM-5.2Together AITogether Chat免费试用推荐理由:想试试GLM-5.2?现在Together Chat上就能免费用,不用搭API,选模型直接开聊。原文
13:51Together AI@togethercompute精选智谱AI的GLM-5.2模型在Together AI平台展示了端到端代码修复能力,可读取issue、推理场景并自动生成补丁。一年前这类任务还被认为是闭源模型(如GPT-4)的专属领域,如今开源模型已能胜任。该模型未公布具体基准分数,但实际演示表明其编程推理能力接近闭源水平。AI模型GLM-5.2Together AI推理模型编程助手开源模型推荐理由:开源模型GLM-5.2能自己读代码问题、推理并修复,以前只有闭源模型才能做到,现在用Together AI就能跑。原文
13:51Together AI@togethercompute精选Together AI 在 X 上演示语音智能体利用屏幕交互的功能。该方案整合了语音转文本(STT)、语音合成和推理,具体使用 Parakeet 进行 STT,MiniMax Speech 2.8 处理语音,MiniMax M3 进行推理。实时系统要求堆叠每一层保持低延迟。演示展示了完整循环在 Together AI 平台上运行。AI产品Together AIParakeetMiniMax Speech 2.8MiniMax M3语音智能体3 个信源在谈推荐理由:Together AI 搞了个语音智能体 demo,能边看屏幕边说话,用了 Parakeet、MiniMax Speech 2.8 和 M3,实时性很强。原文
13:49Together AI@togethercomputeGLM-5.2模型已在Together AI平台上架,并通过OpenRouter快速提供服务。Together AI优化推理路径,使模型在长上下文编码和智能体工作负载中每GPU能处理更多token,同时保持低延迟。该模型展现出强劲性能,适合需要高吞吐的复杂任务。AI模型GLM-5.2Together AIOpenRouter推理模型长上下文推荐理由:GLM-5.2跑得快,长上下文和智能体场景下Together的优化让token更多更流畅,试试看。原文
03:05Together AI@togethercompute88°OpenAI 的 GPT Image 2 模型现已在 Together AI 的 Serverless Inference 服务中上线。开发者可通过该接口将图像生成与编辑功能集成到多模态应用中。模型支持精准布局控制、可读文本生成以及参考图像引导生成。Together AI 提供无服务器推理能力,无需管理基础设施即可调用。AI模型GPT Image 2OpenAITogether AI图像生成多模态10 个信源在谈推荐理由:OpenAI 的新图像模型 GPT Image 2 现在能用 Together AI 的无服务器接口调用了,做多模态应用时直接用它生成和编辑图片,支持布局和文字控制,挺方便。原文
18:43Together AI@togethercomputeTogether AI 在推文中指出,当团队运行数十亿 tokens 时,缓存、吞吐量和服务效率的微小差异会转化为产品级的经济性。以 MiniMax M3 模型为例,该模型在 Together AI 平台上提供前沿品质和开放模型经济学,其服务栈专为规模化设计。这体现了开放模型在生产中的实际成本竞争力。AI模型MiniMax M3Together AI开放模型推理效率经济性2 个信源在谈推荐理由:看看 Together AI 怎么用 MiniMax M3 把开放模型做大,跑几十亿 tokens 还省钱。不是吹概念,是实打实的缓存和吞吐量优化。原文
18:42Together AI@togethercomputeTogether AI的James Zou与NVIDIA的Venkat Srinivasan将于7月1日在AI Engineer World's Fair上讨论开放模型如何实现集体智能。该活动聚焦开源模型在协作智能系统中的作用。演讲将结合两家公司的技术实践,分析开放模型对多智能体架构的影响。行业Together AINVIDIA开放模型AI Engineer World's Fair6 个信源在谈推荐理由:想了解开放模型怎么支撑多智能体协作?Together AI和NVIDIA的人要聊这个,7月1日别错过。原文
18:41Together AI@togethercompute精选Zai_org 推出其最新旗舰开源模型 GLM-5.2,支持 1M token 长上下文,可灵活调整推理思考力度。该模型在智能体编程任务上表现更强,现已通过 Together AI 提供推理服务,专为长上下文和工具密集型智能体工作负载优化。AI模型GLM-5.2Zai_orgTogether AI智能体长上下文推荐理由:GLM-5.2 支持百万级上下文,还能控制推理深度,搞智能体编程和复杂工具链的可以试试。Together AI 上直接用。原文
18:38Together AI@togethercomputeDecagonAI 通过与 Together AI 合作,将语音代理每轮对话成本降低近6倍,同时保持实时语音所需的低延迟。他们从闭源模型迁移到微调的开源模型,实现 p95 模型延迟低于400ms。采用自定义投机解码和提示缓存技术,并在 NVIDIA Blackwell 上优化服务部署。模型更新频率达到每周甚至每日,体现了从封闭 API 到开放模型的转变。行业DecagonAITogether AINVIDIA Blackwell语音代理开源模型6 个信源在谈推荐理由:DecagonAI 把语音成本砍到原来的1/6,延迟还压到400ms以下,实时语音项目可以参考他们迁移开源模型的做法。原文
18:37Together AI@togethercompute精选Together AI分享了优化GLM 5.1推理性能的三项关键改进。他们重写了索引器的topk内核。接着融合了索引器内核以减少内存和启动开销。同时消除了限制预填充吞吐量的CPU开销。这些优化显著提升了GLM 5.1在Together AI平台上的运行效率。AI模型GLM 5.1Together AI推理优化内核重写推荐理由:想知道Together AI怎么让GLM 5.1跑得更快?他们分享了三个工程优化点,对部署GLM 5.1有直接帮助。原文
18:35Together AI@togethercomputeTogether AI 上线了 Cartesia Sonic 3.5 语音模型,为开发者提供超过150种语音。通过语音查找器,开发者可以试听和比较这些语音,为实时智能体挑选最合适的角色。选定后可直接在 Together AI 平台部署,简化开发流程。AI模型Cartesia Sonic 3.5Together AI语音模型实时语音智能体推荐理由:Together AI 集成了 Cartesia Sonic 3.5,有150多种语音可选,做实时语音智能体可以试试这个新库。原文
18:34Together AI@togethercomputeTogether AI 部署的 DeepSeek V4 Pro 在 Artificial Analysis 基准测试中同时获得输出速度和延迟两项第一。该成绩通过优化 KV 缓存、前缀复用、内核及端点配置实现。Together AI 公开了其推理系统的具体工程方案,包括缓存策略和内核调优。AI模型DeepSeek V4 ProTogether AIArtificial Analysis推理优化性能基准1 个信源在谈推荐理由:Together AI 把 DeepSeek V4 Pro 调到了速度与延迟双第一,还公开了优化方法,搞推理部署的值得看看。原文
13:13Together AI@togethercompute精选Together AI的Rish Bhargava在推文中指出,部署语音智能体时延迟超过500ms用户会注意到,超过1秒用户会挂断。他详细分析了整个管道,包括75ms网络延迟为何增加30%开销,以及通过共置所有组件可将延迟降至5ms。推文附有链接,可能提供更深入的技术细节。技巧语音智能体延迟优化Together AI网络延迟共置部署推荐理由:语音智能体延迟优化实战原文
10:53Together AI@togethercompute精选MiniMax 发布开源权重原生多模态模型 MiniMax-M3,具备 1M 上下文窗口和 MiniMax 稀疏注意力机制。模型提供思考与非思考两种模式。Together AI 作为首选云合作伙伴,通过推理优化在并发场景下实现高达 125% 的吞吐量提升。AI模型MiniMax-M3Together AI多模态开源模型1M上下文7 个信源在谈推荐理由:MiniMax 新模型上线,吞吐量提升 125%原文
09:48Together AI@togethercompute精选Together AI 发布了基于 Blackwell 的推理引擎,在 AgentPerf 基准测试中,其 TPS 比次快的开源引擎高出 31%。该引擎通过为 Blackwell 的 Tensor Core 指令定制内核实现性能提升。Cursor 已将其实时编程助手部署在该推理栈上。Together AI 在推文中详细介绍了构建过程。AI模型Together AIBlackwell推理引擎编程助手Tensor Core4 个信源在谈推荐理由:Blackwell 上推理快了 31%原文
11:55Together AI@togethercompute精选Together AI 的前沿智能体负责人 James Zou 在 EinsteinArena 中分享了智能体如何推动开放科学问题的重大进展。他强调了智能体在解决复杂科学问题上的能力提升,特别是在开放科学领域。这一进展展示了 AI 智能体在科学研究中的实际应用潜力,为科研人员提供了新的工具和方法。AI产品智能体开放科学Together AIEinsteinArena科研工具推荐理由:做开放科学或 AI 智能体研究的开发者可以看看,智能体在科学问题上的突破可能改变你的研究方式。原文
07:01Together AI@togethercompute精选Together AI 团队提出 Untied Ulysses 方法,解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时,仅模型参数就会耗尽显存,无法支持 3M token 的上下文长度。新方法通过优化注意力机制,在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行,降低了硬件门槛。论文长上下文显存优化注意力机制Together AI训练效率推荐理由:长上下文训练一直是显存大户,Untied Ulysses 让单节点就能跑 3M token,做 LLM 训练和推理优化的团队值得关注,能省下不少 GPU 预算。原文
08:00Together AI@togethercompute精选Cursor 与 Together AI 合作,为 AI 编程助手提供实时推理基础设施。Cursor 的编辑器内智能体能在开发者编辑代码时生成代码,要求响应必须在编辑器的反馈循环内完成。Together AI 构建了满足严格延迟目标的基础设施,确保大规模下的实时性能。这一合作解决了 AI 编程中响应速度的关键瓶颈,让开发者获得更流畅的交互体验。AI产品CursorTogether AIAI编程助手实时推理基础设施6 个信源在谈推荐理由:AI 编程工具的实时性直接决定开发效率,Cursor 用户和关注 AI 编程的团队值得了解 Together AI 如何解决延迟痛点。原文
03:02Together AI@togethercomputeTogether AI 宣布已通过 ISO 27001:2022 认证,由 A-LIGN(ANAB 认可)完成对其信息安全管理体系的数月审计。认证覆盖客户数据保护、访问控制、安全开发和事件响应等关键领域。这标志着 Together AI 在数据安全和合规方面达到国际标准,增强了企业客户对其云服务的信任。详情可查看其博客和官网。行业Together AIISO 27001数据安全合规认证云服务推荐理由:对于使用 Together AI 云服务的企业团队,这项认证意味着数据保护和安全合规有了国际背书,建议关注其安全实践细节。原文
17:27Together AI@togethercompute精选DeepCogito团队需要为其前沿推理模型实现低于500毫秒的首令牌时间,并支持每分钟1000+请求。Together AI提供了解决方案,满足了这一严苛的性能要求。DeepCogito团队分享了在创业公司时间线上构建前沿模型的经验。这展示了AI基础设施提供商如何帮助初创企业实现高性能推理。AI产品推理模型Together AIDeepCogito低延迟AI基础设施推荐理由:做推理模型部署的团队会关心这个案例——Together AI帮DeepCogito在创业节奏下实现了500ms首令牌延迟,值得点开看看他们怎么做到的。原文
17:26Together AI@togethercomputeTogether AI 宣布与云分销商 Pax8 合作,将高性能、低成本的 AI 基础设施和领先的开源模型带给全球中小企业。此举打破了 AI 资源被大公司垄断的局面,使中小企业也能利用先进的 AI 技术。合作将通过 Pax8 的渠道网络,让更多企业轻松获取 Together AI 的模型和服务。行业AI 基础设施开源模型中小企业Together AIPax8推荐理由:中小企业终于能低成本用上顶级 AI 基础设施,做技术选型或预算有限的团队可以直接关注。原文
03:02Together AI@togethercomputeTogether AI 宣布推出 Ideogram 4,一款专为设计场景打造的开源图像模型。该模型具备强大的文字渲染能力、布局控制功能,并原生支持 2K 图像生成。AI 原生用户现可通过 Together Serverless Inference 在创意生产工作流中使用 Ideogram 4。这一发布为设计师和开发者提供了更可控、高质量的开源图像生成方案。AI产品图像生成开源/仓库设计工具Ideogram 4Together AI推荐理由:做设计或创意生产的团队终于有了开源的高质量图像模型——Ideogram 4 的文字渲染和布局控制解决了 AI 图像生成的常见痛点,建议设计师和 AI 开发者直接上手试试。原文
21:46Together AI@togethercomputeTogether AI 宣布在其平台上推出两款 NVIDIA Nemotron 模型:Nemotron 3 Ultra 专为高吞吐量的智能体工作负载设计,适合构建编码智能体和深度研究智能体;Nemotron 3.5 ASR 则专注于低延迟的多语言语音识别,适用于实时语音系统。这为 AI 原生开发者提供了在 AI Native Cloud 上构建复杂应用的新选择,降低了部署门槛。AI产品NVIDIA NemotronTogether AI智能体语音识别AI Native Cloud10 个信源在谈推荐理由:做智能体或语音应用的开发者现在有了更专业的模型选择——Nemotron 3 Ultra 适合高并发任务,Nemotron 3.5 ASR 能直接用于多语言实时语音场景,值得在 Together AI 上试试。原文
11:16Together AI@togethercompute精选MiniMax 的最新模型 M3 已正式上线,并由 Together AI 提供推理基础设施支持。双方将于明天太平洋时间下午6点在 X Spaces 进行深度对话,分享模型和基础设施的细节。这一合作意味着 M3 模型将获得高性能的推理服务,对开发者来说是一个值得关注的进展。AI模型MiniMaxM3Together AI推理模型模型上线推荐理由:MiniMax M3 上线并由 Together AI 支持推理,意味着模型推理性能有保障,做 AI 应用开发的团队可以直接试用,值得关注。原文
19:35Together AI@togethercomputeTogether AI 的两位副总裁 Dan Fu 和 Sarung 在 NVIDIA GTC 大会上参加了辣翅挑战,一边吃辣翅一边回答 AI 相关问题。视频展示了他们在辛辣刺激下的真实反应和即兴回答,既有技术讨论也有趣味互动。这个活动以轻松的方式展现了 AI 领域高管的个性和幽默感,同时传递了 Together AI 在 AI 基础设施方面的观点。行业NVIDIA GTCTogether AIAI 行业趣味活动高管访谈9 个信源在谈推荐理由:想看 AI 大佬被辣到冒汗还要聊技术?这个视频把严肃的 GTC 变成了欢乐现场,做 AI 社区运营或喜欢行业趣闻的值得点开,看完会笑出声。原文
04:17Together AI@togethercompute72°Together AI 推出了目前最快的两个语音转文字(STT)模型,其中 NVIDIA Parakeet-TDT 0.6B v3 能在 10 秒内转录 20 小时的语音。该模型基于 TensorRT 优化、条件 CUDA 图、事件驱动 I/O 和共享内存等技术实现极致性能。这一进展大幅降低了大规模语音转录的延迟和成本,对需要实时或批量处理语音的团队意义重大。Together AI 通过系统级优化展示了 STT 模型在推理速度上的新标杆。AI产品语音转文字NVIDIA Parakeet-TDTTogether AI推理优化TensorRT5 个信源在谈推荐理由:语音转录速度提升了一个数量级,做实时语音应用或大规模音频处理的团队可以直接用上,省下不少时间和算力成本。原文
08:39Together AI@togethercompute精选Together AI 的 DevRel 团队发布了一篇关于 LLM 推理引擎的入门指南,解释了 tokenization、调度、prefill、decode、KV 缓存、批处理和流式处理等关键组件如何影响 API 调用的速度、可扩展性和生产就绪性。这些底层系统决定了 AI 原生应用的体验质量。对于开发者而言,理解推理引擎有助于优化应用性能和成本。AI产品推理引擎LLM APITogether AI系统层性能优化推荐理由:做 AI 原生应用开发的团队,理解推理引擎能帮你优化 API 调用成本和响应速度,建议点开这篇入门指南。原文
05:31marktechpost@Asif Razzaq72°Together AI 开源了 OSCAR,一种面向长上下文 LLM 推理的 INT2 KV 缓存量化方法。与依赖数据无关的 Hadamard 变换不同,OSCAR 通过离线估计注意力感知的协方差结构,为键和值分别推导旋转矩阵。在 Qwen3-4B-Thinking-2507 和 Qwen3-8B 上,OSCAR 以每 KV 元素 2.28 比特的精度,将 BF16 精度差距分别缩小至 3.78 和 1.42 分。该方法可实现约 8 倍的 KV 内存缩减,并在 100K 上下文长度下带来最高 3 倍的解码加速。AI模型量化KV 缓存长上下文Together AI推理优化推荐理由:长上下文 LLM 推理的内存瓶颈终于有了实用解法——OSCAR 在 2-bit 量化下几乎不损失精度,做长文档/多轮对话推理的团队可以直接集成,显著降低硬件成本。原文
12:33Together AI@togethercomputeTogether AI 宣布在其平台上新增 600 多种声音,并集成了 MiniMax Speech 2.8 Turbo 企业级 TTS 模型。该模型专为实时、富有表现力的语音代理设计,支持 AI 原生开发者在其专用基础设施上部署。用户可以直接在语音查找器中试听这些声音。这一更新显著扩展了 Together AI 的语音能力,为构建语音交互应用提供了更多选择。AI产品TTS语音代理MiniMaxTogether AI企业级模型推荐理由:做语音代理或实时对话应用的开发者,现在有 600+ 声音可选,且能直接在企业级基础设施上部署 MiniMax 模型,值得试试语音查找器里的新声音。原文
04:40Together AI@togethercompute76°Together AI 的 VP of Kernels 指出,当前推理基准测试与生产负载不匹配。针对多并发编码智能体(每个上下文 45k-200k token)的真实场景,Together AI 的推理引擎在 KV 缓存、调度器限制和吞吐量方面进行了优化。测试结果显示,其 TPS 比最快的开源引擎高 31%,饱和状态下首 token 时间快 2 倍,每请求成本比 Claude Opus 4.6 低 76%。这为运行大规模 AI 智能体的团队提供了更高效、更低成本的推理方案。AI产品推理引擎Together AIKV 缓存成本优化编码智能体推荐理由:做多智能体编码或高并发推理的团队,终于有基准测试对准真实负载了——Together AI 的引擎在成本和速度上都有明显优势,值得跑一下自己的场景试试。原文
17:28Together AI@togethercompute78°Cursor 团队发布了 Composer 2.5,这是一款面向智能体编程的模型,标志着编程助手领域的重要进展。Together AI 作为 AI 原生云服务商,参与了此次合作发布。Composer 2.5 在速度和生成质量上表现突出,正在引领编程智能体的新潮流。AI产品编程助手智能体CursorTogether AIComposer 2.510 个信源在谈推荐理由:编程开发者和 AI 编程工具用户值得关注——Composer 2.5 提升了智能体编程的速度和质量,做自动化代码生成的团队可以直接体验。原文
01:17Together AI@togethercomputeTogether AI 宣布上线 Gemma-4-31B-it-Pearl 模型,这是 Pearl Research Labs 基于 Gemma 4 31B 进行指令微调的版本,采用了 @prlnet 的 Proof of Useful Work 协议。该模型现已作为无服务器推理端点提供,价格比标准版低 25% 以上。对于需要高效、低成本部署大模型的 AI 开发者来说,这是一个值得关注的新选择。AI产品Gemma-4-31B-it-PearlTogether AI推理模型无服务器推理价格优惠推荐理由:做模型推理部署的团队可以关注这个价格优势——同样基于 Gemma 4 31B,但成本直降 25%+,适合预算敏感的生产环境。原文