AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 1002 条中筛出 58 条
全部模型产品行业论文技巧
标签:Together AI×
6月13日
13:13
13:13Together AI@togethercompute
精选
Together AI的Rish Bhargava在推文中指出,部署语音智能体时延迟超过500ms用户会注意到,超过1秒用户会挂断。他详细分析了整个管道,包括75ms网络延迟为何增加30%开销,以及通过共置所有组件可将延迟降至5ms。推文附有链接,可能提供更深入的技术细节。
技巧语音智能体延迟优化Together AI网络延迟共置部署

推荐理由:语音智能体延迟优化实战
原文
10:53
10:53Together AI@togethercompute
精选
MiniMax 发布开源权重原生多模态模型 MiniMax-M3,具备 1M 上下文窗口和 MiniMax 稀疏注意力机制。模型提供思考与非思考两种模式。Together AI 作为首选云合作伙伴,通过推理优化在并发场景下实现高达 125% 的吞吐量提升。
AI模型MiniMax-M3Together AI多模态开源模型1M上下文

推荐理由:MiniMax 新模型上线,吞吐量提升 125%
原文
09:48
09:48Together AI@togethercompute
精选
Together AI 发布了基于 Blackwell 的推理引擎,在 AgentPerf 基准测试中,其 TPS 比次快的开源引擎高出 31%。该引擎通过为 Blackwell 的 Tensor Core 指令定制内核实现性能提升。Cursor 已将其实时编程助手部署在该推理栈上。Together AI 在推文中详细介绍了构建过程。
AI模型Together AIBlackwell推理引擎编程助手Tensor Core

推荐理由:Blackwell 上推理快了 31%
原文
6月12日
11:55
11:55Together AI@togethercompute
精选
Together AI 的前沿智能体负责人 James Zou 在 EinsteinArena 中分享了智能体如何推动开放科学问题的重大进展。他强调了智能体在解决复杂科学问题上的能力提升,特别是在开放科学领域。这一进展展示了 AI 智能体在科学研究中的实际应用潜力,为科研人员提供了新的工具和方法。
AI产品智能体开放科学Together AIEinsteinArena科研工具

推荐理由:做开放科学或 AI 智能体研究的开发者可以看看,智能体在科学问题上的突破可能改变你的研究方式。
原文
07:01
07:01Together AI@togethercompute
精选
Together AI 团队提出 Untied Ulysses 方法,解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时,仅模型参数就会耗尽显存,无法支持 3M token 的上下文长度。新方法通过优化注意力机制,在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行,降低了硬件门槛。
论文长上下文显存优化注意力机制Together AI训练效率

推荐理由:长上下文训练一直是显存大户,Untied Ulysses 让单节点就能跑 3M token,做 LLM 训练和推理优化的团队值得关注,能省下不少 GPU 预算。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
08:00
08:00Together AI@togethercompute
精选
Cursor 与 Together AI 合作,为 AI 编程助手提供实时推理基础设施。Cursor 的编辑器内智能体能在开发者编辑代码时生成代码,要求响应必须在编辑器的反馈循环内完成。Together AI 构建了满足严格延迟目标的基础设施,确保大规模下的实时性能。这一合作解决了 AI 编程中响应速度的关键瓶颈,让开发者获得更流畅的交互体验。
AI产品CursorTogether AIAI编程助手实时推理基础设施

推荐理由:AI 编程工具的实时性直接决定开发效率,Cursor 用户和关注 AI 编程的团队值得了解 Together AI 如何解决延迟痛点。
原文
6月10日
17:27
17:27Together AI@togethercompute
精选
DeepCogito团队需要为其前沿推理模型实现低于500毫秒的首令牌时间,并支持每分钟1000+请求。Together AI提供了解决方案,满足了这一严苛的性能要求。DeepCogito团队分享了在创业公司时间线上构建前沿模型的经验。这展示了AI基础设施提供商如何帮助初创企业实现高性能推理。
AI产品推理模型Together AIDeepCogito低延迟AI基础设施

推荐理由:做推理模型部署的团队会关心这个案例——Together AI帮DeepCogito在创业节奏下实现了500ms首令牌延迟,值得点开看看他们怎么做到的。
原文
6月1日
11:16
11:16Together AI@togethercompute
精选
MiniMax 的最新模型 M3 已正式上线,并由 Together AI 提供推理基础设施支持。双方将于明天太平洋时间下午6点在 X Spaces 进行深度对话,分享模型和基础设施的细节。这一合作意味着 M3 模型将获得高性能的推理服务,对开发者来说是一个值得关注的进展。
AI模型MiniMaxM3Together AI推理模型模型上线

推荐理由:MiniMax M3 上线并由 Together AI 支持推理,意味着模型推理性能有保障,做 AI 应用开发的团队可以直接试用,值得关注。
原文
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:39
08:39Together AI@togethercompute
精选
Together AI 的 DevRel 团队发布了一篇关于 LLM 推理引擎的入门指南,解释了 tokenization、调度、prefill、decode、KV 缓存、批处理和流式处理等关键组件如何影响 API 调用的速度、可扩展性和生产就绪性。这些底层系统决定了 AI 原生应用的体验质量。对于开发者而言,理解推理引擎有助于优化应用性能和成本。
AI产品推理引擎LLM APITogether AI系统层性能优化

推荐理由:做 AI 原生应用开发的团队,理解推理引擎能帮你优化 API 调用成本和响应速度,建议点开这篇入门指南。
原文
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
精选全部日报登录