精选 AI 资讯 · AI 热点

6月13日

13:13

13:13

Together AI@togethercompute

精选

Together AI的Rish Bhargava在推文中指出，部署语音智能体时延迟超过500ms用户会注意到，超过1秒用户会挂断。他详细分析了整个管道，包括75ms网络延迟为何增加30%开销，以及通过共置所有组件可将延迟降至5ms。推文附有链接，可能提供更深入的技术细节。

技巧语音智能体延迟优化 Together AI 网络延迟共置部署

推荐理由：语音智能体延迟优化实战

10:53

10:53

Together AI@togethercompute

精选

MiniMax 发布开源权重原生多模态模型 MiniMax-M3，具备 1M 上下文窗口和 MiniMax 稀疏注意力机制。模型提供思考与非思考两种模式。Together AI 作为首选云合作伙伴，通过推理优化在并发场景下实现高达 125% 的吞吐量提升。

AI模型 MiniMax-M3 Together AI 多模态开源模型 1M上下文

推荐理由：MiniMax 新模型上线，吞吐量提升 125%

09:48

09:48

Together AI@togethercompute

精选

Together AI 发布了基于 Blackwell 的推理引擎，在 AgentPerf 基准测试中，其 TPS 比次快的开源引擎高出 31%。该引擎通过为 Blackwell 的 Tensor Core 指令定制内核实现性能提升。Cursor 已将其实时编程助手部署在该推理栈上。Together AI 在推文中详细介绍了构建过程。

AI模型 Together AI Blackwell 推理引擎编程助手 Tensor Core

推荐理由：Blackwell 上推理快了 31%

6月12日

11:55

11:55

Together AI@togethercompute

精选

Together AI 的前沿智能体负责人 James Zou 在 EinsteinArena 中分享了智能体如何推动开放科学问题的重大进展。他强调了智能体在解决复杂科学问题上的能力提升，特别是在开放科学领域。这一进展展示了 AI 智能体在科学研究中的实际应用潜力，为科研人员提供了新的工具和方法。

AI产品智能体开放科学 Together AI EinsteinArena 科研工具

推荐理由：做开放科学或 AI 智能体研究的开发者可以看看，智能体在科学问题上的突破可能改变你的研究方式。

07:01

07:01

Together AI@togethercompute

精选

Together AI 团队提出 Untied Ulysses 方法，解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时，仅模型参数就会耗尽显存，无法支持 3M token 的上下文长度。新方法通过优化注意力机制，在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行，降低了硬件门槛。

论文长上下文显存优化注意力机制 Together AI 训练效率

推荐理由：长上下文训练一直是显存大户，Untied Ulysses 让单节点就能跑 3M token，做 LLM 训练和推理优化的团队值得关注，能省下不少 GPU 预算。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

08:00

08:00

Together AI@togethercompute

精选

Cursor 与 Together AI 合作，为 AI 编程助手提供实时推理基础设施。Cursor 的编辑器内智能体能在开发者编辑代码时生成代码，要求响应必须在编辑器的反馈循环内完成。Together AI 构建了满足严格延迟目标的基础设施，确保大规模下的实时性能。这一合作解决了 AI 编程中响应速度的关键瓶颈，让开发者获得更流畅的交互体验。

AI产品 Cursor Together AI AI编程助手实时推理基础设施

推荐理由：AI 编程工具的实时性直接决定开发效率，Cursor 用户和关注 AI 编程的团队值得了解 Together AI 如何解决延迟痛点。

6月10日

17:27

17:27

Together AI@togethercompute

精选

DeepCogito团队需要为其前沿推理模型实现低于500毫秒的首令牌时间，并支持每分钟1000+请求。Together AI提供了解决方案，满足了这一严苛的性能要求。DeepCogito团队分享了在创业公司时间线上构建前沿模型的经验。这展示了AI基础设施提供商如何帮助初创企业实现高性能推理。

AI产品推理模型 Together AI DeepCogito 低延迟 AI基础设施

推荐理由：做推理模型部署的团队会关心这个案例——Together AI帮DeepCogito在创业节奏下实现了500ms首令牌延迟，值得点开看看他们怎么做到的。

6月1日

11:16

11:16

Together AI@togethercompute

精选

MiniMax 的最新模型 M3 已正式上线，并由 Together AI 提供推理基础设施支持。双方将于明天太平洋时间下午6点在 X Spaces 进行深度对话，分享模型和基础设施的细节。这一合作意味着 M3 模型将获得高性能的推理服务，对开发者来说是一个值得关注的进展。

AI模型 MiniMax M3 Together AI 推理模型模型上线

推荐理由：MiniMax M3 上线并由 Together AI 支持推理，意味着模型推理性能有保障，做 AI 应用开发的团队可以直接试用，值得关注。

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:39

08:39

Together AI@togethercompute

精选

Together AI 的 DevRel 团队发布了一篇关于 LLM 推理引擎的入门指南，解释了 tokenization、调度、prefill、decode、KV 缓存、批处理和流式处理等关键组件如何影响 API 调用的速度、可扩展性和生产就绪性。这些底层系统决定了 AI 原生应用的体验质量。对于开发者而言，理解推理引擎有助于优化应用性能和成本。

AI产品推理引擎 LLM API Together AI 系统层性能优化

推荐理由：做 AI 原生应用开发的团队，理解推理引擎能帮你优化 API 调用成本和响应速度，建议点开这篇入门指南。

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？