09:22arXiv cs.AI@Alexandre Belloni, Yan Chen, Yehua Wei该论文提出了一种在线上下文潘多拉魔盒模型,用于自适应查询和选择LLM API。决策者在每个周期观察请求上下文,面临两阶段决策:查询阶段顺序调用API并产生输出相关成本,选择阶段从生成的输出中选一个部署并观察下游奖励。与经典模型不同,该模型输出反馈结构不直接揭示奖励。研究者直接建模保留索引,结合广义矩估计和UCB置信界,实现了维度相关的√T累积遗憾。论文LLM API自适应查询潘多拉魔盒模型在线学习遗憾分析推荐理由:LLM API调用成本高、选择困难,这篇论文为开发者提供了理论驱动的自适应查询策略,做模型编排或API调度的团队可以直接参考其方法优化成本与效果。原文
08:39Together AI@togethercompute精选Together AI 的 DevRel 团队发布了一篇关于 LLM 推理引擎的入门指南,解释了 tokenization、调度、prefill、decode、KV 缓存、批处理和流式处理等关键组件如何影响 API 调用的速度、可扩展性和生产就绪性。这些底层系统决定了 AI 原生应用的体验质量。对于开发者而言,理解推理引擎有助于优化应用性能和成本。AI产品推理引擎LLM APITogether AI系统层性能优化推荐理由:做 AI 原生应用开发的团队,理解推理引擎能帮你优化 API 调用成本和响应速度,建议点开这篇入门指南。原文