AITOP6月11日 15:28
精选
过去 24 小时,从 649 条中筛出 45 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月14日
13:26
13:26
arXiv cs.LG@Victor Norgren
精选70°
推荐理由:流式推理场景(如实时数据监控、金融交易、对话系统)的开发者终于有了降低延迟的可行方案——把预填充移出关键路径,查询延迟与上下文大小解耦。做高吞吐低延迟推理服务的团队值得关注这个新范式。
