AITOP6月11日 15:28
精选
过去 24 小时,从 649 条中筛出 45 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月20日
08:22
08:22Simon Willison’s Weblog(博客/媒体)
精选
推荐理由:流式推理令牌让开发者能实时观察模型思考过程,做 AI 调试或教学演示的团队可以直接升级体验。
5月14日
13:26
13:26
arXiv cs.LG@Victor Norgren
精选70°
推荐理由:流式推理场景(如实时数据监控、金融交易、对话系统)的开发者终于有了降低延迟的可行方案——把预填充移出关键路径,查询延迟与上下文大小解耦。做高吞吐低延迟推理服务的团队值得关注这个新范式。
