AITOP6月11日 15:28
精选
过去 24 小时,从 869 条中筛出 49 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月3日
10:47
10:47
arXiv cs.AI@Areeb Gani, Asal Meskin, Gabrielle Kaili-May Liu, Arman Cohan
精选
推荐理由:LRM的推理链常被用户视为深思熟虑的证据,但这项研究戳破了这个幻觉——推理行为并不等于置信度表达更可靠。做模型对齐或安全评估的团队值得关注,尤其是那些在医疗、金融等高风险场景部署LRM的开发者,看完会重新审视你的置信度校准策略。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月26日
11:48
11:48
arXiv cs.AI@Federico Torrielli, Peter Schneider-Kamp, Lukas Galke Poech
精选
推荐理由:做模型可解释性研究的团队终于有了可靠的置信度评估方法——bootstrap模式频率比传统log-prob校准误差低近5倍,建议做LLM内部机制分析的开发者直接参考论文代码。
