AITOP6月11日 15:28
精选
过去 24 小时,从 682 条中筛出 42 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月9日
01:46
01:46
lmarena.ai@lmarena_ai
精选
推荐理由:做 AI 智能体评估或选型的团队终于有了基于真实使用数据的排行榜,比传统基准测试更贴近实际效果,值得关注。
6月8日
09:23
09:23
arXiv cs.AI@Yuxiang Chen, Jun Wang
精选72°
推荐理由:这篇论文戳穿了当前长链推理模型的表面繁荣——做AI推理研究的团队会发现,模型可能只是在模仿推理的“样子”而非真正进步,值得细读其提出的改进方向。
6月7日
00:48
00:48
lmarena.ai@lmarena_ai
精选72°
推荐理由:做 AI 智能体评估的团队终于有了更科学的参考框架——五个信号覆盖了任务执行和用户体验,值得研究评测方法的开发者点开细看。
6月3日
10:47
10:47
arXiv cs.AI@Areeb Gani, Asal Meskin, Gabrielle Kaili-May Liu, Arman Cohan
精选
推荐理由:LRM的推理链常被用户视为深思熟虑的证据,但这项研究戳破了这个幻觉——推理行为并不等于置信度表达更可靠。做模型对齐或安全评估的团队值得关注,尤其是那些在医疗、金融等高风险场景部署LRM的开发者,看完会重新审视你的置信度校准策略。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月21日
11:01
11:01
arXiv cs.AI@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma
精选72°
推荐理由:做 AI 评估或研究基准的团队会发现,DeepWeb-Bench 揭示了现有基准无法区分的模型能力差异——尤其是推导和校准的短板。建议关注其分能力族评估和来源溯源设计,这对理解模型真实研究能力很有帮助。
5月19日
14:53
14:53
arXiv cs.LG@Thijs L van der Plas, Jacob JW Bakermans, Vishal Nedungadi, Gabrielė Tijūnaitytė, Marc Rußwurm, Ioannis N Athanasiadis
精选
推荐理由:做地理空间AI或遥感应用的团队,别再只盯着单个模型刷榜——这篇告诉你融合多个Earth embedding模型能带来实际性能提升,建议直接参考其互补性评估方法。
10:14
10:14
arXiv cs.AI@Max Zhang, Ameen Patel, Sang T. Truong, Sanmi Koyejo
精选
推荐理由:这篇论文揭示了多语言安全评估的盲区——低资源语言不一定是安全最薄弱环节,做AI安全对齐的团队值得细看,能帮你避开传统指标误导,精准定位跨语言安全漏洞。
5月14日
13:26
13:26
arXiv cs.LG@Deepak Pandita, Flip Korn, Chris Welty, Christopher M. Homan
精选
推荐理由:做AI评估和模型安全测试的团队,终于有了量化标注者偏差的方法论——多级建模直接告诉你需要多少标注才能得到可靠结论,建议做实验设计的点开看看。
