AITOP6月11日 15:28
精选
过去 24 小时,从 1009 条中筛出 58 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月10日
13:02
13:02
arXiv cs.AI@Aman Sharma, Sushrut Thorat, Paras Chopra
精选72°
推荐理由:做 AI 编程智能体或评估基准的团队,这篇论文揭示了主流基准(如 SWE-Bench)掩盖的能力差距——强智能体在陌生语言上的元编程策略值得借鉴,建议点开看具体实现方法。
09:05
09:05
arXiv: DeepSeek@Bharath Sivaram Narasimhan, Karthik R Narasimhan
精选
推荐理由:做推荐系统或对话智能体评估的团队,终于有了一个可复现、低成本的客观基准,直接拿来测自己的模型会看到真实差距。
6月8日
16:42
16:42
Hunyuan@TXhunyuan
精选72°
推荐理由:音频编辑是 AI 落地的重要场景,MMAE 基准揭示了现有模型的巨大短板,做音频 AI 或语音交互的开发者值得关注这个评估工具。
6月4日
20:34
20:34Hugging Face: Blog(博客/媒体)
精选
推荐理由:企业 AI 智能体评估终于有了更贴近真实场景的基准——3 领域 121 工具覆盖 IT、HR、客服,做企业级 AI 落地的团队可以直接用这个数据集来测试自己的智能体。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月26日
11:46
11:46
arXiv cs.AI@Yunhua Pei, Jingyu Hu, Yiwei Shi, Hongnan Ma, Weiru Liu, John Cartlidge
精选
推荐理由:金融 NLP 从业者终于有了一个基于真实市场行为的评估基准,比传统情感分析更贴近交易决策,做金融 AI 的团队值得关注。
5月20日
10:36
10:36
arXiv cs.AI@Husnain Amjad, Raja Khurram Shahzad, Aamir Shahzad, Mehwish Fatima
精选
推荐理由:做LLM推理研究或评估的团队,这篇综述帮你系统梳理了120篇论文的脉络,直接拿来当研究起点,省去大量文献筛选时间。
10:14
10:14
arXiv cs.AI@Jinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan
精选
推荐理由:OpenComputer 解决了计算机使用智能体评估缺乏可靠验证的问题,做智能体开发和自动化研究的团队可以直接用它来测试和训练模型,比 LLM 裁判更靠谱。
5月18日
22:29
22:29Hugging Face: Blog(博客/媒体)
精选76°
推荐理由:智能体评估一直缺乏统一标准,IBM 这个排行榜让开发者能直接对比不同模型的规划与工具使用能力,做智能体应用的团队值得关注。
