精选 AI 资讯 · AI 热点

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

10:37

arXiv cs.AI@Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang

精选

针对现有LLM知识基准存在的三个问题（学科代表性不足、标注激励不当、排名不稳定），研究者提出了KINA基准，包含899道题目，覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性，并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中，Gemini-3.1-Pro-Preview以53.17%的准确率领先，Claude-Opus-4.6和GPT-5.4紧随其后，整体排名呈现分层结构，远未达到饱和。工具增强平均提升5.17个百分点，但模型间差异显著。该基准还提供了自举排名稳定性统计，避免对相邻排名的过度解读。

论文 LLM 知识基准 KINA 模型评估学科代表性

推荐理由：KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点，做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型，建议点开看看具体的设计和排名细节。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02