6月9日
6月8日
6月5日
6月4日
10:37
10:37arXiv cs.AI@Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang
精选
针对现有LLM知识基准存在的三个问题(学科代表性不足、标注激励不当、排名不稳定),研究者提出了KINA基准,包含899道题目,覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性,并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中,Gemini-3.1-Pro-Preview以53.17%的准确率领先,Claude-Opus-4.6和GPT-5.4紧随其后,整体排名呈现分层结构,远未达到饱和。工具增强平均提升5.17个百分点,但模型间差异显著。该基准还提供了自举排名稳定性统计,避免对相邻排名的过度解读。
推荐理由:KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点,做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型,建议点开看看具体的设计和排名细节。
6月3日
6月2日
6月1日
5月28日
11:31
11:31arXiv cs.AI@Xinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang
精选72°
MemTrace 提出了一种新框架,将大语言模型的记忆管道转化为可执行的记忆演化图,实现细粒度的操作信息流追踪。研究团队构建了 MemTraceBench 基准,涵盖长上下文、RAG、Mem0 和 EverMemOS 等代表性记忆系统,系统分析记忆失败模式。该方法通过迭代追踪操作子图自动归因错误根因,发现记忆失败源于操作级问题如信息丢失和检索错位。利用归因信号指导下游提示优化,形成闭环系统,自动修正错误并提升端任务性能最高达7.62%。代码已开源。
推荐理由:做LLM记忆系统或长上下文推理的开发者,终于有了一个能自动定位记忆错误根因的工具,还能自动优化提示提升性能,值得试试这个开源方案。
5月27日
10:34
10:34arXiv cs.AI@Samer Awad, Javier Conde, Carlos Arriaga, Tairan Fu, Javier Coronado-Blázquez, Pedro Reviriego
精选
论文提出Word Coverage Score (WCS)指标,量化标准采样过滤器(Top-p、Top-k、Min-p)对低频高信息词汇的抑制程度。研究发现,行业默认采样参数会系统性剪除人类文本中独特表达,导致模型输出同质化。WCS为平衡文本连贯性与词汇丰富度提供了诊断工具,帮助开发者优化解码策略。
推荐理由:做文本生成或LLM解码优化的开发者,这篇论文直接点出了采样参数对语言多样性的隐性伤害,建议用WCS指标检查自己的模型输出是否过于单调。
5月26日
5月25日
5月21日
09:46
09:46arXiv cs.AI@Gundeep Singh, Parsa Kavehzadeh, Jing Xia, Xue-Yong Fu, Julien Bouvier Tremblay, Md Tahmid Rahman Laskar, Vincent Lum, Shashi Bhushan TN
精选
传统Text-to-SQL方法在企业环境中面临挑战,因为企业分析依赖受治理的API而非原始数据库。本文提出Analytic Agent,一个基于LLM的智能体系统,能将自然语言意图转化为安全的API交互。该系统通过多步推理和策略感知编排,实现用户目标理解、权限验证、受控查询执行和合规可视化生成。在90个真实企业用例上评估,表现可靠。
推荐理由:企业数据分析团队终于有了兼顾安全与易用性的方案——Analytic Agent解决了LLM直接操作数据库的合规风险,做BI或数据治理的开发者值得关注。
5月20日