11:33
11:33
arXiv cs.AI@Haiyang Shen, Jiuzheng Wang, Taian Guo, Mugeng Liu, Wenchun Jing, Chongyang Pan, Siqi Zhong, Zhiyang Chen, Weichen Bi, Yudong Han, Xiaoying Bai, Yun Ma 北京大学团队提出一种新的AI教育方法:让学生通过构建基准测试来学习AI,而非仅将其作为效率工具。学生将学科知识转化为可验证的专家级问题,互相审查设计中的歧义和捷径,并评估AI系统。由此产生的QuestBench包含256个问题,覆盖14个人文社科领域。评估显示,13个AI系统的平均通过率仅16.85%,最佳系统GPT-5.5也仅达57.58%,暴露了当前深度研究系统的隐藏失败。学生反馈表明,这种实践帮助他们将专业知识视为判断AI输出的基础,而非AI可检索的内容。
推荐理由:想让学生真正理解AI局限性的教育者,可以用QuestBench的方法把课堂变成AI测试场——学生自己设计问题来考AI,比单纯教提示词更有深度。
11:01
11:01
arXiv cs.AI@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma DeepWeb-Bench 是一个新的深度研究基准,旨在评估 AI 模型在开放网络上进行复杂研究的能力。与现有基准不同,该基准要求模型进行大规模证据收集、跨来源整合和长链条多步推理,难度显著提升。研究对九个前沿模型进行了评估,发现检索并非主要瓶颈(仅占12-14%错误),而推导和校准失败占70%以上。强模型和弱模型的失败模式不同:强模型主要因推导不完整出错,弱模型则因虚假精确性出错。该基准还揭示了模型在领域上的真实专长差异,跨模型一致性仅为0.61。
推荐理由:做 AI 评估或研究基准的团队会发现,DeepWeb-Bench 揭示了现有基准无法区分的模型能力差异——尤其是推导和校准的短板。建议关注其分能力族评估和来源溯源设计,这对理解模型真实研究能力很有帮助。
10:22
10:22
arXiv cs.LG@D. -M. Mei, K. Acharya, C. M. Adhikari, M. Adhikari, S. Aryal, B. V. Benson, K. Bhatta, S. Bhattarai, N. Budhathoki, A. M. Castillo, D. Chakraborty, S. Chhetri, S. Choudhury, T. A. Chowdhury, R. D. Cruz, B. Cui, S. Dhital, K. -M. Dong, R. Gapuz, A. Ghasemi, E. Z. Gnimpieba, B. D. S. Gurung, H. A. Hashim, R. I. Harry, K. -E. Hasin, M. K. Hassanzadeh, M. K. Jha, D. Kim, K. -C. Kong, B. Lama, A. Mahat, N. Maharjan, A. Majeed, J. Mammo, M. M. Masud, K. S. Moore, A. Nawaz, H. Oli, S. A. Panamaldeniya, L. Pandey, R. Pandey, Z. Peng, A. Prem, M. M. Rana, K. Rana Magar, R. Rizk, C. S. Tadi, L. -W. Wang, Y. Yang, G. -L. Yin, C. -X. Yu, D. Zeng, M. Zhou, Q. Zhou AIMBio-Mat 是一个概念框架,旨在将材料科学和生物医学数据整合到一个AI原生的、符合FAIR原则(可查找、可访问、可互操作、可重用)且具备治理意识的决策层中。该框架通过知识图谱、不确定性感知机器学习和人机协同主动学习,将生物医学材料发现建模为不确定性下的约束多目标优化问题。它提出了元数据、模型文档、风险分级治理和评估指标等实用要求,并包含最小可行原型规范和用于药物递送的纳米材料AI引导发现试点。该平台定位为探索性和临床前发现基础设施,而非临床决策支持软件,其核心贡献是将碎片化的材料和生物医学记录转化为可审计、可实验操作且负责任的发现工作流蓝图。
推荐理由:做材料发现和生物医学交叉研究的团队终于有了一个可落地的AI原生平台蓝图——它解决了数据碎片化和治理缺失的痛点,做纳米药物递送或生物材料设计的可以直接参考其试点方案。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。