11:33
11:33
arXiv cs.AI@Haiyang Shen, Jiuzheng Wang, Taian Guo, Mugeng Liu, Wenchun Jing, Chongyang Pan, Siqi Zhong, Zhiyang Chen, Weichen Bi, Yudong Han, Xiaoying Bai, Yun Ma 北京大学团队提出一种新的AI教育方法:让学生通过构建基准测试来学习AI,而非仅将其作为效率工具。学生将学科知识转化为可验证的专家级问题,互相审查设计中的歧义和捷径,并评估AI系统。由此产生的QuestBench包含256个问题,覆盖14个人文社科领域。评估显示,13个AI系统的平均通过率仅16.85%,最佳系统GPT-5.5也仅达57.58%,暴露了当前深度研究系统的隐藏失败。学生反馈表明,这种实践帮助他们将专业知识视为判断AI输出的基础,而非AI可检索的内容。
推荐理由:想让学生真正理解AI局限性的教育者,可以用QuestBench的方法把课堂变成AI测试场——学生自己设计问题来考AI,比单纯教提示词更有深度。
11:23
11:23
arXiv cs.AI@Mark Obozov, Maxime Griot, Joseph Cummings, Evan Smothers, Felipe Mello, Rafi Ayub, Philip John Bontrager, Salman Mohammadi, Ariel Kwiatkowski, Nathan Azrak, Mircea Mironenco torchtune 是一个 PyTorch 原生的后训练库,旨在简化大语言模型(LLM)的微调、实验和部署流程。与 Axolotl、Unsloth 等框架相比,torchtune 强调模块化、可定制性和对底层 PyTorch 组件的直接访问,而非牺牲透明度和可扩展性。论文展示了其模型构建器、训练配方和分布式训练栈的设计,并在多种后训练场景中评估了性能。结果表明,torchtune 在保持强性能和内存效率的同时,足够灵活以支持快速研究迭代。该库为可复现的 LLM 后训练研究提供了实用基础。
推荐理由:做 LLM 微调的研究者或工程师,如果受够了黑盒框架的调试痛苦,torchtune 的模块化设计和 PyTorch 原生体验值得一试,能让你在保持性能的同时自由定制训练流程。
11:01
11:01
arXiv cs.AI@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma DeepWeb-Bench 是一个新的深度研究基准,旨在评估 AI 模型在开放网络上进行复杂研究的能力。与现有基准不同,该基准要求模型进行大规模证据收集、跨来源整合和长链条多步推理,难度显著提升。研究对九个前沿模型进行了评估,发现检索并非主要瓶颈(仅占12-14%错误),而推导和校准失败占70%以上。强模型和弱模型的失败模式不同:强模型主要因推导不完整出错,弱模型则因虚假精确性出错。该基准还揭示了模型在领域上的真实专长差异,跨模型一致性仅为0.61。
推荐理由:做 AI 评估或研究基准的团队会发现,DeepWeb-Bench 揭示了现有基准无法区分的模型能力差异——尤其是推导和校准的短板。建议关注其分能力族评估和来源溯源设计,这对理解模型真实研究能力很有帮助。
10:22
10:22
arXiv cs.LG@D. -M. Mei, K. Acharya, C. M. Adhikari, M. Adhikari, S. Aryal, B. V. Benson, K. Bhatta, S. Bhattarai, N. Budhathoki, A. M. Castillo, D. Chakraborty, S. Chhetri, S. Choudhury, T. A. Chowdhury, R. D. Cruz, B. Cui, S. Dhital, K. -M. Dong, R. Gapuz, A. Ghasemi, E. Z. Gnimpieba, B. D. S. Gurung, H. A. Hashim, R. I. Harry, K. -E. Hasin, M. K. Hassanzadeh, M. K. Jha, D. Kim, K. -C. Kong, B. Lama, A. Mahat, N. Maharjan, A. Majeed, J. Mammo, M. M. Masud, K. S. Moore, A. Nawaz, H. Oli, S. A. Panamaldeniya, L. Pandey, R. Pandey, Z. Peng, A. Prem, M. M. Rana, K. Rana Magar, R. Rizk, C. S. Tadi, L. -W. Wang, Y. Yang, G. -L. Yin, C. -X. Yu, D. Zeng, M. Zhou, Q. Zhou AIMBio-Mat 是一个概念框架,旨在将材料科学和生物医学数据整合到一个AI原生的、符合FAIR原则(可查找、可访问、可互操作、可重用)且具备治理意识的决策层中。该框架通过知识图谱、不确定性感知机器学习和人机协同主动学习,将生物医学材料发现建模为不确定性下的约束多目标优化问题。它提出了元数据、模型文档、风险分级治理和评估指标等实用要求,并包含最小可行原型规范和用于药物递送的纳米材料AI引导发现试点。该平台定位为探索性和临床前发现基础设施,而非临床决策支持软件,其核心贡献是将碎片化的材料和生物医学记录转化为可审计、可实验操作且负责任的发现工作流蓝图。
推荐理由:做材料发现和生物医学交叉研究的团队终于有了一个可落地的AI原生平台蓝图——它解决了数据碎片化和治理缺失的痛点,做纳米药物递送或生物材料设计的可以直接参考其试点方案。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。