14:48
14:48
arXiv cs.LG@Aashna P. Shah, Michelle M. Li, Yash Lal, Seffi Cohen, Liat F. Antwarg, Morgan Sanchez, James A. Diao, Chirag J. Patel, Ben Y. Reis, Ran D. Balicer, Noa Dagan, Arjun K. Manrai 血液生物标志物是临床诊断的关键,但传统参考区间基于固定人群,忽略了个体间稳定变异,可能掩盖偏离基线的异常。研究者利用北美、中东和东亚超过160万人的近20亿条纵向实验室数据发现,纯个性化参考区间会将高达68%的测量值标记为异常,且与不良临床结局无关。为此,他们提出NORMA,一个基于条件Transformer的框架,通过结合患者历史数据和人群正常变异生成参考区间。NORMA在预测死亡率、急性肾损伤和慢性疾病等结局上精度更高,优于纯个性化或纯人群方法。模型、代码和交互界面已公开,旨在推动实验室检测的个性化解释。
推荐理由:NORMA解决了实验室检测中过度个性化导致的假阳性问题,做临床诊断或健康监测的医生、研究者可以直接用这个开源模型来提升异常检测的准确性。
14:46
14:46
arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo EnvFactory是一个全自动框架,解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐式意图的查询。仅用85个已验证环境(远少于此前工作的5倍以上),EnvFactory就生成了2575条SFT和RL轨迹,并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成,为Agentic RL提供了可扩展、可扩展且鲁棒的基础。
推荐理由:做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法,想省掉手动造环境成本的开发者可以直接用。
14:35
14:35
arXiv cs.AI@Fengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang Lance 是一个轻量级原生统一模型,支持图像和视频的多模态理解、生成与编辑。它不依赖模型规模扩展或文本-图像主导设计,而是通过协作式多任务训练探索统一多模态建模的实用范式。核心包括统一上下文建模和解耦能力路径,采用双流混合专家架构在共享交错多模态序列上联合学习,同时分离理解与生成路径。实验表明,Lance 在图像和视频生成上显著优于现有开源统一模型,同时保持强多模态理解能力。
推荐理由:Lance 用轻量级架构实现了多模态理解与生成的统一,做多模态研究的开发者可以直接参考其双流 MoE 设计,值得关注。
14:32
14:32
arXiv cs.AI@Yifan Zhou, Zhentao Zhang, Ziming Cheng, Shuo Zhang, Qizhen Lan, Zhangquan Chen, Zhi Yang, QianyuXu, Ronghao Chen, Huacan Wang, Sen Hu SkillGenBench 是一个专门评估 LLM 智能体技能生成能力的基准测试。现有基准主要测试智能体使用已有技能或解决下游任务的能力,但忽略了技能生成本身。该基准覆盖两种生成模式:任务条件生成(根据任务生成特定技能)和任务无关生成(预先提炼可复用的技能库),并包含两种来源:代码仓库和长文档。实验显示不同方法性能差异大,可复用技能蒸馏尤为困难,且从仓库和文档生成技能时失败模式不同。SkillGenBench 为研究智能体系统中的技能生成提供了可复现的测试平台。
推荐理由:做 LLM 智能体系统或工具链的开发者会发现,技能生成才是当前瓶颈——这个基准直接暴露了从仓库和文档生成可执行技能的难点,值得用来检验自己的管线。
14:26
14:26
arXiv cs.AI@Payal Chandak, Victoria Alkin, David Wu, Maya Dagan, Taposh Dutta Roy, Maria Clara Saad Menezes, Ayush Noori, Nirali Somia, John S. Brownstein, Ran Balicer, Rebecca W. Brendel, Noa Dagan, Isaac S. Kohane, Gabriel A. Brat 医学伦理天然具有多元性,但大型语言模型在提供医疗建议时可能隐含单一的价值偏好。研究者提出了一个审计框架,包含临床验证的伦理困境基准和从决策中恢复价值优先级的方法。前沿模型在讨论伦理冲突时能展现观点多元性,但个体决策几乎确定,无法复现医生群体的分布性多元。多数模型的价值优先级在医生变异范围内,但部分模型显著低估患者自主权。若不加干预,单一模型可能将自身价值偏好大规模强加给所有患者,取代临床伦理的多元性。
推荐理由:这篇论文揭示了AI医疗建议中隐藏的价值偏见问题,做医疗AI开发或临床决策支持的团队值得关注——它提醒我们,模型不只是输出答案,还在无声地传递伦理立场。
14:22
14:22
arXiv cs.AI@Xuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He 本文提出“代码即智能体框架”概念,认为代码不仅是输出,更是智能体推理、行动、环境建模和执行验证的操作基础。论文从三个层次系统梳理:框架接口(代码连接推理与行动)、框架机制(规划、记忆、工具使用与反馈控制)、框架扩展(单智能体到多智能体协作)。覆盖编程助手、GUI/OS自动化、具身智能、科学发现、DevOps等应用场景,并指出评估、验证、状态共享等开放挑战。该视角为构建可执行、可验证、有状态的AI智能体系统提供了统一路线图。
推荐理由:这篇综述把代码在智能体系统中的角色从“输出”提升到了“基础设施”层面,做智能体框架设计或工具链开发的团队值得一读,能帮你理清当前方法的脉络和未来方向。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。