10:22
10:22
arXiv cs.AI@Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Shan Ahmed Shaffi, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Karim Haddad, Daniel Barratt, Daniel Overholt, Jesper Bunsow Boldt, Paolo Burelli, Andrew Burke Dittberner 现有情感计算与社交信号处理数据集难以支持对同地小组中个体、人际和群体层面的情感耦合分析。研究者推出了GroupAffect-4,包含10组共40名参与者在四种协作任务(信息汇集、谈判、创意生成、公共物品博弈)中的多模态数据。每位参与者佩戴腕式生理传感器、眼动追踪眼镜和近讲麦克风,并收集连续情感自评、任务后问卷、任务结果和大五人格评分,所有数据通过共享时钟对齐。数据集覆盖91%以上的预期生理窗口和98%的眼动窗口,谈判任务的情感操纵检验验证了任务有效性。它定义了15个基准目标,涵盖个体内状态、个体间特质和群体动态三个分析层次,并提供了留一组交叉验证的可行性基线。数据集以BIDS风格结构、Croissant元数据、数据表、每会话质量报告和开源处理脚本发布。
推荐理由:做情感计算、社交信号处理或小组协作研究的团队终于有了一个覆盖个体、人际和群体三层次的高质量多模态数据集,数据完整性和任务效度都经过验证,可以直接用于训练和评估模型。
14:48
14:48
arXiv cs.LG@Aashna P. Shah, Michelle M. Li, Yash Lal, Seffi Cohen, Liat F. Antwarg, Morgan Sanchez, James A. Diao, Chirag J. Patel, Ben Y. Reis, Ran D. Balicer, Noa Dagan, Arjun K. Manrai 血液生物标志物是临床诊断的关键,但传统参考区间基于固定人群,忽略了个体间稳定变异,可能掩盖偏离基线的异常。研究者利用北美、中东和东亚超过160万人的近20亿条纵向实验室数据发现,纯个性化参考区间会将高达68%的测量值标记为异常,且与不良临床结局无关。为此,他们提出NORMA,一个基于条件Transformer的框架,通过结合患者历史数据和人群正常变异生成参考区间。NORMA在预测死亡率、急性肾损伤和慢性疾病等结局上精度更高,优于纯个性化或纯人群方法。模型、代码和交互界面已公开,旨在推动实验室检测的个性化解释。
推荐理由:NORMA解决了实验室检测中过度个性化导致的假阳性问题,做临床诊断或健康监测的医生、研究者可以直接用这个开源模型来提升异常检测的准确性。
14:46
14:46
arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo EnvFactory是一个全自动框架,解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境,通过拓扑感知采样和校准精炼合成自然的多轮轨迹,生成带有隐式意图的查询。仅用85个已验证环境(远少于此前工作的5倍以上),EnvFactory就生成了2575条SFT和RL轨迹,并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成,为Agentic RL提供了可扩展、可扩展且鲁棒的基础。
推荐理由:做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法,想省掉手动造环境成本的开发者可以直接用。
14:35
14:35
arXiv cs.AI@Fengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang Lance 是一个轻量级原生统一模型,支持图像和视频的多模态理解、生成与编辑。它不依赖模型规模扩展或文本-图像主导设计,而是通过协作式多任务训练探索统一多模态建模的实用范式。核心包括统一上下文建模和解耦能力路径,采用双流混合专家架构在共享交错多模态序列上联合学习,同时分离理解与生成路径。实验表明,Lance 在图像和视频生成上显著优于现有开源统一模型,同时保持强多模态理解能力。
推荐理由:Lance 用轻量级架构实现了多模态理解与生成的统一,做多模态研究的开发者可以直接参考其双流 MoE 设计,值得关注。
14:32
14:32
arXiv cs.AI@Yifan Zhou, Zhentao Zhang, Ziming Cheng, Shuo Zhang, Qizhen Lan, Zhangquan Chen, Zhi Yang, QianyuXu, Ronghao Chen, Huacan Wang, Sen Hu SkillGenBench 是一个专门评估 LLM 智能体技能生成能力的基准测试。现有基准主要测试智能体使用已有技能或解决下游任务的能力,但忽略了技能生成本身。该基准覆盖两种生成模式:任务条件生成(根据任务生成特定技能)和任务无关生成(预先提炼可复用的技能库),并包含两种来源:代码仓库和长文档。实验显示不同方法性能差异大,可复用技能蒸馏尤为困难,且从仓库和文档生成技能时失败模式不同。SkillGenBench 为研究智能体系统中的技能生成提供了可复现的测试平台。
推荐理由:做 LLM 智能体系统或工具链的开发者会发现,技能生成才是当前瓶颈——这个基准直接暴露了从仓库和文档生成可执行技能的难点,值得用来检验自己的管线。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。