6月24日
12:13
12:13arXiv cs.AI@Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang, Leon Liangyu Chen, Xiaokun Chen, Steven Dillmann, Saadia Gabriel, Xunyi Jiang, Anurag Kashyap, Boxuan Li, Yein Park, Minh Pham, Sujay Sanghavi, Lin Shi, Ke Sun, Yixin Wang, Zhiwei Xu, Erica Zhang, Siyan Zhao, Wanjia Zhao, Jenia Jitsev, Alex Dimakis, Benjamin Feuer, Ludwig Schmidt
OpenThoughts-Agent项目提出一个完全开源的数据整理流程,用于训练通用智能体模型。研究团队进行超过100次对照实验,系统分析了数据来源和多样性的重要性。基于该流程构建了10万样本的训练集,微调Qwen3-32B模型后,在7个智能体基准上平均准确率达44.8%,比最强开源模型Nemotron-Terminal-32B(40.9%)提升3.9个百分点。该训练集在计算量可控的对比中表现出强扩展性,所有数据、管道和模型已在openthoughts.ai开源。
推荐理由:想自己训练智能体模型?这里有开源的数据配方和100次实验的经验,帮你少走弯路。
12:12
12:12arXiv cs.AI@Blade Frisch, Will Wade, Dylan Gaines, Michelle Kinsella, Betts Peters, Tamara Broderick, Keith Vertanen
该论文分析了6个AAC(辅助与替代沟通)问题空间的复杂性。AI可以增强AAC用户的能力,但当前评估指标难以捕捉用户的多方面需求。作者提出了更鲁棒的评估方法以考虑用户的交叉性细微差别。论文还讨论了跨问题空间的更广泛问题及解决思路。
推荐理由:这篇论文深入探讨了AI增强AAC界面评估的挑战,提出了新的评估方法,对研究人机交互和辅助技术的人很有启发。
12:00
12:00arXiv cs.AI@Adhitya Charan, Adwaid Suresh, Anuj Kumar, Aparna A, Dhanakumar K, Dharun M S, Dinesh G, Goutham Kumar Reddy K, Harshini V M, Jenifa D, Jona Delcy C A, Kathirvel S, Killi Uma Maheswara Rao, Kiruthik Kanna M, Kurra Vishnu Sai, Madhumithaa G K, Navin Kumar, Ram Charan Golla, Revathi T, Rishikkanth R, Sanjay Krishna M, Surendra Vendra
BluTrain是一个用标准C++和CUDA实现的AI训练框架。在8-GPU 6000 Ada系统上训练124M参数GPT-2模型(FP32),其吞吐量达407K tokens/s,比PyTorch的395K tokens/s高约3%。同时内存占用减少22%,且严格保持数值精度。框架包含原生实现的张量模块、反向模式自动微分、线性代数库、缓存分配器、分布式执行和MLIR编译器。
推荐理由:这个新框架用C++从头写,训练GPT-2比PyTorch快3%且省内存22%,适合追求极致性能的开发者。
09:46
09:46arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong
71°
RaDaR是一个32B参数的开源推理大模型,专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中,RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断,提前时间1.87个月。在随机医生辅助试验中,RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。
推荐理由:RaDaR发布了一个32B开源推理模型,罕见病诊断比DeepSeek-R1还强,医生用它准确率提升21%。
6月23日

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。