12:13
12:13
arXiv cs.AI@Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang, Leon Liangyu Chen, Xiaokun Chen, Steven Dillmann, Saadia Gabriel, Xunyi Jiang, Anurag Kashyap, Boxuan Li, Yein Park, Minh Pham, Sujay Sanghavi, Lin Shi, Ke Sun, Yixin Wang, Zhiwei Xu, Erica Zhang, Siyan Zhao, Wanjia Zhao, Jenia Jitsev, Alex Dimakis, Benjamin Feuer, Ludwig Schmidt OpenThoughts-Agent项目提出一个完全开源的数据整理流程,用于训练通用智能体模型。研究团队进行超过100次对照实验,系统分析了数据来源和多样性的重要性。基于该流程构建了10万样本的训练集,微调Qwen3-32B模型后,在7个智能体基准上平均准确率达44.8%,比最强开源模型Nemotron-Terminal-32B(40.9%)提升3.9个百分点。该训练集在计算量可控的对比中表现出强扩展性,所有数据、管道和模型已在openthoughts.ai开源。
推荐理由:想自己训练智能体模型?这里有开源的数据配方和100次实验的经验,帮你少走弯路。
12:11
12:11
arXiv cs.AI@Zixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li, Xinyang Song, Zelong Zheng, Yong He, Heng Yao, Ke Ding, Chao Yu, Chuan Yuan, Qi Li, Zhenan Sun 统一多模态大语言模型在文本到图像生成中仍难以精确遵循结构提示(如物体计数、空间关系、属性绑定、粗略布局)。IV-CoT提出的隐式视觉思维链框架将视觉条件分解为结构查询和语义查询的级联,结构查询先形成隐式视觉计划,语义查询再基于该计划渲染外观。训练时引入草图监督信号,无需推理时草图提取或中间解码,在单个前向传播中完成隐式CoT推理。该方法在GenEval和T2I-CompBench基准上取得更优结果,可视化分析验证了结构和语义查询的互补作用。
推荐理由:这篇论文解决了文生图模型在物体数量、空间位置等结构细节上经常翻车的问题,用隐式思维链单次前向传播搞定,在GenEval和T2I-CompBench上效果更好。
12:00
12:00
arXiv cs.AI@Adhitya Charan, Adwaid Suresh, Anuj Kumar, Aparna A, Dhanakumar K, Dharun M S, Dinesh G, Goutham Kumar Reddy K, Harshini V M, Jenifa D, Jona Delcy C A, Kathirvel S, Killi Uma Maheswara Rao, Kiruthik Kanna M, Kurra Vishnu Sai, Madhumithaa G K, Navin Kumar, Ram Charan Golla, Revathi T, Rishikkanth R, Sanjay Krishna M, Surendra Vendra BluTrain是一个用标准C++和CUDA实现的AI训练框架。在8-GPU 6000 Ada系统上训练124M参数GPT-2模型(FP32),其吞吐量达407K tokens/s,比PyTorch的395K tokens/s高约3%。同时内存占用减少22%,且严格保持数值精度。框架包含原生实现的张量模块、反向模式自动微分、线性代数库、缓存分配器、分布式执行和MLIR编译器。
推荐理由:这个新框架用C++从头写,训练GPT-2比PyTorch快3%且省内存22%,适合追求极致性能的开发者。
11:59
11:59
arXiv cs.AI@Shiyu Li, Ziqi Yan, Zhihao Wu, Jielong Lu, Weiran Liao, Jiajun Yu, Genjie Li, Zeyu Chu, Jiajun Bu, Haishuai Wang DeepBD是一种基于智能体的工作流,用于遗传出生缺陷的变异优先级排序和诊断解释。该工作流包括LLM辅助病例结构构建、预训练证据引擎、专家证据模块和接地诊断审查层。证据引擎从结构化规则证据、序列和变异效应表示以及表型条件生物学背景中学习患者特定变异分数。基于包含18,622例的胎儿和婴儿队列开发,DeepBD在内部保留的已解决病例基准上实现了Recall@1/3/5/10分别为0.658/0.882/0.912/0.929,超过了Exomiser、DeepRare和基于提示的LLM重排序基线。消融和重叠分析表明,规则证据、机制背景和专家细化提供了互补信号。
推荐理由:这篇论文提出了一个接地气的智能体工作流DeepBD,用LLM辅助分析遗传变异,在18,622例队列中召回率比Exomiser和DeepRare都高,适合做基因诊断研究的参考。
09:46
09:46
arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong RaDaR是一个32B参数的开源推理大模型,专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中,RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断,提前时间1.87个月。在随机医生辅助试验中,RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。
推荐理由:RaDaR发布了一个32B开源推理模型,罕见病诊断比DeepSeek-R1还强,医生用它准确率提升21%。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。