10:09
10:09
arXiv cs.AI@Guanbo Huang, Jingjia Mao, Fanding Huang, Fengkai Liu, Xiangyang Luo, Yaoyuan Liang, Jiasheng Lu, Xiaoe Wang, Pei Liu, Ruiliu Fu, Ruqi Huang, Shao-Lun Huang 流匹配(Flow Matching)存在暴露偏差,现有缓解方法依赖静态约束。本文提出DEFAR框架,包含抗漂移修正(ADR)和频率补偿(FC)两个组件。ADR利用推理时漂移信号学习将偏离状态拉回目标方向,FC基于偏差自反馈权重增强缺失的低频成分。在CIFAR-10、CelebA-64、ImageNet-256/512上,DEFAR优于先前基线,且具有良好的可扩展性与推理鲁棒性。
推荐理由:这篇论文让模型靠偏差自己修正偏差,DEFAR在CIFAR和ImageNet上都能超过之前的方案,还更稳。
10:09
10:09
arXiv cs.AI@Jiaxin Li, Yuxiang Wu, Zhenkai Zhang, Xinrui Shi, Haoyuan Wang, Yichen Zhao, Su Linxiang, Chenyang Yu, Mingyu Zhang, Yifan Ding, Boran Wen, Li Zhang, Ruiyang Liu, Yong-Lu Li HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型(VLM)和多级人工反馈机制,解决深度模糊和遮挡问题,无需多相机设备。利用HAT-4D构建了MVOIK-4D基准,包含新的多维评估协议,侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA,同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。
推荐理由:不用多相机,单视频就能重建多个物体怎么动,还能人工纠正错误。HAT-4D这个框架开源了,做Embodied AI的数据生成很方便。
10:06
10:06
arXiv: DeepSeek@Lei Yu, Peng Wang, Jia Xu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Changzhi Deng, Zenghua Wang, Fengjun Zhang BashCoder-R1提出三阶段框架:连续预训练(CPT)专业化Bash范式、长思维链监督微调(L-CoT SFT)模拟风险意识推理、鲁棒性感知分组相对策略优化(R-GRPO)优化语法与鲁棒性。在包含952个真实任务(773单行,179多行)的BashBench基准上,单行/多行任务SyntaxPass达100.00%/94.97%,RobustPass达95.99%/79.33%,FullRate达90.04%/73.18%。相比最强基线DeepSeek-V3.2(推理)在FullRate上分别提升37.82%和20.18%。
推荐理由:BashCoder-R1用三阶段训练让AI写bash脚本更稳更可解释,在BashBench上比DeepSeek-V3.2完整率高出一大截。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。