11:38arXiv cs.LG@M. Forzo, E. Monzio Compagnoni, A. Russo, A. Pacchiano本文针对带线性函数近似的时序差分(TD)学习,提出了一种随机微分方程(SDE)近似,以替代传统常微分方程(ODE)描述。ODE仅捕捉渐近平均动力学而忽略随机波动,新SDE模型在马尔可夫噪声下区分了投影Bellman算子的收缩动力学与采样噪声的影响。该模型解释了恒定步长误差下限是由马尔可夫长期协方差与投影Bellman算子收缩几何相互作用导致。论文提供了理论证明与数值验证。论文TD learning线性函数近似随机微分方程策略评估马尔可夫噪声推荐理由:这篇论文从数学上解释了TD学习的误差为啥降不下去,用扩散近似把随机性的影响说清楚了。方法派、做强化学习理论的可以看看。原文
17:27marktechpost@Michal Sutter精选72°Genesis AI 于 2026 年 5 月 27 日发布了 Genesis World 1.0,这是一个包含物理、渲染、编译和工具四个组件的仿真平台。该平台在仿真与真实机器人部署之间实现了 0.8996 的皮尔逊相关系数,并将策略评估时间从超过 200 小时缩短至不到 0.5 小时。这一突破使得机器人基础模型的规模化评估成为可能,显著降低了研发成本和时间。AI产品机器人仿真平台基础模型Genesis AI策略评估推荐理由:机器人研究者终于有了一个高保真、超高效的仿真评估平台——Genesis World 1.0 将评估时间从 200 小时压缩到半小时,做机器人基础模型和策略训练的团队可以直接用起来,大幅加速迭代。原文