20:31Gary Marcus@GaryMarcus72°一项针对 210 项生物医学 AI 研究的元分析发现,97% 的研究在交叉验证下使用了无效的统计检验方法。该分析由 Thomas Yeo 团队完成,指出当前生物医学领域使用机器学习方法的研究在评估上存在系统性缺陷。这可能导致大量已发表结论无法被可靠复现,引发该领域的可重复性危机。研究者呼吁改进统计评估标准,以确保 AI 在生物医学中的可信应用。论文生物医学 AI可重复性危机统计方法元分析机器学习评估推荐理由:生物医学 AI 研究者、审稿人和临床 AI 产品团队需要警惕——97% 的统计方法无效意味着大量已发表结论可能不可靠,建议点开看看你的领域是否也在用这些无效检验。原文
22:15François Chollet@fcholletKeras创始人François Chollet在X平台发文指出,智能体编程本质上是一种机器学习形式。他认为生成的代码应被视为黑盒产物,其行为和泛化能力需要通过经验评估来管理,就像对待任何机器学习模型一样。这一观点挑战了将代码自动生成视为传统编程延伸的普遍看法,强调开发者需要关注评估而不是审查代码本身。论文智能体代码生成MCP/工具机器学习评估推荐理由:本文提醒开发者,Agentic coding(智能体编程)的输出应作为黑盒模型进行经验评估,这对当前AI辅助编码的工程实践具有指导意义。原文