14:17Gary Marcus@GaryMarcus精选Gary Marcus 针对 Anthropic 近期关于接近递归自我改进(RSI)的暗示提出质疑。他引用了一项名为 Meta-Agent Challenge(MAC)的基准测试,该测试要求 AI 代理在没有人类设计帮助的情况下,自主构建另一个能完成隐藏测试任务的代理。结果显示,当前 AI 代理在数学、科学问答、竞赛编程、软件修复等五个领域,通常无法超越人类设计的强代理方案,仅有少数闭源前沿模型(如 Claude)表现尚可。Marcus 指出,真正的自主不仅需要工具使用,还需预算意识、失败恢复、压力下的克制以及设计迭代的纪律,而当前代理只是强大的执行者,缺乏工程所需的可靠判断力。AI模型RSIMeta-Agent ChallengeAnthropicAI 代理自主开发10 个信源在谈推荐理由:Gary Marcus 用 Meta-Agent 挑战戳破了 Anthropic 的 RSI 叙事,关心 AI 自主性和工程可靠性的开发者值得一读,看完会对当前代理的局限性有清醒认识。原文
03:46rohanpaul_ai@rohanpaul_ai精选72°一篇新论文提出了Meta-Agent Challenge(MAC)基准测试,检验当前AI智能体能否像AI工程师一样自主构建、测试和改进其他智能体,而无需人类干预。测试覆盖数学、科学问答、竞赛编程、软件bug修复和长终端任务五个领域。结果显示,当前智能体在可靠构建任务系统方面仍然薄弱,大多数无法超越人类设计的强基线,少数成功案例主要来自Claude等闭源前沿模型。论文指出,真正的自主不仅需要工具使用,还需要预算意识、失败恢复、压力下的克制以及改进设计的纪律。论文智能体自主开发基准测试Meta-Agent ChallengeClaude推荐理由:这篇论文戳破了AI智能体自主性的泡沫——当前智能体更像是强大的执行者而非自改进的工程师,做智能体开发或自动化研究的团队看完会重新思考自主性的真正门槛。原文