精选理由
做科研自动化的开发者会看到智能体在数学/物理问题上的真实表现——不是万能 oracle,而是高效的科研劳动力,值得了解其能力边界。
一位研究者分享了使用 Codex 处理开放数学/物理问题的经验,发现并行智能体在需要大量顺序推理的问题上效果有限。真正的超人类能力体现在速度、知识量和可复制性上,而非瞬间解决难题。前沿物理问题比老旧的数学问题更容易被智能体处理,但研究品味仍是瓶颈。智能体擅长在给定方向后推进,但选择问题和判断方向仍需人类。
AI 翻译 · 中文
一位研究者分享了使用 Codex 处理开放数学/物理问题的经验,发现并行智能体在需要大量顺序推理的问题上效果有限。真正的超人类能力体现在速度、知识量和可复制性上,而非瞬间解决难题。前沿物理问题比老旧的数学问题更容易被智能体处理,但研究品味仍是瓶颈。智能体擅长在给定方向后推进,但选择问题和判断方向仍需人类。
i've been running Codex for ~8-24h per open math/physics research problem. few thoughts: parallel agents don't seem to scale that cleanly for a lot of problems. many of these are just extremely sequential. you don't real…