动态工作流是新型测试时计算,LLM构建复杂模式能力有限

Dynamic workflows (generating harnesses on the fly) are a new form of test-time compute. But LLMs ...

精选理由

聊动态工作流和LLM的短板,还点名Mythos/GPT-5.6,看它能不能搞定复杂模式生成。

AI 摘要

动态工作流(即时生成测试框架)被视为一种新的测试时计算形式。然而LLM在自主构建复杂工作流方面表现不佳,作者经常需要手动引导代理生成复杂模式。推文对Mythos/GPT-5.6在动态生成复杂工作流上的效果表示好奇。该推文获得9条评论、4次转发、22个喜欢和3179次浏览。

AI 翻译 · 中文

动态工作流(即时生成测试框架)被视为一种新的测试时计算形式。然而LLM在自主构建复杂工作流方面表现不佳,作者经常需要手动引导代理生成复杂模式。推文对Mythos/GPT-5.6在动态生成复杂工作流上的效果表示好奇。该推文获得9条评论、4次转发、22个喜欢和3179次浏览。

elvisDynamic workflows (generating harnesses on the fly) are a new form of test-time compute. But LLMs aren't great at building them. I often have to steer agents to generate complex patterns. Curious how effective Mythos