Tmax：开源RL终端智能体模型，数据权重全开源

精选理由

Tmax把终端智能体的RL训练配方全开源了，65k token里就跑赢之前的工作，想自己训智能体的可以抄作业。

AI 摘要

Hamish Ivison等人发布了Tmax，一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下，Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts，方便复现和进一步研究。

AI 翻译 · 中文

SuhailThis is a very good entry into post training LLMs with RL. The whole recipe and data is open. Highly recommend! Hamish Ivison @hamishivi Trained some terminal agents with friends! Introducing Tmax, open RL terminal agent…

查看原推