AI模型精选

Tmax:开源RL终端智能体模型,数据权重全开源

This is a very good entry into post training LLMs with RL. The whole recipe and data is open. Highly...

精选理由

Tmax把终端智能体的RL训练配方全开源了,65k token里就跑赢之前的工作,想自己训智能体的可以抄作业。

AI 摘要

Hamish Ivison等人发布了Tmax,一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下,Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts,方便复现和进一步研究。

AI 翻译 · 中文

Hamish Ivison等人发布了Tmax,一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下,Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts,方便复现和进一步研究。

SuhailThis is a very good entry into post training LLMs with RL. The whole recipe and data is open. Highly recommend! Hamish Ivison @hamishivi Trained some terminal agents with friends! Introducing Tmax, open RL terminal agent