AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:Qwen3-4B×
6月29日
10:08
10:08arXiv cs.AI@Difan Jiao, Raghav Singhal, Robert West, Ashton Anderson
Tandem Reinforcement Learning (TRL) 将 tandem 训练范式引入带可验证奖励的强化学习(RLVR)。TRL 让一个较强的 senior 模型与一个冻结的 junior 模型随机交替协作生成推理过程,对最终结果给予奖励,并对 senior 应用标准 GRPO 损失。在 Qwen3-4B-Instruct 上使用竞赛数学训练,TRL 的 solo 推理能力与 vanilla GRPO 持平,但同时提升了 senior 与 junior 的交接鲁棒性、减少了 junior 侧分布漂移,并产出了对 junior 更易理解的思维链。该工作为多模型通信与人类兼容性提供了实际收益的路径。
AI模型TRLQwen3-4BGRPO推理模型多模型协作

推荐理由:他们提出了 TRL,让强模型和弱模型组队推理,强模型学会写弱模型能看懂的推理过程。训练 Qwen3-4B 后,单打能力不降,协作能力更强。
原文
6月18日
15:10
15:10LMSYS Org (SGLang)@lmsysorg
精选71°
SGLang-Omni 现已支持 MOSS-TTS-Local Transformer v1.5 模型。该模型基于 Qwen3-4B 骨干,可生成 48kHz 立体声语音。支持零样本语音克隆和原生流式,覆盖 31 种语言,训练数据约 400 万小时。非流式场景下达到 5.976 req/s,RTF 0.644,WER 1.75%(SeedTTS English,2×GPU)。采用三阶段管线:参考编码、AR 引擎、流式声码器。
AI模型MOSS-TTSSGLang-OmniQwen3-4B语音克隆开源模型

推荐理由:SGLang-Omni 刚上线 MOSS-TTS v1.5,开源、零样本克隆声音,支持31种语言,速度也不错,玩玩看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录