全部 AI 动态 · AI 热点

6月29日

10:08

10:08

arXiv cs.AI@Difan Jiao, Raghav Singhal, Robert West, Ashton Anderson

Tandem Reinforcement Learning (TRL) 将 tandem 训练范式引入带可验证奖励的强化学习（RLVR）。TRL 让一个较强的 senior 模型与一个冻结的 junior 模型随机交替协作生成推理过程，对最终结果给予奖励，并对 senior 应用标准 GRPO 损失。在 Qwen3-4B-Instruct 上使用竞赛数学训练，TRL 的 solo 推理能力与 vanilla GRPO 持平，但同时提升了 senior 与 junior 的交接鲁棒性、减少了 junior 侧分布漂移，并产出了对 junior 更易理解的思维链。该工作为多模型通信与人类兼容性提供了实际收益的路径。

AI模型 TRL Qwen3-4B GRPO 推理模型多模型协作

推荐理由：他们提出了 TRL，让强模型和弱模型组队推理，强模型学会写弱模型能看懂的推理过程。训练 Qwen3-4B 后，单打能力不降，协作能力更强。

6月22日

16:33

16:33

Decoder@Matthias Bastian

Sakana AI推出了Fugu系统，该系统能动态协调多个大型语言模型（如GPT-4、Claude等），在Fable和Mythos基准测试上达到与Anthropic的Fable 5相当的性能。Fugu通过实时路由和模型组合，减少了对单一AI提供商的依赖。测试中，Fugu在Fable基准上得分超过Anthropic的Fable 5，并在Mythos基准上表现出色。

AI模型 Sakana AI Fugu Anthropic Fable 多模型协作

推荐理由：日本AI公司Sakana AI搞了个新系统叫Fugu，能让不同模型一起干活，不用只靠一家供应商。效果还跟Anthropic的Fable 5差不多，值得看看怎么做到的。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

14:14

14:14

kimmonismus@kimmonismus

精选

OpenRouter 推出 Fusion 功能，这是一种服务端“模型面板”。它可将用户提示并行发送给多个模型，并允许它们使用网络搜索和 Bash 工具。Fusion 通过裁判比较各模型答案，由合成器生成最终响应。成本可能低于依赖单一昂贵前沿模型。官方称其在 Perplexity 的 DRACO 深度研究基准上击败了前沿模型。

AI产品 OpenRouter Fusion Perplexity DRACO基准多模型协作

推荐理由：OpenRouter 出了个新玩法 Fusion，多个模型一起干活还能用工具，比单用最贵的模型还省钱，实测在 DRACO 基准上比前沿模型强。

6月15日

13:34

13:34

Geek@geekbb

新工作流中，Claude Fable 5 负责规划与代码评审，GPT-5.5 Codex 负责实现与调研。仓库作为持久记忆，门禁规则在代码生成前就已设定。该方法解决单模型编码时上下文退化、自评分偏误等问题。相关代码与配置已开源在 github.com/DanMcInerney 的仓库中。

技巧 Claude Fable 5 GPT-5.5 Codex 编程助手提示词工程多模型协作

推荐理由：双模型协作，治编码通病

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月28日

18:16

18:16

Viking@vikingmute

一位开发者分享了针对几千行大 PR 的 Code Review 最佳实践，使用 Codex GPT5.5、Composer 2.5 和 Deepseek V4 Pro 等多个模型共同审查，每个模型生成按优先级排序的 Bug 报告。然后让大模型汇总共性高优先级问题，人工确认后由 Claude 作为 fix agent 修复，再由 GPT5.5 作为 review agent 验证修复并留下批改意见，循环直至确认。最后全量跑 E2E 测试确保无回归。该方法发现了不少真实问题，未来将做成 skill 分享。

技巧 Code Review 多模型协作 GPT5.5 Claude Deepseek V4 Pro

推荐理由：做大型代码审查的团队可以借鉴这种多模型协作+人工确认的流程，能有效发现隐藏问题，建议尝试类似方案提升 Code Review 效率。

5月16日

17:01

17:01

Justine Moore@venturetwins

该项目利用World Labs从输入图片生成3D世界，自动识别并提取应转为3D物体的元素，通过NB或GPT Image移除原图背景，再用Hunyuan 3D渲染为立体对象，最后由ElevenLabs添加音效和环境音。整个流程实现了从单张图片到沉浸式3D场景的自动化构建，展示了多模型协作的潜力。

AI产品 3D生成 World Labs Hunyuan 3D ElevenLabs 多模型协作

推荐理由：做3D内容生成或游戏资产制作的开发者可以看看这个多模型协作的流水线，从图片到3D世界一步到位，值得尝试复现。