全部 AI 动态 · AI 热点

6月30日

03:05

@koltregaskes@koltregaskes

精选

前沿模型成本上升、令牌使用量攀升以及近期禁令，使企业自建AI变得更加必要。通过下载Llama或Qwen等开源模型，使用LoRA在自有数据上微调，部署在自有基础设施，可一次性计算成本取代按席收费。Hugging Face和LoRA已降低技术门槛，关键在于管理层是否将其视为基础设施投资而非普通软件开支。

行业 Llama Qwen LoRA Hugging Face 微调

推荐理由：前沿模型越来越贵还被禁，自己微调Llama或Qwen更可控，一次性投入省月费，数据也安全。

原文

6月29日

18:22

阿里云 Alibaba Cloud@alibaba_cloud

阿里云举办Qwen全球AI黑客马拉松，总奖金池超过70,000美元。参赛者需在Devpost平台注册，选择5条赛道之一，利用Qwen API构建Agent并提交作品。赛事面向全球开发者，旨在推动基于Qwen模型的创新应用开发。

行业 Qwen 阿里云黑客马拉松 Agent

推荐理由：阿里云拿出7万美元办黑客马拉松，五条赛道任选，用Qwen API搭Agent就能参赛。动手能力强的话值得一试。

原文

17:47

阿里云 Alibaba Cloud@alibaba_cloud

阿里云推出新的AI零售解决方案，基于Qwen模型，可跨所有触点理解客户，将碎片化洞察转化为个性化沉浸式体验，驱动可量化的零售增长。该方案已在大规模场景验证。

AI产品 Qwen Alibaba Cloud AI零售零售解决方案

推荐理由：阿里云出了个新零售AI方案，基于Qwen模型，能跨各触点理解顾客，把零散数据变成个性化体验，还能量化增长效果。

原文

13:50

阿里云 Alibaba Cloud@alibaba_cloud

阿里巴巴云Qwen团队将于2026年6月30日举办Qwen Live第一集直播，主题为Agent-First。Qwen云负责人Linlin Kong与产品经理Pan Gu、Xijue将分享从零构建智能体云平台的经验。直播将重新定义面向非人类用户的开发者体验，并探讨大规模人机协作的新范式。

技巧 Qwen 阿里云智能体云平台开发者体验

推荐理由：想搞智能体云平台？Qwen这期直播讲从零搭建、非人类用户开发体验，做agent的开发者别错过。

原文

6月28日

16:18

Geek@geekbb

精选

网友分享的 Gentle-AI 配置串联 11 个不同职能的智能体，使用低成本 Flash 模型处理大部分上下文，仅在设计（Qwen）和编码（Kimi Code）等关键环节调用高性能模型。每日成本控制在 4~7 美元，并通过多智能体对齐审查显著降低幻觉率。该 per-phase model routing 策略可适配 15 种 AI 编程工具。

技巧 Gentle-AI Qwen Kimi Code 智能体模型路由

推荐理由：挺实用的配置：11个智能体分工，Flash模型省成本，Qwen和Kimi Code干重活，每天才4-7美元，还降幻觉。

原文

6月26日

22:42

Gary Marcus@GaryMarcus

UBS调查显示，60%监控AI预算的企业已开始转向更便宜的模型和开源中国模型。企业面临极端账单，有用户每月花费高达35,000美元，团队超出配额200%，部分公司从5个AI内部工具削减至2个。企业通过模型路由策略，将简单任务分配给便宜模型，如Qwen、DeepSeek、MiniMax、GLM、Kimi，而保留高级模型用于推理、编程和长上下文任务。这些中国开源模型可以本地运行或通过云目录使用，符合企业成本曲线。

行业 UBS DeepSeek Qwen MiniMax 开源模型成本优化企业AI应用

推荐理由：大厂AI账单太高了，UBS说60%的企业已经在换更便宜的模型，像DeepSeek、Qwen这些中国开源模型成了新选择。想省钱的企业可以看看这个趋势。

原文

04:52

LangChain@LangChainAI

LangChain与Fireworks AI合作，基于阿里巴巴Qwen模型微调了一个法官模型。该模型用于检测用户交互中的“感知错误”（Perceived Error）。具体微调方法和评估结果已在LangChain博客文章中发布。

AI模型 LangChain Fireworks AI Qwen 微调感知错误

推荐理由：LangChain和Fireworks用Qwen搞了个裁判模型，专门抓对话里的感知错误，挺实用的，去博客看具体数据吧。

原文

04:51

LangChain@LangChainAI

LangChain 与 FireworksAI 合作研究显示，微调后的阿里巴巴 Qwen 模型在所有规模上性能优于原版模型。与使用顶级前沿模型相比，微调模型在规模运行时可降低 10-100 倍成本，具体取决于追踪数量和模型选择。随着追踪量增长，微调模型的成本节约效果将更加显著。该结果基于对多个模型规模和基准的对比测试。

AI模型 Qwen FireworksAI 微调推理模型

推荐理由：微调 Qwen 能跑赢大模型，还省 10-100 倍成本，适合大批量任务。

原文

6月25日

02:37

AK@_akhaliq

阿里发布Qwen-AgentWorld，一个基于Qwen的语言世界模型，专为通用智能体设计。该模型旨在帮助智能体理解环境动态并做出决策。目前尚未公开具体的基准测试结果或性能数据。

AI模型 Qwen-AgentWorld Qwen 阿里智能体世界模型

推荐理由：阿里出了AgentWorld世界模型，让智能体能更好地理解环境，做Agent开发的朋友可以关注一下。

原文

00:49

berryxia@berryxia

77°

Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld，核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态，而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL，在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外，仅做环境预测的预训练能力可直接迁移到多轮Agent任务，在多个benchmark上取得显著提升，包括未见领域。Qwen开源了35B MoE版本及对应基准。

AI模型 Qwen Qwen-AgentWorld 世界模型 Agent 强化学习

推荐理由：通义千问出了个新模型，不是教Agent怎么动，而是先让模型懂环境变化。用模拟环境练出的Agent反而比真实环境练的还强，还开源了35B版，值得看看。

原文

6月24日

22:40

阿里通义 Qwen@Alibaba_Qwen

精选

Qwen发布Paradigm II，一种基于世界建模的Agent基础模型。它通过单轮环境预测直接测试于多轮工具调用任务，无需Agent强化学习或任务特定调优。在7项基准上均取得提升，域内Terminal-Bench 2.0提升6.3%、SWE-Bench提升3.4%、WideSearch提升12.8%。域外基准Claw-Eval提升11.3%、QwenClawBench提升9.7%、BFCL v4提升9.0%。世界建模将'先预测后行动'内化为可迁移的推理模式。

AI模型 Qwen Paradigm II 推理模型智能体世界模型

推荐理由：Qwen做了个新Agent模型Paradigm II，不用额外训练就在终端、编码、搜索和工具调用任务上全涨分，尤其没见过的任务也管用。

原文

22:39

阿里通义 Qwen@Alibaba_Qwen

精选73°

阿里Qwen团队开源了Qwen-AgentWorld-35B-A3B模型，采用MoE架构，总参数量35B，每次推理激活3B参数，支持256K上下文长度。同时发布了AgentWorldBench基准，用于评估智能体的世界建模能力。该模型在多个现实环境模拟任务上表现优于同等规模模型。相关论文已发布于arXiv，代码和模型权重在GitHub和Hugging Face上开放。

AI模型 Qwen AgentWorld MoE 智能体世界建模

推荐理由：阿里新开源了35B参数的MoE模型，只激活3B，256K超长上下文，配合AgentWorldBench，研究智能体世界建模的赶紧试试。

原文

6月23日

22:09

LangChain@LangChainAI

精选76°

LangChain与Fireworks AI合作，微调阿里Qwen模型构建了trace judge，用于检测生产trace中的“感知错误”。该judge在性能上匹敌或超越前沿模型，同时运行成本降低100倍。相关研究成果已发表在LangChain Labs博客。

AI产品 LangChain Fireworks AI Qwen 微调 AI评估

推荐理由：LangChain搞了个低成本trace judge，用阿里Qwen微调，性能不输顶级模型还便宜100倍，做trace监控的可以看看。

原文

6月19日

11:27

11:27IT之家（博客/媒体）

阿里巴巴集团主席蔡崇信在VivaTech 2026上表示，AI总潜在市场规模对标人类生产力，全球GDP超100万亿美元中至少50万亿美元来自人类生产力，这是阿里的目标。阿里全面投入AI，全栈覆盖能源、基础设施、模型和应用层，拥有开源模型千问（Qwen）。蔡崇信指出当前全球AI开源主要推动力量来自中国企业，阿里团队持续贡献前沿模型开源。

行业阿里巴巴 Qwen 开源模型全栈AI

推荐理由：阿里主席亲口说了：AI市场对标50万亿美元，全栈押注，千问开源是全球主力。想看清阿里AI战略的必看。

原文

6月18日

19:09

阿里云 Alibaba Cloud@alibaba_cloud

阿里云在东京启用了第5个数据中心，同时将Model Studio平台引入日本市场。该平台支持企业使用最新Qwen模型构建下一代AI智能体。此举旨在加强日本代理式AI时代的基础设施建设。

行业 Alibaba Cloud Qwen Model Studio 日本智能体

推荐理由：阿里云在日本搞大事了：新开第五座数据中心，还把Model Studio带过去，让企业直接用Qwen模型造智能体。

原文

10:07

阿里云 Alibaba Cloud@alibaba_cloud

阿里云日本区域经理Takeshi Kurita与CyberAgent高管Takahito Naito探讨如何通过Qwen模型降低企业生成式AI成本。双方分享了基于Alibaba Cloud的Agentic Cloud策略的实际部署经验。会议聚焦于企业级AI模型的高效运用与未来方向。

行业 Alibaba Cloud Qwen CyberAgent 企业AI 成本优化

推荐理由：阿里云和CyberAgent聊用Qwen降成本，有实战干货，搞企业AI的可以听听。

原文

09:21

arXiv: DeepSeek@Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao

精选

该论文针对混合专家(MoE)模型部署时内存和推理开销大的问题，提出一种结构剪枝框架。方法将剪枝比率分配转化为通道分数覆盖最大化问题，通过归因近似高效求解。在DeepSeek和Qwen MoE模型上实验，结合4-bit量化后，50%或25%结构化剪枝仍保持模型准确率。在Qwen3-30B-A3B上，内存占用减少5.27倍，优于现有基线。

论文 MoE 结构剪枝量化 DeepSeek Qwen

推荐理由：想省显存又怕掉精度？这篇论文用通道级剪枝加4-bit量化，把MoE模型体积砍到1/5还能保住性能，DeepSeek和Qwen都能用。

原文

03:55

LangChain@LangChainAI

LangChain测试显示，Alibaba Qwen基础模型配合良好提示在感知错误分类任务上性能接近前沿模型。使用LoRA SFT微调后，模型性能接近或超过前沿模型。实验表明微调能使开源模型与顶级闭源模型竞争。

AI模型 Qwen Alibaba LoRA 微调开源模型

推荐理由：LangChain实测：Qwen基础版+好提示就能追平顶级模型，微调后甚至超越。开源模型潜力很大！

原文

00:35

Geek@geekbb

从2022年期待本地运行ChatGPT-3.5，到2026年DeepSeek、Qwen、GLM、Kimi每月发布旗舰模型。本地部署模型列表包括GLM-4、DeepSeek R1/V3、Qwen3、Kimi-K2、GPT-oss-120b、Qwen3.7-Plus、Kimi-K2.7、Deepseek-V4、GLM-5.2等九个版本。迭代速度远超预期，社区感叹没有尽头。

行业 DeepSeek Qwen GLM Kimi 国产模型

推荐理由：这帖子把2022到2026国产模型进化史盘得清清楚楚，DeepSeek、Qwen、GLM、Kimi每月一个旗舰，本地部署清单都快十个版本了，AI发烧友必看。

原文

6月17日

23:31

阿里云 Alibaba Cloud@alibaba_cloud

阿里云推出EdgeAgent Arena竞赛，旨在将Qwen模型应用于机器人及IoT设备。参赛者需构建通过边缘传感器感知并本地行动的硬件系统。竞赛总奖金超过70,000美元，注册现已开放。该活动鼓励利用Qwen在边缘场景中实现智能决策与本地执行。

行业 Qwen Alibaba Cloud EdgeAgent Arena 机器人边缘计算

推荐理由：阿里云搞了个比赛，用Qwen做边缘机器人，奖金7万美元，想动手的可以报名试试。

原文

12:53

阿里云 Alibaba Cloud@alibaba_cloud

Flink Forward Asia 2026 将于6月26-27日在深圳华侨城洲际酒店举办，主题为'Real-time Data Power Future AI'。大会汇聚70+演讲者，来自阿里云、Qwen、字节跳动、腾讯、LinkedIn等公司。设有AI Native、多模态流、智能体、推理加速等深度议题。现场提供独家周边礼品，免费注册已开放。

行业 Apache Flink Alibaba Cloud Qwen 实时数据处理智能体

推荐理由：阿里云办的Flink大会今年在深圳，主题是实时数据加AI，有70多个大厂专家讲多模态和智能体，做流处理的别错过。

原文

09:31

arXiv: DeepSeek@Siyue Chen, Yifu Guo, Yuquan Lu, Zishan Xu, Jiaye Lin, Jianbo Lin, Siyu Zhang, Cheng Yang, Junxin Li, Yujia Li, Yu Huo, Ruixuan Wang

该论文提出了LLM代码推理的内部生命周期概念：模型先在早期层中酝酿答案，使其线性可解，然后在后期层分化为四种解析结果——已解析、过度处理、错误解析、未解析。研究对Qwen、Llama、DeepSeek三个架构的16个模型进行了6类代码推理任务的层析探针和上下文剥离解码（CSD）实验。结果显示已解析平均仅41.5%，且函数调用任务中，调用深度从1层增至3层时已解析率从61.1%骤降至2.5%。所有模型的酝酿持续时长稳定在24%-42%，但解析成功率随模型能力和规模变化。

论文代码推理 Qwen Llama DeepSeek 推理模型

推荐理由：这篇论文用层析探针找到了LLM做代码推理时“酝酿”到“解析”的秘密，发现即便准确率相近，内部失败模式也截然不同，值得想理解推理本质的人读。

原文

04:49

阿里通义 Qwen@Alibaba_Qwen

阿里巴巴Qwen团队推出Qwen-Robot Suite，将大语言模型能力扩展到物理世界。该套件使AI能够执行真实的机器人动作，而不仅仅是文本对话。更多演示视频可在官方博客qwen.ai/blog?id=qwen-r...查看。目前该推文获得63个点赞和5812次浏览。

AI模型 Qwen Qwen-Robot Suite 阿里巴巴机器人

推荐理由：Qwen机器人套件让AI从聊天变动手，看看它怎么在现实里干活

原文

6月16日

22:10

阿里云 Alibaba Cloud@alibaba_cloud

76°

阿里云发布Qwen-Robot Suite，包含三个基础模型：Qwen-RobotNav统一5种导航任务（指令跟随、点目标、物目标、目标跟踪、自动驾驶）；Qwen-RobotManip在38,100+小时开源语料上预训练，实现异构机器人统一状态-动作空间；Qwen-RobotWorld支持20+具身化身，通过自然语言接口预测物理世界未来。三个模型可独立使用或组合，构成通用具身智能系统的底层工具包。

AI模型 Qwen Robot 具身智能机器人导航基础模型

推荐理由：阿里云一口气发了三个机器人基础模型：导航、操作、世界模型，每个都能单独用，还能组合。Qwen-RobotManip在3.8万小时数据上预训练，挺实在的。

原文

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:56

arXiv: DeepSeek@Yingnan Zhao, Razvan Bunescu, Ahmed Louri, Avinash Karanth, Ke Wang

针对MoE模型（如Qwen、DeepSeek）推理中专家加载延迟高的问题，研究者分析了专家选择行为，发现相邻MoE层和连续解码token间专家请求存在强相关性。基于此提出ST-MoE，一个结合轻量级运行时预测机制与可重构硬件设计的专家预取框架。ST-MoE通过预取专家与计算重叠，显著提升推理性能并降低能耗，同时保持模型精度。实验在多种MoE模型和应用（语言理解、代码生成）上验证了有效性。

论文 MoE Qwen DeepSeek ST-MoE 推理加速

推荐理由：这篇论文分析了Qwen、DeepSeek等MoE模型的专家加载瓶颈，用ST-MoE框架通过预取专家来加速推理，兼顾效率和精度，适合关注大模型推理优化的读者。

原文

11:20

arXiv: OpenAI@Ziyue Wang, Cheuk Wang Maurice Ng, Chenchen Yu, Strick Sheng, Kaihua Qin, Liyi Zhou

EvoHunt是一个在开源仓库上运行的安全审计剧本进化环境。它使用三个智能体驱动循环：审计智能体执行当前剧本，评估器根据真实情况打分，修订者根据失败分析更新剧本。在开源安全公告评估中，EvoHunt使Codex/GPT5.4-xhigh的端到端漏洞利用成功率从1.1%提升至6.2%。GLM5.1演变出的剧本在目标匹配率上达到11.3%，超过OpenAI Codex Security的9.2%。转移实验显示，Qwen3.6-27B借助GLM剧本从2.4%提升至6.5%，Qwen3.6-35B-A3B从1.1%提升至4.6%。

论文 EvoHunt Codex GLM Qwen 智能体安全审计

推荐理由：这篇论文讲EvoHunt，能自动生成安全审计剧本，还能把经验迁移给弱模型，效果比商用产品还好。

原文

09:56

Pandaily@contact@pandaily.com (Pandaily)

阿里巴巴的通义千问（Qwen）AI眼镜以1997元售价，在中国AI眼镜市场销量排名第一。该产品搭载Qwen模型，支持语音交互与实时信息查询。据2025年6月销售数据，其市场份额领先于华为、小米等竞品。这款眼镜定位大众消费市场，成功降低了AI眼镜的入门门槛。

AI产品 Alibaba Qwen AI眼镜可穿戴设备智能硬件

推荐理由：阿里巴巴的AI眼镜只卖1997元，销量冲到了全国第一，和华为、小米比起来性价比很突出。

原文

6月15日

18:06

阿里云 Alibaba Cloud@alibaba_cloud

在ATxEnterprise2026会议上，阿里巴巴云展示了基于Qwen的AI名片互动功能。该功能吸引了大量与会者，并赢得Crowd Magnet Award（人气磁铁奖）。会议还聚焦企业AI及云数据创新话题。

行业 Alibaba Cloud Qwen ATxEnterprise2026 AI名片企业AI

推荐理由：阿里云用Qwen做的AI名片在展会上获了人气奖，挺有意思的，看看他们怎么玩的。

原文

18:01

阿里云 Alibaba Cloud@alibaba_cloud

在Qwen Conference上，阿里云CTO兼国际业务总裁Feifei Li分享了驱动智能体应用的四大基石：Models（模型）、Agentic Cloud（智能体云）、Tools and Services（工具与服务）和Performance at Scale（规模化性能）。这些支柱使智能体能够推理、自主行动、利用编码等工具完成复杂任务，并有效规模化运行。此次演讲强调了阿里云在智能体领域的战略方向。

行业 Alibaba Cloud Qwen 智能体 Agentic Cloud

推荐理由：阿里云CTO亲自拆解智能体落地的四块基石，对理解Agent发展方向很有帮助。

原文

17:56

阿里云 Alibaba Cloud@alibaba_cloud

阿里巴巴旗下开源模型 Qwen 现已登陆欧洲 AI 网关 Eden AI，该平台已服务超过 200,000 名开发者。企业可通过 Eden AI 的统一 API 调用 Qwen 的推理、编程等模型，构建多模型工作流并避免供应商锁定。为庆祝上线，所有 Qwen 模型享 35% 折扣。Eden AI CEO 与 CPTO 将在下周二 VivaTech 会场与开发者见面。

AI产品 Qwen Eden AI Alibaba Cloud API 推理模型

推荐理由：Qwen 现在在 Eden AI 上能用了，20 万开发者都在用的平台，通过统一 API 就能调用推理和编码模型，还打 35 折，挺划算的。

原文

17:51

阿里云 Alibaba Cloud@alibaba_cloud

阿里云使用其Qwen和Wan模型创作了一支展示阿联酋文化的AI视频。视频融合了沙漠、阿拉伯书法、传统待客之道和迪拜现代天际线。Qwen是阿里云的大语言模型，Wan是视频生成模型。该视频通过Model Studio平台生成，体现AI连接传统与创新的能力。

AI产品 Qwen Wan Alibaba Cloud Model Studio 视频生成

推荐理由：阿里云用自家Qwen和Wan生成了一支阿联酋风情视频，把沙漠、书法和摩天楼全串起来了，展示AI视频创作能力。

原文

17:50

阿里云 Alibaba Cloud@alibaba_cloud

阿里云使用其Qwen和Wan模型创作了一段AI视频，重新演绎墨西哥文化。视频融合了mariachi音乐和Zapotec编织图案等元素。从古老圣地到现代创新中心，展示了AI连接过去与未来的能力。该创作可通过阿里云Model Studio平台体验。

AI模型 Qwen Wan Alibaba Cloud 视频生成多模态

推荐理由：阿里云用Qwen和Wan模型做了一个墨西哥文化AI视频，画面很有创意，展示了模型在艺术创作上的能力。

原文

6月14日

13:21

13:21IT之家（博客/媒体）

小米新媒体高级工程师@小米_邹師傅发文评论某大模型重新出山，表示技术竞争值得欢迎，但担忧对方可能采用刷榜、刷屏、捆绑国产算力与情怀的营销手段。他指出国内大模型圈已形成靠作品说话的氛围，如DeepSeek靠开源、MiMo靠论文、Qwen靠开发者口碑。他警告新选手若以饱和舆论轰炸入场，将污染技术赛道。小米此前已发布MiMo-V2.5系列模型并永久降价，最高降幅达99%。

行业小米 MiMo DeepSeek Qwen 行业竞争

推荐理由：小米工程师谈大模型竞争，警惕营销战

原文

10:52

Clement Delangue@ClementDelangue

Hugging Face CEO Clement Delangue 在推文中强调 AI 发展没有必然性，所有人都有选择权。他对比两条路径：封闭 API 导致权力集中，或开源 AI 让所有人参与。他引用 SemiAnalysis 的案例：里约热内卢市基于 Qwen 7/2 后训练了 Rio 3.5 Open 397B 模型，该模型采用 SwiReasoning 框架，动态切换标准链式推理和隐空间推理，通过熵置信信号提升 token 效率。

行业 Clement Delangue Hugging Face 开源模型 Qwen SwiReasoning

推荐理由：开源 vs 封闭，里约市用 Qwen 做示范

原文

04:21

elvis@omarsar0

精选

Elvis 在讨论中分享了运行自主长期编码智能体的经验，指出大多数模型难以协调长期任务，容易过早暂停或出现奖励黑客行为。他建议使用 Opus 4.8 进行规划，GPT-5.5 执行任务，并用 Deepseek、Qwen、Kimi 等模型作为评估器。强调多模态目标比纯文本目标更有效，能帮助智能体保持方向。

技巧 Opus 4.8 GPT-5.5 Deepseek Qwen 智能体

推荐理由：Opus 4.8 规划 + GPT-5.5 执行，长期智能体实战配方

原文

6月13日

16:53

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 为 Qwen 模型新增长时智能体循环功能，支持观察、推理、编码、执行和验证的重复流程。Qwen 官方演示运行了 11 小时，生成了超过 10,000 行代码并执行了 1,000 多次调用。Fireworks 提供 reasoning_history 参数以跨轮次保留推理上下文，支持按请求切换思考/非思考模式，以及原生图像和文本输入。默认启用 262k 上下文和提示缓存，缓存输入价格为每百万 token 0.10 美元。

AI产品 Fireworks Qwen 智能体 MCP/工具推理模型

推荐理由：Fireworks 让 Qwen 跑 11 小时智能体循环

原文

13:09

elvis@omarsar0

精选

Omar Sanseviero分享运行自主长时编码智能体的经验，建议用Opus 4.8做规划、GPT-5.5执行，并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强，能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。

技巧 Opus 4.8 GPT-5.5 Deepseek Qwen Kimi MiniMax 智能体

推荐理由：Opus 4.8+GPT-5.5分工跑长任务

原文

6月12日

13:09

pandaily@contact@pandaily.com (Pandaily)

Qwen 发布了首款 AI 足球预测助手，针对 2026 年世界杯。用户可通过预测比赛得分赚取积分，社区累计贡献将用于为乡村学校建造足球场。活动还设有人机预测挑战赛，最高奖金 1 万元人民币。

AI产品 Qwen AI 足球预测世界杯公益乡村学校

推荐理由：Qwen 将 AI 预测与公益结合，足球迷和公益爱好者既能参与世界杯预测，又能为乡村教育贡献力量，值得一试。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

06:02

elvis@omarsar0

AI 研究者 Omar 在推文中分享，他越来越多地使用 Deepseek、Qwen 和 Minimax 等模型作为评估智能体，用于其自主循环系统。这一做法旨在通过多样化模型提升评估的准确性和鲁棒性，避免单一模型的偏见。对于构建自主 AI 系统的开发者来说，这是一个值得关注的实践方向。

AI产品智能体评估模型 Deepseek Qwen Minimax

推荐理由：做自主循环或智能体评估的开发者，可以借鉴这种多模型评估策略来提升系统稳定性，建议点开看看具体怎么搭配。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:02

arXiv cs.LG@Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou

精选83°

强化学习（RL）训练中，rollout 阶段是主要瓶颈。多 Token 预测（MTP）本可通过推测解码加速，但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系，并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数，直接优化拒绝采样接受率，在数学推理、代码生成和智能体任务上实现最高 95% 接受率，吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上，异步 RL 训练端到端加速达 1.8 倍，且无需在线更新 MTP。

论文强化学习多 Token 预测推测解码拒绝采样 Qwen

推荐理由：RL 训练加速是 LLM 后训练的核心痛点，Bebop 用 MTP+拒绝采样把加速做到 1.8 倍，做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。

原文