全部 AI 动态 · AI 热点

6月25日

02:37

02:37

AK@_akhaliq

阿里发布Qwen-AgentWorld，一个基于Qwen的语言世界模型，专为通用智能体设计。该模型旨在帮助智能体理解环境动态并做出决策。目前尚未公开具体的基准测试结果或性能数据。

AI模型 Qwen-AgentWorld Qwen 阿里智能体世界模型

推荐理由：阿里出了AgentWorld世界模型，让智能体能更好地理解环境，做Agent开发的朋友可以关注一下。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

10:58

10:58

阿里通义 Qwen@Alibaba_Qwen

阿里 Qwen 团队在 Twitter 上展示了 Demo2，一个多模态交互混合智能体。该智能体能够处理文本、图像等多种输入，实现更自然的交互体验。Demo2 展示了多模态理解和生成能力，标志着 AI 智能体在多模态交互方面的新进展。这一技术有望应用于更复杂的任务场景，提升人机协作效率。

AI产品 Qwen 多模态智能体交互阿里

推荐理由：多模态交互是 AI 智能体的关键方向，Qwen 的 Demo2 展示了更自然的交互方式，做多模态应用或智能体开发的团队值得一看。

5月25日

12:12

12:12

Paul Couvert@itsPaulAi

阿里巴巴发布了 Qwen-3.7-Max 模型，性能出色，可轻松接入 Hermes Agent 或 OpenCode，替代 GPT-5.5 或 Opus 4.7。输出成本比 Opus 4.7 低 3.3 倍，比 GPT-5.5 低 4 倍，输入成本也比两者低 2 倍。该模型在多个基准测试中表现优异，为开发者提供了高性价比的替代方案。

AI模型 Qwen-3.7-Max 阿里推理模型成本优化智能体

推荐理由：Qwen-3.7-Max 以极低成本提供接近顶级模型的性能，做 AI 应用开发或智能体集成的团队可以大幅降低推理开销，值得立刻上手试试。

5月22日

09:37

09:37

Together AI@togethercompute

83°

阿里巴巴推出Qwen3.7-Max旗舰模型，专为智能体时代设计，支持100万token上下文窗口。该模型在智能体编程、推理和长周期自主任务上表现领先。现在可通过Together Serverless Inference平台用于生产级智能体工作流。这标志着大模型从对话助手向自主智能体核心引擎的转变。

AI模型 Qwen3.7-Max 智能体长上下文推理模型阿里

推荐理由：做智能体应用的开发者终于有了一个原生支持长上下文和自主决策的旗舰模型，1M上下文窗口直接解决复杂任务中的记忆瓶颈，建议在Together上试试生产级部署。

02:12

02:12

rohanpaul_ai@rohanpaul_ai

83°

阿里巴巴发布了其最强旗舰模型 Qwen3.7-Max，专为真实世界任务和生产环境设计。该模型在智能体可靠性上做了核心优化，能够自主规划步骤、调用工具、检查结果并修复错误，不会在首次出错后崩溃。在 Artificial Analysis Intelligence Index 上，Qwen3.7-Max 得分 56.6，较 Qwen3.6-Max 提升 4.8 分，排名第五，与 GPT 5.4 相当。性能提升主要集中在科学推理、智能体能力和编程方面。此外，推理内核经过多轮底层 GPU 优化，实现了 10 倍的几何平均加速。

AI模型阿里 Qwen3.7-Max 智能体推理模型编程助手

推荐理由：Qwen3.7-Max 在智能体可靠性上的突破，让做自动化工作流和复杂任务编排的开发者有了更稳定的选择，建议直接上手测试。

5月21日

22:15

22:15

阿里通义 Qwen@Alibaba_Qwen

阿里发布 Qwen3.7-Max 旗舰模型，在 Artificial Analysis Intelligence Index 上获得 56.6 分，比 Qwen3.6-Max-Preview 提升 4.8 分。主要改进集中在科学推理、智能体能力和编程能力，同时幻觉率大幅下降。模型上下文窗口从 256K 提升至 1M 令牌，但仅支持文本输入输出。虽然仍落后于 OpenAI、Anthropic 和 Google 的模型，但这是阿里最接近前沿模型的一次。

AI模型 Qwen3.7-Max 阿里推理模型智能体编程助手

推荐理由：阿里 Qwen 系列持续追赶前沿，Qwen3.7-Max 在推理和智能体能力上进步明显，做 AI 应用开发或模型选型的团队值得关注这次性能跃升。

5月19日

12:01

12:01

Geek@geekbb

72°

阿里巴巴通义千问团队发布了 Qwen 3.7 预览版，包括 Max 和 Plus 两个版本，已在 LMSYS Arena 上线。该模型在文本和视觉任务上表现强劲，使阿里在 Arena 文本榜单升至第6、视觉榜单升至第5。官方表示完整系列模型即将发布，值得期待。

AI模型 Qwen Arena 多模态文本生成阿里

推荐理由：Qwen 3.7 预览版在 Arena 上表现亮眼，阿里排名大幅提升，做多模态或文本生成的应用开发者可以关注后续正式版发布。

08:39

08:39

阿里通义 Qwen@Alibaba_Qwen

76°

阿里 Qwen 团队发布 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 模型，已在 Arena 平台上线。在文本 Arena 中，Qwen3.7 Max Preview 综合排名第13，阿里成为第6大实验室；数学第7、专家第9、软件与IT第9、编程第10。在视觉 Arena 中，Qwen3.7 Plus Preview 排名第16，阿里升至第5。这标志着阿里在多模态能力上的显著进步，正式版 Qwen3.7 系列即将发布。

AI模型 Qwen3.7 阿里 Arena 推理模型多模态

推荐理由：Qwen3.7 Preview 在数学和编程子项表现突出，做推理和代码任务的开发者可以关注正式版发布，值得一试。

5月17日

23:40

23:40

rohanpaul_ai@rohanpaul_ai

精选76°

阿里巴巴发布论文VulnSage，展示AI如何从漏洞发现转向实际利用验证。该框架通过多智能体协作，将漏洞利用生成转化为工作流：一个智能体提取数据流，另一个转化为自然语言约束，第三个生成利用代码，验证智能体在沙箱中运行并反馈。在SecBench.js上，VulnSage比现有工具多34.64%的成功利用，并在真实软件包中发现146个零日漏洞。核心创新在于让模型像安全研究员一样阅读、行动、失败和学习，而非依赖单一模型的天才能力。

论文漏洞利用多智能体安全研究阿里自动化

推荐理由：安全团队终于有了能实际验证漏洞利用的AI工具——VulnSage把代码理解转化为真实攻击路径，做渗透测试或漏洞研究的开发者可以直接参考论文方法。

5月16日

23:54

23:54

Geek@geekbb

精选

阿里巴巴发布了面向工业领域的大语言模型知识评测集 IndustryBench，包含 2049 道题目，题目来源为中国国家标准摘要和结构化工业产品记录。该评测集横跨 7 个能力维度和 10 个行业类别，旨在评估 LLM 在工业领域的知识掌握和推理能力。这是首个系统覆盖中国工业标准的评测基准，对工业智能化应用具有重要参考价值。

AI模型评测基准工业领域 LLM 阿里国家标准

推荐理由：做工业 AI 应用或评测的团队终于有了本土化的标准测试集——2049 道题覆盖 10 个行业，直接对标中国国家标准，建议做工业大模型落地的同学点开看看。