全部 AI 动态 · AI 热点

5月23日

05:18

NVIDIA AI@NVIDIAAI

72°

NVIDIA Research 推出 LongLive-2.0，一个端到端的 NVFP4 训练与推理系统，专门解决长视频生成问题。该系统将 NVFP4 感知训练、蒸馏和 W4A4 推理对齐，弥补了低精度部署中训练与运行之间的差距。在保持基准质量的同时，显著提升了速度和内存效率。这标志着长视频生成从模型问题转向系统问题，为实际部署提供了更高效的方案。

推荐理由：长视频生成一直受限于计算和内存瓶颈，NVIDIA 这次从系统层面给出了端到端方案。做视频生成模型训练或部署的团队，可以直接参考这套 NVFP4 对齐方法，提升效率。

原文

04:21

NVIDIA AI@NVIDIAAI

精选

NVIDIA 推出 LongLive-2.0，支持生成 720p 分辨率的长视频。该模型在多镜头序列中保持主体和背景一致性，并能在视频分块边界处切换提示词。相比前代，LongLive-2.0 在长视频连贯性和用户控制性上有所提升。

AI模型 LongLive-2.0 NVIDIA 视频生成长视频

推荐理由：NVIDIA 新模型能生成长视频还保持一致性

原文

03:38

Anthropic@AnthropicAI

精选

Anthropic 在 Project Glasswing 的初始更新中报告，Claude Mythos Preview 模型能够发现大量软件漏洞。该模型的能力可能对软件行业的安全流程产生显著影响。Anthropic 提示行业需适应这种新型漏洞发现方式的规模。

AI模型 Claude Mythos Preview Anthropic Project Glasswing AI安全软件漏洞

推荐理由：Anthropic 展示了 Claude 发现漏洞的新能力

原文

02:16

Logan Kilpatrick@OfficialLoganK

精选

Gemini 3.5 Flash 在 Roboflow 视觉评估中多项指标超越 3.1 Pro。其平均推理速度快约6倍，大幅降低延迟。该模型在多模态理解上展示出更强能力，尤其适合视觉密集型任务。

AI模型 Gemini 3.5 Flash Gemini 3.1 Pro Google 多模态视觉理解

推荐理由：谷歌新 Flash 视觉又快又准

原文

5月22日

23:03

rohanpaul_ai@rohanpaul_ai

精选76°

由 ModelBest、清华大学和 OpenBMB 社区联合开发的 BitCPM-CANN 成为全球首个完全基于中文 AI 基础设施（华为昇腾 910B NPU）训练的开源 1.58-bit 三元大语言模型。该模型采用三元权重（仅三种状态），大幅降低部署内存需求，适合手机、PC、汽车等本地设备。其训练系统在昇腾 910B 上实现了量化感知训练（QAT）、直通估计器（STE）等全套流程，并开源了可复现的训练脚本。这一成果展示了在硬件成本上升背景下，模型能否在真实约束下训练、复现、部署和优化比单纯追求榜单分数更重要。

AI模型三元模型 1.58-bit 华为昇腾开源/仓库低资源部署

推荐理由：对于关注国产 AI 基础设施和低资源部署的开发者，BitCPM-CANN 展示了在昇腾 NPU 上训练三元模型的完整路径，可以直接参考其开源训练脚本做本地化部署或模型优化。

原文

22:38

Paul Couvert@itsPaulAi

精选76°

Qwen-3.7-max 在真实智能体任务（编写自训练俄罗斯方块机器人）中，以 1.32 美元成本实现 56% 的改进，远超 Claude Opus 4.7（12.15 美元，28% 改进）和 GPT-5.5（2.85 美元，7% 改进）。该模型在长智能体循环中表现突出，成本仅为 Opus 4.7 的 1/9、GPT-5.5 的 1/2。这一结果出乎意料，展示了开源模型在复杂自主任务上的潜力。

AI模型 Qwen-3.7-max 智能体成本对比开源模型 GPT-5.5

推荐理由：做智能体开发或自动化任务的团队，可以拿 Qwen-3.7-max 替代高价闭源模型，成本直降 9 倍效果反而更好，值得立刻跑个 benchmark 验证。

原文

22:26

阿里通义 Qwen@Alibaba_Qwen

83°

atomic.chat 团队测试了三个前沿模型在真实智能体任务中的表现：编写一个能自我训练并玩俄罗斯方块的机器人。每个模型可以读取自己的代码、运行基准测试并在10次迭代中自我重写。最终 Qwen 3.7-Max 以训练成本仅1.32美元、机器人性能提升56%的成绩全面领先，而 Claude Opus 4.7 成本12.15美元提升28%，GPT-5.5 成本2.85美元提升仅7%。Qwen 在成本效益和性能提升上均胜出，尤其在长智能体循环场景中表现出色。

AI模型 Qwen 3.7-Max 智能体 Claude Opus 4.7 GPT-5.5 成本对比

推荐理由：Qwen 3.7-Max 在智能体任务中成本仅为 Claude 的1/9、GPT 的1/2，性能提升却翻倍，做 AI 智能体开发的团队值得关注这个性价比之选。

原文

22:25

阿里通义 Qwen@Alibaba_Qwen

76°

阿里通义千问团队发布旗舰模型Qwen3.7-Max，已在OpenRouter平台上线。该模型是Qwen3.7系列的最强版本，专为智能体场景设计，涵盖编程、办公和生产力任务，以及长周期自主执行。相比Qwen3.6，在编程和智能体基准测试上有大幅提升，并支持显式提示缓存以处理重复上下文。这标志着阿里在智能体AI领域的重要进展。

AI模型 Qwen3.7-Max 阿里通义千问智能体编程助手 OpenRouter

推荐理由：做智能体开发或自动化任务的团队，可以直接在OpenRouter上试用Qwen3.7-Max，编程和长任务执行能力提升明显，值得关注。

原文

22:16

Gary Marcus@GaryMarcus

GaryMarcus 在 X 上转发了一条消息，称标准 GPT-5.5 已经成功复现了某个数学证明，并质疑这是否意味着所谓的“阶跃变化”只是问题本身更简单。该推文引用了 ChatGPT 的分享链接，显示模型在推理任务上的表现。这一讨论反映了 AI 社区对模型能力提升本质的持续争论：是模型真的变强了，还是任务难度被高估了。

AI模型 GPT-5.5 推理模型阶跃变化 AI 能力评估数学证明

推荐理由：AI 研究者和大模型用户值得关注——GPT-5.5 的推理表现引发了对“阶跃变化”定义的反思，看完会重新审视模型能力的评估标准。

原文

22:11

Gary Marcus@GaryMarcus

AI 研究者 Gary Marcus 在 X 上公开承认此前对 OpenAI 新模型 Erdos 的批评有误。他根据新信息表示，即使 OpenAI 在 Erdos 上使用了新模型，但 GPT-5.5 也能实现类似效果，Ethan Mollick 的估算基本适用。这一反转表明，当前 GPT 系列的能力可能被低估，且新模型与现有模型的差距可能没有想象中大。对于关注 AI 模型进展和评估的研究者与开发者，这是一个值得注意的修正。

AI模型 GPT-5.5 Erdos Gary Marcus 模型评估 AI 研究

推荐理由：Gary Marcus 公开认错，说明 AI 模型评估比想象中复杂——做模型对比的团队值得关注这个反转，避免自己踩坑。

原文

19:05

岚叔@lufzzliz

83°

阿里通义千问发布 Qwen3.7-Max，在第三方 Arena 全球大模型盲测总榜中超越 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，位列国产第一，与 GPT、Claude、Gemini 最强模型接近。在编程智能体方面，SWE-Pro、SWE-Multilingual 等测评领先，Terminal Bench 2.0 得分 69.7。通用智能体能力显著提升，在 MCP-Atlas、MCP-Mark 等现实测试中创国产新高。新增 preserve_thinking 参数，保留前序思维内容以增强 Agent 决策一致性，减少重复推理 Token 消耗，默认关闭。实测在 Claude Code 下跨框架泛化能力不错，但需要更精准的提示词和多轮迭代。

AI模型 Qwen3.7-Max 国产模型编程智能体 Agent MCP/工具

推荐理由：Qwen3.7-Max 在多项基准上追平国际顶尖模型，做 Agent 和编程自动化的开发者可以直接拿来替代闭源方案，尤其是 preserve_thinking 参数对长周期任务很有用，值得一试。

原文

15:16

小互@imxiaohu

精选

网易有道今日开源 Confucius4 双模型，分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模，有道更注重工程精度和落地成本。开源直接提供完整权重，而非仅开放 API，降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题，语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。

AI模型开源/仓库多模态语音克隆数学推理 Confucius4

推荐理由：做教育 AI 或语音应用的开发者可以直接拿到完整权重，省去从零训练的成本，建议试试这两个模型的实际效果。

原文

14:56

Cohere@cohere

精选

Cohere 发布了新模型 Command A+，该模型针对 NVIDIA Blackwell 架构进行了优化，并使用了 NVIDIA CUDA-X 库进行训练。NVIDIA AI 基础设施团队公开祝贺，强调了双方在 AI 基础设施上的紧密合作。这一合作意味着 Command A+ 将充分利用 NVIDIA 最新硬件的性能，为企业和开发者提供更高效的 AI 推理能力。

AI模型 Cohere Command A+NVIDIA Blackwell AI 基础设施模型优化

推荐理由：Cohere 与 NVIDIA 的深度合作让 Command A+ 在 Blackwell 上跑出最佳性能，做企业级 AI 部署的团队值得关注这个新选择。

原文

14:00

OpenRouter@OpenRouterAI

精选

DeepSeek V4 Flash 在 OpenRouter 每周排行榜中登顶，获得 1196 次浏览和 38 个点赞。该模型是 DeepSeek V4 的轻量版本，表现出色。OpenRouter 排行榜基于用户使用量和反馈，V4 Flash 的领先显示了其在开发者中的受欢迎程度。

AI模型 DeepSeek V4 Flash DeepSeek OpenRouter 推理模型

推荐理由：DeepSeek新模型登顶社区排行榜

原文

13:55

Cohere@cohere

精选

Cohere 发布了其最强开源大模型 Command A+，并已在 Hugging Face 上提供 W4A4 量化版本。该量化技术能在几乎不损失性能的情况下大幅降低模型部署的硬件需求，显著减少服务占用空间。开发者可以直接下载使用，适合资源受限的部署场景。

AI模型 Cohere Command A+W4A4量化开源/仓库模型部署

推荐理由：Cohere 把最强模型做到 W4A4 量化还开源了，做推理部署的团队可以直接拿来降成本，值得一试。

原文

13:25

Logan Kilpatrick@OfficialLoganK

88°

Google 的 Gemini 3.5 Flash 模型在 GDPval 基准测试中相比 3.1 Pro 取得了显著进步，性能已接近前沿水平。这表明后训练（post-training）技术仍在持续提升模型能力。该消息由开发者 Logan Kilpatrick 在 X 上分享，引发社区关注。Gemini 3.5 Flash 作为轻量级模型，其竞争力提升对开发者选择高效模型具有参考价值。

AI模型 Gemini 3.5 Flash GDPval 后训练基准测试模型进步

推荐理由：轻量模型逼近前沿，做推理或成本敏感应用的开发者值得关注——Flash 系列可能成为性价比新选择。

原文

10:27

Geek@geekbb

精选

腾讯发布Hy-MT2翻译模型，参数量1.8B。该模型在配置较低的Mac mini上实测翻译效果不错，表明小参数模型可胜任设备端翻译任务。Hy-MT2已在Hugging Face平台开放下载。

AI模型 Hy-MT2 腾讯翻译模型开源模型

推荐理由：丐版Mac mini也能跑翻译

原文

09:37

Together AI@togethercompute

83°

阿里巴巴推出Qwen3.7-Max旗舰模型，专为智能体时代设计，支持100万token上下文窗口。该模型在智能体编程、推理和长周期自主任务上表现领先。现在可通过Together Serverless Inference平台用于生产级智能体工作流。这标志着大模型从对话助手向自主智能体核心引擎的转变。

AI模型 Qwen3.7-Max 智能体长上下文推理模型阿里

推荐理由：做智能体应用的开发者终于有了一个原生支持长上下文和自主决策的旗舰模型，1M上下文窗口直接解决复杂任务中的记忆瓶颈，建议在Together上试试生产级部署。

原文

08:06

OpenRouter@OpenRouterAI

88°

阿里 Qwen 团队发布 Qwen3.7-Max 旗舰模型，专为智能体时代设计。该模型在编码、办公助手和长周期自主任务上表现出色，支持 MCP 集成和多智能体编排。在长达 35 小时的连续内核优化任务中，模型自主完成超过 1000 次工具调用，无需人工干预。模型兼容多种智能体框架，包括 Claude Code、OpenClaw 和 Qwen Code，已在阿里云 Model Studio 上线。

AI模型 Qwen3.7-Max 智能体编码助手 MCP/工具阿里云

推荐理由：Qwen3.7-Max 解决了智能体在长周期任务中自主性不足的痛点，做编码自动化或办公流程的团队可以直接在阿里云上试用，体验零干预的复杂任务执行。

原文

08:05

berryxia@berryxia

YoLo作为传统目标检测模型，在AI浪潮推动下迭代速度和优化支持不断提升。最新应用案例显示，YoLo被用于交通信号灯智能辅助系统，通过识别红绿灯状态和等待时间来优化交通管理。这一进展展示了传统模型在AI时代焕发新活力，为智能交通系统提供了更高效的解决方案。

AI模型 YoLo 目标检测智能交通模型迭代视觉识别

推荐理由：YoLo在AI时代持续进化，做交通或视觉应用的开发者可以关注其最新优化，直接用于智能辅助系统开发。

原文

08:05

lmarena.ai@lmarena_ai

HiDream AI 推出的 HiDream-01-Image 模型在 Text-to-Image Arena 中综合排名第27，成为排名第4的开源文生图模型。该模型在开源社区中表现出色，超越了多数同类开源模型，展示了 HiDream AI 在图像生成领域的实力。这一成绩意味着开发者可以免费使用接近闭源顶尖水平的文生图能力。

AI模型文生图开源模型 HiDream-01-Image HiDream_AI 模型排名

推荐理由：开源文生图模型又添猛将，HiDream-01-Image 排名第4，做图像生成应用的团队可以直接拿来用，性价比很高。

原文

08:05

AI Will@FinanceYF5

88°

OpenAI 的一个通用推理模型成功证明了一个数学难题，该模型并非专门为数学问题设计，而是具备广泛推理能力的系统。这一成果被视为数学与人工智能社区的重要里程碑，表明通用 AI 在复杂推理任务上已取得突破。该模型通过自我改进和逻辑推理，无需领域特化即可解决高难度数学问题。这为未来通用 AI 在科学、工程等领域的应用打开了新可能。

AI模型通用推理模型数学证明 OpenAI 里程碑人工智能

推荐理由：通用推理模型攻克数学难题，证明 AI 不再需要特化就能做高难度推理——做 AI 研究和数学建模的团队值得关注，这可能是通用智能落地的信号。

原文

07:53

AI Will@FinanceYF5

Google 发布了名为 Gemini Omni 的新模型，能够从任意输入（如视频）生成任意内容。该模型首先支持视频输入，类似“Nano Banana”但针对视频场景。目前已在 Gemini App、Flow 和 YouTube 中可用，API 支持即将推出。这标志着多模态 AI 能力的重大扩展，让用户能更灵活地创作和交互。

AI模型 Gemini Omni 多模态视频生成 Google AI模型

推荐理由：多模态 AI 又进一步——Gemini Omni 从视频直接生成内容，做视频创作或内容生产的团队值得关注，API 开放后可以直接集成到工作流中。

原文

06:56

AI Engineer@aiDotEngineer

72°

TLMs 项目展示了如何在边缘设备上运行小型语言模型和智能体。其中 Function Gemma 模型仅有 2.7 亿参数，在 Pixel 7 上预填充速度接近每秒 2000 token，开箱即用对固定应用意图的准确率达 46%。通过合成数据集微调后，在十个函数中的八个上准确率超过 90%。Cormac 介绍了两种设备端 AI 路径：基于 Gemma 4 的技能框架（含全设备端运行的餐厅轮盘演示）和 Eloquent 转录应用（通过串联两个子十亿参数模型构建）。

AI模型 Tiny LLM 边缘设备 Function Gemma 智能体移动端AI

推荐理由：边缘设备上跑 LLM 和智能体终于有了可落地的方案——2.7 亿参数的 Function Gemma 在手机上就能达到 90%+ 准确率，做移动端 AI 应用的开发者可以直接参考其微调路径和架构设计。

原文

06:20

阿里通义 Qwen@Alibaba_Qwen

76°

阿里通义千问团队发布了 Qwen3.7-Max 模型，在编程智能体基准测试中表现强劲，同时在通用智能体能力上也有大幅提升。该模型在最具挑战性的推理基准测试中展现出卓越实力，并在通用能力和多语言处理方面脱颖而出。这标志着国产大模型在智能体领域的重要进展。

AI模型 Qwen3.7-Max 编程智能体推理模型多语言阿里通义千问

推荐理由：Qwen3.7-Max 在编程和通用智能体任务上的大幅提升，对做 AI 编程工具和智能体应用的开发者是直接利好，建议关注其实际效果。

原文

03:55

rohanpaul_ai@rohanpaul_ai

Qwen 3.7 Max 在编程和智能体能力上接近前沿模型，在 Artificial Analysis 排名第五，与 GPT 5.4 (xhigh) 相当，略高于刚发布的 Gemini 3.5 Flash。该模型现已通过 AI/ML API 提供，代理可靠性是其核心亮点。AI/ML API 还为用户提供免费试用码，方便开发者体验。

AI模型 Qwen 3.7 Max 编程助手智能体 AI/ML API 推理模型

推荐理由：Qwen 3.7 Max 在编程和智能体能力上逼近 GPT 5.4，做 AI 应用和智能体开发的团队值得试试，尤其是想低成本接近前沿模型的开发者。

原文

02:27

Ethan Mollick@emollick

一项研究显示，GPT-5.2 在同行评审中达到专家水平。45 位科学家花费 469 小时，对 82 篇论文的人类和 AI 评审进行了评估。结果发现，当前 AI 评审者甚至能与 Nature 官方顶级评审员竞争，尽管仍存在弱点。这表明 AI 在学术评审领域有巨大潜力，可能改变科研出版流程。

AI模型 GPT-5.2 同行评审学术出版科研工具 AI 评估

推荐理由：科研人员和学术编辑终于有了高效的评审助手——GPT-5.2 的评审质量已接近 Nature 顶级评审员，做论文审稿或投稿的团队值得关注这项进展。

原文

02:12

rohanpaul_ai@rohanpaul_ai

83°

阿里巴巴发布了其最强旗舰模型 Qwen3.7-Max，专为真实世界任务和生产环境设计。该模型在智能体可靠性上做了核心优化，能够自主规划步骤、调用工具、检查结果并修复错误，不会在首次出错后崩溃。在 Artificial Analysis Intelligence Index 上，Qwen3.7-Max 得分 56.6，较 Qwen3.6-Max 提升 4.8 分，排名第五，与 GPT 5.4 相当。性能提升主要集中在科学推理、智能体能力和编程方面。此外，推理内核经过多轮底层 GPU 优化，实现了 10 倍的几何平均加速。

AI模型阿里 Qwen3.7-Max 智能体推理模型编程助手

推荐理由：Qwen3.7-Max 在智能体可靠性上的突破，让做自动化工作流和复杂任务编排的开发者有了更稳定的选择，建议直接上手测试。

原文

01:41

AK@_akhaliq

Mix-Quant 是一种针对智能体大语言模型（LLM）的量化方法，旨在解决预填充阶段（Prefilling）和精确解码（Precise Decoding）的平衡问题。该方法通过量化预填充来加速推理，同时保持解码阶段的精度，特别适用于需要快速响应和准确输出的智能体应用。Mix-Quant 在保持模型性能的同时，显著降低了计算成本和内存占用，为智能体系统的部署提供了更高效的方案。该技术有望推动智能体LLM在实时交互和资源受限场景中的实际应用。

AI模型量化智能体推理优化 Mix-Quant LLM

推荐理由：做智能体LLM部署的团队终于有了兼顾速度和精度的量化方案——Mix-Quant 解决了预填充慢、解码不准的痛点，建议做推理优化的开发者点开看看。

原文

01:27

OpenRouter@OpenRouterAI

76°

AI模型 Qwen3.7-Max 阿里通义千问智能体编程助手 OpenRouter

推荐理由：做智能体开发或自动化办公的团队，Qwen3.7-Max 在编程和长任务执行上的提升值得一试，OpenRouter 上可直接体验。

原文

5月21日

23:05

berryxia@berryxia

Qwen 3.7 Max 正式发布，博主使用经典的「AI模型二叉树Prompt」对其进行了深度思考和快速模式测试。该Prompt要求模型编写HTML程序绘制递归分形二叉树，并实现生长动画和摇曳效果。测试结果通过视频展示，并与之前的Gemini 3.5 Flash结果进行了对比。用户可自行测试不同模型在该任务上的表现。

AI模型 Qwen 3.7 Max 推理模型编程助手模型评测分形二叉树

推荐理由：Qwen 3.7 Max 的发布值得关注，尤其是对AI模型编程能力感兴趣的开发者，可以用这个二叉树Prompt亲自测试它的表现，看看它和Gemini 3.5 Flash相比如何。

原文

22:19

Logan Kilpatrick@OfficialLoganK

76°

Gemini 3.5 Flash 在 APEX-Agents-AA 基准测试中排名第一，超越了参数规模更大的模型。该基准专注于智能体能力评估，Gemini 3.5 Flash 以较小模型实现了领先性能，展示了高效架构的优势。这一结果对智能体开发领域具有重要意义，表明模型效率与性能可以兼得。

AI模型 Gemini 3.5 Flash 智能体基准测试模型效率 APEX-Agents

推荐理由：智能体开发者可以关注：Gemini 3.5 Flash 用更小参数实现了更强性能，意味着更低成本和更快响应，值得在项目中尝试。

原文

22:15

阿里通义 Qwen@Alibaba_Qwen

阿里发布 Qwen3.7-Max 旗舰模型，在 Artificial Analysis Intelligence Index 上获得 56.6 分，比 Qwen3.6-Max-Preview 提升 4.8 分。主要改进集中在科学推理、智能体能力和编程能力，同时幻觉率大幅下降。模型上下文窗口从 256K 提升至 1M 令牌，但仅支持文本输入输出。虽然仍落后于 OpenAI、Anthropic 和 Google 的模型，但这是阿里最接近前沿模型的一次。

AI模型 Qwen3.7-Max 阿里推理模型智能体编程助手

推荐理由：阿里 Qwen 系列持续追赶前沿，Qwen3.7-Max 在推理和智能体能力上进步明显，做 AI 应用开发或模型选型的团队值得关注这次性能跃升。

原文

22:14

阿里通义 Qwen@Alibaba_Qwen

83°

阿里巴巴 Qwen 团队展示了一项令人瞩目的成果：模型在约 35 小时的连续自主执行中，独立完成了 432 次内核评估和 1158 次工具调用。它自行编写、编译、分析并迭代优化了 Extend Attention Kernel，最终在多个工作负载上实现了相对于 Triton 参考实现的 10.0 倍几何平均加速。这标志着模型具备了真正的自主编程与优化能力，无需人类干预即可完成复杂系统级任务。

AI模型 Qwen 自主进化内核优化 AI 编程性能加速

推荐理由：这是 AI 自主编程能力的里程碑——模型不再只是写代码，而是能像资深工程师一样分析、调优、迭代。做 AI 系统优化或关注模型自主性的开发者，值得仔细看看这个案例。

原文

22:13

阿里通义 Qwen@Alibaba_Qwen

88°

阿里通义千问发布 Qwen3.7-Max，定位为智能体时代的旗舰基础模型。该模型在编码、办公助手、长时自主任务等方面表现突出，支持端到端前端原型、多文件重构、真实调试等场景。通过 MCP 集成和多智能体编排，可胜任可靠的生产力助手。在长达 35 小时的核优化任务中，自主调用超 1000 次工具，无需人工干预。模型兼容 Claude Code、OpenClaw、Qwen Code 等多种框架，API 已在阿里云 Model Studio 上线，用户也可在 Qwen Studio 体验。

AI模型 Qwen3.7-Max 智能体 MCP/工具编程助手多智能体

推荐理由：做智能体开发或自动化流程的团队，终于有了一个能连续跑 35 小时不翻车的基座模型，建议直接上 API 试试长任务场景。

原文

21:55

阿里云 Alibaba Cloud@alibaba_cloud

83°

阿里云发布了 Qwen3.7-Max 模型，在 Artificial Analysis Intelligence Index 上获得 56.6 分，比预览版 Qwen3.6-Max-Preview 提升了 4.8 分。该模型在科学推理、智能体能力、编程和减少幻觉方面均有显著改进。这标志着阿里在大模型领域的持续迭代和竞争力提升。

AI模型 Qwen3.7-Max 阿里云推理模型智能体编程助手

推荐理由：Qwen3.7-Max 在推理和智能体能力上大幅跃升，做 AI 应用开发和科学计算的团队值得关注，可以直接测试其编程和 agent 表现。

原文

21:21

阿里云 Alibaba Cloud@alibaba_cloud

91°

阿里云发布了 Qwen3.7-Max，这是其最新的旗舰模型，专为智能体时代设计。该模型在编码、办公助手和长周期自主任务上表现出色，能连续工作35小时完成内核优化任务，执行超过1000次工具调用而无需人工干预。它支持MCP集成和多智能体编排，且与多种框架兼容，如Claude Code、OpenClaw等。API已在Model Studio上线，开发者可直接使用。

AI模型 Qwen3.7-Max 智能体编码助手 MCP/工具阿里云

推荐理由：Qwen3.7-Max 解决了智能体在长周期任务中的自主性和可靠性问题，做自动化编码、办公流程优化的开发者可以直接在Model Studio上手体验。

原文

21:05

Patrick Loeber@patloeber

76°

Gemini 3.5 Flash (Medium) 在 Zapier 的 AutomationBench 基准测试中夺得第一，得分 14.5%，远超 GPT 5.5 (xhigh) 的 12.9%。值得注意的是，中等推理设置（medium）表现优于高推理（high），因为高推理会过度消耗工具调用限制。该模型还以约 7 倍的成本优势领先，成为目前最持久的自动化模型。Google 已推荐将 medium 作为默认 API 设置，适用于大多数任务。

AI模型 Gemini 3.5 Flash AutomationBench 推理模型成本优化 API 设置

推荐理由：做自动化流程的开发者终于有了性价比之选——Gemini 3.5 Flash 不仅性能领先，成本还低 7 倍，建议直接试试 medium 设置。

原文

20:19

Hunyuan@TXhunyuan

腾讯混元发布 Hy-MT2 开源多语言翻译模型，支持 33 种语言无缝互译。7B 和 30B-A3B 版本在多项翻译任务上超越参数大数十倍的模型，轻量 1.8B 版本甚至优于微软等商业 API。模型采用腾讯 AngelSlim 1.25-bit 极致量化，仅需 440MB 存储，可在主流移动芯片上本地推理，速度比 Hy-MT1.5 快 1.5 倍。项目已在 GitHub、Hugging Face 等平台开源。

AI模型开源/仓库翻译模型腾讯混元量化多语言

推荐理由：做多语言翻译的开发者终于有了能本地跑的开源模型——Hy-MT2 的 1.8B 版本比微软 API 还强，且量化后仅 440MB，手机芯片就能推理，建议直接下载试试。

原文

17:28

orange.ai@oran_ge

93°

OpenAI 一个未公布的内部推理模型自主解决了 Erdős 1946 年提出的平面单位距离问题，这是 AI 首次独立解决一个数学领域的著名开放问题。模型的思维链长达 125 页，核心手法是从代数数论引入工具解决离散几何问题，这种跨领域连接是人类 80 年未曾想到的。该模型并非专为数学训练，而是通用推理模型，表明推理能力达到一定阈值后创造性会自然涌现。这一成果被认为是 AI 发展的里程碑时刻。

AI模型推理模型数学 OpenAI 创造性涌现未公开模型

推荐理由：这是 AI 首次自主解决数学开放问题，证明了通用推理模型能跨领域创造新解法，做 AI 研究和数学研究的都该看看——它可能改变我们对 AI 创造力的认知。

原文