Step 3.7 Flash 登顶 AA 速度/成本/端到端性能榜
StepFun 最新模型 Step 3.7 Flash 在 Artificial Analysis 基准测试中夺得速度、成本效率和端到端性能三项第一。该模型在 OpenRouter 和 Hugging Face 上获得大量关注,展现出强大的竞争力。这一成绩表明 StepFun 在推理优化和成本控制方面取得了显著突破,为开发者提供了高性价比的 AI 模型选择。
StepFun 最新模型 Step 3.7 Flash 在 Artificial Analysis 基准测试中夺得速度、成本效率和端到端性能三项第一。该模型在 OpenRouter 和 Hugging Face 上获得大量关注,展现出强大的竞争力。这一成绩表明 StepFun 在推理优化和成本控制方面取得了显著突破,为开发者提供了高性价比的 AI 模型选择。
阿里巴巴Qwen团队发布Qwen3.7-Plus,这是一个多模态智能体模型,集视觉感知、GUI操作和编码于一体。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,在11小时内通过1000次智能体调用生成了超过10000行代码。该模型在Qwen自己的基准测试中屏幕理解能力领先,但整体性能参差不齐。Qwen3.7-Plus是专有模型,未开源,定价远低于西方前沿模型。
一款名为 Audio Interaction 的新型开源语音模型发布,它能够持续监听音频流,并每 0.4 秒决定是否说话或保持沉默,无需等待录音结束。该模型支持翻译、转录、聊天以及识别日常噪音(如咳嗽),实现了真正的实时交互。与 GPT-4o 或 Qwen3.5-Omni 不同,它在一个流中处理所有任务。代码、模型权重和下载说明已在 GitHub 上以 Apache 2.0 开源许可证发布,训练数据也将随后提供。
Ideogram 4.0 是一个 9.3B 参数的 Diffusion Transformer 模型,从零开始训练,并搭配了一个冻结的 8B 视觉语言模型作为文本编码器。该模型通过 nf4 量化检查点可在 24GB 消费级 GPU 上运行,大幅降低了硬件门槛。团队表示目标是推动更多创新和创造力。这一发布意味着高质量图像生成模型向个人开发者和小团队开放了可能性。
中国科学院海洋研究所发布了“琅琊”2.0,这是全球海洋现象智能预报大模型,在2024年1.0版本基础上,从海洋状态变量预报扩展至复杂海洋现象智能预报。该模型针对台风、降水、风暴潮、海冰等六类现象开发了6个垂直模型,提升了预报速度和精度。例如,台风预报模型可提升24小时路径与强度预报能力,海冰预报模型可实现3公里分辨率下月尺度以上的北极海冰快速预测。相比传统数值模式,智能预报大模型解决了计算成本大、更新频率低的问题,为海洋防灾减灾和航运安全提供科技支撑。
MoleculeMind 由 AI 蛋白质折叠先驱许金波教授创立,其自主研发的 MMDesign 平台在 AI 驱动的从头生物制剂设计上取得突破,纳米抗体设计成功率超过 90%。该平台利用深度学习模型直接从序列预测结构并优化亲和力,大幅缩短了传统抗体发现周期。这一进展有望加速抗体药物研发,降低早期筛选成本。对于生物制药领域的研发团队,这代表了一种高效的新工具。
该项目在Hugging Face的Build Small Hackathon中获奖,展示了如何在仅有3B参数的小模型上运行一个多智能体经济模拟系统。系统模拟了一个包含工人、伐木工、建造者和商人等角色的经济循环,每个智能体由独立的3B模型驱动,通过自然语言交互进行资源交易和协作。这一成果证明了小模型在复杂多智能体场景中的可行性,为资源受限环境下的AI应用提供了新思路。
Anthropic 发布了 Claude Code v2.1.166,新增了回退模型配置功能,允许设置最多三个备用模型,在主模型过载或不可用时按序切换。同时,拒绝规则中的工具名称支持通配符(* 表示禁止所有工具),并强化了跨会话消息的安全性——来自其他 Claude 会话的 SendMessage 不再携带用户权限,接收方会拒绝转发的权限请求。此外,该版本修复了多个问题,包括图像处理错误、远程会话卡死、JetBrains IDE 终端闪烁、PowerShell 命令验证挂起等。
在Build 2026大会上,微软Azure CTO Mark Russinovich介绍了Project Mosaic,这是微软剑桥研究院开发的一项实验性光学互连技术。该技术利用微LED实现低功耗、高速数据传输,现场演示展示了单个LED调制形成字母,验证了实时响应能力。这项技术有望大幅降低数据中心能耗,提升通信效率,对云计算和AI基础设施有重要意义。
Moonshot AI 开源了 Kimi Code CLI,一个基于 TypeScript 的终端 AI 编程智能体。它支持子智能体和 MCP 配置,可直接在终端中执行代码生成、调试等任务。该工具旨在提升开发者的编程效率,尤其适合需要快速迭代和自动化编码的场景。Kimi Code CLI 的开源特性使其易于集成到现有工作流中,为下一代智能体开发提供了新选择。
Hugging Face CEO Clement Delangue通过实测数据反驳了“智能体会绕过所有工具直接调用API”的流行观点。团队在Hugging Face Hub上对Claude Code和Codex进行了约1000次分级测试,发现智能体使用优化过的CLI工具比手写curl或SDK调用节省高达6倍的token,且任务成功率更高(94% vs 84%)。他认为,在token昂贵的时代,抽象层(如CLI、SDK)是智能体的“缓存智能”,能压缩推理链,降低失败率和成本。因此,智能体不会重建一切,而是会倾向于使用最token高效的软件工具。Hugging Face本身已成为智能体使用AI的平台,两个月内收到约4900万次请求。
Anthropic 官方发布白皮书,指出企业部署自主 AI Agent 时传统边界安全已不足,必须将零信任原则延伸到 Agent 架构本身。报告强调基础设施层面 AI 将漏洞利用周期从数月压缩到数小时,Agent 层面能自主执行多步操作,传统访问控制无法防范合法权限内的恶意行为。白皮书提出三条零信任原则(永不信任始终验证、假设已遭入侵、最小权限)和一条设计检验标准,并给出三层能力成熟度模型与八阶段实施工作流。核心观点是未来安全优势不取决于 AI 先进性,而取决于基础安全扎实程度。
英伟达CEO黄仁勋在2026台北国际电脑展上指出,未来计算将收敛为一套面向AI智能体的统一模式,从云端延伸到PC、汽车、机器人等边缘设备。该模式覆盖AI训练和推理,旨在让所有边缘设备具备自主运行能力。黄仁勋强调,自动驾驶、类人机器人和通信基站本质上都是同类智能体系统。英伟达新推出的88核Arm处理器Vera已全面量产,专为AI智能体生成词元设计,注重单线程速度和内存带宽。
微软CEO纳德拉表示,公司正在借鉴管理员工的思路来监管内部大量使用的AI智能体,包括为智能体设定身份和权限边界,明确其可访问的内容,并建立审计机制。纳德拉本人同时运行100个AI编程智能体,认为管理认知负荷极高。为此,微软推出Agent 365工具套件,包含Entra数字身份和Purview数据标记产品,以提升安全性、可观测性和可管理性。这反映了企业级AI智能体治理的迫切需求,为其他组织提供了管理框架参考。
Anthropic 表示其 80% 的新生产代码由 Claude 编写,标志着 AI 编程在大型科技公司中的深度应用。Google 新论文显示通用 LLM 通过规划证明和逐步检查,在形式数学任务上从低于 10% 提升至 70% 的准确率。Google 开源 Gemma 4 12B 模型,支持音频和视频分析,可在消费级 16GB GPU 上完全本地运行。阿里巴巴发布 Qwen3.7-Plus,支持文本、视频和图像输入,价格低廉但保持闭源。Anthropic 的化学报告也展示了令人惊讶的结果。
普林斯顿大学语言与智能实验室(PLI)发布了一篇关于 Goedel-Architect 的突破性论文,这是一个用于形式定理证明的智能体框架。该框架基于 DeepSeek V4 模型,在多个基准测试中取得了最先进的结果,同时成本仅为现有系统的 1/500。Goedel-Architect 通过将推理任务分解为可管理的子任务,并利用 DeepSeek V4 的高效推理能力,显著降低了形式验证的计算开销。这一成果有望推动数学证明和软件验证领域的自动化进程,使形式化方法更易于被学术界和工业界采用。
NVIDIA Research 的 PixelDiT(像素扩散 Transformer)入选 CVPR2026 最佳论文候选。传统图像生成模型依赖预训练自编码器压缩图像后再进行扩散,导致质量损失累积。PixelDiT 完全移除这一步骤,直接在像素空间进行端到端扩散学习,是一种单阶段模型。该方法避免了压缩带来的信息丢失,有望提升生成图像的保真度和细节表现。这一创新为图像生成领域提供了新的技术路径。
NVIDIA 研究团队在 CVPR 2026 上展示了三篇关于物理 AI 的论文,分别针对零样本抓取、高效推理和具身智能体训练。GraspGen-X 是首个零样本抓取基础模型,基于数十亿次模拟抓取训练;LCDrive 用紧凑的潜在表示替代昂贵的文本推理;NitroGen 则是一个通用游戏 AI 基础模型,利用 NVIDIA Isaac GR00T 训练具身智能体。这些工作为大规模训练提供了突破性方案,覆盖了机器人操作、自动驾驶和游戏 AI 等关键领域。
ArcANE 是一个新提出的评估框架,用于测试角色扮演语言代理(RPLA)在对话中是否能在恰当的时候保持角色一致性。研究发现,现有模型在需要切换角色或根据上下文调整角色行为时表现不佳。该框架通过动态场景和角色切换任务,揭示了当前 RPLA 在角色保持与适应之间的平衡问题。这对开发更自然、更可信的对话 AI 有重要参考价值。