全部 AI 动态 · AI 热点

5月29日

07:36

marktechpost@Asif Razzaq

Liquid AI 发布了 LFM2.5-8B-A1B，一款面向端侧设备的混合专家（MoE）模型。该模型总参数量为 8.3B，但每次推理仅激活 1.5B 参数，大幅降低了计算和内存需求。它支持 128K 上下文长度，具备推理和工具调用能力，可在消费级硬件上运行。这标志着端侧 AI 模型在效率与能力之间取得了重要平衡，为移动设备和边缘计算场景提供了新的选择。

AI模型端侧模型 MoE Liquid AI 推理模型工具调用

推荐理由：端侧部署大模型一直受限于算力和内存，LFM2.5-8B-A1B 用 1.5B 激活参数实现 128K 上下文和工具调用，做移动端 AI 应用或边缘推理的开发者可以直接评估其性能。

原文

06:54

06:54IT之家（博客/媒体）

83°

Anthropic 于 5 月 29 日发布旗舰模型 Claude Opus 4.8，重点提升编程、智能体和知识工作能力。相比 Opus 4.7，新模型在复杂任务中更稳定，能主动提问、识别错误，并减少无依据结论。官方评估显示，其放任代码缺陷的概率降低约 4 倍，同时亲社会行为指标创新高。claude.ai 新增 effort 程度控制，用户可平衡质量与响应速度。定价不变，快速模式速度提升 2.5 倍，成本降至 1/3。

AI模型 Claude Opus 4.8 编程助手智能体推理模型可靠性

推荐理由：做 AI 编程和智能体开发的团队终于有了更可靠的模型——Opus 4.8 减少无依据结论，主动标出不确定性，建议在复杂多步骤任务中直接试用。

原文

5月26日

10:57

10:57IT之家（博客/媒体）

精选

科技媒体报道，谷歌针对Antigravity用户抱怨简单任务消耗过多Token，推出Gemini 3.5 Flash (Low)版本。该版本通过调整推理投入强度，比Medium版本节省约45% Token，且在软件工程任务上优于更早的Gemini 3 Flash。谷歌同时重置了所有免费和付费Gemini计划的配额，保证用户本周有足够额度。

AI模型 Antigravity Gemini 3.5 Flash 谷歌推理模型

推荐理由：谷歌新出省Token版Gemini，比Medium省45%

原文

08:41

08:41IT之家（博客/媒体）

88°

Anthropic 的最强模型 Claude Mythos 预览版在 Claude Code 和 Claude Security 中短暂出现后被撤下，暗示即将公开上线。该模型定位为面向计算机安全任务的前沿模型，相比 Opus 4.7 在代码推理和自主执行方面显著提升。Anthropic 此前警告 Mythos 能自动开发专业级网络攻击手段，因此迟迟未全面开放。同时，Anthropic 推进名为 Glasswing 的项目，联合其他公司保护关键软件系统，已使用 Mythos Preview 帮助 50 家组织。这一动态表明 Anthropic 在平衡模型能力与安全风险后，可能准备向更广泛用户开放。

AI模型 Anthropic Claude Mythos 推理模型代码推理安全

推荐理由：Anthropic 最强模型 Mythos 即将公开，做安全研究和代码自动化的开发者值得关注——它既能大幅提升效率，也带来新的安全挑战，建议提前了解其能力边界。

原文

5月25日

10:20

pandaily@contact@pandaily.com (Pandaily)

精选76°

DeepSeek V4 已全面适配华为昇腾芯片，标志着中国 AI 基础设施在推理负载上减少对海外芯片依赖的重要进展。该适配覆盖了从训练到推理的全流程，使得国内企业可以在国产硬件上运行 DeepSeek V4 模型。这一突破降低了供应链风险，同时提升了国产 AI 生态的自主可控能力。对于依赖 AI 推理的中国企业和开发者来说，这意味着更稳定的算力供应和更低的合规成本。

AI模型 DeepSeek V4 华为昇腾国产 AI 栈推理模型芯片适配

推荐理由：DeepSeek V4 适配华为昇腾解决了中国 AI 推理的芯片依赖问题，做国产化部署的团队可以直接用这套方案，建议关注后续性能评测。

原文

5月24日

16:25

Decoder@Jonathan Kemper

精选75°

来自马里兰大学、Google、Meta等机构的研究者使用AutoTTS框架，让Claude Code自主发现AI推理控制算法。该算法相比标准自一致性方法，在保持相同准确率的同时，计算量减少约70%。整个搜索过程仅花费40美元，耗时160分钟。

论文智能体推理模型大模型 AutoTTS Claude Code

推荐理由：AI自己设计算法，省钱又高效

原文

15:43

marktechpost@Asif Razzaq

精选70°

NVIDIA 发布 Gated DeltaNet-2，一种线性注意力层，将 Delta 规则中的擦除和写入操作解耦为通道级擦除门 b_t 和写入门 w_t。在 1.3B 参数、100B FineWeb-Edu 令牌训练下，它在语言建模、常识推理和长上下文检索任务上超越 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3。最大提升出现在 RULER S-NIAH 和多键针检索基准上。

AI模型大模型推理模型 Mamba NVIDIA 线性注意力

推荐理由：NVIDIA 新线性注意力，解耦擦写门

原文

5月23日

17:51

marktechpost@Asif Razzaq

精选

阿里巴巴 Qwen 团队在 2026 年阿里云峰会上推出 Qwen3.7-Max，这是其最先进的智能体模型。该模型拥有 100 万 token 的上下文窗口和扩展思考模式，专为长周期任务设计，包括编程、调试和多步骤工作流自动化。在 Artificial Analysis Intelligence Index 上得分为 56.6，在专有模型中排名第五。

AI模型 Qwen3.7-Max 推理模型智能体百万上下文编程助手

推荐理由：百万 token 上下文窗口让长代码库分析和复杂工作流自动化成为可能，做 AI 智能体或编程工具的开发者值得关注，可以直接用于长周期任务。

原文

5月22日

08:05

08:05IT之家（博客/媒体）

83°

OpenAI 宣布其全新推理模型成功推翻了一个由数学家埃尔德什于 1946 年提出的几何猜想，这是 AI 首次自主攻克数学核心领域的重大未解难题。该模型并非为数学问题定制，而是通用推理系统，能梳理复杂逻辑链条并跨学科关联知识。OpenAI 附上了多位数学家的佐证，避免了此前 GPT-5 声称攻克难题却实为现成解法的尴尬。这一突破被认为将对生物学、物理学、工程学和医学产生深远影响。

AI模型推理模型数学证明 OpenAI 几何猜想科研突破

推荐理由：AI 首次自主攻克数学核心难题，对数学、物理等领域的科研人员是重大信号——AI 已能发现人类未曾想到的解法，做基础研究的团队值得关注。

原文

07:57

07:57SuperTechFans（博客/媒体）

精选

OpenAI 内部模型构造出单位距离对数为 n^(1+δ) 的点集，推翻长期认为方格构造最优的假设。该证明经外部数学家验证并发表伴随论文，是 AI 首次自主完成复杂数学证明的里程碑。菲尔兹奖得主蒂姆·高斯等数学家高度评价此成果，认为 AI 已具备原创性和执行力。

AI模型 OpenAI 单位距离问题数学证明推理模型

推荐理由：AI 首次独立证明数学猜想

原文

5月21日

09:35

09:35SuperTechFans（博客/媒体）

83°

谷歌发布了 Gemini 3.5 系列模型，其中 3.5 Flash 版本在多项基准测试中表现优异，输出速度是其他前沿模型的 4 倍，特别适合大规模多步骤代理任务。该模型已通过 Gemini 应用、Google 搜索等渠道上线，开发者可通过 Antigravity 平台和 API 使用。推测其采用混合精度（FP4/FP8）和较少活跃参数，在保持高性能的同时降低成本。这一发布标志着智能代理技术的新突破，有望推动 AI 在复杂场景中的广泛应用。

AI模型 Gemini 3.5 Flash 推理模型低延迟代理任务谷歌

推荐理由：Gemini 3.5 Flash 解决了高智能与低延迟的矛盾，做多步骤代理和编码的开发者可以直接用上，成本还更低，值得一试。

原文

08:00

08:00IT之家（博客/媒体）

83°

谷歌在 2026 I/O 开发者大会上宣布，Gemini 3.5 Pro 模型将于下月正式发布。目前该模型已在谷歌内部使用，官方称其进步非常强，但未透露具体细节。这一消息表明谷歌在 AI 模型迭代上持续加速，Gemini 3.5 Pro 有望在性能、多模态或推理能力上带来显著提升，值得开发者和 AI 从业者关注。

AI模型 Gemini 3.5 Pro 谷歌推理模型多模态 AI 模型发布

推荐理由：谷歌 Gemini 系列模型迭代节奏加快，3.5 Pro 内部使用已获「进步超强」评价，做多模态或推理应用的开发者值得提前关注，下月发布后可直接上手体验。

原文

07:59

07:59IT之家（博客/媒体）

在 AMD AI 开发者日活动上，CEO 苏姿丰表示 AI 进步令人难以置信，预计未来五年将有 50 亿人每日使用 AI。她强调不存在单一应用满足需求，需要多样化的模型和工作流。苏姿丰称这是她 30 多年科技生涯中最兴奋的时刻，AI 在最近几个月加速发展，推理型 AI 更普遍，企业 CEO 们都在讨论如何利用 AI。她指出 AI 技术需要推理、学习和数据流能力，智能体是关键，未来 GPU 将无处不在，AMD 将提供端到端计算能力。

行业 AMD 苏姿丰 AI 趋势推理模型智能体

推荐理由：苏姿丰的发言揭示了 AI 从技术到落地的关键转折点——未来五年 50 亿用户意味着巨大的应用和基础设施机会，做 AI 开发或企业决策的人值得关注 AMD 的端到端计算布局。

原文

07:54

OpenAI@OpenAI (@OpenAI)

OpenAI在一条推文中指出，AI系统正变得能够进行长而困难的推理链，连接不同领域的想法，并发现研究者可能未探索的路径。他们认为这些能力将很快加速生物学、物理学、工程学和医学领域的工作。同时强调，人类的判断力仍然至关重要，专业知识将变得更有价值，AI负责搜索、建议和验证，而人类选择重要问题、解释结果并决定下一步方向。

AI模型推理模型科研加速 OpenAI 人机协作 AI能力

推荐理由：科研人员和工程师将看到AI从工具变为协作伙伴——长链推理能力让AI能跨领域连接想法，做科研的团队值得关注这一趋势，思考如何将AI融入工作流。

原文

07:51

OpenAI@OpenAI (@OpenAI)

精选76°

OpenAI 宣布其通用推理模型成功证明了一个数学难题，该模型并非专门为数学问题设计，而是具备广泛推理能力。这一成果被视为数学和 AI 社区的重要里程碑，展示了通用 AI 在复杂推理任务上的潜力。该证明由通用模型完成，而非针对特定问题优化的系统，凸显了 AI 推理能力的泛化性。

AI模型推理模型数学证明 OpenAI 通用AI 里程碑

推荐理由：通用推理模型攻克数学难题，证明了 AI 在数学推理上的泛化能力，数学研究者和 AI 开发者值得关注这一突破。

原文

5月20日

13:40

13:40IT之家（博客/媒体）

88°

阿里千问今日正式发布 Qwen3.7-Max，定位为面向智能体时代的旗舰模型，即将通过阿里云百炼 API 提供服务。该模型在编程、办公自动化、长周期自主执行等智能体任务上表现突出，例如在长达 35 小时、超 1000 次工具调用的内核优化实验中保持连贯推理。在多项基准测试中，Qwen3.7-Max 在编程智能体（如 SWE-Pro 60.6）、通用智能体（如 MCP-Mark 60.8）和推理（如 GPQA Diamond 92.4）上均取得领先或与顶尖模型相当的成绩。此外，它支持跨框架部署，兼容 Claude Code、OpenClaw 等，并具备多语言理解与翻译能力。

AI模型智能体编程助手 MCP/工具推理模型 Qwen3.7-Max

推荐理由：Qwen3.7-Max 在长周期自主执行和跨框架兼容性上展现出实用价值，做自动化办公或复杂编程的开发者可以直接通过 API 体验，值得关注。

原文

01:46

01:46IT之家（博客/媒体）

76°

在 2026 年谷歌 I/O 大会上，谷歌宣布推出 Gemini 3.5 Flash 模型，该模型在多项基准测试中超越前代 3.1 Pro。其输出速度达到每秒 289 tokens，是 Claude Opus 4.7 和 GPT-5.5 xhigh 的 4 倍。谷歌内部还展示了 Antigravity 工具，用 93 个子智能体在 12 小时内从零构建了一个可运行的操作系统核心，生成了 26 亿个 tokens。这一发布标志着谷歌在 AI 模型速度和效率上的重大突破，尤其适合需要高吞吐量的应用场景。

AI模型 Gemini 3.5 Flash 谷歌推理模型输出速度智能体

推荐理由：速度翻倍意味着更低的延迟和更高的吞吐量，做实时 AI 应用或大规模推理的开发者值得关注，可以直接用起来提升效率。

原文

5月19日

08:33

08:33IT之家（博客/媒体）

72°

AI模型千问 Qwen3.7 Arena AI 多模态推理模型

推荐理由：千问新模型在数学和编程榜单上冲进前十，做技术选型或对比评测的开发者值得关注，可以直接去 Arena AI 体验。

原文

5月17日

00:54

00:54IT之家（博客/媒体）

精选73°

蚂蚁集团旗下百灵大模型正式开源 Ring-2.6-1T，这是一款面向真实复杂任务场景的万亿级旗舰思考模型。该模型引入了可调节的 Reasoning Effort 机制，支持 high 与 xhigh 两种推理强度，开发者可根据任务复杂度灵活控制模型思考深度。high 模式适合高频 Agent 工作流，具备更低 Token 开销与更快多步执行能力；xhigh 模式面向数学、科研、复杂逻辑分析等高难任务。开源链接已在 Hugging Face 和 ModelScope 上提供，方便开发者、研究者与企业进行验证、适配和二次开发。

AI模型开源/仓库推理模型智能体蚂蚁集团 Ring-2.6-1T

推荐理由：万亿级思考模型开源，可调节推理强度让开发者按需平衡效果与成本，做 Agent 工作流或复杂推理的团队可以直接上手试。

原文

5月13日

21:36

21:36Simon Willison’s Weblog（博客/媒体）

LLM 命令行工具发布 0.32a2 版本，核心更新是支持 OpenAI 最新的 /v1/responses 端点，替代旧的 /v1/chat/completions。这意味着 GPT-5 等推理模型可以在工具调用时展示推理过程，用户运行提示时能看到彩色推理 token。新增 -R 或 --hide-reasoning 参数可隐藏推理输出。该版本还包含其他多项改进，适合使用 LLM 与 OpenAI 模型交互的开发者。

AI产品 LLM OpenAI 推理模型命令行工具 GPT-5

推荐理由：LLM 用户终于能直观看到 GPT-5 等模型的推理过程了，做 AI 工具链和命令行调用的开发者值得升级体验。

原文