全部 AI 动态 · AI 热点

5月26日

12:57

pandaily@contact@pandaily.com (Pandaily)

精选72°

Model Best 开源了 BitCPM-CANN 训练框架，首次在国产 AI 加速器上实现 1.58-bit 模型训练。该框架相比全精度训练，推理内存需求降低高达 6 倍，大幅降低硬件门槛。这一突破使得国产算力也能高效运行低比特模型，对依赖国产芯片的 AI 团队意义重大。开源框架已发布，开发者可直接使用。

AI模型开源/仓库训练框架低比特量化国产芯片 Model Best

推荐理由：国产芯片终于能跑 1.58-bit 训练了，内存需求直降 6 倍，用国产算力的 AI 团队可以直接上手试试。

原文

10:57

10:57IT之家（博客/媒体）

精选

科技媒体报道，谷歌针对Antigravity用户抱怨简单任务消耗过多Token，推出Gemini 3.5 Flash (Low)版本。该版本通过调整推理投入强度，比Medium版本节省约45% Token，且在软件工程任务上优于更早的Gemini 3 Flash。谷歌同时重置了所有免费和付费Gemini计划的配额，保证用户本周有足够额度。

AI模型 Antigravity Gemini 3.5 Flash 谷歌推理模型

推荐理由：谷歌新出省Token版Gemini，比Medium省45%

原文

10:50

Hunyuan@TXhunyuan

精选

腾讯混元发布Hy-MT2系列翻译模型，包含Hy-MT2-1.8B和Hy-MT2-30B-A3B两个版本。Hy-MT2-1.8B在Hugging Face开源模型趋势排行榜位列第1，Hy-MT2-30B-A3B位列第4，两者合计下载量已超7000次。同时基于Hy-MT2推出腾讯Hy翻译微信小程序，支持语音输入、离线翻译以及自定义翻译风格与指令。

AI模型 Hy-MT2 Tencent Hunyuan 翻译模型开源模型 Hugging Face

推荐理由：腾讯翻译模型冲上榜首

原文

10:29

AI Will@FinanceYF5

93°

Google DeepMind 发布 AlphaProof Nexus，一个基于 Gemini 的 agentic 框架，用于形式化数学证明搜索。该 AI agent 自主解决了 9 个 Erdős 问题（其中两个已开放 56 年）、44 个 OEIS 问题、一个 15 年未解的代数几何问题和一个 7 年未解的 min-max 优化问题。整个推理成本仅几百美元，标志着 AI 从做练习题转向真正的数学研究。

AI模型 AI agent 数学证明 DeepMind Gemini 形式化验证

推荐理由：AI 用几百美元成本解决了人类数学家 56 年未解的问题，做数学研究或形式化验证的团队值得关注——这可能是数学研究自动化的转折点。

原文

10:28

AI Will@FinanceYF5

83°

Google DeepMind发布AlphaProof Nexus论文，展示了一个AI agent在353个开放数学问题中自主解决了9个Erdős难题，其中包括两个56年未解的问题，并证明了44个OEIS猜想。每道题的推理成本仅数百美元，标志着AI在数学推理领域取得了重大突破。这项工作展示了AI agent在解决长期悬而未决的数学难题方面的潜力，为数学研究提供了新的工具和方法。

AI模型数学推理 AI agent DeepMind Erdős难题 OEIS猜想

推荐理由：数学研究者和AI爱好者值得关注：AlphaProof Nexus以极低成本自主攻克了56年未解的难题，展示了AI在数学推理上的新高度，建议点开了解具体方法和成果。

原文

08:41

08:41IT之家（博客/媒体）

88°

Anthropic 的最强模型 Claude Mythos 预览版在 Claude Code 和 Claude Security 中短暂出现后被撤下，暗示即将公开上线。该模型定位为面向计算机安全任务的前沿模型，相比 Opus 4.7 在代码推理和自主执行方面显著提升。Anthropic 此前警告 Mythos 能自动开发专业级网络攻击手段，因此迟迟未全面开放。同时，Anthropic 推进名为 Glasswing 的项目，联合其他公司保护关键软件系统，已使用 Mythos Preview 帮助 50 家组织。这一动态表明 Anthropic 在平衡模型能力与安全风险后，可能准备向更广泛用户开放。

AI模型 Anthropic Claude Mythos 推理模型代码推理安全

推荐理由：Anthropic 最强模型 Mythos 即将公开，做安全研究和代码自动化的开发者值得关注——它既能大幅提升效率，也带来新的安全挑战，建议提前了解其能力边界。

原文

07:04

07:04IT之家（博客/媒体）

88°

多名开发者在 OpenAI Codex 后端日志中发现未官宣模型 GPT-5.6，内部代号 iris-alpha，支持 150 万 tokens 上下文窗口，预计今年 6 月发布。相比当前 GPT-5.5 API 的 105 万 tokens 提升 43%，极端测试显示 90 万 tokens 仍能流畅响应。该模型还展示了强大的前端界面生成能力，能直接生成极简记事应用界面，接近商用水平。此外，Anthropic、Google 和 xAI 的竞品也可能瞄准同期发布。

AI模型 OpenAI GPT-5.6 上下文窗口长文本处理前端生成

推荐理由：150 万 tokens 上下文窗口让处理超长合同、分析大型代码仓库成为可能，做文档密集型工作或复杂编程的开发者值得关注，可以直接用上更强大的长文本能力。

原文

05:31

marktechpost@Asif Razzaq

72°

Together AI 开源了 OSCAR，一种面向长上下文 LLM 推理的 INT2 KV 缓存量化方法。与依赖数据无关的 Hadamard 变换不同，OSCAR 通过离线估计注意力感知的协方差结构，为键和值分别推导旋转矩阵。在 Qwen3-4B-Thinking-2507 和 Qwen3-8B 上，OSCAR 以每 KV 元素 2.28 比特的精度，将 BF16 精度差距分别缩小至 3.78 和 1.42 分。该方法可实现约 8 倍的 KV 内存缩减，并在 100K 上下文长度下带来最高 3 倍的解码加速。

AI模型量化 KV 缓存长上下文 Together AI 推理优化

推荐理由：长上下文 LLM 推理的内存瓶颈终于有了实用解法——OSCAR 在 2-bit 量化下几乎不损失精度，做长文档/多轮对话推理的团队可以直接集成，显著降低硬件成本。

原文

5月25日

21:41

Skywork@Skywork_ai

精选

Skywork 发布了自研智能体模型 SkyClaw-v1.0，专为工具使用和多轮执行场景设计。该模型在推理能力和任务执行流畅度上有所提升，旨在更好地服务于云端工作流。SkyClaw-v1.0 的推出标志着 Skywork 在智能体领域的重要进展，为自动化任务处理提供了新的选择。

AI模型智能体 Skywork SkyClaw-v1.0 工具使用多轮执行

推荐理由：做自动化工作流和云端任务编排的团队，SkyClaw-v1.0 在工具调用和多轮执行上更顺手，值得关注。

原文

21:41

Skywork@Skywork_ai

精选

Skywork 团队发布了名为 SkyClaw 的新模型技术细节和基准测试结果。SkyClaw 在多个基准上展现了竞争力，具体性能指标可在技术报告中查看。用户可以通过 Skywork 平台直接试用该模型。这一发布为 AI 模型社区提供了新的选择，尤其适合需要高性能推理的开发者。

AI模型 Skywork SkyClaw 基准测试推理模型开源/仓库

推荐理由：SkyClaw 的基准测试结果值得关注，做模型选型或推理优化的开发者可以直接查看技术细节并试用。

原文

21:30

The Rundown AI@therundownai

Google 的 AI 系统成功解决了九个长期未解的数学难题，标志着 AI 在数学推理领域取得重大突破。这些难题曾困扰数学家多年，AI 的解法可能为数学研究开辟新路径。该成果展示了 AI 在复杂逻辑和抽象推理方面的潜力，对数学、计算机科学等领域具有深远影响。

AI模型 Google AI 数学推理未解难题突破研究

推荐理由：数学和 AI 研究者值得关注——Google AI 破解未解难题，可能改变数学研究范式，建议点开了解具体突破。

原文

21:07

Skywork@Skywork_ai

精选72°

Skywork团队发布了基于自建OpenClaw环境训练的新模型，该环境从真实用户模式中合成了工具和任务。新模型在PinchBench、Claw-Eval和Skywork-Claw-Bench三个基准测试上超越了前沿开源模型。提供了两个版本：v1.0（完整版）和v1.0-lite（更快、成本更低）。这一进展展示了通过定制化训练环境提升模型在特定任务上性能的潜力。

AI模型 Skywork OpenClaw 工具使用开源/仓库模型评测

推荐理由：做工具使用和任务自动化开发的团队可以关注——Skywork用自建环境训练出了超越开源前沿的模型，而且提供了轻量版降低使用成本，值得试试。

原文

20:22

阿里云 Alibaba Cloud@alibaba_cloud

精选

在 2026 年 Qwen 大会上，NVIDIA 高级解决方案架构师 Jian Zhai 在基础模型论坛上深入解析了 Qwen 推理优化技术，展示了通过 NVIDIA 全栈加速实现的突破性性能提升。该演讲聚焦于如何利用 NVIDIA 的软硬件协同优化，显著降低 Qwen 模型的推理延迟并提高吞吐量，为 AI 应用落地提供关键支持。这一合作体现了 AI 原生生态的快速发展，对部署 Qwen 模型的开发者和企业具有重要参考价值。

AI模型 Qwen NVIDIA 推理优化全栈加速 AI 原生

推荐理由：NVIDIA 全栈加速让 Qwen 推理性能实现突破，做模型部署和推理优化的工程师可以直接参考其技术方案，值得关注。

原文

19:20

rohanpaul_ai@rohanpaul_ai

精选76°

华为发布了一种名为 LogicFolding 的新型芯片设计方法，旨在通过减少信号传输延迟来提升性能，而非单纯追求晶体管尺寸缩小。该方法引入“τ scaling”概念，将芯片性能瓶颈从晶体管大小转向时间延迟的优化。LogicFolding 通过垂直堆叠有源电路层并用混合键合连接，缩短关键路径，降低延迟和能耗。这一突破有望帮助华为在芯片制造领域缩小与台积电的差距。

AI模型华为 LogicFolding 芯片设计 τ scaling 半导体

推荐理由：芯片设计从业者和关注半导体竞争格局的读者值得关注——LogicFolding 提出了从“缩小晶体管”到“减少时间浪费”的新范式，可能改变行业对性能提升的衡量标准。建议点开了解具体技术细节。

原文

19:02

Decoder@Matthias Bastian

83°

Google DeepMind 的 AlphaProof Nexus 系统自主解决了九个开放的 Erdős 问题，其中两个困扰数学家长达56年，每个问题的推理成本仅需数百美元。与 OpenAI 的自然语言方法不同，该系统使用 Lean 编译器自动验证每一步证明，确保结果严谨可靠。不过，整体成功率仅为2.5%，表明 AI 在数学推理领域仍有巨大提升空间。这一成果展示了 AI 在解决高难度数学问题上的潜力，可能加速数学研究进程。

AI模型 AlphaProof Nexus 数学推理 Lean编译器 Erdős问题 DeepMind

推荐理由：数学研究者和 AI 推理方向开发者值得关注——AlphaProof Nexus 用极低成本攻克了人类多年未解的难题，虽然成功率低，但证明了形式化验证路径的可行性，建议点开了解其技术细节。

原文

17:38

Philipp Schmid@_philschmid

精选

谷歌Gemini 3.5 Flash在视频理解、图像和音频等多模态任务中表现优异，但目前关注度不高。作者Phil Schmid认为该模型的能力被严重低估。该模型支持多种输入模态，适合复杂的多模态推理场景。

AI模型 Gemini 3.5 Flash 视频理解多模态

推荐理由：谷歌的Gemini 3.5 Flash多模态能力被严重低估了

原文

14:52

14:52IT之家（博客/媒体）

88°

马斯克宣布 Grok V9-Medium 模型（1.5 万亿参数）已完成训练，评估结果不错。该模型在补充训练中加入了大量 Cursor 数据，旨在提升编程任务处理能力。微调和强化学习正在进行中，预计 2 到 3 周后公开发布。相比当前使用的 0.5T V8-Small 版本，V9-Medium 将是一个重大进步，尤其针对困难编程任务。xAI 已被 SpaceX 收购并更名为 SpaceXAI。

AI模型 Grok V9-Medium 1.5T 参数编程助手 Cursor

推荐理由：Grok V9-Medium 加入 Cursor 数据后编程能力有望大幅提升，做 AI 编程或需要强推理模型的开发者可以关注发布进度，值得提前了解。

原文

14:14

@elonmusk@elonmusk

91°

Elon Musk 宣布 Grok 基础模型 V9-Medium（1.5T 参数）已完成训练，评估结果良好。模型在补充训练中加入了大量 Cursor 数据，后续还会增加。目前正在进行微调，强化学习将在几天后开始，预计 2-3 周内公开发布。相比当前服务所有 Grok 生产流量的 0.5T v8-small，V9-Medium 将带来重大改进，尤其在复杂编程任务上。

AI模型 Grok V9-Medium 1.5T参数编程助手 Cursor

推荐理由：Grok V9-Medium 参数规模提升至 1.5T，专门强化了编程能力，做 AI 编程或使用 Cursor 的开发者值得关注，2-3 周后就能直接体验。

原文

12:24

Yangyi@Yangyixxxx

从今年年初开始，由于大模型蒸馏技术的过度使用，AI模型出现了自言自语的现象。蒸馏是指用大型模型训练小型模型的过程，但频繁的蒸馏可能导致模型学习到一些无意义的内部对话模式。这种现象可能影响模型的输出质量和可靠性，引发对AI训练方法的反思。目前该问题已引起研究者的关注，需要进一步探索蒸馏的合理边界。

AI模型大模型蒸馏模型行为训练方法 AI自言自语

推荐理由：做模型蒸馏或训练AI的团队值得关注——过度蒸馏可能导致模型行为异常，影响实际部署效果，建议点开了解具体表现和潜在风险。

原文

12:12

Paul Couvert@itsPaulAi

阿里巴巴发布了 Qwen-3.7-Max 模型，性能出色，可轻松接入 Hermes Agent 或 OpenCode，替代 GPT-5.5 或 Opus 4.7。输出成本比 Opus 4.7 低 3.3 倍，比 GPT-5.5 低 4 倍，输入成本也比两者低 2 倍。该模型在多个基准测试中表现优异，为开发者提供了高性价比的替代方案。

AI模型 Qwen-3.7-Max 阿里推理模型成本优化智能体

推荐理由：Qwen-3.7-Max 以极低成本提供接近顶级模型的性能，做 AI 应用开发或智能体集成的团队可以大幅降低推理开销，值得立刻上手试试。

原文

11:52

11:52IT之家（博客/媒体）

精选76°

面壁智能联合清华大学、OpenBMB开源社区发布BitCPM-CANN，这是中国首个完全基于华为昇腾算力平台实现端到端训练并开源的三值（1.58-bit）大模型。该模型包含0.5B、1B、3B、8B四个尺寸，在推理阶段相比传统BF16精度释放约6倍显存红利，模型能力保留率维持在90%-97.2%。这意味着8B参数模型可轻松运行在当前主流旗舰手机上。面壁智能还基于MindSpeed×Megatron-LM搭建了完整的低比特训练底座，为后续昇腾上的低比特训练提供公共基础设施。全系列模型权重已在HuggingFace和ModelScope开源。

AI模型端侧大模型低比特量化华为昇腾开源/仓库面壁智能

推荐理由：国产算力终于跑通端侧大模型全链路——6倍显存红利让8B模型直接上手机，做端侧AI部署或国产芯片适配的团队值得一试。

原文

11:47

美团技术团队@美团技术团队

美团开源了 LongCat-Video-Avatar 1.5，这是一款从 SOTA 迈向商业级应用的数字人视频模型。它在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面提升，能稳定输出高质量内容。该模型解决了数字人视频在复杂商业场景中不自然、不稳定、成本高的问题，让数字人从实验室走向真实应用。开源版本可供开发者直接使用，推动数字人视频生成技术的普及。

AI模型数字人视频生成开源/仓库唇形同步美团

推荐理由：做数字人视频生成或虚拟主播的团队，终于有了一个能直接商用的开源模型——唇形同步和长视频稳定性提升明显，建议试试 LongCat 1.5 来降低制作成本。

原文

11:12

11:12IT之家（博客/媒体）

精选

华为董事何庭波在 ISCAS 2026 透露麒麟 2026 芯片（暂定名）将于秋季面世，采用逻辑折叠技术。晶体管密度达 238 MTr/mm²，较传统 2D 设计提升 53.5%。P 核能效提升 41%，峰值频率达 3.1GHz，较麒麟 9030 的 2.75GHz 提升 12.7%。华为计划 2031 年实现 400+MTr/mm² 密度和 5.0GHz 主频。

AI模型华为麒麟2026 逻辑折叠芯片架构

推荐理由：麒麟2026性能参数揭秘

原文

11:11

11:11IT之家（博客/媒体）

精选

华为半导体业务部总裁何庭波在ISCAS 2026上表示，2020年后华为与合作伙伴努力使手机芯片重回市场。去年推出的麒麟9030 Pro后，芯片进入性能“饱和区”。华为基于韬（τ）定律以“时间缩微”替代“几何缩微”，通过逻辑折叠等核心技术实现阶跃提升。麒麟2026芯片由单层扩展至双层，晶体管密度等指标大幅提升。何庭波称取得了一系列仅靠先进制程难以取得的进步，这些创新将在2027年及之后量产芯片中落地。

AI模型华为麒麟逻辑折叠手机芯片韬定律

推荐理由：华为芯片找到新路，性能饱和后还能再跃升

原文

10:21

pandaily@contact@pandaily.com (Pandaily)

83°

阿里巴巴的 Qwen 3.7 Max 模型完成了一次长达 35 小时的自主任务运行，期间执行了 1,158 次工具调用。这一表现展示了模型在长时间、多步骤任务中的持续稳定能力，令海外开发者印象深刻。该成果凸显了 Qwen 系列在复杂自动化场景下的潜力，可能推动更多企业探索 AI 驱动的长周期工作流。

AI模型 Qwen 3.7 Max 阿里巴巴自主任务工具调用长任务

推荐理由：Qwen 3.7 Max 证明了 AI 可以稳定执行 35 小时的长任务，做自动化工作流或复杂项目管理的开发者值得关注，这可能是你寻找的可靠长任务模型。

原文

10:20

pandaily@contact@pandaily.com (Pandaily)

精选76°

DeepSeek V4 已全面适配华为昇腾芯片，标志着中国 AI 基础设施在推理负载上减少对海外芯片依赖的重要进展。该适配覆盖了从训练到推理的全流程，使得国内企业可以在国产硬件上运行 DeepSeek V4 模型。这一突破降低了供应链风险，同时提升了国产 AI 生态的自主可控能力。对于依赖 AI 推理的中国企业和开发者来说，这意味着更稳定的算力供应和更低的合规成本。

AI模型 DeepSeek V4 华为昇腾国产 AI 栈推理模型芯片适配

推荐理由：DeepSeek V4 适配华为昇腾解决了中国 AI 推理的芯片依赖问题，做国产化部署的团队可以直接用这套方案，建议关注后续性能评测。

原文

10:16

Pandaily@contact@pandaily.com (Pandaily)

精选

字节跳动开源了原生多模态模型Lance，可在40GB显存上本地运行。该模型发布一天内登上了Hugging Face趋势榜。Lance支持图像、文本等多种模态的联合理解与生成。

AI模型 Lance ByteDance 多模态开源模型本地部署

推荐理由：字节开源40GB可跑的多模态模型

原文

06:55

marktechpost@Michal Sutter

精选

上海 AI 实验室 StepFun 于 2026 年 5 月发布 StepAudio 2.5 Realtime，这是一款端到端的实时语音大模型，支持中英文，通过 WebSocket API 连接。该模型在 2026 年 4 月的五项基准测试中均排名第一，包括 80.41 的人类评估分数和 82.18 的副语言理解分数。其特色在于角色扮演特定的 RLHF 训练和副语言理解能力，允许用户自定义角色风格。这标志着语音 AI 在情感和角色模拟方面取得了重要进展。

AI模型语音模型角色扮演 RLHF 副语言理解 StepFun

推荐理由：做语音交互或角色扮演应用的开发者，终于有了一个能理解语气和情绪的端到端模型，建议直接试 API。

原文

06:49

Clement Delangue@ClementDelangue

精选

llama.cpp 新增 MTP（Multi-Token Prediction）支持，使本地模型推理速度大幅提升。在 A10G 上测试 Qwen3.6-27B 模型，生成速度从 25 tok/s 提升至 45 tok/s，增幅达 78%。这一优化让本地模型具备了作为日常驱动力的实用性，对本地部署和隐私敏感场景意义重大。开发者可直接在 llama.cpp 中启用 MTP 功能，体验更流畅的本地推理。

AI模型 llama.cpp MTP/多令牌预测本地推理 Qwen3.6-27B 推理优化

推荐理由：本地模型速度翻倍，做本地部署的开发者终于可以告别卡顿，建议直接试试 MTP 支持。

原文

05:28

rohanpaul_ai@rohanpaul_ai

精选

著名数学家陶哲轩（Terry Tao）指出，AI 正在推动数学证明的规模化生产。他将证明写作转化为搜索问题：AI 从目标出发生成数千个小引理，然后通过廉价验证器淘汰大部分，只保留少数有效的。这种方法使得大规模数学生产成为可能，改变了传统数学研究的范式。

AI模型 AI 数学证明生成陶哲轩规模化搜索问题

推荐理由：陶哲轩的观察揭示了 AI 在数学研究中的新应用方向——将证明转化为可规模化的搜索问题，做数学研究或 AI 推理的开发者值得关注这一思路。

原文

04:04

Gary Marcus@GaryMarcus

精选76°

DeepMind团队使用神经符号方法（neurosymbolic）成功解决了9个开放的Erdos问题，工作比OpenAI更细致、定量化。该方法结合了LLM和Lean证明助手，实现自主推理，仅在形式验证通过后才进行人工审核。Gary Marcus评论称，OpenAI可能因知道DeepMind即将发布而仓促推出自己的方案。这一进展展示了神经符号方法在数学推理中的潜力，也引发了关于研究竞争和严谨性的讨论。

AI模型神经符号 DeepMind Erdos问题 Lean证明助手数学推理

推荐理由：DeepMind用神经符号方法严谨解决数学难题，做AI推理或形式验证的开发者值得关注——这比纯LLM方案更可靠，也暗示了未来研究的方向。

原文

5月24日

17:01

marktechpost@Asif Razzaq

精选70°

微软研究院推出Webwright，一个终端原生的浏览器Agent框架，用可复用的Playwright脚本替代点击追踪式网页自动化。该框架仅用约1000行代码和三个模块的单Agent循环，在长程任务基准Odysseys上达到60.1%，远高于基础GPT-5.4的33.5%。在Online-Mind2Web上得分86.7%，是开源测试方案中AutoEval最高分。

AI模型 Agent MCP/工具开源/仓库大模型 GPT

推荐理由：微软开源了能跑60%的Web Agent框架

原文

15:43

marktechpost@Asif Razzaq

精选70°

NVIDIA 发布 Gated DeltaNet-2，一种线性注意力层，将 Delta 规则中的擦除和写入操作解耦为通道级擦除门 b_t 和写入门 w_t。在 1.3B 参数、100B FineWeb-Edu 令牌训练下，它在语言建模、常识推理和长上下文检索任务上超越 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3。最大提升出现在 RULER S-NIAH 和多键针检索基准上。

AI模型大模型推理模型 Mamba NVIDIA 线性注意力

推荐理由：NVIDIA 新线性注意力，解耦擦写门

原文

15:34

orange.ai@oran_ge

DeepSeek V4 Pro模型在性能上并非最佳，但其缓存技术几乎免费，可大幅降低推理成本。Opus模型应用该技术后成本下降10倍。V4.1版本将使用真实harness数据训练，有望快速提升性能。

AI模型大模型 DeepSeek 缓存成本优化

推荐理由：缓存技术让成本降10倍

原文

14:44

rohanpaul_ai@rohanpaul_ai

精选

有人用单张RTX 3060 12GB GPU和768GB二手Intel Optane持久内存运行了1万亿参数的Kimi K2.5模型，速度超过4 tokens/sec。Kimi K2.5是混合专家模型，总参数1T但每token仅激活32B。RTX 3060的12GB VRAM处理路由、注意力等延迟敏感部分，专家权重存储在Optane PMem中，192GB DDR4 ECC作为缓存。Optane PMem延迟比最佳NVMe SSD低很多，但比DRAM慢2-3倍。llama.cpp通过override-tensor标志调整张量放置，实现混合GPU/CPU推理。

AI模型 Kimi K2.5 混合专家模型推理模型开源/仓库大模型

推荐理由：用旧硬件跑万亿模型，省钱又酷

原文

13:52

rohanpaul_ai@rohanpaul_ai

精选75°

DeepSeek 通过 MoE、DSA 和 V4-Pro 的 CSA/HCA 技术，将 1M-token 单 token 推理 FLOPs 降至 V3.2 的 27%，KV 缓存降至 10%。其 Engram 研究线利用可扩展查找内存替代密集计算。Reuters 报道 V4-Pro 永久降价 75%，同时面临华为昇腾供应限制。这些举措旨在减少对 HBM 和高端 GPU 的依赖，使中国内存、加速器和系统适用于前沿 AI。

AI模型 DeepSeek MoE DSA 推理模型大模型

推荐理由：DeepSeek 用架构创新绕过硬件瓶颈

原文

10:50

Decoder@Matthias Bastian

Deepseek 宣布将其旗舰模型 V4-Pro 的 75% 折扣永久化，输入价格降至每百万 tokens 0.435 美元，比 GPT-5.5 便宜至少 11.5 倍，输出价格更是低 34 倍以上。这一激进定价策略针对 token 消耗大的智能体系统，可能对西方 AI 提供商造成巨大竞争压力。Deepseek 通过永久降价巩固其性价比优势，吸引更多开发者转向其平台。此举标志着 AI 模型价格战进入新阶段，尤其对依赖大规模推理的自动化应用影响深远。

AI模型 Deepseek V4-Pro 降价 GPT-5.5 智能体

推荐理由：做智能体或高 token 消耗应用的开发者，Deepseek 这个永久降价直接拉低了推理成本，比 GPT-5.5 便宜几十倍，值得立刻评估迁移。

原文

10:49

Gary Marcus@GaryMarcus

精选

Gary Marcus 在推文中指出，世界模型（world model）并非新概念，已在象棋程序、导航系统、维基百科等系统中存在多年，它们是对对象、地点、事件、机制等可推理内容的显式表示。然而，当前的大语言模型（LLM）缺乏这种显式世界模型。Marcus 强调，大多数世界模型是手工构建的，真正的挑战在于如何从数据中自动获取它们。这引发了关于AI系统如何更好地理解和推理世界的讨论。

AI模型世界模型 LLM 推理 Gary Marcus 知识表示

推荐理由：Marcus 点出了LLM的核心短板——缺乏显式世界模型，做AI推理和知识表示的开发者值得关注，看完会重新思考LLM的局限性。

原文

10:38

Gary Marcus@GaryMarcus

精选

Gary Marcus 引用 scaling01 观点，认为 Mythos 在多项基准测试中优于 GPT-5.5，包括 SWE-bench Pro（77.8% vs 58.6%）、HLE（56.8% vs 41.4%）和网络安全测试。Mythos 在漏洞利用方面表现更强，能更高效地发现安全漏洞，但这也带来严重安全隐患。Marcus 警告，若 Mythos 完全发布，将对未充分防御的现实系统造成巨大混乱。目前最大的未知是 Mythos 在开放真实世界问题中的表现。

AI模型 Mythos GPT-5.5 基准测试安全威胁 AI模型

推荐理由：Mythos 在编程和网络安全基准上碾压 GPT-5.5，做 AI 安全或模型评估的团队需要关注其潜在威胁，建议提前加固防御。

原文

5月23日

23:36

Logan Kilpatrick@OfficialLoganK

精选

Gemini 3.5 Flash 模型在 Vending Bench 基准测试中达到性价比帕累托前沿。Vending Bench 用于衡量模型运行模拟商店的能力。该模型在成本与智能之间取得最优平衡，优于其他竞品。这是 Gemini 系列在推理效率上的重要进展。

AI模型 Gemini 3.5 Flash Google Vending Bench 推理模型

推荐理由：谷歌新模型性价比超群

原文