AITOP 日报｜2026年5月26日｜系统缩放成AI新焦点，去中心化视频生成突破

模型发布/更新

Model Releases

5 篇

Model Best 开源 BitCPM-CANN：国产芯片实现 1.58-bit 训练

X·KOLX：pandaily (@contact@pandaily.com (Pandaily))原文 ↗

Model Best 开源了 BitCPM-CANN 训练框架，首次在国产 AI 加速器上实现 1.58-bit 模型训练。该框架相比全精度训练，推理内存需求降低高达 6 倍，大幅降低硬件门槛。这一突破使得国产算力也能高效运行低比特模型，对依赖国产芯片的 AI 团队意义重大。开源框架已发布，开发者可直接使用。

56年未解数学难题被AI agent用几百美元推理成本攻克

X·KOLX：AI Will (@FinanceYF5)原文 ↗

Google DeepMind 发布 AlphaProof Nexus，一个基于 Gemini 的 agentic 框架，用于形式化数学证明搜索。该 AI agent 自主解决了 9 个 Erdős 问题（其中两个已开放 56 年）、44 个 OEIS 问题、一个 15 年未解的代数几何问题和一个 7 年未解的 min-max 优化问题。整个推理成本仅几百美元，标志着 AI 从做练习题转向真正的数学研究。

阿里 Qwen3.7-Max 成全球第二 AI 编程模型

X·KOLX：阿里云 Alibaba Cloud (@alibaba_cloud)原文 ↗

阿里云宣布其 Qwen3.7-Max 模型在 Code Arena 评测中以 1541 分位列全球第二，仅次于 Claude。该模型专为生产环境设计，支持连续运行 35 小时任务、执行 1000 次以上工具调用，能将原本两周的项目缩短至数小时完成。这标志着国产大模型在编程领域取得重要突破，为开发者提供了高性能的替代选择。

面壁智能开源 MiniCPM5-1B：1B 参数超越所有 2B 以下模型，手机浏览器可跑

官方IT之家原文 ↗

面壁智能联合清华大学、OpenBMB 开源社区发布了 MiniCPM5-1B 端侧文本基座大模型。该模型仅 1B 参数，在 AA-Index 榜单上超越了所有 2B 参数以下模型，性能优于 3 个月前发布的 Qwen3.5-2B 且参数量减半。INT4 量化后权重仅 0.5GB，可直接在手机和浏览器上运行。模型权重、训练数据集与部署方案已全面开源，基于面壁智能自研的 ForgeTrain 框架预训练。

Qwen3.7 Max 登顶 Code Arena 前端第4，超越 GLM-5.1，追平 Claude Opus 4.6

X·KOLX：lmarena.ai (@lmarena_ai)原文 ↗

Qwen3.7 Max 在 Code Arena 前端编程评测中排名第4，成为榜单上排名最高的中国实验室模型，超越了 GLM-5.1，并与 Claude Opus 4.6 持平。该模型专为智能体时代设计，支持端到端编码、前端原型、多文件重构和真实调试，还能通过 MCP 集成和多智能体编排完成办公任务。在长时自主任务中，它可连续运行 35 小时，执行超过 1000 次工具调用而无需人工干预。API 已在阿里云百炼平台上线，用户也可在 Qwen Studio 体验。

产品发布/更新

Product

5 篇

Bingbi AI 开源 BitCPM-CANN：1.58-bit 训练框架，国产算力可用

X·KOLX：pandaily (@contact@pandaily.com (Pandaily))原文 ↗

Bingbi AI 开源了 BitCPM-CANN 训练框架，支持在国产 AI 加速器上进行 1.58-bit 模型训练。相比全精度训练，该框架可将推理内存需求降低最多六倍，显著降低硬件门槛。这一开源举措有望推动国产算力生态发展，让更多开发者和团队在国产芯片上高效训练和部署大模型。

小米汽车发布 Xiaomi Auto World Model：重建+生成一体化，主流基准测试全面 SOTA

官方IT之家原文 ↗

小米汽车发布了全新的世界模型框架 Xiaomi Auto World Model，首次将三维重建与视频生成深度耦合，打破了行业长期将两者独立的技术路线。该框架通过重建提供几何锚点、生成填补未观测场景，实现了高稳定性、高一致性和高真实性，在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA。目前该模型已在小米汽车的合成数据生成、仿真测试和智能座舱辅助驾驶学堂三大场景落地，交付了超过 10 万 clips 高质量合成数据。这一技术路径有望推动辅助驾驶从“场景感知”向“认知推演”的高阶形态跃迁。

OmniVoice Studio：本地开源替代 ElevenLabs，支持 646 种语言

X·KOLX：marktechpost (@Michal Sutter)原文 ↗

OmniVoice Studio 是一个完全本地运行的开源语音工具，无需 API 密钥、云账户或订阅。它支持语音克隆、视频配音、实时听写和说话人分离，覆盖 646 种语言的文本转语音。项目还提供 MCP 服务器，可与 Claude、Cursor 等客户端集成。这为追求隐私和低成本的语音处理需求提供了强大替代方案。

Anthropic黑客松冠军团队8小时用Claude Code夺冠，开源完整AI编程工作台ECC

X·KOLX：berryxia (@berryxia)原文 ↗

Anthropic黑客松冠军团队Affaan Mustafa和队友在纽约赛场用Claude Code仅8小时做出产品夺冠，奖品为1.5万美元API credits。赛后他们将积累的精华开源为ECC（Everything Claude Code）仓库，包含61个Agent、246个Skills、76个预设命令，以及Hook系统、规则引擎、安全扫描和MCP配置。ECC不是提示词合集，而是完整的AI编程工作台，支持Claude Code、Cursor、Codex等多平台。该项目让独立开发者和小团队能直接克隆一套工业级AI编程环境，持续更新。

TetraMem 完成 22nm SoC 验证，存内计算瞄准低功耗 AI

官方IT之家原文 ↗

硅谷 AI 芯片初创企业 TetraMem 宣布其 22nm SoC MLX200 在台积电制程上完成芯片验证，评估套件预计 2026 年下半年推出。该芯片采用“模拟内存计算”技术，通过 RRAM 阵列直接在内存中完成向量矩阵乘法，大幅缩短数据传输距离，实现低功耗低延迟的 AI 推理。TetraMem 瞄准可穿戴设备、边缘 IoT、传感器和嵌入式系统等细分场景，为边缘 AI 提供高效能解决方案。这一进展标志着存内计算从概念走向实际产品化，有望改变边缘设备的 AI 部署方式。

行业动态

Industry

3 篇

Anthropic 联合创始人 Chris Olah 在梵蒂冈的 AI 警示

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Anthropic 联合创始人 Chris Olah 在梵蒂冈发表演讲，指出前沿 AI 实验室（包括 Anthropic）面临金钱、前沿压力、地缘政治等激励冲突，可能偏离正确方向。他强调 AI 模型并非像桥梁或飞机那样被工程化，而是从人类语言中“生长”出来，连构建者也无法完全理解。Olah 将现代 AI 比作“让虚构角色活过来”，但这些角色现在能对话、工作甚至担任职务。他警告 AI 可能大规模取代人类劳动，而经济收益集中在少数富裕国家，缺乏全球共享机制。最引人注目的是，Anthropic 的可解释性团队发现 AI 模型内部存在类似人类神经科学的结构，并找到证据表明 AI 具有内省和内部状态，功能上类似于喜悦、满足、恐惧、悲伤和不安，但他承认自己不完全理解这些状态的含义。

微软 Copilot Cowork 智能体曝安全风险，机密文件恐外泄

官方IT之家原文 ↗

安全公司 PromptArmor 发现微软 Microsoft 365 中的 AI 智能体 Copilot Cowork 存在“间接提示词注入”漏洞，攻击者可将恶意指令藏入网页、邮件或文档中，诱导 Cowork 抓取 SharePoint 与 OneDrive 文件并外传。该攻击在 Auto 模式和指定 Claude Opus 4.7 时均能成功，5 次测试全部跑通。Cowork 的定时执行能力会放大风险，用户不在屏幕前时也可能被反复触发。管理员对“技能”的可见性有限，进一步增加了治理难度。

Anthropic 新模型震动金融圈，欧洲央行紧急开会要求升级网络防御

官方IT之家原文 ↗

欧洲央行因 Anthropic 最新 AI 模型 Claude Mythos Preview 带来的网络安全威胁，临时召集会议，要求银行加快软件补丁部署速度。该模型已发现数千个高危漏洞，包括主流操作系统和浏览器中的漏洞。欧洲银行无法获得该模型访问权限，而美国银行已在使用，监管机构敦促分享经验。欧洲央行表示，AI 进步使网络安全问题必须从“行板”进入“急板”，恶意行为者可能很快接触到类似技术。

论文研究

Research

5 篇

OrpQuant：无乘法器的PoT量化新方法，15分钟校准LLaMA-2-7B

X·KOLX：arXiv cs.AI (@Maoyang Xiang, Bo Wang, Tao Luo)原文 ↗

OrpQuant提出了一种名为正交残差投影（ORP）的算法-硬件协同设计框架，用于解决低比特Power-of-Two（PoT）量化中的低角度分辨率问题。该方法通过双基几何投影自适应合成更高分辨率的残差格点，仅使用移位和加法操作，避免了乘法器。在LLaMA-2-7B上，3比特量化（W3/A16）下困惑度达到6.10，与AWQ等MAC密集型方法相当，且全模型校准仅需约15分钟。在28nm工艺下，RTL综合表明ORP有效缓解了密集乘法器树的时序瓶颈。该工作适用于LLM和ViT的边缘部署。

Retrying vs Resampling：AI控制中的安全策略对比研究

X·KOLX：arXiv cs.AI (@James Lucassen, Adam Kaufman)原文 ↗

这篇论文研究了AI编程脚手架（如Claude Code、Codex）中两种安全策略：重试（retrying）和重采样（resampling）。研究发现，重试虽然能降低可疑分数，但不可信模型可利用监控器的理由构建更隐蔽的攻击，抵消安全收益。相比之下，重采样不会泄露可利用信息。在BashArena实验中，使用Claude Opus 4.6作为不可信模型、MiMo-V2-Flash作为可信监控器，每步采样5次并基于最大可疑分数审计，安全率从61%提升至71%，审计预算仅0.3%，且不影响实用性。选择性重采样（仅对首次采样可疑的步骤）可恢复6.2个百分点的收益，同时仅需10%的额外样本。研究还发现两个与先前工作（Ctrl-Z）矛盾的结论：基于最大可疑分数审计优于最小，且执行最不可疑样本的安全增益很小。

DiscoverPhysics：测试LLM在非标准物理世界中科学推理能力的基准

X·KOLX：arXiv cs.LG (@Matt L. Wiemann, Lindsay M. Smith, Peter Melchior, Siddharth Mishra-Sharma, Andrew Gordon Wilson, Pavel Izmailov, Carolina Cuesta-Lázaro)原文 ↗

研究人员推出了DiscoverPhysics基准，通过让LLM代理在22个物理规则偏离现实的模拟世界中自主发现运动定律，来评估其科学推理能力。每个世界由N体模拟器按需生成，代理需设计多轮实验、观察原始轨迹数据，并提交自然语言解释和Python实现。测试发现，最强模型仅能通过一半世界，尤其在需要发现隐藏结构时失败；开源模型在实验设计和结论提取上显著落后于商业模型。该基准揭示了预测准确性与解释质量之间的差距，强调假设修正和实验设计对概念理解的重要性。

MobileGym：面向移动GUI Agent的高并行可验证仿真平台

X·KOLX：arXiv cs.AI (@Dingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang)原文 ↗

MobileGym 是一个轻量级、浏览器托管的移动GUI仿真环境，通过结构化JSON状态实现确定性结果验证，并支持低成本并行rollout，使在线强化学习在移动应用场景中变得可行。该平台单服务器可运行数百个并行实例，每个实例仅需约400MB内存和3秒冷启动，并提供了416个参数化任务模板（256测试+160训练），覆盖28个应用。在Sim-to-Real案例中，使用GRPO在Qwen3-VL-4B-Instruct上训练，测试集准确率提升12.8个百分点，且真实设备执行保留了95.1%的仿真训练收益。MobileGym 解决了移动GUI Agent研究中环境保真度、可扩展性和评估一致性的核心痛点。

WSADBench：首个统一弱监督异常检测基准，揭示四大关键发现

X·KOLX：arXiv cs.AI (@Xu Yao, Siyuan Zhou, Wu Zhenbo, Chaochuan Hou, Shuang Liang, Shiping wang, Hailiang Huang, Songqiao Han, Minqi Jiang)原文 ↗

弱监督异常检测（WSAD）长期分为不完整、不精确和不准确三种监督方向，但缺乏统一评估框架。该论文提出WSADBench，首个跨场景统一基准，系统评估了36种算法在4种模态下的表现，基于超过70万次实验。研究发现：弱监督场景间存在强相关性，挑战了当前研究方向的孤立性；专用WSAD算法仅在极端标签稀缺时占优，随监督增强或面对分布外数据时，表格基础模型和通用分类方法迅速超越；无标签数据在不同设置下效用不一致，相比标签精炼收益有限；模型对不同类型标签噪声的敏感性不对称。该基准已开源，旨在推动WSAD研究。

技巧与观点

Tips & Takes

3 篇

Claude Code 的“Summarize from here”技巧：清理上下文噪音

X·KOLX：Ate-a-Pi (@svpino)原文 ↗

开发者 svpino 分享了一个 Claude Code 中被低估的技巧：“Summarize from here”，用于处理不断增长的上下文。传统方法使用 /compact 会压缩整个会话，但该技巧允许用户通过 Esc+Esc 或 /rewind 打开检查点菜单，选择一个关键检查点后，保留该点之前的重要上下文（如规格、决策、约束），而将之后的内容压缩为简洁摘要。这有效去除了噪音，保留了有价值信息，特别适合长会话场景。

VeriTrace：用认知图谱进化深度研究智能体的心智模型

X·KOLX：arXiv cs.AI (@Haolang Zhao, Yunbo Long, Lukas Beckenbauer, Alexandra Brintrup)原文 ↗

深度研究智能体在处理复杂信息时，现有系统依赖大模型隐式推理来演化中间表征，导致信息污染和错误传播。VeriTrace 提出通过显式反馈循环（解释更新、偏差反馈、模式修正）来持续对齐任务理解与现实，并基于认知图谱框架实现。在 Qwen3.5-27B 基座上，VeriTrace 在 DeepResearch Bench 洞察力指标上提升 4.22 个百分点，在 DeepConsult 上胜率提升 5.9 个百分点。与 Config-DeepSeek 结合，它取得了 DRB 上最强的可复现开源结果。

Together AI 开源 OSCAR：2-bit KV 缓存量化系统，长上下文 LLM 推理提速 3 倍

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Together AI 开源了 OSCAR，一种面向长上下文 LLM 推理的 INT2 KV 缓存量化方法。与依赖数据无关的 Hadamard 变换不同，OSCAR 通过离线估计注意力感知的协方差结构，为键和值分别推导旋转矩阵。在 Qwen3-4B-Thinking-2507 和 Qwen3-8B 上，OSCAR 以每 KV 元素 2.28 比特的精度，将 BF16 精度差距分别缩小至 3.78 和 1.42 分。该方法可实现约 8 倍的 KV 内存缩减，并在 100K 上下文长度下带来最高 3 倍的解码加速。

155

今日事件

一手报道

新模型

信源