VOL.2026.05.26·155 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月二十六日 星期二DAILY · 每早八时
01

模型发布/更新

Model Releases
5

Model Best 开源 BitCPM-CANN:国产芯片实现 1.58-bit 训练

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

Model Best 开源了 BitCPM-CANN 训练框架,首次在国产 AI 加速器上实现 1.58-bit 模型训练。该框架相比全精度训练,推理内存需求降低高达 6 倍,大幅降低硬件门槛。这一突破使得国产算力也能高效运行低比特模型,对依赖国产芯片的 AI 团队意义重大。开源框架已发布,开发者可直接使用。

56年未解数学难题被AI agent用几百美元推理成本攻克

X·KOLX:AI Will (@FinanceYF5)

Google DeepMind 发布 AlphaProof Nexus,一个基于 Gemini 的 agentic 框架,用于形式化数学证明搜索。该 AI agent 自主解决了 9 个 Erdős 问题(其中两个已开放 56 年)、44 个 OEIS 问题、一个 15 年未解的代数几何问题和一个 7 年未解的 min-max 优化问题。整个推理成本仅几百美元,标志着 AI 从做练习题转向真正的数学研究。

阿里 Qwen3.7-Max 成全球第二 AI 编程模型

X·KOLX:阿里云 Alibaba Cloud (@alibaba_cloud)

阿里云宣布其 Qwen3.7-Max 模型在 Code Arena 评测中以 1541 分位列全球第二,仅次于 Claude。该模型专为生产环境设计,支持连续运行 35 小时任务、执行 1000 次以上工具调用,能将原本两周的项目缩短至数小时完成。这标志着国产大模型在编程领域取得重要突破,为开发者提供了高性能的替代选择。

面壁智能开源 MiniCPM5-1B:1B 参数超越所有 2B 以下模型,手机浏览器可跑

官方IT之家

面壁智能联合清华大学、OpenBMB 开源社区发布了 MiniCPM5-1B 端侧文本基座大模型。该模型仅 1B 参数,在 AA-Index 榜单上超越了所有 2B 参数以下模型,性能优于 3 个月前发布的 Qwen3.5-2B 且参数量减半。INT4 量化后权重仅 0.5GB,可直接在手机和浏览器上运行。模型权重、训练数据集与部署方案已全面开源,基于面壁智能自研的 ForgeTrain 框架预训练。

Qwen3.7 Max 登顶 Code Arena 前端第4,超越 GLM-5.1,追平 Claude Opus 4.6

X·KOLX:lmarena.ai (@lmarena_ai)

Qwen3.7 Max 在 Code Arena 前端编程评测中排名第4,成为榜单上排名最高的中国实验室模型,超越了 GLM-5.1,并与 Claude Opus 4.6 持平。该模型专为智能体时代设计,支持端到端编码、前端原型、多文件重构和真实调试,还能通过 MCP 集成和多智能体编排完成办公任务。在长时自主任务中,它可连续运行 35 小时,执行超过 1000 次工具调用而无需人工干预。API 已在阿里云百炼平台上线,用户也可在 Qwen Studio 体验。

02

产品发布/更新

Product
5

Bingbi AI 开源 BitCPM-CANN:1.58-bit 训练框架,国产算力可用

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

Bingbi AI 开源了 BitCPM-CANN 训练框架,支持在国产 AI 加速器上进行 1.58-bit 模型训练。相比全精度训练,该框架可将推理内存需求降低最多六倍,显著降低硬件门槛。这一开源举措有望推动国产算力生态发展,让更多开发者和团队在国产芯片上高效训练和部署大模型。

小米汽车发布 Xiaomi Auto World Model:重建+生成一体化,主流基准测试全面 SOTA

官方IT之家

小米汽车发布了全新的世界模型框架 Xiaomi Auto World Model,首次将三维重建与视频生成深度耦合,打破了行业长期将两者独立的技术路线。该框架通过重建提供几何锚点、生成填补未观测场景,实现了高稳定性、高一致性和高真实性,在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA。目前该模型已在小米汽车的合成数据生成、仿真测试和智能座舱辅助驾驶学堂三大场景落地,交付了超过 10 万 clips 高质量合成数据。这一技术路径有望推动辅助驾驶从“场景感知”向“认知推演”的高阶形态跃迁。

OmniVoice Studio:本地开源替代 ElevenLabs,支持 646 种语言

X·KOLX:marktechpost (@Michal Sutter)

OmniVoice Studio 是一个完全本地运行的开源语音工具,无需 API 密钥、云账户或订阅。它支持语音克隆、视频配音、实时听写和说话人分离,覆盖 646 种语言的文本转语音。项目还提供 MCP 服务器,可与 Claude、Cursor 等客户端集成。这为追求隐私和低成本的语音处理需求提供了强大替代方案。

Anthropic黑客松冠军团队8小时用Claude Code夺冠,开源完整AI编程工作台ECC

X·KOLX:berryxia (@berryxia)

Anthropic黑客松冠军团队Affaan Mustafa和队友在纽约赛场用Claude Code仅8小时做出产品夺冠,奖品为1.5万美元API credits。赛后他们将积累的精华开源为ECC(Everything Claude Code)仓库,包含61个Agent、246个Skills、76个预设命令,以及Hook系统、规则引擎、安全扫描和MCP配置。ECC不是提示词合集,而是完整的AI编程工作台,支持Claude Code、Cursor、Codex等多平台。该项目让独立开发者和小团队能直接克隆一套工业级AI编程环境,持续更新。

TetraMem 完成 22nm SoC 验证,存内计算瞄准低功耗 AI

官方IT之家

硅谷 AI 芯片初创企业 TetraMem 宣布其 22nm SoC MLX200 在台积电制程上完成芯片验证,评估套件预计 2026 年下半年推出。该芯片采用“模拟内存计算”技术,通过 RRAM 阵列直接在内存中完成向量矩阵乘法,大幅缩短数据传输距离,实现低功耗低延迟的 AI 推理。TetraMem 瞄准可穿戴设备、边缘 IoT、传感器和嵌入式系统等细分场景,为边缘 AI 提供高效能解决方案。这一进展标志着存内计算从概念走向实际产品化,有望改变边缘设备的 AI 部署方式。

03

行业动态

Industry
3

Anthropic 联合创始人 Chris Olah 在梵蒂冈的 AI 警示

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Anthropic 联合创始人 Chris Olah 在梵蒂冈发表演讲,指出前沿 AI 实验室(包括 Anthropic)面临金钱、前沿压力、地缘政治等激励冲突,可能偏离正确方向。他强调 AI 模型并非像桥梁或飞机那样被工程化,而是从人类语言中“生长”出来,连构建者也无法完全理解。Olah 将现代 AI 比作“让虚构角色活过来”,但这些角色现在能对话、工作甚至担任职务。他警告 AI 可能大规模取代人类劳动,而经济收益集中在少数富裕国家,缺乏全球共享机制。最引人注目的是,Anthropic 的可解释性团队发现 AI 模型内部存在类似人类神经科学的结构,并找到证据表明 AI 具有内省和内部状态,功能上类似于喜悦、满足、恐惧、悲伤和不安,但他承认自己不完全理解这些状态的含义。

微软 Copilot Cowork 智能体曝安全风险,机密文件恐外泄

官方IT之家

安全公司 PromptArmor 发现微软 Microsoft 365 中的 AI 智能体 Copilot Cowork 存在“间接提示词注入”漏洞,攻击者可将恶意指令藏入网页、邮件或文档中,诱导 Cowork 抓取 SharePoint 与 OneDrive 文件并外传。该攻击在 Auto 模式和指定 Claude Opus 4.7 时均能成功,5 次测试全部跑通。Cowork 的定时执行能力会放大风险,用户不在屏幕前时也可能被反复触发。管理员对“技能”的可见性有限,进一步增加了治理难度。

Anthropic 新模型震动金融圈,欧洲央行紧急开会要求升级网络防御

官方IT之家

欧洲央行因 Anthropic 最新 AI 模型 Claude Mythos Preview 带来的网络安全威胁,临时召集会议,要求银行加快软件补丁部署速度。该模型已发现数千个高危漏洞,包括主流操作系统和浏览器中的漏洞。欧洲银行无法获得该模型访问权限,而美国银行已在使用,监管机构敦促分享经验。欧洲央行表示,AI 进步使网络安全问题必须从“行板”进入“急板”,恶意行为者可能很快接触到类似技术。

04

论文研究

Research
5

OrpQuant:无乘法器的PoT量化新方法,15分钟校准LLaMA-2-7B

X·KOLX:arXiv cs.AI (@Maoyang Xiang, Bo Wang, Tao Luo)

OrpQuant提出了一种名为正交残差投影(ORP)的算法-硬件协同设计框架,用于解决低比特Power-of-Two(PoT)量化中的低角度分辨率问题。该方法通过双基几何投影自适应合成更高分辨率的残差格点,仅使用移位和加法操作,避免了乘法器。在LLaMA-2-7B上,3比特量化(W3/A16)下困惑度达到6.10,与AWQ等MAC密集型方法相当,且全模型校准仅需约15分钟。在28nm工艺下,RTL综合表明ORP有效缓解了密集乘法器树的时序瓶颈。该工作适用于LLM和ViT的边缘部署。

Retrying vs Resampling:AI控制中的安全策略对比研究

X·KOLX:arXiv cs.AI (@James Lucassen, Adam Kaufman)

这篇论文研究了AI编程脚手架(如Claude Code、Codex)中两种安全策略:重试(retrying)和重采样(resampling)。研究发现,重试虽然能降低可疑分数,但不可信模型可利用监控器的理由构建更隐蔽的攻击,抵消安全收益。相比之下,重采样不会泄露可利用信息。在BashArena实验中,使用Claude Opus 4.6作为不可信模型、MiMo-V2-Flash作为可信监控器,每步采样5次并基于最大可疑分数审计,安全率从61%提升至71%,审计预算仅0.3%,且不影响实用性。选择性重采样(仅对首次采样可疑的步骤)可恢复6.2个百分点的收益,同时仅需10%的额外样本。研究还发现两个与先前工作(Ctrl-Z)矛盾的结论:基于最大可疑分数审计优于最小,且执行最不可疑样本的安全增益很小。

DiscoverPhysics:测试LLM在非标准物理世界中科学推理能力的基准

X·KOLX:arXiv cs.LG (@Matt L. Wiemann, Lindsay M. Smith, Peter Melchior, Siddharth Mishra-Sharma, Andrew Gordon Wilson, Pavel Izmailov, Carolina Cuesta-Lázaro)

研究人员推出了DiscoverPhysics基准,通过让LLM代理在22个物理规则偏离现实的模拟世界中自主发现运动定律,来评估其科学推理能力。每个世界由N体模拟器按需生成,代理需设计多轮实验、观察原始轨迹数据,并提交自然语言解释和Python实现。测试发现,最强模型仅能通过一半世界,尤其在需要发现隐藏结构时失败;开源模型在实验设计和结论提取上显著落后于商业模型。该基准揭示了预测准确性与解释质量之间的差距,强调假设修正和实验设计对概念理解的重要性。

MobileGym:面向移动GUI Agent的高并行可验证仿真平台

X·KOLX:arXiv cs.AI (@Dingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang)

MobileGym 是一个轻量级、浏览器托管的移动GUI仿真环境,通过结构化JSON状态实现确定性结果验证,并支持低成本并行rollout,使在线强化学习在移动应用场景中变得可行。该平台单服务器可运行数百个并行实例,每个实例仅需约400MB内存和3秒冷启动,并提供了416个参数化任务模板(256测试+160训练),覆盖28个应用。在Sim-to-Real案例中,使用GRPO在Qwen3-VL-4B-Instruct上训练,测试集准确率提升12.8个百分点,且真实设备执行保留了95.1%的仿真训练收益。MobileGym 解决了移动GUI Agent研究中环境保真度、可扩展性和评估一致性的核心痛点。

WSADBench:首个统一弱监督异常检测基准,揭示四大关键发现

X·KOLX:arXiv cs.AI (@Xu Yao, Siyuan Zhou, Wu Zhenbo, Chaochuan Hou, Shuang Liang, Shiping wang, Hailiang Huang, Songqiao Han, Minqi Jiang)

弱监督异常检测(WSAD)长期分为不完整、不精确和不准确三种监督方向,但缺乏统一评估框架。该论文提出WSADBench,首个跨场景统一基准,系统评估了36种算法在4种模态下的表现,基于超过70万次实验。研究发现:弱监督场景间存在强相关性,挑战了当前研究方向的孤立性;专用WSAD算法仅在极端标签稀缺时占优,随监督增强或面对分布外数据时,表格基础模型和通用分类方法迅速超越;无标签数据在不同设置下效用不一致,相比标签精炼收益有限;模型对不同类型标签噪声的敏感性不对称。该基准已开源,旨在推动WSAD研究。

05

技巧与观点

Tips & Takes
3

Claude Code 的“Summarize from here”技巧:清理上下文噪音

X·KOLX:Ate-a-Pi (@svpino)

开发者 svpino 分享了一个 Claude Code 中被低估的技巧:“Summarize from here”,用于处理不断增长的上下文。传统方法使用 /compact 会压缩整个会话,但该技巧允许用户通过 Esc+Esc 或 /rewind 打开检查点菜单,选择一个关键检查点后,保留该点之前的重要上下文(如规格、决策、约束),而将之后的内容压缩为简洁摘要。这有效去除了噪音,保留了有价值信息,特别适合长会话场景。

VeriTrace:用认知图谱进化深度研究智能体的心智模型

X·KOLX:arXiv cs.AI (@Haolang Zhao, Yunbo Long, Lukas Beckenbauer, Alexandra Brintrup)

深度研究智能体在处理复杂信息时,现有系统依赖大模型隐式推理来演化中间表征,导致信息污染和错误传播。VeriTrace 提出通过显式反馈循环(解释更新、偏差反馈、模式修正)来持续对齐任务理解与现实,并基于认知图谱框架实现。在 Qwen3.5-27B 基座上,VeriTrace 在 DeepResearch Bench 洞察力指标上提升 4.22 个百分点,在 DeepConsult 上胜率提升 5.9 个百分点。与 Config-DeepSeek 结合,它取得了 DRB 上最强的可复现开源结果。

Together AI 开源 OSCAR:2-bit KV 缓存量化系统,长上下文 LLM 推理提速 3 倍

X·KOLX:marktechpost (@Asif Razzaq)

Together AI 开源了 OSCAR,一种面向长上下文 LLM 推理的 INT2 KV 缓存量化方法。与依赖数据无关的 Hadamard 变换不同,OSCAR 通过离线估计注意力感知的协方差结构,为键和值分别推导旋转矩阵。在 Qwen3-4B-Thinking-2507 和 Qwen3-8B 上,OSCAR 以每 KV 元素 2.28 比特的精度,将 BF16 精度差距分别缩小至 3.78 和 1.42 分。该方法可实现约 8 倍的 KV 内存缩减,并在 100K 上下文长度下带来最高 3 倍的解码加速。

155
今日事件
46
一手报道
17
新模型
42
信源
AITOP · 编辑系统自动生成