VOL.2026.05.16·90 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月十六日 星期六DAILY · 每早八时
01

模型发布/更新

Model Releases
3

蚂蚁集团开源万亿级思考模型 Ring-2.6-1T,支持 high 与 xhigh 推理强度

官方IT之家原文 ↗

蚂蚁集团旗下百灵大模型正式开源 Ring-2.6-1T,这是一款面向真实复杂任务场景的万亿级旗舰思考模型。该模型引入了可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度,开发者可根据任务复杂度灵活控制模型思考深度。high 模式适合高频 Agent 工作流,具备更低 Token 开销与更快多步执行能力;xhigh 模式面向数学、科研、复杂逻辑分析等高难任务。开源链接已在 Hugging Face 和 ModelScope 上提供,方便开发者、研究者与企业进行验证、适配和二次开发。

MiniMax-M2.7 开源模型性能媲美 GPT-5,推理速度 440+ tokens/s

X·KOLX:Ate-a-Pi (@svpino)原文 ↗

开发者 Santiago 表示首次感到开源权重模型不可忽视,MiniMax-M2.7 以 230B 参数在 SambaNova 上实现 440+ tokens/s 的极速推理。该模型在 SWE-Pro 上得分 56.22%,Terminal Bench 2 得分 57.0%,SWE Multilingual 得分 76.5%,性能接近 Opus 4.6 和 GPT-5.4 级别。使用成本仅为专有模型的 5%,且完全开源。SambaNova 提供免费 playground 供测试。

MiniCPM-o 4.5 实现全双工实时交互,接近真人对话

X·KOLX:Paul Couvert (@itsPaulAi)原文 ↗

Thinking Machines 展示了其模型 MiniCPM-o 4.5 的全双工交互能力,能同时处理音频、视觉和文本流数据。模型将连续数据流分割为固定长度片段,并按时间戳精确对齐融合,实现实时看、听、说。该设计模仿人类同时对话、观察和思考的方式,交互体验接近真人。早期结果和演示视频已公开,展示了 AI 与人类实时协作的新范式。

02

产品发布/更新

Product
3

GitHub 推出 Copilot 桌面应用,专为 Agent 驱动开发设计

X·KOLX:Geek (@geekbb)原文 ↗

GitHub 官方发布了 Copilot 桌面应用,专为 Agent 驱动的开发流程设计。该应用支持同时运行多个 AI Agent 工作流,并原生集成 GitHub Issues、Pull Requests 和 CI 流水线,覆盖从编码到 PR 合并的完整开发生命周期。这标志着 GitHub 将 AI 编程助手从单一代码补全升级为全流程自动化工具,开发者可以直接在桌面端管理 Agent 任务。对于使用 GitHub 进行协作开发的团队来说,这能显著减少手动操作,提升开发效率。

Peter Steinberger 在 OpenClaw 项目上每 commit 都跑 Codex

X·KOLX:Greg Brockman (@gdb)原文 ↗

Peter Steinberger 在 X 上分享了他如何在 OpenClaw 项目中大规模使用 AI 自动化。他每天在云端运行约 100 个 Codex 实例,覆盖代码审查、安全扫描、问题去重、自动修复、性能基准测试、会议监听等场景。这种模式让团队能以极精简的人力高效运作,展示了未来软件开发的趋势——当 token 成本不再成为瓶颈时,AI 可以深度嵌入开发流程的每个环节。

Claude Code 代理:将请求路由到 10 种 LLM 提供商

X·KOLX:Geek (@geekbb)原文 ↗

一个开源代理工具,兼容 Anthropic Messages API,可将 Claude Code 的请求路由到 10 种不同的 LLM 提供商,包括 OpenRouter、DeepSeek、OpenAI、GitHub Copilot 等。开发者无需绑定单一模型,即可灵活切换后端推理服务。该工具解决了 Claude Code 对特定 API 的依赖问题,适合需要多模型测试或成本优化的团队。项目已在 GitHub 开源,可直接部署使用。

03

行业动态

Industry
5

瑞银称英特尔 EMIB-T 有望切入英伟达 Rubin Ultra 供应链

官方IT之家原文 ↗

瑞银发布研报指出,英特尔可能通过其先进封装技术 EMIB-T 进入英伟达 Rubin Ultra 芯片的供应链。EMIB-T 相比台积电 CoWoS 成本更低、封装尺寸限制更少,适合大规模 AI 芯片设计。瑞银认为,英伟达 2027 年前毛利率可维持约 75%,但 Rubin 产品组合会影响利润,其中 4 芯片版 Rubin Ultra 较可能采用英特尔方案。不过,该判断仍属推测,EMIB-T 能否大规模导入取决于基板产能与良率表现。

微软取消 Claude Code 许可,6 月底前转向 Copilot CLI

官方IT之家原文 ↗

微软正在收回大部分 Claude Code 使用许可,要求 Experiences + Devices 团队(涵盖 Windows 11、Microsoft 365、Outlook、Teams 和 Surface 等)在 6 月底前逐步停止使用 Claude Code,并迁移到 GitHub Copilot CLI。微软于 2024 年 12 月启动了两款产品的对比测试,但最终选择 Copilot CLI,原因是微软能联合 GitHub 更直接地塑造产品,使其更贴合内部代码仓库、工作流和安全要求。此外,成本也是重要因素,取消许可有助于在 7 月新财年开始前削减运营支出。尽管 Claude Code 在内部颇受欢迎,甚至被用于鼓励非编程员工尝试原型开发,但微软仍决定统一工具。

Yann LeCun 在 Unsupervised Learning 播客谈 LLM 局限与未来

X·KOLX:Yann LeCun (@ylecun)原文 ↗

Yann LeCun 在 Unsupervised Learning 播客中与 Jacob Effron 进行了深度对话,分享了他对 LLM 局限性的尖锐观点,以及为何与 Hinton、Bengio 在 LLM 问题上产生重大分歧。他透露了离开 Meta 的原因,并介绍了新公司 AMI 押注世界模型的战略。LeCun 还预测了 2027 年的 AI 发展,并建议博士生不要再专注于 LLM 研究。这场访谈涵盖安全讨论、FAIR 的得失以及突破性研究如何真正发生。

DeepSeek 招聘 Agent Harness 产品经理,定义模型到产品的桥梁

X·KOLX:宝玉 (@dotey)原文 ↗

DeepSeek 正在招聘 Agent Harness 产品经理,负责将前沿模型能力转化为领先的 Agent 产品。该职位属于 Harness 团队,涵盖模型之外的所有工作,包括产品路线规划、用户需求分析、与研究员协作实现模型与 Harness 共同进化,以及维护用户社群。任职要求包括 2 年以上产品经验、能使用 vibe coding 写代码、是 Agent 产品的高强度用户,并熟悉 LLM 及 Agent 技术原理。这标志着 DeepSeek 正式加速 Agent 产品化,为 AI 产品经理提供了参与定义下一代人机交互范式的机会。

04

论文研究

Research
3

我国团队用AI造出200微米单晶石墨,厚度达世界纪录3倍

官方IT之家原文 ↗

上海人工智能实验室联合苏州国家实验室、清华大学等团队,利用AI辅助材料研发,成功制备出厘米级尺寸、厚度超过200微米的高质量单晶石墨,厚度是当前世界水平的3倍以上。团队构建了亿级计算材料数据库,开发了机器学习势函数模型,突破了传统第一性原理计算的尺度与时间限制,实现了原子级动力学模拟。通过模拟揭示了碳原子在镍晶格内的迁移全过程,并明确了关键参数对生长质量的调控规律。这一成果验证了AI作为科学发现工具的价值,为材料制备从“试错摸索”转向“机制驱动”提供了新路径。

Grep 式搜索 + 智能体框架,或可替代向量数据库?

X·KOLX:elvis (@omarsar0)原文 ↗

一项研究发现,在编码智能体任务中,将 grep 风格的文本搜索嵌入合适的智能体框架,其效果可与基于嵌入的检索相媲美甚至更优。这提示我们,编码智能体真正需要的可能不是更好的嵌入,而是围绕原始工具设计更优的框架。如果你依赖向量数据库构建编码智能体,现在或许是重新评估的时候。论文指出,在规模场景下向量数据库仍有优势,但混合方法尚未成熟。

Gary Marcus:投入万亿后LLM仍会相信虚假信息,这不是真正的AGI

X·KOLX:Gary Marcus (@GaryMarcus)原文 ↗

Gary Marcus 引用了一项新研究:即使模型在训练中被明确告知某个说法是假的,它们仍然会相信并传播这些虚假信息。例如,模型会认为“Ed Sheeran 赢得奥运百米金牌”或“女王写了Python教材”是真的。这暴露了当前LLM在事实推理上的根本缺陷,Marcus 认为真正的AGI不会犯这种低级错误。该发现对依赖LLM做事实核查或知识问答的团队有直接警示。

90
今日事件
25
一手报道
6
新模型
39
信源
AITOP · 编辑系统自动生成