VOL.2026.06.08·114 STORIES·AITOP DAILY

AITOP日报

二〇二六年六月八日 星期一DAILY · 每早八时
01

模型发布/更新

Model Releases
3

微软发布 MAI-Transcribe-1.5:WER 2.4%,长音频转录快 5 倍

X·KOLX:marktechpost (@Asif Razzaq)

微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5,这是该系列的第二代。该模型支持 43 种语言,在 Artificial Analysis 排行榜上词错误率低至 2.4%,在 FLEURS 基准测试中达到最佳精度。它引入了关键词(实体)偏置功能,可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍,1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。

Gemma 4 QAT 检查点发布:性能不变,内存减少约 4 倍

X·KOLX:Philipp Schmid (@_philschmid)

Google 发布了新的 Gemma 4 QAT(量化感知训练)检查点,在保持相似性能的同时,将内存占用降低约 4 倍。该版本引入了一种新的移动端量化格式,将 Gemma 4 E2B 的内存占用降至仅 1GB。QAT 通过在训练过程中模拟低精度运算,实现无损量化,从而得到更小、更快的模型。这些检查点已在 Hugging Face 上提供,可直接运行。

Anthropic 暗示接近 RSI?Gary Marcus 驳斥:Meta-Agent 挑战显示 AI 代理远未自主

X·KOLX:Gary Marcus (@GaryMarcus)

Gary Marcus 针对 Anthropic 近期关于接近递归自我改进(RSI)的暗示提出质疑。他引用了一项名为 Meta-Agent Challenge(MAC)的基准测试,该测试要求 AI 代理在没有人类设计帮助的情况下,自主构建另一个能完成隐藏测试任务的代理。结果显示,当前 AI 代理在数学、科学问答、竞赛编程、软件修复等五个领域,通常无法超越人类设计的强代理方案,仅有少数闭源前沿模型(如 Claude)表现尚可。Marcus 指出,真正的自主不仅需要工具使用,还需预算意识、失败恢复、压力下的克制以及设计迭代的纪律,而当前代理只是强大的执行者,缺乏工程所需的可靠判断力。

02

产品发布/更新

Product
5

Clairvoyant:预测式SJF调度缓解串行LLM后端队头阻塞

X·KOLX:arXiv: OpenAI (@Aravind Sundaresan)

串行LLM推理后端(如Ollama)在混合工作负载下因FCFS调度导致队头阻塞(HOLB),短查询可能被长生成任务延迟数分钟。Clairvoyant是一个即插即用的侧车代理,通过19个轻量级词汇特征用ONNX导出的XGBoost分类器预测响应长度,单请求延迟仅0.029毫秒。它优化排序保真度,在自然对话数据集上达到62-96%分布内和52-66%跨分布准确率。在RTX 4090上,短请求的P50延迟在最大队列压力下降低70-76%,稳态泊松到达下降低17%。Clairvoyant开源且无需修改推理后端。

Google Research 为 Gemini Enterprise Agent 平台加入 Agentic RAG,用 Sufficient Context Agent 处理多跳查询

X·KOLX:marktechpost (@Michal Sutter)

Google Research 在 Gemini Enterprise Agent 平台中引入了一种基于智能体的检索增强生成(Agentic RAG)框架,核心组件是 Sufficient Context Agent。该智能体会自动判断当前上下文是否足够回答问题,若不足则持续检索,直到收集到足够的多源信息来回答复杂多跳查询。相比标准 RAG,该框架将事实准确性提升了高达 34%。这一进展解决了传统 RAG 在处理需要多步推理和跨文档整合的查询时容易遗漏关键信息的问题。

昇腾910C完成1.6万亿参数模型全参数后训练,国产AI算力跨越关键门槛

X·KOLX:Pandaily (@contact@pandaily.com (Pandaily))

深圳河套学院联合哈工大(深圳)、深圳大数据研究院及华为,成功使用昇腾910C芯片完成了1.6万亿参数大模型的全参数后训练。这一成果标志着国产AI算力首次支撑万亿级参数模型的完整训练流程,突破了此前依赖国外高端GPU的瓶颈。项目验证了昇腾910C在大规模分布式训练中的稳定性和效率,为国内大模型自主训练提供了可行的硬件基础。该突破对降低AI研发成本、保障技术安全具有重要意义。

Claude 写了 Anthropic 80% 以上代码,自产自用成现实

X·KOLX:小互 (@imxiaohu)

Anthropic 联合创始人透露,截至 2026 年 5 月,合并进公司代码库的代码中超过 80% 由 Claude 生成。而在 2025 年 2 月 Claude Code 发布前,这一比例仅为个位数。这表明 AI 编程工具已从辅助角色跃升为主力,Anthropic 自身成为其产品的最大用户。该数据印证了 AI 编程能力的快速进化,也引发对开发者角色转变的讨论。

Mira Murati 首次详谈 Thinking Machines 实验室 AGI 项目

X·KOLX:AI Will (@FinanceYF5)

前 OpenAI 首席技术官 Mira Murati 在离开 OpenAI 后首次接受全面采访,详细披露了她正在打造的 AGI 初创公司 Thinking Machines 实验室的项目。她阐述了对未来人机协作的愿景,强调人类不会被排除在决策循环之外,而是与 AI 更紧密地协作,如同“双人自行车”一般。这次采访首次公开了她在 AGI 领域的最新探索方向,引发了行业广泛关注。

03

行业动态

Industry
5

SK hynix 与 NVIDIA 达成多年存储合作,共造 AI 工厂芯片

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

SK hynix 与 NVIDIA 宣布建立多年存储合作伙伴关系,共同开发用于下一代 AI 工厂的芯片。合作涵盖 NVIDIA Vera Rubin AI 超级计算机、Vera CPU、RTX Spark 驱动的 PC 和 Jetson Thor 平台的内存。SK hynix 将利用 NVIDIA 的 CUDA-X、PhysicsNeMo、Omniverse 等工具加速芯片设计、半导体仿真和工厂数字孪生。这一合作标志着存储芯片设计不再滞后于 GPU,而是需要提前数年进行协同设计和制造规划。同时,AI 技术也被引入芯片制造本身,用于加速半导体物理、光刻等工程流程。

中国钢铁业AI应用:谁在实干,谁在空谈

X·KOLX:Pandaily (@contact@pandaily.com (Pandaily))

通过对八家中国上市钢铁公司2025年年报的分析,揭示了哪些企业在规模化部署AI,哪些仅停留在集团层面的营销口号。报告指出,部分企业如宝钢股份已在生产、质检、供应链等环节深度应用AI,而另一些公司则缺乏具体案例和投入数据。这一现象反映了中国制造业AI落地的真实差距,对投资者和行业观察者具有重要参考价值。

中国AI模型API调用量连续六周超美国,MiniMax M3跻身全球前三

X·KOLX:Pandaily (@contact@pandaily.com (Pandaily))

根据OpenRouter数据,中国AI模型在API调用量上已连续六周超过美国,其中DeepSeek-V4-Flash位居榜首,MiniMax M3首次进入全球前三。这一趋势显示中国AI模型在应用层面正快速追赶并超越美国,尤其在性价比和实用性上获得开发者青睐。MiniMax M3的崛起标志着中国AI生态的多元化,不再仅依赖单一模型。

英伟达与LG集团共建AI工厂,聚焦机器人、自动驾驶与智能制造

官方IT之家

英伟达与LG集团宣布合作打造人工智能工厂,整合英伟达的全栈AI平台与LG在消费电子、机器人、车载零部件等领域的优势。合作覆盖机器人仿真训练、自动驾驶、数据中心冷却、GPU云服务及大模型优化,旨在推动物理AI在制造、物流和家庭场景的落地。LG将采用英伟达Isaac Sim、GR00T模型和Cosmos世界模型,加速机器人研发与数据生成。双方还计划建设自主化制造生态,打造全球智能工厂标杆。

编码Agent一夜循环调用1万次LLM,账单四位数

X·KOLX:LangChain (@LangChainAI)

LangChain 分享了一个真实案例:一个编码代理在夜间陷入重试循环,到早上已调用 LLM 达 10,000 次,产生四位数的账单。问题在于,可观测性只能事后告诉你发生了什么,而无法在事前阻止。要避免此类问题,需要在请求层强制执行策略,例如限制重试次数或设置调用上限。这提醒开发者,构建可靠 AI 代理时,策略控制比事后监控更重要。

04

论文研究

Research
5

EffiSkel:显式提取效率骨架提升LLM代码生成性能

X·KOLX:arXiv: DeepSeek (@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu)

大型语言模型生成的代码虽语法正确,但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率,但未能显式编码高效代码的结构模式。为此,研究者提出EffiSkel框架,通过三种互补策略提取并学习效率骨架(抽象的可复用结构模式),并采用多任务学习联合优化代码生成与骨架预测。实验表明,在Mercury基准上,基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO,效率比分别提升11.11%和3.71%,平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。

Eval-Skill:探索引导的评估技能合成,提升奖励模型判断力

X·KOLX:arXiv: DeepSeek (@Xing Yue, Linjuan Wu, Daoxin Zhang, Yongliang Shen, Weiming Lu)

针对开放域奖励建模中缺乏可验证答案、传统基于评分标准的方法生成僵化且增加推理开销的问题,研究者提出 Eval-Skill 方法。该方法通过探索引导,仅用每个领域 100 个案例,分两阶段(工作流生成与原则生成)合成可复用的领域级评估技能,直接注入判断模型上下文。在 RewardBench 2 上,Eval-Skill 显著提升多种基座模型表现,如 Qwen3-8B 提升 13.44%,DeepSeek-V4-Flash 提升 18.51%。实验还分析了扩展性、泛化性和迁移性,表明紧凑评估技能为基于 LLM 的评估提供了高效新范式。代码已开源。

DeepSeek-R1推理与人类对比:表面模仿 vs 真正逻辑

X·KOLX:arXiv cs.AI (@Yuxiang Chen, Jun Wang)

一项新研究对DeepSeek-R1-0120模型与人类在AIME 2025数学竞赛30道题上的推理过程进行了全面比较,标注了10247个推理步骤。研究发现,DeepSeek-R1的推理存在“拓扑模仿”现象:它频繁进行浅层验证和局部循环,缺乏人类推理中紧凑的分析与演绎交替结构。然而,成功的推理轨迹显示出稳定的分支和回溯使用,而失败的轨迹则过度或不足使用探索性动作。反思只有在演绎推理中才有效,陷入分析循环的反思往往忽略全局逻辑错误。研究建议改进评估和训练,包括测量跨轨迹稳定性、惩罚“空转”轨迹、鼓励深层逻辑修正。

Sgatlin:稀疏门控线性专家提升Transformer计算效率与可解释性

X·KOLX:arXiv cs.LG (@Simon Schug)

该研究提出了一种名为Sgatlin(稀疏门控线性神经元)的新型网络结构,通过将每个专家缩小为单个神经元并移除非线性激活函数,在保持稀疏性的同时提升了计算效率。在等计算量对比中,用Sgatlin替换Transformer的前馈层可改善语言模型的困惑度。此外,稀疏性和线性结构使得模型更易解释,无需额外训练即可分析前馈电路,发现其形成语义聚类并参与事实回忆。这项工作为构建计算高效且可解释的Transformer前馈层提供了新思路。

Socratic-SWE:通过历史追踪自我进化的编程智能体

X·KOLX:arXiv cs.AI (@Chuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu)

Socratic-SWE 是一种新型闭环自我进化框架,它利用 LLM 驱动的软件工程智能体的历史解决追踪来生成训练信号。与传统的固定突变或漏洞注入方法不同,该框架将追踪提炼为结构化技能,总结重复失败和有效修复模式,并指导生成针对性的修复任务。通过执行验证和求解器梯度对齐奖励筛选任务,Socratic-SWE 在 SWE-bench Verified 等基准测试上经过三次迭代达到 50.40% 的准确率,持续超越同等计算预算下的自我进化基线。这表明解决追踪可作为可扩展的自我进化基础,为提升编程智能体能力提供了新路径。

05

技巧与观点

Tips & Takes
3

AGENTS.md 对 Coding Agents 效果微弱,成本显著上升

X·KOLX:shao__meng (@shao__meng)

一篇大规模实证研究评估了仓库级上下文文件(如 AGENTS.md、CLAUDE.md)对编码 Agent 任务完成率的影响。实验覆盖 SWE-bench Lite 和新建 AGENTBENCH 两个基准,测试了 Claude Code、Codex、Qwen Code 等四种 Agent。结果显示,LLM 自动生成的 context file 在多数设置下导致成功率下降(平均 -0.5% 至 -2%),开发者手写的仅提升 +4%,但步数和成本增加 20% 以上。轨迹分析表明 Agent 会过度执行 context file 中的建议性流程,增加复杂度却未提升成功率。当仓库文档齐全时,context file 与现有文档高度冗余,反而可能有害。

不写 Prompt,写 Loops — Boris Cherny (Claude Code)

X·KOLX:shao__meng (@shao__meng)

Anthropic Claude Code 负责人 Boris Cherny 提出,随着 Claude Opus 4.8 和 GPT-5.5 等高智能模型出现,开发者应转向编写循环(Loops)让模型自主决策,而非手写 Prompt。但 Loops 和 Codex Goals 消耗 Token 极快,一个 Goals 可能用掉 5 小时用量,远未到 Token 自由阶段。企业仍需通过 Spec、AGENTS.md 等约束来确保可控性和 ROI。

LightningLM 0.1V:单节点8卡训练120B稀疏MoE

X·KOLX:arXiv cs.LG (@Rohan Shravan)

该论文报告了在单个8GPU节点上端到端训练千亿参数稀疏混合专家模型的方法。LightningLM 0.1V 是一个基于循环骨干的语言模型家族,从小型稠密种子模型逐步扩展至120B参数、460个路由专家(top-12路由)。通过状态保持扩展策略,每个更大模型从小模型的训练权重生长而来,活跃参数从1.78B单调增长至5.93B。关键创新包括:可逆循环栈使激活内存不随模型增长而增加;状态保持扩展原则确保各阶段扩展不失败;单节点经济策略TQP通过量化基专家权重和训练低秩适配器,将优化器状态从100B+压缩至2.26B参数。模型家族、分词器和训练代码均已开源。

114
今日事件
25
一手报道
3
新模型
31
信源
AITOP · 编辑系统自动生成