VOL.2026.07.03·147 STORIES·AITOP DAILY

AITOP日报

二〇二六年七月三日 星期五DAILY · 每早八时
01

模型发布/更新

Model Releases
5

Theoria:基于非正式推理状态的改写接受性验证

X·KOLX:arXiv cs.AI (@Ben Slivinski, Michael Saldivar)原文 ↗

Theoria 是一种验证架构,将候选解答重写为一系列类型化状态转换,每步转换需提供明确理由(引用、计算或给定事实),且可独立审计。在 HLE-Verified Gold(185 道文本专家题)上,Theoria 认证了 105 题,严格精度达 91.4%(Wilson 95% CI [84.5%, 95.4%])。与整体 LLM 评判者相比,两者错误分布差异大(Jaccard 0.14-0.36),可互补。在 95 个对抗性有毒证明上,结构评判者捕获 94.7%,高于整体评判的 83.2%(p=0.0017)。在 GPQA Diamond(n=65)上,认证精度为 97.1%。

美团LongCat-2.0发布:1.6T MoE模型,SWE-bench Pro达59.5

X·KOLX:SiliconFlowAI (@siliconflowai)原文 ↗

美团LongCat-2.0是1.6T参数的MoE模型,每个token激活约48B参数,原生支持1M上下文。该模型采用LSA稀疏注意力和零计算专家架构,动态激活33B-56B参数。它设计了MOPD机制,包含Agent、Reasoning、Interaction三类专家组,按任务路由。在SWE-bench Pro上获得59.5分,与主流闭源模型相当。定价为输入缓存/输入/输出每百万tokens分别0.015/0.75/2.95美元。

DeepSeek DSpark 投机解码原生集成 vLLM,性能提升显著

X·KOLX:vLLM (@vllm_project)原文 ↗

DeepSeek 的 DSpark 投机解码技术现已原生集成到 vLLM 推理框架中。DSpark 是一种半自回归草稿模型,通过非因果滑动窗口注意力并行生成多个 token,单次验证即可保持输出一致,减少解码步数。在 NVIDIA 8×B300 GPU 上,DeepSeek-V4-Pro-DSpark 在 batch size 1 时达到约 250 tokens/s,平均接受长度约 5,且在不同草稿深度下比 MTP 方法接受率高 12-42%。vLLM 通过复用 SparseMLA 后端、捕获完整草稿主干和采样循环到单一 CUDA graph,并支持前缀缓存和 FP8 KV cache。

FurnitureVLA:用视觉-语言-动作模型实现长程双手机器人家具组装

X·KOLX:arXiv cs.AI (@Chenyang Ma, Yue Yang, Radu Corcodel, Siddarth Jain, Andrew Wu, Chiori Hori, Diego Romeres)原文 ↗

FurnitureVLA是首个系统研究真实尺度双手机器人家具组装的工作,使用Vision-Language-Action模型(VLA)。该工作形式化了任务,开发了可扩展仿真管道,并通过VR遥操作收集高质量真实世界演示。模型可处理多达7个子任务和1550控制步骤的极长程组装,通过预测连续进度信号实现自动子任务转换。在三种家具类型上,FurnitureVLA将平均仿真成功率从48%提升到80%,设计因素研究额外带来21%增益。在真实Kinova Gen3平台上,最难任务仅有16%的性能下降。

02

产品发布/更新

Product
3

browser-use 团队开源 video-use,让 LLM 通过转写文本理解视频并剪辑

X·KOLX:shao__meng (@shao__meng)原文 ↗

browser-use 团队推出开源 Skill「video-use」,面向 Codex、Claude Code 等 AI Coding Agents。核心思路是让 LLM 读取由 ElevenLabs Scribe 转写的约 12KB 文本(含逐词时间戳、说话人分离、音频事件标记)来理解视频,仅在决策点调用 timeline_view.py 生成胶片帧+波形+字幕的 PNG 复合图。技术流水线包含 Transcribe→Pack→Reason→EDL→Render→Self-Eval 六个环节,剪辑基于 ffmpeg 分段提取与无损拼接。项目总结 12 条硬规则,涵盖字幕最后叠加、30ms 淡入淡出、PTS 时移等关键细节。

llm-coding-agent 0.1a0 发布:基于 LLM 的编码代理

官方Simon Willison’s Weblog原文 ↗

Simon Willison 发布了 llm-coding-agent 0.1a0,一个基于其 LLM 库演化的代理框架的编码代理工具。它实现了类似 Claude Code 的代理功能,包含编辑文件、执行命令、搜索文件等 5 种工具。可通过 uvx --prerelease=allow --with llm-coding-agent llm code 命令运行,也提供了 Python API,如 CodingAgent(model="gpt-5.5", root="/path").run()。该工具由 Fable 5 实验驱动,README 列出了 llm code --yolo 等使用模式。

Vercel AI Gateway 新增路由规则,动态切换模型无需改代码

X·KOLX:Guillermo Rauch (@rauchg)原文 ↗

Vercel 推出 AI Gateway 路由规则功能,允许用户通过 CLI 动态重写模型路由,例如将废弃的 anthropic/claude-fable-5 重定向到 anthropic/claude-opus-5。该功能解决了模型频繁退役(如 Fable 突然下线)对生产工作负载的影响,无需重新部署应用或智能体即可切换模型。Vercel 数据显示仍有大量流量依赖旧模型版本,路由规则可自动重定向丢失的 token 请求,避免收入损失。

03

行业动态

Industry
5

中国AI算力短缺:真正问题不是供给过剩,而是结构性错配

X·KOLX:Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

尽管有报道称中国80%的数据中心处于闲置状态,但AI算力领域面临结构性错配:纸面算力容量远高于有效可用容量。实际部署中,大量算力因网络带宽、能耗配额、硬件兼容性等因素无法被AI训练任务有效调用。这种错配导致一方面数据中心空转,另一方面AI企业仍面临算力紧俏的局面。

美团内部全面限用豆包大模型,迁移至LongCat与DeepSeek

官方IT之家原文 ↗

7月2日,美团内部下发通知,要求所有业务团队停止使用豆包大模型,并规划迁移至自研LongCat及DeepSeek等模型,无法迁移需提交原因经单独审批。今年4月,美团已限制阿里云Qwen模型使用,需X3级别审批。LongCat是美团2023年启动研发的大语言模型,最新LongCat-2.0为万亿参数模型(总参数1.6T,平均激活约48B),预训练数据超30T tokens,原生支持1M上下文。该模型基于五万卡国产算力集群训练,已对外开源。

OXMIQ Labs 获3500万美元A轮融资,由Raja Koduri创立

官方IT之家原文 ↗

OXMIQ Labs由知名GPU架构师Raja Koduri创立,宣布完成3500万美元A轮融资,总融资额达6000万美元。本轮由Fundomo和三星Samsung Catalyst Fund领投,联发科技追投,英特尔资本等跟投。该公司旨在重构GPU栈,核心OxCore IP整合标量、矢量、张量单元,专为近内存计算设计,已完成FPGA原型。其软件栈OxCapsule和OxPython支持现有CUDA和PyTorch代码在OxCore上直接运行,实现推理优化。

Anthropic开始自研AI芯片,洽谈三星制造

X·KOLX:@koltregaskes (@koltregaskes)原文 ↗

Anthropic已启动自研AI芯片的早期工作,并与三星洽谈制造。此举紧随OpenAI在九个月内与博通合作推出推理芯片之后。自研芯片能让实验室更严格控制推理成本,并根据自身模型架构定制,而非依赖英伟达的通用硬件。对创作者而言,未来可能带来更便宜或更快的输出生成,但初期效益可能仅限于实验室内部服务。

Wayve 获 28 亿美元投资,目标让任何品牌车辆自动驾驶

官方IT之家原文 ↗

伦敦自动驾驶初创公司 Wayve 已获得 28 亿美元(约 190.43 亿元)投资,投资者包括英伟达、奔驰和日产。Wayve 采用端到端机器学习技术,兼容多种传感器和 AI 芯片,不同于特斯拉仅依赖摄像头的方案。该公司已在东京、斯图加特、温哥华建立业务基地,并在全球数百座城市完成测试。其目标是向任何品牌的任何车型授权技术,实现完全自动驾驶。

04

论文研究

Research
5

神经证书定价方法求解组合优化问题

X·KOLX:arXiv cs.LG (@Jingyi Chen, Xinyuan Zhang, Xinwu Qian)原文 ↗

组合优化问题因可验证的离散结构导致指数级搜索空间。该研究提出神经证书定价(NCP),在无监督学习框架下训练神经网络预测证书级对偶价格,并通过结构恢复层构建原始边际。满足证书一致性条件时,恢复的边际全局可行,且一阶预测误差仅引起目标值的二阶损失。在三个组合优化问题类别上,NCP大幅超越或匹配现有最优神经基线,同时计算时间显著减少,且分布外泛化能力更强。

GPUSLS-LEO: GPU并行线性化误差界实现非线性与神经网络动力学的实时鲁棒最优控制

X·KOLX:arXiv cs.AI (@Jeffrey Fang, Keyi Shen, Anutam Srinivasan, Glen Chou)原文 ↗

本文提出GPUSLS-LEO方法,为非线性与神经网络动力学系统的线性时变(LTV)近似提供紧致、可微、GPU并行的线性化误差界(LEBs)。针对解析动力学,引入基于路径的Hessian界,比标准区间方法更紧;针对神经网络动力学,通过NN验证器生成的仿射松弛和局部雅可比修正导出认证LEBs。该方法在高达168维状态的非线性与神经网络动力学系统上,以67 Hz的速率在GPU上计算鲁棒控制策略,相比基线降低了求解时间和保守性,同时保持形式化保证和实时性能。

QuasiMoTTo:用准蒙特卡洛方法提升推理时扩展的样本效率

X·KOLX:arXiv cs.LG (@Michael Y. Li, Anthony Zhan, Kanishk Gandhi, Noah D. Goodman, Emily B. Fox)原文 ↗

论文提出QuasiMoTTo,利用准蒙特卡洛(QMC)生成相关但边际分布正确的样本,替换传统的独立同分布(i.i.d.)采样,减少冗余。在四个推理基准上,QuasiMoTTo以25-47%更少的样本达到相同的pass@k准确率,甚至常饱和边际保持采样器的理论上限。应用于策略梯度强化学习(GRPO)时,QuasiMoTTo以50%更少的训练步骤匹配i.i.d.性能。研究者还开发了无偏bootstrap估计器以评估相关采样器的pass@k。

GAIA: Geometry-Adaptive Integral Autoencoder 实现正反问题统一算子学习

X·KOLX:arXiv cs.LG (@Meenakshi Krishnan, Pranav Pulijala, Ke Chen, Haizhao Yang, Ramani Duraiswami)原文 ↗

GAIA 是一种几何自适应积分自编码器,用于任意几何域上的偏微分方程正问题和反问题的算子学习。它通过将几何边界和内部场分布编码为几何令牌,并利用交叉注意力机制使积分变换核局部适应几何特征,无需重新训练或迭代优化。在 7 个 2D 和 3D 基准测试中,包括电机阻抗断层扫描(EIT)、光学断层扫描、变化几何上的 3D Darct 流以及机械零件泊松 BVP 基准(MCB),GAIA 在所有反问题和 BVP 任务上取得 SOTA。与次优方法相比,在机翼流重建任务中降低了 64% 的中位相对 L2 误差,在 EIT 上降低了 27%,且在 MCB 每个形状类别上超越所有基线。

AutoMem:将记忆管理作为可训练技能自动化学习

X·KOLX:arXiv cs.AI (@Shengguang Wu, Hao Zhu, Yuhui Zhang, Xiaohan Wang, Serena Yeung-Levy)原文 ↗

AutoMem 框架将 LLM 的记忆管理视为可训练技能,通过两轮优化自动改进。第一轮由强 LLM 审查完整轨迹并迭代修改记忆结构(提示、文件模式、动作词汇)。第二轮从多个回合中识别出好的记忆决策,作为训练信号直接提升模型记忆熟练度。在三个程序化生成的长周期游戏(Crafter、MiniHack、NetHack)中,仅优化记忆(不修改任务动作行为)使基础 32B 开放权重模型性能提升约 2-4 倍,达到与 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking 等前沿系统竞争的水平。

05

技巧与观点

Tips & Takes
5

三次 LLM 交互范式:从网页聊天到组织内嵌 AI

X·KOLX:shao__meng (@shao__meng)原文 ↗

Shao Meng 将 LLM 交互分为三阶段:网页聊天机器人、独立 AI 应用、组织内嵌式 AI(如 Claude Tag 和 Glean Agents)。Claude Tag 让团队共享同一代理实例,实现从被动响应到持续参与的转变。Glean 提出生产级独立 Agent 的四个支柱:身份、记忆、主动性、问责制。以 OnCall Assistant 为例,Agent 可同时读取 PagerDuty、Jira、Confluence、GitHub、Slack,并行排查根因并起草修复。

AI代理自主支付:用x402协议和Apify实现无人工数据获取

X·KOLX:Ate-a-Pi (@svpino)原文 ↗

作者Santiago演示了AI代理如何利用x402协议(Coinbase构建、Linux基金会治理)在Apify Store上搜索Actor。代理发送请求后,Actor返回HTTP 402“Payment Required”响应,代理自动从Base链上的USDC钱包授权支付。支付模式为按量付费,代理设置支出上限,剩余金额自动结算。整个过程无需API密钥、账户或信用卡,完全无人干预。

147
今日事件
48
一手报道
32
新模型
50
信源
AITOP · 编辑系统自动生成