PAW编程范式:4B编译器生成适配器,0.6B模型匹敌32B
PAW(Program-as-Weights)提出一种模糊函数编程范式,将自然语言规范编译为紧凑的本地可执行神经构件。一个4B编译器在FuzzyBench(1000万示例)上训练,为冻结的0.6B Qwen3解释器生成参数高效适配器。该解释器执行PAW程序,性能匹配直接提示Qwen3-32B,但推理内存仅为其1/50,在MacBook M3上达30 tokens/s。PAW将基础模型从逐输入求解器转变为可复用小工具构建器。
PAW(Program-as-Weights)提出一种模糊函数编程范式,将自然语言规范编译为紧凑的本地可执行神经构件。一个4B编译器在FuzzyBench(1000万示例)上训练,为冻结的0.6B Qwen3解释器生成参数高效适配器。该解释器执行PAW程序,性能匹配直接提示Qwen3-32B,但推理内存仅为其1/50,在MacBook M3上达30 tokens/s。PAW将基础模型从逐输入求解器转变为可复用小工具构建器。
论文提出可控神经变分代理(CNeVA),通过闭合形式共轭变分更新从逐通道折扣回报推断每个代理的高斯行为潜变量。采用混合通道掩码课程训练整流流轨迹生成器,实现无分类器引导。在Waymo Open Motion数据集上,CNeVA达到竞争性真实感,同时暴露逐通道可控性——这是排名更高的模仿模型所缺乏的。基于速度和加速度的操控产生单调响应,且引入软资格门(soft eligibility gates)后安全性操控显著且单调。实验表明,必须将操控指标与物理合理性护栏结合阅读,以避免奖励黑客混杂。
Qwen3-Omni采用多模态Thinker与Talker(Code2Wav)流水线架构。高并发下仅复制语音阶段,复用Thinker结果,首音频延迟从约6秒降至0.6秒。吞吐量在同GPU上提升5.4倍,语音生成快于实时。该优化由阿里、蚂蚁集团SCT团队和vLLM-Omni团队共同实现。
WattGPU提出了两个预测模型,分别用于平均GPU功耗和令牌间延迟(ITL),仅利用公开的LLM元数据和GPU规格,无需硬件访问或预配置。在42个开源LLM(0.1B-27B参数)和8个GPU的数据集上,通过留一GPU和留一LLM交叉验证,功耗模型在离线场景下中位数绝对百分比误差≤3.4%,服务器场景下≤13.5%;延迟模型在服务器模式下≤8.5%,且GPU排名相关性Kendall τ≥0.76。与基于功耗的热设计功率(TDP)和基于延迟的roofline基线相比,WattGPU在未见过LLM-GPU组合上误差降低约4倍,在完全未见过GPU上降低约2倍。
OrbitQuant提出一种数据无关的权重量化方案,通过随机置换块Hadamard(RPBH)旋转将激活值变换到归一化旋转基,使各坐标分布固定无需重新拟合校准数据。在FLUX.1、Z-Image-Turbo、Wan 2.1、CogVideoX四个模型上,该方法在多个低位宽设定下达到后训练量化(PTQ)最佳效果,并将图像扩散Transformer的PTQ推进到W2A4可用质量。同一量化器可直接从图像迁移到视频,无需针对每种模态调整。
Claude Code v2.1.200 更改了 AskUserQuestion 对话框默认不再自动继续,用户可通过 /config 开启空闲超时。默认权限模式改为 Manual,并修复了因 disabledMcpServers 或 enabledMcpServers 为非法数组值导致的启动崩溃。后台会话在睡眠/唤醒或重开后不再静默停止,且修复了后台代理崩溃后因 PID 重用而无法重启的问题。插件目录标志放置顺序错误导致代理视图不显示的问题已解决,/mcp server list 现在可正确跟踪屏幕阅读器焦点。改进了安装脚本,当系统因内存不足终止安装时会给出解释。
在 Flink Forward Asia Shenzhen 2026 上,阿里云 DLF 负责人 Jingsong Li 和阿里集团数据架构专家 Ziliang Zhang 介绍了 Apache Paimon 2.0。新版本将流式湖仓演进为统一多模态数据基础。通过与 Apache Flink 集成,构建端到端管道,能提供无瓶颈的高质量数据。该架构旨在支持 AI 原生工作流的实时数据需求。
Milvus 开源了 MFS (Multi-source File-like Search),一个可将代码仓库、Slack 线程、设计文档、Jira 问题、CRM 笔记和数据库行等来源统一为文件式命名空间并生成稳定 URI 的工具。它通过连接器将数据注入 mfs-server,利用队列、缓存、元数据和索引实现搜索和浏览。Agent 可通过 CLI、Python/TypeScript SDK 或两个内置技能(mfs-ingest 和 mfs-find)使用,mfs-find 支持 tree、ls、cat 等命令浏览原始来源。该工具旨在为 Agent 提供统一上下文层,整合内存、技能、文档、消息、问题、PR、邮件、客户记录和表格。
Google推出Paper Assistant Tool (PAT),一个专门辅助学术审稿的AI框架。该工具能通读全文,检查理论推导、验证实验结果、标记潜在问题。其核心使用inference scaling进行深度分析,在SPOT benchmark上数学错误检测召回率提升34%。PAT已在STOC和ICML会议试点,帮助审稿人提前发现关键问题。
CCOnline(cconline.sh)将架构改为完全 serverless,基于 Cloudflare 运行,使用 Worker、D1 和 R2。不再为每个用户分配 sandbox,改为以 session 进行隔离,动态挂载 sandbox 执行 agent 运算。支持 BYOK 自带模型,计费按 sandbox 运行时长和 token 消耗。目前为邀请注册制,提供 100 个邀请码 K76C585GC7R4。
字节跳动、阿里巴巴和百度等中国科技巨头纷纷转向国产AI芯片。据报道,国产GPU在新部署中的占比已升至41%。这一数据表明中国AI算力国产化进程进入关键转折点。
安全厂商Sysdig记录到首个由AI Agent(JADEPUFFER)完全自主执行的勒索攻击。攻击者利用Langflow高危漏洞CVE-2025-3248远程执行代码,入侵后自动窃取OpenAI、Anthropic、DeepSeek、Gemini等API密钥以及阿里云、腾讯云、华为云等云平台凭证。该AI在31秒内分析失败原因并修复管理员账号创建错误,累计执行超过600个攻击载荷。最后使用MySQL的AES_ENCRYPT()函数加密Nacos中全部1342条配置数据,但未保存加密密钥导致数据无法恢复。
Current AI成立于2025年2月巴黎AI行动峰会,已承诺4亿美元资金,近日发布Gap Map v0.1,深度索引421个产品(266个软件工具、85个模型、50个数据集、20个硬件项目),来自228个组织,按14个类别组织。底层数据以1,184个YAML文件形式在GitHub上以MIT许可证开源,另有16,185个GitHub仓库被追踪,可通过Datasette Lite探索。
Meta 计划在 MTIA 系列中导入三星晶圆代工 2nm 制程,订单总额超 10 万亿韩元(约 437.8 亿元人民币)。此前两代 MTIA 由台积电制造。MTIA 450 和 MTIA 500 预计分别于 2027 年初和 2028 年大规模部署。双方合作深入到芯片架构设计阶段,以实现 6 个月迭代周期。
阿里巴巴内部宣布全面禁用Anthropic旗下Claude系列产品,包括Sonnet、Opus、Fable及Claude Code等Agent工具,7月10日生效。此前阿里鼓励员工使用外部模型,部分程序员每周消耗额度达数百美元。Claude Code自4月2日的2.1.91版本起内置隐蔽检测机制,检查系统时区是否为Asia/Shanghai或Asia/Urumqi,并匹配一份含147个条目的中国科技企业域名清单。Anthropic团队成员Thariq Shihipar回应称该机制是实验性防账户转售和模型蒸馏措施,已在新版本中回滚。
微软在2026年初向数万名工程师推广了Claude Code和GitHub Copilot CLI。研究发现首次使用主要通过社交网络扩散,留存与工程师的编码活动频率相关而非人口统计因素。采用者合并的Pull Request数量比以往约多24%,该提升在四个月的观察窗口内持续存在。这些结果基于微软内部的实际部署数据,表明命令行AI编码代理并非短期新奇效应。
DecompRL是一种强化学习算法,专门训练大语言模型(如Qwen 2.5 7B、Code World Model 32B)将复杂问题分解为可独立求解的子函数并重新组合。通过重组n个模块的k种实现,可产生最多k^n个候选解,将GPU推理瓶颈转移到廉价CPU评估,GPU token成本降低约50倍。在LiveCodeBench和CodeContests基准上,当每个问题的推理token超过10^5时,DecompRL显著优于标准RL和多样性优化RL基线,能解决标准生成方法无法触及的问题。
VLA模型受限于专家演示数据稀缺,这些数据需要观测、指令和动作的三元组,成本高昂。研究提出分解假设,将物理能力(如何移动)与语义对齐(做什么)解耦。基于此设计了TAP框架,先通过自监督逆动力学从无标签交互数据学习运动先验,再用少量专家数据将先验与语言对齐。在SIMPLER基准上,TAP匹配使用超过100万专家轨迹的模型,实现了10%的绝对提升。真实WidowX机器人平台测试中,TAP在相机扰动下保持25%成功率,而互联网规模基线降至0%。
该论文提出了一个名为LIME的视觉语言相机运动生成器。它根据当前RGB图像和自然语言意图,预测下一视角的相对目标相机位姿(SE(3))。为了训练模型,作者从第一人称视频中挖掘多意图相机运动监督信号,配对合理的意图和观察增益描述。LIME结合了自回归的观察增益输出和连续流匹配位姿头,能够联合预测下一视图该展示什么并代表多假设目标视图。实验表明,LIME可从被动的人类视频中学习主动选择相机位姿,用于下游机器人任务。
NeuFS提出一种基于神经元激活模式的主动少样本学习框架,替代传统基于输出熵或语义相似性的样本选择方法。它在推理和文本分类两个任务共三个数据集上超越现有AFSL基线。消融实验证明内部神经元激活信号比外部嵌入在选择信号上更有效。该方法通过双标准策略兼顾样本多样性和模型易幻觉样本识别。
这篇教程展示了如何用 Claude Code 的非交互模式(-p 标志)构建 agentic loop。通过一个例子:在空文件夹中运行命令,让 Claude 用 Python 实现 Fibonacci 函数并编写 pytest 测试,每步改动后自动运行测试直到全部通过。核心有三个参数:-p 非交互运行、--allowedTools 预授权工具(Read, Write, Edit, Bash)、--max-turns 15 限制最大轮次。最终会输出 Fibonacci 代码和通过的测试结果。
LlamaIndex 团队基于 Vercel 的 Eve agent 框架构建了一个模板,集成 LiteParse 工具。该模板提供只读文件系统工具,允许 Eve 解析路径、列出目录和读取文本文件。LiteParse 将源文件解析为干净的结构化 Markdown。Agent 配备详细指令,组合这些工具以导航和理解文档集合。
Simon Willison从Claude Code团队Cat Wu和Thariq Shihipar学到:让Fable(以及部分Opus)自己决定是否写测试,而不是硬性规定。他进一步实践:让Fable在编程任务中自主选择调用Sonnet或Haiku作为子代理,自己仅负责判断、审核和合成。他于2026年7月3日用prompt写入Claude内存文件`delegate-coding-to-subagents.md`。这种做法大幅减少了Fable token消耗,提高了效率。
研究员omar sar分享了多模态提示工作流,通过录制语音、屏幕注释、鼠标点击等输入,预处理后传递给Agent,显著提升任务完成效率。该方法已为他节省数小时工作时间,减少与Agent的挫败交互。他将这些录制的任务作为可复用数据集,不断改进并打包成工作流/模式/技能。该技巧应用于Web开发、设计、原型制作、研究等多个场景。
Anthropic工程师在45分钟直播中从零演示如何搭建5个AI助手处理重复任务。核心包括:用Tool分离外部操作、将复杂Agent拆成子Agent、以及当prompt超过上下文窗口时的分段策略。演示展示了Claude Agent的实际配置步骤,包括自定义Tool调用和子Agent调度机制。教程覆盖了从需求拆解到部署的全流程,适合想用Agent自动化日常工作的开发者。