OpenAI 推出 GPT-5.6:Sol旗舰、Terra平价、Luna快速
OpenAI 开放了 GPT-5.6 模型家族的有限预览,包括旗舰版 Sol、性价比版 Terra 和快速版 Luna。Sol 引入最大推理努力和超模式,使用子代理加速复杂任务,在 Terminal-Bench 2.1 上领先,并在网络安全基准上匹配 Mythos Preview 性能,仅用三分之一输出令牌。系统卡将网络和生物能力评为高,但低于自主全链利用的关键阈值。更广泛可用性计划在未来几周内推出。
OpenAI 开放了 GPT-5.6 模型家族的有限预览,包括旗舰版 Sol、性价比版 Terra 和快速版 Luna。Sol 引入最大推理努力和超模式,使用子代理加速复杂任务,在 Terminal-Bench 2.1 上领先,并在网络安全基准上匹配 Mythos Preview 性能,仅用三分之一输出令牌。系统卡将网络和生物能力评为高,但低于自主全链利用的关键阈值。更广泛可用性计划在未来几周内推出。
DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿(semi-parallel drafting)机制,能提升推理吞吐量。分析指出该系统达到生产级工程水平(production-grade engineering),在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。
Allen AI 发布 DiScoFormer,一种基于 Transformer 的架构,同时学习任意数据分布的密度函数和得分函数。传统方法如 NICE、MAF、ResFlow 需分别建模或使用归一化流,DiScoFormer 通过单一模型完成且无需显式归一化。在 2D 环形、高维高斯混合等多个基准分布上,DiScoFormer 的密度估计和得分误差均低于这些基线。该论文已被 NeurIPS 2024 接收,代码和预训练模型已在 GitHub 开源。
Jasper Research 宣布推出 MONET 数据集,从 29 亿张图片中精炼出 1.049 亿张高质量样本,成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可,可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。
DeepReinforce 发布 Ornith-1.0,一款 MIT 许可的开源模型,基于 Gemma 4 和 Qwen 3.5 预训练。提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。在编码基准上达到同尺寸开源模型 SOTA。作者在 LM Studio 上测试 35B Q4_K_M GGUF 版本,能流畅运行代理工具调用并处理代码定位任务。
EverMind开源了EverOS,一个本地优先的智能体记忆运行时。它将记忆存储为纯Markdown文件,由SQLite和LanceDB索引。系统结合了BM25稀疏检索与向量检索,支持多模态数据摄入,并具备自我进化技能。项目采用Apache 2.0许可。
NVIDIA 开源了 BioNeMo Agent Toolkit,将 OpenFold3、DiffDock 和 GenMol 等生物分子模型包装为 AI 代理可直接调用的技能。每个技能包含模型用途、输入、输出和失败模式说明。在 NVIDIA 使用 Codex CLI 和 GPT-5.5 fast 的基准测试中,该工具将任务完成率从 57.1% 提升至 100%,并实现 token 效率翻倍。
Anthropic 发布 Claude Code v2.1.196,新增组织默认模型支持(管理员可在 org console 设置),会话开始时显示可读默认名称,并支持 Cmd/Ctrl-click 在 Finder/Explorer 中打开文件附件。安全性方面,claude mcp list / get 不再从已提交的 .claude/settings.json 中启动 .mcp.json 服务器。修复了后台作业唤醒时永久删除对话、速率限制警告闪烁、PowerShell git diff / git grep 退出码为 1 时报错、多个 claude agents 侧面板问题(键盘焦点卡死、子代理类型丢失、状态显示错误)等 20 余项 bug。
Supervision是Roboflow出品的计算机视觉开源工具包,已获45K GitHub Stars,近三周增长5K。它提供模型无关的推理、标注、数据集加载、跟踪和区域统计等可复用组件。用户使用YOLO或RF-DETR等检测模型后,只需几行代码即可完成标注和可视化。该工具包大幅降低重复造轮子的成本,以前需要数百行的检测+跟踪+统计Pipeline现可快速搭建。
特斯拉今日开始向搭载 HW3 硬件的约 400 万辆车推送 FSD V14 Lite,该版本基于 HW4 的 V14 版本进行轻量化适配。升级包含强化学习算法与离线预测模型,优化导航变道、红绿灯识别等场景。马斯克和副总裁阿肖克·埃卢斯瓦米确认,HW3 硬件因内存带宽仅为 HW4 八分之一,无法实现无监督 FSD。特斯拉提供折价置换新车或付费改装 HW4 硬件两种方案。
Mozilla 0DIN平台的安全研究人员发现,一个被攻陷的GitHub仓库能通过DNS查询在运行时加载恶意代码,而Claude Code在运行setup时不会验证。该恶意代码在仓库文件、扫描器和AI代理眼中均不可见,仅在运行期间通过远程服务器返回载荷。攻击者利用此漏洞可完全控制开发者机器,包括窃取密钥、修改代码等。该攻击利用了AI编码工具默认信任仓库脚本的安全缺口。
OpenAI 组建应急专项攻坚小组,处理大量用户反馈的 Codex 编码工具额度消耗远超往常的问题。原因在于平台防滥用风控系统错误对部分账户限流。工程负责人蒂博·索蒂奥克斯于6月29日表示已全面重置所有用户额度上限并排查故障。一名200美元套餐用户反馈,额度从一周耗尽变为一天耗尽,需手动重置。事件发生在AI服务商逐步取消不限量模式的行业背景下。
Meta已限制其工程师使用Anthropic的Claude Code和OpenAI的Codex。此举旨在防止竞争对手AI模型的输出被纳入Meta自身的训练数据集。Meta担心这些编码工具生成的代码可能污染其自家模型的训练质量。这一限制反映了科技巨头在AI训练数据来源上的激烈竞争。
François Chollet 指出,如果基准测试依赖静态数据集或训练时已知的静态分布,那么它本质上衡量的是记忆/检索,而非智能。他以 ARC 挑战为例,说明现有基准容易因数据泄露而失效,并强调真正智能需要应对未知变化。Chollet 呼吁社区设计更能体现泛化能力的测试,如基于动态环境的评估。
具身智能公司智平方(Zhipingfang)完成约50亿元新融资。其估值突破200亿元(约28亿美元),成为粤港澳大湾区首个具身智能独角兽。核心采用类脑NeuroVLA架构,模拟人脑多模态信息处理机制。
Nature Medicine论文对GPT-5、Gemini 2.5 Pro等前沿模型进行了医学视觉推理压力测试,通过移除图像、替换图像、调整问题格式来检验模型是否真正理解。结果显示,在标准基准上表现优异的模型在条件变化时出现推理不稳、幻觉视觉细节等问题。作者将测试框架开源,随后有人用GPT-5.5 Pro重新运行,得分从之前最好的67-70%提升至79%,约10个百分点的进步。这解决了论文发表时模型已过时的问题,使评估能随模型更新而保持时效性。
React 通过 Reconciler/Renderer 分离将组件更新逻辑与平台操作解耦。Reconciler 比较虚拟树生成副作用列表,Renderer 通过 HostConfig 接口执行平台操作(如 DOM 的 appendChild、Native 的 UIManager.createView)。文章以在线海报编辑器为例,指出平台耦合导致代码重复、行为不一致等问题,并展示了 React 如何通过 createInstance、appendChild 等约20个接口实现多端复用。
vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理,在H20×2上音频吞吐量提升61.5%,P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理,音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量,实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。
NVIDIA 与 vLLM 合作发布 step-by-step 指南,教你用四台 DGX Spark 盒子组建私有集群,自托管 550B 参数的 Nemotron-3-Ultra 模型。指南基于 vLLM 官方容器,可提供兼容 OpenAI 的端点。无需数据中心,适合构建私有 agent 工作流。
PAR 在 AWS 上构建了一个生产级多租户 LLM 分析系统,通过三层架构强制执行行级安全:使用 AWS SigV4 进行加密请求签名、在 Amazon Bedrock 上进行语义验证、以及通过 Split-Plane SQL 实现程序化数据隔离。每层独立运行以降低跨租户数据暴露风险,即使 LLM 本身被攻破或操纵也能保护数据。
AWS 博客展示如何用 Amazon Nova 2 Lite 和 Claude Sonnet 4.6 构建两模型管道,用于扫描文档的数字化。Nova 2 Lite 在单次调用中完成多模态提取(检测照片、提取姓名坐标、返回页面元数据)。Claude Sonnet 4.6 根据版面布局进行空间推理,将姓名和面孔匹配。该管道在 Amazon Bedrock 上运行,通过分工降低总处理成本。
本教程展示如何结合Amazon Bedrock Data Automation自动提取医疗理赔表单数据,再通过Amazon Bedrock AgentCore托管AI代理进行验证并转换为FHIR资源存入AWS HealthLake。该端到端工作流可减少人工处理流程,同时通过自动化校验保持数据准确性。文中逐步讲解每个组件的配置与集成方法。