DeepSeek DSpark获赞，开源数据集MONET发布

模型发布/更新

Model Releases

5 篇

OpenAI 推出 GPT-5.6：Sol旗舰、Terra平价、Luna快速

X·KOLX：@koltregaskes (@koltregaskes)原文 ↗

OpenAI 开放了 GPT-5.6 模型家族的有限预览，包括旗舰版 Sol、性价比版 Terra 和快速版 Luna。Sol 引入最大推理努力和超模式，使用子代理加速复杂任务，在 Terminal-Bench 2.1 上领先，并在网络安全基准上匹配 Mythos Preview 性能，仅用三分之一输出令牌。系统卡将网络和生物能力评为高，但低于自主全链利用的关键阈值。更广泛可用性计划在未来几周内推出。

DeepSeek DSpark 推理系统获 PyTorch 核心维护者技术分析

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿（semi-parallel drafting）机制，能提升推理吞吐量。分析指出该系统达到生产级工程水平（production-grade engineering），在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。

Allen AI 发布 DiScoFormer：统一密度与评分的 Transformer 模型

官方Hugging Face: Blog原文 ↗

Allen AI 发布 DiScoFormer，一种基于 Transformer 的架构，同时学习任意数据分布的密度函数和得分函数。传统方法如 NICE、MAF、ResFlow 需分别建模或使用归一化流，DiScoFormer 通过单一模型完成且无需显式归一化。在 2D 环形、高维高斯混合等多个基准分布上，DiScoFormer 的密度估计和得分误差均低于这些基线。该论文已被 NeurIPS 2024 接收，代码和预训练模型已在 GitHub 开源。

Jasper Research 发布 MONET，世界最大开放文图数据集

X·KOLX：Jasper AI (@heyjasperai)原文 ↗

Jasper Research 宣布推出 MONET 数据集，从 29 亿张图片中精炼出 1.049 亿张高质量样本，成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可，可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。

Ornith-1.0 发布：基于 Gemma 4 和 Qwen 3.5 的开源代理编码模型

官方Simon Willison’s Weblog原文 ↗

DeepReinforce 发布 Ornith-1.0，一款 MIT 许可的开源模型，基于 Gemma 4 和 Qwen 3.5 预训练。提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。在编码基准上达到同尺寸开源模型 SOTA。作者在 LM Studio 上测试 35B Q4_K_M GGUF 版本，能流畅运行代理工具调用并处理代码定位任务。

产品发布/更新

Product

5 篇

EverMind开源EverOS：Markdown优先的智能体记忆运行时，混合检索与自我进化

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

EverMind开源了EverOS，一个本地优先的智能体记忆运行时。它将记忆存储为纯Markdown文件，由SQLite和LanceDB索引。系统结合了BM25稀疏检索与向量检索，支持多模态数据摄入，并具备自我进化技能。项目采用Apache 2.0许可。

NVIDIA BioNeMo Agent Toolkit 将生物分子模型转为AI代理可调用技能

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

NVIDIA 开源了 BioNeMo Agent Toolkit，将 OpenFold3、DiffDock 和 GenMol 等生物分子模型包装为 AI 代理可直接调用的技能。每个技能包含模型用途、输入、输出和失败模式说明。在 NVIDIA 使用 Codex CLI 和 GPT-5.5 fast 的基准测试中，该工具将任务完成率从 57.1% 提升至 100%，并实现 token 效率翻倍。

Claude Code v2.1.196 更新：新增组织默认模型、文件附件点击打开等

X·KOLX：Claude Code: GitHub Releases (@ashwin-ant)原文 ↗

Anthropic 发布 Claude Code v2.1.196，新增组织默认模型支持（管理员可在 org console 设置），会话开始时显示可读默认名称，并支持 Cmd/Ctrl-click 在 Finder/Explorer 中打开文件附件。安全性方面，claude mcp list / get 不再从已提交的 .claude/settings.json 中启动 .mcp.json 服务器。修复了后台作业唤醒时永久删除对话、速率限制警告闪烁、PowerShell git diff / git grep 退出码为 1 时报错、多个 claude agents 侧面板问题（键盘焦点卡死、子代理类型丢失、状态显示错误）等 20 余项 bug。

Supervision：Roboflow出品的CV开源工具包获45K GitHub Stars

X·KOLX：berryxia (@berryxia)原文 ↗

Supervision是Roboflow出品的计算机视觉开源工具包，已获45K GitHub Stars，近三周增长5K。它提供模型无关的推理、标注、数据集加载、跟踪和区域统计等可复用组件。用户使用YOLO或RF-DETR等检测模型后，只需几行代码即可完成标注和可视化。该工具包大幅降低重复造轮子的成本，以前需要数百行的检测+跟踪+统计Pipeline现可快速搭建。

特斯拉向 HW3 车主推送 FSD V14 Lite，缩小与 HW4 车型差距

官方IT之家原文 ↗

特斯拉今日开始向搭载 HW3 硬件的约 400 万辆车推送 FSD V14 Lite，该版本基于 HW4 的 V14 版本进行轻量化适配。升级包含强化学习算法与离线预测模型，优化导航变道、红绿灯识别等场景。马斯克和副总裁阿肖克·埃卢斯瓦米确认，HW3 硬件因内存带宽仅为 HW4 八分之一，无法实现无监督 FSD。特斯拉提供折价置换新车或付费改装 HW4 硬件两种方案。

行业动态

Industry

5 篇

Claude Code未验证即运行GitHub仓库隐藏恶意软件，攻击者可获完全控制

X·KOLX：Decoder (@Matthias Bastian)原文 ↗

Mozilla 0DIN平台的安全研究人员发现，一个被攻陷的GitHub仓库能通过DNS查询在运行时加载恶意代码，而Claude Code在运行setup时不会验证。该恶意代码在仓库文件、扫描器和AI代理眼中均不可见，仅在运行期间通过远程服务器返回载荷。攻击者利用此漏洞可完全控制开发者机器，包括窃取密钥、修改代码等。该攻击利用了AI编码工具默认信任仓库脚本的安全缺口。

OpenAI 成立应急小组调查 Codex 额度消耗过快问题

官方IT之家原文 ↗

OpenAI 组建应急专项攻坚小组，处理大量用户反馈的 Codex 编码工具额度消耗远超往常的问题。原因在于平台防滥用风控系统错误对部分账户限流。工程负责人蒂博·索蒂奥克斯于6月29日表示已全面重置所有用户额度上限并排查故障。一名200美元套餐用户反馈，额度从一周耗尽变为一天耗尽，需手动重置。事件发生在AI服务商逐步取消不限量模式的行业背景下。

Meta限制工程师使用Claude Code和Codex，防止对手AI进入训练数据

X·KOLX：Decoder (@Maximilian Schreiner)原文 ↗

Meta已限制其工程师使用Anthropic的Claude Code和OpenAI的Codex。此举旨在防止竞争对手AI模型的输出被纳入Meta自身的训练数据集。Meta担心这些编码工具生成的代码可能污染其自家模型的训练质量。这一限制反映了科技巨头在AI训练数据来源上的激烈竞争。

Francois Chollet：静态基准测的就是记忆，不是智能

X·KOLX：François Chollet (@fchollet)原文 ↗

François Chollet 指出，如果基准测试依赖静态数据集或训练时已知的静态分布，那么它本质上衡量的是记忆/检索，而非智能。他以 ARC 挑战为例，说明现有基准容易因数据泄露而失效，并强调真正智能需要应对未知变化。Chollet 呼吁社区设计更能体现泛化能力的测试，如基于动态环境的评估。

智平方融资50亿元，类脑NeuroVLA驱动，估值200亿成大湾区首个具身智能独角兽

X·KOLX：pandaily (@contact@pandaily.com (Pandaily))原文 ↗

具身智能公司智平方（Zhipingfang）完成约50亿元新融资。其估值突破200亿元（约28亿美元），成为粤港澳大湾区首个具身智能独角兽。核心采用类脑NeuroVLA架构，模拟人脑多模态信息处理机制。

论文研究

Research

3 篇

Nature Medicine论文开源测试套件：GPT-5.5 Pro得分79%

X·KOLX：@koltregaskes (@koltregaskes)原文 ↗

Nature Medicine论文对GPT-5、Gemini 2.5 Pro等前沿模型进行了医学视觉推理压力测试，通过移除图像、替换图像、调整问题格式来检验模型是否真正理解。结果显示，在标准基准上表现优异的模型在条件变化时出现推理不稳、幻觉视觉细节等问题。作者将测试框架开源，随后有人用GPT-5.5 Pro重新运行，得分从之前最好的67-70%提升至79%，约10个百分点的进步。这解决了论文发表时模型已过时的问题，使评估能随模型更新而保持时效性。

React Reconciler/Renderer 分离架构：一份协议多端运行

X·KOLX：掘金本周最热 (@老王以为)原文 ↗

React 通过 Reconciler/Renderer 分离将组件更新逻辑与平台操作解耦。Reconciler 比较虚拟树生成副作用列表，Renderer 通过 HostConfig 接口执行平台操作（如 DOM 的 appendChild、Native 的 UIManager.createView）。文章以在线海报编辑器为例，指出平台耦合导致代码重复、行为不一致等问题，并展示了 React 如何通过 createInstance、appendChild 等约20个接口实现多端复用。

vLLM-Omni TTS团队详解四种TTS模型服务优化

X·KOLX：vLLM (@vllm_project)原文 ↗

vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理，在H20×2上音频吞吐量提升61.5%，P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理，音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量，实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。

技巧与观点

Tips & Takes

4 篇

125

今日事件

一手报道

新模型

信源

AITOP日报