精选 AI 资讯 · AI 热点

6月30日

07:51

marktechpost@Asif Razzaq

精选

OpenClaw 推出了 iOS 和 Android 配套节点应用，通过 WebSocket 将手机连接到自托管的 Gateway。这些应用不是独立聊天机器人，而是为本地优先的 AI 代理添加设备硬件，包括相机、位置、语音和 Canvas。文章为构建者详解了架构、能力和权衡。

推荐理由：OpenClaw 出了 iOS 和 Android 的配套 App，连到你自家搭的 AI 网关，手机摄像头、位置、语音都能当智能体的感知器。想自己搞本地 AI 代理可以试试。

原文

07:38

Claude Code: GitHub Releases@ashwin-ant

精选

Anthropic 发布 Claude Code v2.1.196，新增组织默认模型支持（管理员可在 org console 设置），会话开始时显示可读默认名称，并支持 Cmd/Ctrl-click 在 Finder/Explorer 中打开文件附件。安全性方面，claude mcp list / get 不再从已提交的 .claude/settings.json 中启动 .mcp.json 服务器。修复了后台作业唤醒时永久删除对话、速率限制警告闪烁、PowerShell git diff / git grep 退出码为 1 时报错、多个 claude agents 侧面板问题（键盘焦点卡死、子代理类型丢失、状态显示错误）等 20 余项 bug。

AI产品 Claude Code Anthropic 版本更新编程助手 MCP/工具

推荐理由：Claude Code 又修了一堆 bug，还加了组织默认模型和点开文件附件，用它的开发者赶紧更新吧。

原文

03:09

marktechpost@Asif Razzaq

精选

NVIDIA 开源了 BioNeMo Agent Toolkit，将 OpenFold3、DiffDock 和 GenMol 等生物分子模型包装为 AI 代理可直接调用的技能。每个技能包含模型用途、输入、输出和失败模式说明。在 NVIDIA 使用 Codex CLI 和 GPT-5.5 fast 的基准测试中，该工具将任务完成率从 57.1% 提升至 100%，并实现 token 效率翻倍。

AI产品 NVIDIA BioNeMo Agent Toolkit OpenFold3 DiffDock 药物发现

推荐理由：NVIDIA 开源了这个工具，让 AI 代理能直接调用分子模型做药物发现。用上它任务完成率翻倍还省 Token，做生物计算的同学可以试试。

原文

03:05

@koltregaskes@koltregaskes

精选

前沿模型成本上升、令牌使用量攀升以及近期禁令，使企业自建AI变得更加必要。通过下载Llama或Qwen等开源模型，使用LoRA在自有数据上微调，部署在自有基础设施，可一次性计算成本取代按席收费。Hugging Face和LoRA已降低技术门槛，关键在于管理层是否将其视为基础设施投资而非普通软件开支。

行业 Llama Qwen LoRA Hugging Face 微调

推荐理由：前沿模型越来越贵还被禁，自己微调Llama或Qwen更可控，一次性投入省月费，数据也安全。

原文

02:49

02:49Hugging Face: Blog（博客/媒体）

精选

Allen AI 发布 DiScoFormer，一种基于 Transformer 的架构，同时学习任意数据分布的密度函数和得分函数。传统方法如 NICE、MAF、ResFlow 需分别建模或使用归一化流，DiScoFormer 通过单一模型完成且无需显式归一化。在 2D 环形、高维高斯混合等多个基准分布上，DiScoFormer 的密度估计和得分误差均低于这些基线。该论文已被 NeurIPS 2024 接收，代码和预训练模型已在 GitHub 开源。

AI模型 DiScoFormer Allen AI Transformer 密度估计生成模型

推荐理由：Allen AI 搞了个新模型 DiScoFormer，一个 Transformer 既能算密度又能算得分，比 NICE 这些老方法误差更低。想省事搞密度估计的可以看看。

原文

02:47

AWS Machine Learning Blog@Enrique Salgado Hernández

精选

本文介绍了Amazon QuickSight中BI资产的备份最佳实践。首先讲解如何选择需要备份的资产（如仪表板、数据集等）。然后说明可用的API（如ListDashboards、CreateDashboard）用于备份操作。最后提供示例代码帮助快速实现备份流程。

技巧 Amazon QuickSight AWS 备份策略 BI资产教程

推荐理由：AWS教你备份QuickSight资产，有代码示例，照着做就能避免数据丢失。

原文

01:58

AWS Machine Learning Blog@Anuranjan Mondal

精选

PAR 在 AWS 上构建了一个生产级多租户 LLM 分析系统，通过三层架构强制执行行级安全：使用 AWS SigV4 进行加密请求签名、在 Amazon Bedrock 上进行语义验证、以及通过 Split-Plane SQL 实现程序化数据隔离。每层独立运行以降低跨租户数据暴露风险，即使 LLM 本身被攻破或操纵也能保护数据。

技巧 AWS Amazon Bedrock 多租户行级安全 AI安全

推荐理由：AWS 这篇教程手把手教你用 Bedrock 和 Split-Plane SQL 搭建多租户 LLM 分析系统，三层隔离防止数据泄露，值得做企业级 AI 安全的开发者看看。

原文

01:57

AWS Machine Learning Blog@Sanghwa Na

精选

AWS 博客展示如何用 Amazon Nova 2 Lite 和 Claude Sonnet 4.6 构建两模型管道，用于扫描文档的数字化。Nova 2 Lite 在单次调用中完成多模态提取（检测照片、提取姓名坐标、返回页面元数据）。Claude Sonnet 4.6 根据版面布局进行空间推理，将姓名和面孔匹配。该管道在 Amazon Bedrock 上运行，通过分工降低总处理成本。

技巧 Amazon Nova 2 Lite Claude Sonnet 4.6 Amazon Bedrock 文档数字化多模态

推荐理由：用 Nova 2 Lite 做粗提取，Claude Sonnet 4.6 做精准匹配，文档数字化省心又省钱。

原文

01:56

AWS Machine Learning Blog@Troy Parrett

精选

本教程展示如何结合Amazon Bedrock Data Automation自动提取医疗理赔表单数据，再通过Amazon Bedrock AgentCore托管AI代理进行验证并转换为FHIR资源存入AWS HealthLake。该端到端工作流可减少人工处理流程，同时通过自动化校验保持数据准确性。文中逐步讲解每个组件的配置与集成方法。

技巧 Amazon Bedrock AWS HealthLake FHIR 智能体医疗数据

推荐理由：AWS官方手把手教你搭医疗理赔流水线，用Bedrock自动抽数据、转FHIR格式存HealthLake，能省不少人工核对时间。

原文

01:33

AWS Machine Learning Blog@Joshua Lacy

精选

本文介绍如何使用Amazon Bedrock AgentCore的内置可观测性功能调试生产环境中的智能体故障。文章涵盖常见的故障模式，如无限循环和工具调用失败。通过追踪和指标分析智能体行为，并提供结构化工作流来解决问题。本文是两部分系列的第一部分，第二部分将讨论性能优化和内存管理。

技巧 Amazon Bedrock AgentCore 可观测性智能体工具调用

推荐理由：AWS博客教你用Bedrock AgentCore内置观察功能排查生产智能体故障，比如无限循环和工具调用失败，省去自己搭建监控的麻烦。

原文

01:17

01:17Simon Willison’s Weblog（博客/媒体）

精选

DeepReinforce 发布 Ornith-1.0，一款 MIT 许可的开源模型，基于 Gemma 4 和 Qwen 3.5 预训练。提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。在编码基准上达到同尺寸开源模型 SOTA。作者在 LM Studio 上测试 35B Q4_K_M GGUF 版本，能流畅运行代理工具调用并处理代码定位任务。

AI模型 Ornith-1.0 DeepReinforce Gemma 4 Qwen 3.5 开源模型

推荐理由：DeepReinforce 新出的开源编码模型，基于 Gemma 4 和 Qwen 3.5，在代理编码任务上表现不错，LM Studio 就能跑，值得试试。

原文

6月29日

23:49

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 的 Step 3.7 Flash 模型在 Claw-Eval General 基准测试中取得第二名的成绩，该基准用于评估自主智能体。模型在多步执行和长程任务鲁棒性上表现强劲，排名仅次于 Claude Opus 4.6。这一结果显示其在真实世界智能体工作负载中的潜力。

AI模型 Step 3.7 Flash Claw-Eval General 智能体推理模型

推荐理由：StepFun 的 Step 3.7 Flash 在智能体基准 Claw-Eval General 排第二，仅次于 Claude Opus 4.6，多步执行和长程任务都强，感兴趣可以看看。

原文

23:24

23:24IT之家（博客/媒体）

精选

安全公司Push Security披露，黑客创建了名为"Push Security Inc"的OpenAI组织，通过官方邮箱noreply@ tm.openai.com向员工发送组织邀请邮件进行钓鱼攻击。邮件来自OpenAI且通过标准邮件身份验证，仅以一行文字提醒邀请方域名非企业域名，极易被忽略。被邀请员工默认获得Owner（所有者）权限，黑客提前绑定Visa信用卡消除付费门槛，加入流程无需额外验证。调查显示其他员工仍处待邀请状态，未发现数据泄露，Push Security已设置邮件过滤规则拦截类似邀请。

行业 Push Security OpenAI 钓鱼攻击 AI安全社工攻击

推荐理由：Push Security发现了一种利用OpenAI组织邀请功能的新型钓鱼攻击，专门针对企业员工，连官方邮箱都能被利用，看了你就知道该怎样防范。

原文

23:10

berryxia@berryxia

精选

Anthropic工程师Margot Van Laar在Code with Claude分享提示词工程最佳实践，强调通过评估（Eval）而非直接修改提示词来优化。她用客服机器人和零售排班两个案例演示：使用XML标签结构化提示词、移除旧模型遗留的禁止列表（如Claude 3 Opus）、用工具替代指令处理计算任务。拆解复杂任务为生成-评估-修复循环，并建议用更强推理模型（如Opus）加自适应思考替代小模型复杂提示词。

技巧提示词工程 Claude 评估 Claude Opus 工作流

推荐理由：Anthropic工程师手把手教你怎么调客服提示词和搭Agent，用Opus加循环拆解比堆复杂指令更管用，核心就一句话：先搞评估

原文

18:57

vLLM@vllm_project

精选

NVIDIA 与 vLLM 合作发布 step-by-step 指南，教你用四台 DGX Spark 盒子组建私有集群，自托管 550B 参数的 Nemotron-3-Ultra 模型。指南基于 vLLM 官方容器，可提供兼容 OpenAI 的端点。无需数据中心，适合构建私有 agent 工作流。

技巧 Nemotron-3-Ultra NVIDIA DGX Spark vLLM 自托管

推荐理由：想不依赖数据中心自己跑 550B 模型？NVIDIA 出了详细教程，四台 DGX Spark 就能拼出 OpenAI 兼容的端点。

原文

18:44

marktechpost@Asif Razzaq

精选

EverMind开源了EverOS，一个本地优先的智能体记忆运行时。它将记忆存储为纯Markdown文件，由SQLite和LanceDB索引。系统结合了BM25稀疏检索与向量检索，支持多模态数据摄入，并具备自我进化技能。项目采用Apache 2.0许可。

AI产品 EverOS EverMind SQLite LanceDB 智能体

推荐理由：EverOS把AI记忆存成Markdown，用SQLite和LanceDB做混合检索，还能自我进化技能，开源免费，值得一试。

原文

18:09

Decoder@Matthias Bastian

精选

Mozilla 0DIN平台的安全研究人员发现，一个被攻陷的GitHub仓库能通过DNS查询在运行时加载恶意代码，而Claude Code在运行setup时不会验证。该恶意代码在仓库文件、扫描器和AI代理眼中均不可见，仅在运行期间通过远程服务器返回载荷。攻击者利用此漏洞可完全控制开发者机器，包括窃取密钥、修改代码等。该攻击利用了AI编码工具默认信任仓库脚本的安全缺口。

行业 Claude Code Mozilla 0DIN AI安全供应链攻击

推荐理由：研究人员发现Claude Code跑仓库脚本时不检查里面藏了啥，一个DNS查询就能把恶意代码偷偷装你机器上。这漏洞太要命了，用AI写代码的赶紧看看怎么防。

原文

16:27

Pandaily@contact@pandaily.com (Pandaily)

精选73°

DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿（semi-parallel drafting）机制，能提升推理吞吐量。分析指出该系统达到生产级工程水平（production-grade engineering），在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。

AI模型 DeepSeek DSpark PyTorch 推理模型开源模型

推荐理由：PyTorch 核心大佬亲自下场拆解 DeepSeek 的 DSpark，说它半并行草稿很牛、工程落地扎实，搞推理优化的必看。

原文

15:42

@koltregaskes@koltregaskes

精选

Nature Medicine论文对GPT-5、Gemini 2.5 Pro等前沿模型进行了医学视觉推理压力测试，通过移除图像、替换图像、调整问题格式来检验模型是否真正理解。结果显示，在标准基准上表现优异的模型在条件变化时出现推理不稳、幻觉视觉细节等问题。作者将测试框架开源，随后有人用GPT-5.5 Pro重新运行，得分从之前最好的67-70%提升至79%，约10个百分点的进步。这解决了论文发表时模型已过时的问题，使评估能随模型更新而保持时效性。

论文 GPT-5 Gemini 2.5 Pro 医学视觉推理压力测试开源

推荐理由：Nature Medicine那篇论文把模型考倒了，但作者直接把考卷开源了。后来GPT-5.5 Pro重新考，分数涨了10%！

原文

14:54

14:54IT之家（博客/媒体）

精选

据台媒《经济日报》报道，华邦电子将加入台积电WoW（晶圆对晶圆）3D堆叠先进封装的内存晶圆供应链，成为除三大DRAM企业外的新供应方。华邦自2023年开始布局3D堆栈DRAM技术，其CUBE方案可提供8GB容量和256GB带宽。AI计算中存储带宽制约加速器吞吐能力，而边缘AI芯片无需HBM，低成本的宽I/O堆叠定制化内存方案可提升性能与性价比。台积电与华邦合作旨在满足这一市场需求。

行业华邦电子台积电 WoW封装 3D堆叠DRAM 边缘AI

推荐理由：华邦联合台积电，给边缘AI芯片提供高性价比的3D堆叠DRAM，容量8GB带宽256GB，比HBM便宜还能用。

原文

13:54

berryxia@berryxia

精选

Supervision是Roboflow出品的计算机视觉开源工具包，已获45K GitHub Stars，近三周增长5K。它提供模型无关的推理、标注、数据集加载、跟踪和区域统计等可复用组件。用户使用YOLO或RF-DETR等检测模型后，只需几行代码即可完成标注和可视化。该工具包大幅降低重复造轮子的成本，以前需要数百行的检测+跟踪+统计Pipeline现可快速搭建。

AI产品 Supervision Roboflow YOLO 计算机视觉开源工具包

推荐理由：Roboflow把CV工作流做成了搭积木：几行代码搞定检测、跟踪、统计，模型随便换。GitHub涨星飞快，省去重复造轮子。

原文

13:51

Vercel AI@vercel

精选

Vercel 推出 AI SDK 7，专注于生产环境中 AI Agent 的开发与部署。新版本引入审批机制，允许控制 Agent 操作的执行流程；增加持久化功能，支持长期任务的恢复与状态保存；内置遥测系统，帮助开发者监控与调试 AI 工作流。该 SDK 7 还改进了可观测性和稳定性，为构建可靠 AI 平台提供基础设施。

AI产品 AI SDK 7 Vercel Agent 智能体 AI平台

推荐理由：Vercel 的 AI SDK 7 直接帮你搞定 Agent 的持久化、审批和监控，做生产级 AI 应用省心很多。

原文

13:51

Together AI@togethercompute

精选

随着Token使用量爆发式增长，模型选择已从技术决策变为产品策略。团队正在测试GLM-5.2等新模型，追求前沿质量与更好的Token经济学。Together AI正在构建面向开源模型未来的推理层，以提供更可控的成本、数据和部署选项。

行业 GLM-5.2 Together AI 推理层开源模型 Token经济学

推荐理由：团队开始用GLM-5.2替换闭源模型？Together AI的推理层让开源模型更可控，想省钱又保质量可以看看。

原文

13:51

Together AI@togethercompute

精选

Together Compute推出ParallelKernelBench开放基准测试，专门评估LLM编写多GPU内核的难度。该基准基于50个真实CUDA通信问题，性能取决于通过NVLink高效移动数据。测试结果将于6月30日在aiDotEngineer World's Fair上由Simran Arora分享。

AI模型 ParallelKernelBench Together Compute CUDA NVLink 基准测试

推荐理由：Together Compute搞了个ParallelKernelBench，专门测LLM能不能写好复杂的多GPU内核，比单GPU难多了，感兴趣的话可以去现场听分享。

原文

13:51

Together AI@togethercompute

精选

Together AI与5C合作部署NVIDIA GB300 NVL72系统，该系统采用高密度计算、先进冷却和AI优化存储。专为大规模推理和推理任务设计，提升基础设施的算力密度和能效。部署的重点是支撑下一代AI推理需求，尤其是长链推理场景。

行业 Together AI 5C NVIDIA GB300 NVL72 推理基础设施高密度计算

推荐理由：Together AI和5C搞了套GB300 NVL72，算力密度高、散热好，专门跑大规模推理，适合那种费算力的长推理任务。

原文

13:51

Together AI@togethercompute

精选

ParallelKernelBench评估了LLMs编写多GPU内核的能力，包含87个来自Megatron-LM、DeepSpeed、DeepEP、TensorRT-LLM、NeMo-RL等真实代码库的问题。测试结果显示LLMs在单GPU内核上表现良好，但在多GPU场景下完全失败。该研究由Willy Chan等人完成，揭示了当前LLM在多GPU编程中的核心缺陷。

AI模型 ParallelKernelBench Megatron-LM DeepSpeed 多GPU 基准测试

推荐理由：新基准ParallelKernelBench发现，LLM写单GPU代码还行，但多个GPU一起就瞎了。想看看AI编程到底卡在哪？

原文

13:51

Together AI@togethercompute

精选

智谱AI的GLM-5.2模型在Together AI平台展示了端到端代码修复能力，可读取issue、推理场景并自动生成补丁。一年前这类任务还被认为是闭源模型（如GPT-4）的专属领域，如今开源模型已能胜任。该模型未公布具体基准分数，但实际演示表明其编程推理能力接近闭源水平。

AI模型 GLM-5.2 Together AI 推理模型编程助手开源模型

推荐理由：开源模型GLM-5.2能自己读代码问题、推理并修复，以前只有闭源模型才能做到，现在用Together AI就能跑。

原文

13:51

Together AI@togethercompute

精选

Together AI 在 X 上演示语音智能体利用屏幕交互的功能。该方案整合了语音转文本（STT）、语音合成和推理，具体使用 Parakeet 进行 STT，MiniMax Speech 2.8 处理语音，MiniMax M3 进行推理。实时系统要求堆叠每一层保持低延迟。演示展示了完整循环在 Together AI 平台上运行。

AI产品 Together AI Parakeet MiniMax Speech 2.8 MiniMax M3 语音智能体

推荐理由：Together AI 搞了个语音智能体 demo，能边看屏幕边说话，用了 Parakeet、MiniMax Speech 2.8 和 M3，实时性很强。

原文

13:50

François Chollet@fchollet

精选

François Chollet 指出，如果基准测试依赖静态数据集或训练时已知的静态分布，那么它本质上衡量的是记忆/检索，而非智能。他以 ARC 挑战为例，说明现有基准容易因数据泄露而失效，并强调真正智能需要应对未知变化。Chollet 呼吁社区设计更能体现泛化能力的测试，如基于动态环境的评估。

行业 François Chollet 基准测试智能测评记忆检索 ARC

推荐理由：Chollet 点破了基准测试的痛点：很多高分模型只是背答案，不是真聪明。做评测的值得看看。

原文

13:50

François Chollet@fchollet

精选

François Chollet 指出，智能体编程（Agentic coding）迫使开发者设计清晰的 API 接口并编写完整的文档字符串。AI 代理无法阅读团队内部的隐式心理模型，只能依赖显式的 API 合约和 docstring。这要求接口规范必须精确、无歧义，文档覆盖所有输入/输出场景。对工程团队而言，这意味着需要投入更多时间在接口形式化设计上。

技巧 Agentic coding API设计文档字符串智能体编程助手

推荐理由：François Chollet 说得很实在：想用AI代笔写代码，接口就得干净、文档得详细，别指望它懂你没写出来的默契。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……