07:51marktechpost@Asif Razzaq精选OpenClaw 推出了 iOS 和 Android 配套节点应用,通过 WebSocket 将手机连接到自托管的 Gateway。这些应用不是独立聊天机器人,而是为本地优先的 AI 代理添加设备硬件,包括相机、位置、语音和 Canvas。文章为构建者详解了架构、能力和权衡。AI产品OpenClawiOSAndroidGatewayAI代理推荐理由:OpenClaw 出了 iOS 和 Android 的配套 App,连到你自家搭的 AI 网关,手机摄像头、位置、语音都能当智能体的感知器。想自己搞本地 AI 代理可以试试。原文
07:38Claude Code: GitHub Releases@ashwin-ant精选Anthropic 发布 Claude Code v2.1.196,新增组织默认模型支持(管理员可在 org console 设置),会话开始时显示可读默认名称,并支持 Cmd/Ctrl-click 在 Finder/Explorer 中打开文件附件。安全性方面,claude mcp list / get 不再从已提交的 .claude/settings.json 中启动 .mcp.json 服务器。修复了后台作业唤醒时永久删除对话、速率限制警告闪烁、PowerShell git diff / git grep 退出码为 1 时报错、多个 claude agents 侧面板问题(键盘焦点卡死、子代理类型丢失、状态显示错误)等 20 余项 bug。AI产品Claude CodeAnthropic版本更新编程助手MCP/工具7 个信源在谈推荐理由:Claude Code 又修了一堆 bug,还加了组织默认模型和点开文件附件,用它的开发者赶紧更新吧。原文
03:09marktechpost@Asif Razzaq精选NVIDIA 开源了 BioNeMo Agent Toolkit,将 OpenFold3、DiffDock 和 GenMol 等生物分子模型包装为 AI 代理可直接调用的技能。每个技能包含模型用途、输入、输出和失败模式说明。在 NVIDIA 使用 Codex CLI 和 GPT-5.5 fast 的基准测试中,该工具将任务完成率从 57.1% 提升至 100%,并实现 token 效率翻倍。AI产品NVIDIABioNeMo Agent ToolkitOpenFold3DiffDock药物发现3 个信源在谈推荐理由:NVIDIA 开源了这个工具,让 AI 代理能直接调用分子模型做药物发现。用上它任务完成率翻倍还省 Token,做生物计算的同学可以试试。原文
03:05@koltregaskes@koltregaskes精选前沿模型成本上升、令牌使用量攀升以及近期禁令,使企业自建AI变得更加必要。通过下载Llama或Qwen等开源模型,使用LoRA在自有数据上微调,部署在自有基础设施,可一次性计算成本取代按席收费。Hugging Face和LoRA已降低技术门槛,关键在于管理层是否将其视为基础设施投资而非普通软件开支。行业LlamaQwenLoRAHugging Face微调推荐理由:前沿模型越来越贵还被禁,自己微调Llama或Qwen更可控,一次性投入省月费,数据也安全。原文
02:49Hugging Face: Blog(博客/媒体)精选Allen AI 发布 DiScoFormer,一种基于 Transformer 的架构,同时学习任意数据分布的密度函数和得分函数。传统方法如 NICE、MAF、ResFlow 需分别建模或使用归一化流,DiScoFormer 通过单一模型完成且无需显式归一化。在 2D 环形、高维高斯混合等多个基准分布上,DiScoFormer 的密度估计和得分误差均低于这些基线。该论文已被 NeurIPS 2024 接收,代码和预训练模型已在 GitHub 开源。AI模型DiScoFormerAllen AITransformer密度估计生成模型推荐理由:Allen AI 搞了个新模型 DiScoFormer,一个 Transformer 既能算密度又能算得分,比 NICE 这些老方法误差更低。想省事搞密度估计的可以看看。原文
02:47AWS Machine Learning Blog@Enrique Salgado Hernández精选本文介绍了Amazon QuickSight中BI资产的备份最佳实践。首先讲解如何选择需要备份的资产(如仪表板、数据集等)。然后说明可用的API(如ListDashboards、CreateDashboard)用于备份操作。最后提供示例代码帮助快速实现备份流程。技巧Amazon QuickSightAWS备份策略BI资产教程推荐理由:AWS教你备份QuickSight资产,有代码示例,照着做就能避免数据丢失。原文
01:58AWS Machine Learning Blog@Anuranjan Mondal精选PAR 在 AWS 上构建了一个生产级多租户 LLM 分析系统,通过三层架构强制执行行级安全:使用 AWS SigV4 进行加密请求签名、在 Amazon Bedrock 上进行语义验证、以及通过 Split-Plane SQL 实现程序化数据隔离。每层独立运行以降低跨租户数据暴露风险,即使 LLM 本身被攻破或操纵也能保护数据。技巧AWSAmazon Bedrock多租户行级安全AI安全推荐理由:AWS 这篇教程手把手教你用 Bedrock 和 Split-Plane SQL 搭建多租户 LLM 分析系统,三层隔离防止数据泄露,值得做企业级 AI 安全的开发者看看。原文
01:57AWS Machine Learning Blog@Sanghwa Na精选AWS 博客展示如何用 Amazon Nova 2 Lite 和 Claude Sonnet 4.6 构建两模型管道,用于扫描文档的数字化。Nova 2 Lite 在单次调用中完成多模态提取(检测照片、提取姓名坐标、返回页面元数据)。Claude Sonnet 4.6 根据版面布局进行空间推理,将姓名和面孔匹配。该管道在 Amazon Bedrock 上运行,通过分工降低总处理成本。技巧Amazon Nova 2 LiteClaude Sonnet 4.6Amazon Bedrock文档数字化多模态推荐理由:用 Nova 2 Lite 做粗提取,Claude Sonnet 4.6 做精准匹配,文档数字化省心又省钱。原文
01:56AWS Machine Learning Blog@Troy Parrett精选本教程展示如何结合Amazon Bedrock Data Automation自动提取医疗理赔表单数据,再通过Amazon Bedrock AgentCore托管AI代理进行验证并转换为FHIR资源存入AWS HealthLake。该端到端工作流可减少人工处理流程,同时通过自动化校验保持数据准确性。文中逐步讲解每个组件的配置与集成方法。技巧Amazon BedrockAWS HealthLakeFHIR智能体医疗数据推荐理由:AWS官方手把手教你搭医疗理赔流水线,用Bedrock自动抽数据、转FHIR格式存HealthLake,能省不少人工核对时间。原文
01:33AWS Machine Learning Blog@Joshua Lacy精选本文介绍如何使用Amazon Bedrock AgentCore的内置可观测性功能调试生产环境中的智能体故障。文章涵盖常见的故障模式,如无限循环和工具调用失败。通过追踪和指标分析智能体行为,并提供结构化工作流来解决问题。本文是两部分系列的第一部分,第二部分将讨论性能优化和内存管理。技巧Amazon BedrockAgentCore可观测性智能体工具调用推荐理由:AWS博客教你用Bedrock AgentCore内置观察功能排查生产智能体故障,比如无限循环和工具调用失败,省去自己搭建监控的麻烦。原文
01:17Simon Willison’s Weblog(博客/媒体)精选DeepReinforce 发布 Ornith-1.0,一款 MIT 许可的开源模型,基于 Gemma 4 和 Qwen 3.5 预训练。提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。在编码基准上达到同尺寸开源模型 SOTA。作者在 LM Studio 上测试 35B Q4_K_M GGUF 版本,能流畅运行代理工具调用并处理代码定位任务。AI模型Ornith-1.0DeepReinforceGemma 4Qwen 3.5开源模型1 个信源在谈推荐理由:DeepReinforce 新出的开源编码模型,基于 Gemma 4 和 Qwen 3.5,在代理编码任务上表现不错,LM Studio 就能跑,值得试试。原文
23:49阶跃星辰 Stepfun@Stepfun_AI精选StepFun 的 Step 3.7 Flash 模型在 Claw-Eval General 基准测试中取得第二名的成绩,该基准用于评估自主智能体。模型在多步执行和长程任务鲁棒性上表现强劲,排名仅次于 Claude Opus 4.6。这一结果显示其在真实世界智能体工作负载中的潜力。AI模型Step 3.7 FlashClaw-Eval General智能体推理模型推荐理由:StepFun 的 Step 3.7 Flash 在智能体基准 Claw-Eval General 排第二,仅次于 Claude Opus 4.6,多步执行和长程任务都强,感兴趣可以看看。原文
23:24IT之家(博客/媒体)精选安全公司Push Security披露,黑客创建了名为"Push Security Inc"的OpenAI组织,通过官方邮箱noreply@ tm.openai.com向员工发送组织邀请邮件进行钓鱼攻击。邮件来自OpenAI且通过标准邮件身份验证,仅以一行文字提醒邀请方域名非企业域名,极易被忽略。被邀请员工默认获得Owner(所有者)权限,黑客提前绑定Visa信用卡消除付费门槛,加入流程无需额外验证。调查显示其他员工仍处待邀请状态,未发现数据泄露,Push Security已设置邮件过滤规则拦截类似邀请。行业Push SecurityOpenAI钓鱼攻击AI安全社工攻击9 个信源在谈推荐理由:Push Security发现了一种利用OpenAI组织邀请功能的新型钓鱼攻击,专门针对企业员工,连官方邮箱都能被利用,看了你就知道该怎样防范。原文
23:10berryxia@berryxia精选Anthropic工程师Margot Van Laar在Code with Claude分享提示词工程最佳实践,强调通过评估(Eval)而非直接修改提示词来优化。她用客服机器人和零售排班两个案例演示:使用XML标签结构化提示词、移除旧模型遗留的禁止列表(如Claude 3 Opus)、用工具替代指令处理计算任务。拆解复杂任务为生成-评估-修复循环,并建议用更强推理模型(如Opus)加自适应思考替代小模型复杂提示词。技巧提示词工程Claude评估Claude Opus工作流9 个信源在谈推荐理由:Anthropic工程师手把手教你怎么调客服提示词和搭Agent,用Opus加循环拆解比堆复杂指令更管用,核心就一句话:先搞评估原文
18:57vLLM@vllm_project精选NVIDIA 与 vLLM 合作发布 step-by-step 指南,教你用四台 DGX Spark 盒子组建私有集群,自托管 550B 参数的 Nemotron-3-Ultra 模型。指南基于 vLLM 官方容器,可提供兼容 OpenAI 的端点。无需数据中心,适合构建私有 agent 工作流。技巧Nemotron-3-UltraNVIDIADGX SparkvLLM自托管4 个信源在谈推荐理由:想不依赖数据中心自己跑 550B 模型?NVIDIA 出了详细教程,四台 DGX Spark 就能拼出 OpenAI 兼容的端点。原文
18:44marktechpost@Asif Razzaq精选EverMind开源了EverOS,一个本地优先的智能体记忆运行时。它将记忆存储为纯Markdown文件,由SQLite和LanceDB索引。系统结合了BM25稀疏检索与向量检索,支持多模态数据摄入,并具备自我进化技能。项目采用Apache 2.0许可。AI产品EverOSEverMindSQLiteLanceDB智能体推荐理由:EverOS把AI记忆存成Markdown,用SQLite和LanceDB做混合检索,还能自我进化技能,开源免费,值得一试。原文
18:09Decoder@Matthias Bastian精选Mozilla 0DIN平台的安全研究人员发现,一个被攻陷的GitHub仓库能通过DNS查询在运行时加载恶意代码,而Claude Code在运行setup时不会验证。该恶意代码在仓库文件、扫描器和AI代理眼中均不可见,仅在运行期间通过远程服务器返回载荷。攻击者利用此漏洞可完全控制开发者机器,包括窃取密钥、修改代码等。该攻击利用了AI编码工具默认信任仓库脚本的安全缺口。行业Claude CodeMozilla0DINAI安全供应链攻击推荐理由:研究人员发现Claude Code跑仓库脚本时不检查里面藏了啥,一个DNS查询就能把恶意代码偷偷装你机器上。这漏洞太要命了,用AI写代码的赶紧看看怎么防。原文
16:27Pandaily@contact@pandaily.com (Pandaily)精选73°DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿(semi-parallel drafting)机制,能提升推理吞吐量。分析指出该系统达到生产级工程水平(production-grade engineering),在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。AI模型DeepSeekDSparkPyTorch推理模型开源模型推荐理由:PyTorch 核心大佬亲自下场拆解 DeepSeek 的 DSpark,说它半并行草稿很牛、工程落地扎实,搞推理优化的必看。原文
15:42@koltregaskes@koltregaskes精选Nature Medicine论文对GPT-5、Gemini 2.5 Pro等前沿模型进行了医学视觉推理压力测试,通过移除图像、替换图像、调整问题格式来检验模型是否真正理解。结果显示,在标准基准上表现优异的模型在条件变化时出现推理不稳、幻觉视觉细节等问题。作者将测试框架开源,随后有人用GPT-5.5 Pro重新运行,得分从之前最好的67-70%提升至79%,约10个百分点的进步。这解决了论文发表时模型已过时的问题,使评估能随模型更新而保持时效性。论文GPT-5Gemini 2.5 Pro医学视觉推理压力测试开源推荐理由:Nature Medicine那篇论文把模型考倒了,但作者直接把考卷开源了。后来GPT-5.5 Pro重新考,分数涨了10%!原文
14:54IT之家(博客/媒体)精选据台媒《经济日报》报道,华邦电子将加入台积电WoW(晶圆对晶圆)3D堆叠先进封装的内存晶圆供应链,成为除三大DRAM企业外的新供应方。华邦自2023年开始布局3D堆栈DRAM技术,其CUBE方案可提供8GB容量和256GB带宽。AI计算中存储带宽制约加速器吞吐能力,而边缘AI芯片无需HBM,低成本的宽I/O堆叠定制化内存方案可提升性能与性价比。台积电与华邦合作旨在满足这一市场需求。行业华邦电子台积电WoW封装3D堆叠DRAM边缘AI推荐理由:华邦联合台积电,给边缘AI芯片提供高性价比的3D堆叠DRAM,容量8GB带宽256GB,比HBM便宜还能用。原文
13:54berryxia@berryxia精选Supervision是Roboflow出品的计算机视觉开源工具包,已获45K GitHub Stars,近三周增长5K。它提供模型无关的推理、标注、数据集加载、跟踪和区域统计等可复用组件。用户使用YOLO或RF-DETR等检测模型后,只需几行代码即可完成标注和可视化。该工具包大幅降低重复造轮子的成本,以前需要数百行的检测+跟踪+统计Pipeline现可快速搭建。AI产品SupervisionRoboflowYOLO计算机视觉开源工具包推荐理由:Roboflow把CV工作流做成了搭积木:几行代码搞定检测、跟踪、统计,模型随便换。GitHub涨星飞快,省去重复造轮子。原文
13:51Vercel AI@vercel精选Vercel 推出 AI SDK 7,专注于生产环境中 AI Agent 的开发与部署。新版本引入审批机制,允许控制 Agent 操作的执行流程;增加持久化功能,支持长期任务的恢复与状态保存;内置遥测系统,帮助开发者监控与调试 AI 工作流。该 SDK 7 还改进了可观测性和稳定性,为构建可靠 AI 平台提供基础设施。AI产品AI SDK 7VercelAgent智能体AI平台推荐理由:Vercel 的 AI SDK 7 直接帮你搞定 Agent 的持久化、审批和监控,做生产级 AI 应用省心很多。原文
13:51Together AI@togethercompute精选随着Token使用量爆发式增长,模型选择已从技术决策变为产品策略。团队正在测试GLM-5.2等新模型,追求前沿质量与更好的Token经济学。Together AI正在构建面向开源模型未来的推理层,以提供更可控的成本、数据和部署选项。行业GLM-5.2Together AI推理层开源模型Token经济学推荐理由:团队开始用GLM-5.2替换闭源模型?Together AI的推理层让开源模型更可控,想省钱又保质量可以看看。原文
13:51Together AI@togethercompute精选Together Compute推出ParallelKernelBench开放基准测试,专门评估LLM编写多GPU内核的难度。该基准基于50个真实CUDA通信问题,性能取决于通过NVLink高效移动数据。测试结果将于6月30日在aiDotEngineer World's Fair上由Simran Arora分享。AI模型ParallelKernelBenchTogether ComputeCUDANVLink基准测试推荐理由:Together Compute搞了个ParallelKernelBench,专门测LLM能不能写好复杂的多GPU内核,比单GPU难多了,感兴趣的话可以去现场听分享。原文
13:51Together AI@togethercompute精选Together AI与5C合作部署NVIDIA GB300 NVL72系统,该系统采用高密度计算、先进冷却和AI优化存储。专为大规模推理和推理任务设计,提升基础设施的算力密度和能效。部署的重点是支撑下一代AI推理需求,尤其是长链推理场景。行业Together AI5CNVIDIA GB300 NVL72推理基础设施高密度计算4 个信源在谈推荐理由:Together AI和5C搞了套GB300 NVL72,算力密度高、散热好,专门跑大规模推理,适合那种费算力的长推理任务。原文
13:51Together AI@togethercompute精选ParallelKernelBench评估了LLMs编写多GPU内核的能力,包含87个来自Megatron-LM、DeepSpeed、DeepEP、TensorRT-LLM、NeMo-RL等真实代码库的问题。测试结果显示LLMs在单GPU内核上表现良好,但在多GPU场景下完全失败。该研究由Willy Chan等人完成,揭示了当前LLM在多GPU编程中的核心缺陷。AI模型ParallelKernelBenchMegatron-LMDeepSpeed多GPU基准测试推荐理由:新基准ParallelKernelBench发现,LLM写单GPU代码还行,但多个GPU一起就瞎了。想看看AI编程到底卡在哪?原文
13:51Together AI@togethercompute精选智谱AI的GLM-5.2模型在Together AI平台展示了端到端代码修复能力,可读取issue、推理场景并自动生成补丁。一年前这类任务还被认为是闭源模型(如GPT-4)的专属领域,如今开源模型已能胜任。该模型未公布具体基准分数,但实际演示表明其编程推理能力接近闭源水平。AI模型GLM-5.2Together AI推理模型编程助手开源模型推荐理由:开源模型GLM-5.2能自己读代码问题、推理并修复,以前只有闭源模型才能做到,现在用Together AI就能跑。原文
13:51Together AI@togethercompute精选Together AI 在 X 上演示语音智能体利用屏幕交互的功能。该方案整合了语音转文本(STT)、语音合成和推理,具体使用 Parakeet 进行 STT,MiniMax Speech 2.8 处理语音,MiniMax M3 进行推理。实时系统要求堆叠每一层保持低延迟。演示展示了完整循环在 Together AI 平台上运行。AI产品Together AIParakeetMiniMax Speech 2.8MiniMax M3语音智能体3 个信源在谈推荐理由:Together AI 搞了个语音智能体 demo,能边看屏幕边说话,用了 Parakeet、MiniMax Speech 2.8 和 M3,实时性很强。原文
13:50François Chollet@fchollet精选François Chollet 指出,如果基准测试依赖静态数据集或训练时已知的静态分布,那么它本质上衡量的是记忆/检索,而非智能。他以 ARC 挑战为例,说明现有基准容易因数据泄露而失效,并强调真正智能需要应对未知变化。Chollet 呼吁社区设计更能体现泛化能力的测试,如基于动态环境的评估。行业François Chollet基准测试智能测评记忆检索ARC推荐理由:Chollet 点破了基准测试的痛点:很多高分模型只是背答案,不是真聪明。做评测的值得看看。原文
13:50François Chollet@fchollet精选François Chollet 指出,智能体编程(Agentic coding)迫使开发者设计清晰的 API 接口并编写完整的文档字符串。AI 代理无法阅读团队内部的隐式心理模型,只能依赖显式的 API 合约和 docstring。这要求接口规范必须精确、无歧义,文档覆盖所有输入/输出场景。对工程团队而言,这意味着需要投入更多时间在接口形式化设计上。技巧Agentic codingAPI设计文档字符串智能体编程助手推荐理由:François Chollet 说得很实在:想用AI代笔写代码,接口就得干净、文档得详细,别指望它懂你没写出来的默契。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……