02:13AWS Machine Learning Blog@Po-Shin Chen精选AWS博客介绍了Strands Evals工具,用于检测AI Agent执行中的失败并定位根因。调用detector函数后,输出包含分类失败类型与置信度分数、从根因到下游症状的因果链,以及修复建议(指定修改系统提示还是工具定义)。该工具可集成到评估流程中,实现每个测试运行的自动诊断。技巧Strands EvalsAWS智能体故障诊断评测2 个信源在谈推荐理由:AWS教你用Strands Evals自动揪出AI Agent的失败根因,还告诉你该改提示词还是工具定义,比盲猜管用多了。原文
12:55Amazon Science@AmazonScience精选亚马逊AWS宣布其Nitro隔离引擎(Nitro Isolation Engine)已在Graviton5实例上正式商用,成为首个部署在商业云中的形式化验证的虚拟机监控器。该引擎通过33万行机器检查的数学证明来确保安全隔离,消除了传统软件漏洞的风险。这一突破意味着云租户可以依赖数学保证而非仅靠测试来获得隔离安全性,对高安全需求的行业(如金融、医疗)尤为重要。AI产品形式化验证AWSGraviton5云安全虚拟机监控器推荐理由:形式化验证从学术走向商业云,做云安全或高合规性系统的团队值得关注——数学证明比测试更可靠,AWS已经把它落地了。原文
12:54Amazon Science@AmazonScience精选AWS 宣布其自研芯片 Graviton5 正式可用。该芯片采用四芯片架构,拥有 192 个核心,支持 DDR5-8800 内存和 PCIe Gen6。相比上一代 Graviton4,在通用计算和智能体 AI 工作负载上性能提升 25%。这标志着 AWS 在自研芯片领域的又一重要进展,为云端 AI 和通用计算提供了更强的基础设施选择。AI产品AWSGraviton5芯片云端计算AI 基础设施推荐理由:AWS 自研芯片的迭代直接关系到云端计算成本与性能,做 AI 推理或大规模部署的团队值得关注 Graviton5 的性价比提升。原文
11:49AWS Machine Learning Blog@Ishan Singh精选AWS 发布了 Agent-EvalKit,一个基于 Apache 2.0 的开源工具包,用于系统评估 AI 智能体。它集成了 Claude Code、Kiro CLI 和 Kilo Code 等 AI 编程助手,提供六个评估阶段来全面测试智能体性能。文章以 Strands Agents SDK 和 Amazon Bedrock 构建的旅行研究智能体为例,展示了如何应用该工具。Agent-EvalKit 解决了智能体评估缺乏标准化的问题,帮助开发者量化智能体的准确性和可靠性。AI产品智能体评估工具开源/仓库AWSClaude Code1 个信源在谈推荐理由:做 AI 智能体开发的团队终于有了标准化的评估工具——Agent-EvalKit 覆盖六个阶段,直接集成主流编程助手,建议做智能体项目的开发者试试。原文
23:26Harrison Chase@hwchase17精选LangSmith 与 AWS 联合发布了一篇深度博客,详细介绍了如何使用 LangSmith 评估 Deep Agents(长周期智能体)。文章涵盖了数据点设计和评估器设计,针对长周期智能体的评估挑战提供了实用方案。这对于构建和优化复杂智能体的开发者具有重要参考价值。AI产品智能体评估LangSmithAWS长周期智能体推荐理由:长周期智能体的评估一直是个难题,这篇博客给出了具体的数据点和评估器设计方法,做智能体开发的团队可以直接参考实践。原文
18:49rohanpaul_ai@rohanpaul_ai精选76°Amazon 发布了新型数据中心网络架构“Resilient Network Graphs”(RNG),用扁平随机图替代传统的胖树结构,将硬件需求降低 69%,吞吐量提升 33%。该设计自去年起已在 AWS 数据中心悄然部署,现已成为大多数 AWS 工作负载的默认网络。RNG 通过扁平化随机图连接路由器,提供多条独立路径,避免胖树网络的流量瓶颈问题。其路由系统 Spraypoint 将流量分散到多条路径,ShuffleBox 布线设备使随机连接变得可实施。实测显示,RNG 在性能上与胖树网络持平,但成本降低 9% 至 45%,尤其对 AI 集群的大规模同步训练流量有显著改善。行业数据中心网络AWSRNGAI训练网络架构推荐理由:AWS 用 RNG 解决了胖树网络的流量瓶颈,做 AI 训练和大规模云计算的团队可以直接受益——更少的硬件、更低的成本、更好的吞吐,值得点开了解工程细节。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……