全部 AI 动态 · AI 热点

6月30日

01:33

01:33

AWS Machine Learning Blog@Joshua Lacy

精选

本文介绍如何使用Amazon Bedrock AgentCore的内置可观测性功能调试生产环境中的智能体故障。文章涵盖常见的故障模式，如无限循环和工具调用失败。通过追踪和指标分析智能体行为，并提供结构化工作流来解决问题。本文是两部分系列的第一部分，第二部分将讨论性能优化和内存管理。

技巧 Amazon Bedrock AgentCore 可观测性智能体工具调用

推荐理由：AWS博客教你用Bedrock AgentCore内置观察功能排查生产智能体故障，比如无限循环和工具调用失败，省去自己搭建监控的麻烦。

6月28日

15:15

15:15

marktechpost@Sana Hassan

精选

本教程基于 Hugging Face 的 Fable 5 Traces 数据集，在 Colab 中构建稳定工作流。手动解析合并的 JSONL 文件避免依赖问题，检查仓库文件并标准化工具调用。通过审计结构、脱敏密钥和可视化分布，导出安全的无 CoT 聊天数据集。最后使用纯 Python 的朴素贝叶斯模型在 traces 上训练基线，无需复杂框架。

技巧 Fable 5 Traces Colab 工具调用数据审计基线模型

推荐理由：手把手教你用 Colab 搞定 Fable 5 Traces 数据，从解析到审计再到训练基线，全流程避坑实战。

6月26日

16:09

16:09

marktechpost@Sana Hassan

本教程分步指导你在 Google Colab 中从零构建一个轻量级 AI 智能体，灵感来源于 Nanobot 架构。内容包括：实现提供者抽象层、注册工具调用功能、添加会话记忆管理、集成生命周期钩子、定义技能模块，以及部署一个 MCP 风格的工具服务器。全程不使用外部框架，让你理解消息、工具、记忆与模型响应的协作机制。最终得到一个可对接真实 LLM 提供者的智能体循环。

技巧 Nanobot Google Colab MCP服务器智能体工具调用

推荐理由：手把手教你用 Colab 搭一个能调用工具、记住对话的 AI 智能体，还把 MCP 服务器也揉进去了，代码全开源。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

20:34

20:34Hugging Face: Blog（博客/媒体）

精选

ServiceNow AI 发布了 EVA-Bench Data 2.0，一个面向企业级 AI 智能体的评估基准数据集。该数据集覆盖 3 个领域（IT、HR、客户服务），包含 121 种工具和 213 个场景，旨在测试 AI 智能体在复杂企业环境中的工具调用和任务执行能力。相比第一版，新版本增加了更多真实世界的交互场景和工具多样性，为开发者提供了更全面的评估标准。这对于希望在企业场景中部署 AI 智能体的团队来说，是一个重要的参考资源。

AI产品智能体评估基准企业AI 工具调用 ServiceNow

推荐理由：企业 AI 智能体评估终于有了更贴近真实场景的基准——3 领域 121 工具覆盖 IT、HR、客服，做企业级 AI 落地的团队可以直接用这个数据集来测试自己的智能体。

6月2日

17:15

17:15

marktechpost@Michal Sutter

83°

阿里Qwen团队在百炼平台推出Qwen3.7-Plus，这是一个多模态智能体模型。它不仅能理解图像和视频，还新增了自主编程、工具调用和深度推理能力。该模型支持视觉理解、复杂推理和自动化迭代，可应用于更广泛的AI任务场景。这标志着阿里在构建全能型AI智能体方面迈出重要一步。

AI模型 Qwen3.7-Plus 多模态智能体工具调用百炼平台

推荐理由：Qwen3.7-Plus把视觉、推理和工具调用整合到一个模型里，做多模态应用的开发者可以直接在百炼平台体验，省去拼接多个模型的麻烦。

5月29日

11:17

11:17

pandaily@contact@pandaily.com (Pandaily)

78°

Stepfun 开源了 Step 3.7 Flash，这是一个 196B 参数的稀疏 MoE 大语言模型，专为智能体工作流优化。该模型推理速度达 400 tokens/s，并原生支持工具调用，能高效执行复杂任务。开源此举旨在推动智能体生态发展，降低开发者构建自主系统的门槛。Step 3.7 Flash 在多项基准测试中表现优异，尤其适合需要快速响应和工具集成的场景。

AI模型 Step 3.7 Flash MoE 智能体工具调用开源

推荐理由：做智能体开发的团队终于有了一个原生支持工具调用且速度极快的开源模型——400 tokens/s 的推理速度能显著提升任务执行效率，建议直接上手测试。

07:36

07:36

marktechpost@Asif Razzaq

Liquid AI 发布了 LFM2.5-8B-A1B，一款面向端侧设备的混合专家（MoE）模型。该模型总参数量为 8.3B，但每次推理仅激活 1.5B 参数，大幅降低了计算和内存需求。它支持 128K 上下文长度，具备推理和工具调用能力，可在消费级硬件上运行。这标志着端侧 AI 模型在效率与能力之间取得了重要平衡，为移动设备和边缘计算场景提供了新的选择。

AI模型端侧模型 MoE Liquid AI 推理模型工具调用

推荐理由：端侧部署大模型一直受限于算力和内存，LFM2.5-8B-A1B 用 1.5B 激活参数实现 128K 上下文和工具调用，做移动端 AI 应用或边缘推理的开发者可以直接评估其性能。

5月26日

13:13

13:13IT之家（博客/媒体）

精选

昆仑万维天工 AI 推出 SkyClaw-v1.0 及轻量版 SkyClaw-v1.0-lite，支持百万 token 上下文，专为真实智能体工作流设计。模型在复杂工具调用、多轮任务、代码生成等场景表现优异，全面超越 Minimax 2.7、DeepSeek V4 Flash 等开源模型，性能接近更大规模顶级模型。定价低于同类一半，已接入天工 Skywork 平台，即日起开放 2-4 周免费试用。

AI模型 Agent 模型百万上下文开源/仓库工具调用昆仑万维

推荐理由：做 Agent 开发或自动化工作流的团队终于有了性价比之选——SkyClaw 百万上下文且定价低于同类一半，建议直接免费试用看看能否替代现有方案。

5月25日

10:21

10:21

pandaily@contact@pandaily.com (Pandaily)

83°

阿里巴巴的 Qwen 3.7 Max 模型完成了一次长达 35 小时的自主任务运行，期间执行了 1,158 次工具调用。这一表现展示了模型在长时间、多步骤任务中的持续稳定能力，令海外开发者印象深刻。该成果凸显了 Qwen 系列在复杂自动化场景下的潜力，可能推动更多企业探索 AI 驱动的长周期工作流。

AI模型 Qwen 3.7 Max 阿里巴巴自主任务工具调用长任务

推荐理由：Qwen 3.7 Max 证明了 AI 可以稳定执行 35 小时的长任务，做自动化工作流或复杂项目管理的开发者值得关注，这可能是你寻找的可靠长任务模型。

5月13日

21:36

21:36Simon Willison’s Weblog（博客/媒体）

Simon Willison 分享了一个技巧：在脚本的 shebang 行中直接调用 LLM，让自然语言文本文件像可执行脚本一样运行。最简单的用法是 `#!/usr/bin/env -S llm -f`，后面跟自然语言指令即可生成内容（如 SVG）。还可以通过 `-T` 选项调用工具（如获取当前时间写俳句），甚至嵌入 YAML 模板定义 Python 函数作为工具，实现复杂计算。这个模式让 AI 模型无缝融入 Unix 脚本生态，开发者可以直接用自然语言编写可执行脚本。

技巧 LLM shebang 脚本技巧自然语言编程工具调用

推荐理由：这个技巧把 LLM 变成了 Unix 脚本的一等公民，做自动化或 CLI 工具的开发者可以直接用自然语言写可执行脚本，省去解析参数的麻烦。