05:21Clement Delangue@ClementDelangue72°Hugging Face CEO Clement Delangue通过实测数据反驳了“智能体会绕过所有工具直接调用API”的流行观点。团队在Hugging Face Hub上对Claude Code和Codex进行了约1000次分级测试,发现智能体使用优化过的CLI工具比手写curl或SDK调用节省高达6倍的token,且任务成功率更高(94% vs 84%)。他认为,在token昂贵的时代,抽象层(如CLI、SDK)是智能体的“缓存智能”,能压缩推理链,降低失败率和成本。因此,智能体不会重建一切,而是会倾向于使用最token高效的软件工具。Hugging Face本身已成为智能体使用AI的平台,两个月内收到约4900万次请求。行业智能体token成本CLI/工具Hugging FaceAI开发推荐理由:这篇实测数据直接打脸了“智能体将消灭所有软件层”的论调,做AI工具和智能体开发的团队值得一看——它告诉你为什么好的CLI和SDK反而更值钱了。原文
18:55rohanpaul_ai@rohanpaul_ai一篇新论文提出“效率前沿”框架,系统比较 LLM 在不同部署场景下的上下文策略。研究发现,在保持答案质量的前提下,选择合适的方法可将 token 消耗降低约 25%,在重复使用记忆的场景下甚至可节省超过 50%。该框架将答案质量与 token 成本联合优化,而非分开评估。实验基于 5000 个 HotpotQA 问题,结果表明:低复用场景轻量检索最优,高复用场景记忆压缩更佳,而全上下文提示仍是追求最高准确率的必要手段。论文LLM上下文管理效率优化token成本检索增强推荐理由:做 LLM 部署优化的团队终于有了量化工具——这篇论文告诉你何时该用检索、何时该用记忆压缩,直接帮你省 token 成本,建议做推理优化的工程师点开看具体方法。原文