TestingCatalog@testingcatalog58OpenSquilla 发布了一款新的开源 AI 智能体,专为执行成本高效、长时间运行的任务而设计。该智能体通过机器学习分类器将简单任务分配给廉价模型,复杂任务分配给更强模型,相比单一固定模型设置可节省 60-80% 的 Token。它采用四层持久化内存(带本地嵌入)和系统调用级沙箱隔离(无需 Docker),并在 Apache-2.0 许可下发布。对于需要运行长期 AI 任务的开发者来说,这是一个值得关注的开源选择。AI产品智能体开源/仓库成本优化任务路由沙箱隔离推荐理由:做长期 AI 任务自动化的开发者终于有了一个省 Token 的开源方案——OpenSquilla 通过智能路由和沙箱隔离,直接帮你省下 60-80% 成本,建议试试这个 Apache-2.0 的智能体。
Moonshot AI: Kimi Blog(资讯)60月之暗面(Moonshot AI)在 Kimi API 中推出了上下文缓存(Context Caching)功能,通过复用重复的上下文内容,大幅降低 API 调用成本。该功能特别适用于需要频繁使用相同系统提示、知识库或对话历史的场景,最高可节省 90% 的费用。开发者只需在请求中指定缓存键,即可自动启用缓存,无需修改现有代码。这为构建长对话、知识问答等应用提供了经济高效的解决方案。AI产品KimiAPI上下文缓存成本优化月之暗面推荐理由:Kimi API 的 Context Caching 让高频调用场景的成本直降 90%,做长对话或知识库应用的开发者可以直接用,省下的预算够再跑一轮实验。
arXiv cs.AI(学术论文)65标准推理时扩展技术自一致性通过多数投票选答案,但加权多数投票(如置信度感知自一致性CISC)虽更准却需额外调用批评模型增加成本。VecCISC提出轻量自适应框架,利用语义相似度过滤冗余、退化或幻觉轨迹,减少需评估的候选数。在数学、化学、生物、常识推理和人文五个数据集上,VecCISC降低47% token用量,同时保持或超越CISC精度。该方法为推理时扩展提供了更经济的平衡方案。论文推理模型自一致性成本优化语义聚类LLM评估推荐理由:VecCISC通过聚类与过滤显著降低计算开销,对工业界部署高精度推理模型具有实际价值,尤其适合长轨迹场景。