AITOP

5月14日

18:30

TestingCatalog@testingcatalog

58

OpenSquilla 发布了一款新的开源 AI 智能体，专为执行成本高效、长时间运行的任务而设计。该智能体通过机器学习分类器将简单任务分配给廉价模型，复杂任务分配给更强模型，相比单一固定模型设置可节省 60-80% 的 Token。它采用四层持久化内存（带本地嵌入）和系统调用级沙箱隔离（无需 Docker），并在 Apache-2.0 许可下发布。对于需要运行长期 AI 任务的开发者来说，这是一个值得关注的开源选择。

AI产品智能体开源/仓库成本优化任务路由沙箱隔离

推荐理由：做长期 AI 任务自动化的开发者终于有了一个省 Token 的开源方案——OpenSquilla 通过智能路由和沙箱隔离，直接帮你省下 60-80% 成本，建议试试这个 Apache-2.0 的智能体。

01:10

Moonshot AI: Kimi Blog（资讯）

60

月之暗面（Moonshot AI）在 Kimi API 中推出了上下文缓存（Context Caching）功能，通过复用重复的上下文内容，大幅降低 API 调用成本。该功能特别适用于需要频繁使用相同系统提示、知识库或对话历史的场景，最高可节省 90% 的费用。开发者只需在请求中指定缓存键，即可自动启用缓存，无需修改现有代码。这为构建长对话、知识问答等应用提供了经济高效的解决方案。

AI产品 Kimi API 上下文缓存成本优化月之暗面

推荐理由：Kimi API 的 Context Caching 让高频调用场景的成本直降 90%，做长对话或知识库应用的开发者可以直接用，省下的预算够再跑一轮实验。

5月11日

11:42

arXiv cs.AI（学术论文）

65

标准推理时扩展技术自一致性通过多数投票选答案，但加权多数投票（如置信度感知自一致性CISC）虽更准却需额外调用批评模型增加成本。VecCISC提出轻量自适应框架，利用语义相似度过滤冗余、退化或幻觉轨迹，减少需评估的候选数。在数学、化学、生物、常识推理和人文五个数据集上，VecCISC降低47% token用量，同时保持或超越CISC精度。该方法为推理时扩展提供了更经济的平衡方案。

论文推理模型自一致性成本优化语义聚类 LLM评估

推荐理由：VecCISC通过聚类与过滤显著降低计算开销，对工业界部署高精度推理模型具有实际价值，尤其适合长轨迹场景。