6月10日
03:00
03:00Replicate@replicate
72°
Anthropic 最新模型 Claude Fable 5 现已通过 Replicate 平台正式向公众开放。该模型属于 Mythos 级别,性能超越此前所有公开发布的模型,在推理、代码生成和复杂任务处理上表现突出。Replicate 提供了便捷的 API 和在线试用入口,开发者可以立即体验。

推荐理由:Claude Fable 5 是 Anthropic 目前最强的公开模型,性能全面超越前代,做 AI 应用开发或需要高推理能力的团队可以直接通过 Replicate 试用,值得第一时间上手。
6月9日
6月8日
11:03
11:03arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov
ThinkBooster 是一个统一的测试时计算(TTC)扩展框架,旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试,以及兼容OpenAI的代理服务,支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡,并展示了实际增益。代码以MIT许可证开源。

推荐理由:做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益,不用再自己拼凑评估流程,建议直接试。
6月5日
12:42
12:42arXiv: DeepSeek@Natalia Tarasova, Enrique Balp-Straffon, Aleksei Iancheruk, Yevhenii Sielskyi, Nikita Kozodoi, Liam H. Byrne, Jack Butler, Dayuan Jiang, Marcin Czelej, Andrew Ang, Yash Shah, Roi Blanco, Sergei Ivanov
精选
SWE-InfraBench 是一个新基准,用于评估大语言模型在云基础设施即代码(IaC)任务上的表现。与现有基准不同,它聚焦于 AWS CDK 的增量代码修改,而非从头生成整个代码库。数据集来自数十个真实 IaC 代码库,要求模型根据自然语言指令修改现有代码,并通过测试用例验证。评估结果显示,当前最强模型 Sonnet 3.7 的成功率仅为 34%,而推理模型 DeepSeek R1 只有 24%,表明 LLM 在云基础设施代码领域仍有显著局限。该数据集已在 Kaggle 上公开。
推荐理由:云基础设施开发者终于有了一个贴近真实工作流的评估基准——SWE-InfraBench 测试的是增量修改而非从头写代码,做 IaC 或 DevOps 的团队值得关注,看看当前模型在 AWS CDK 上的真实表现。