6月12日
6月10日
6月9日
6月8日
11:03
11:03arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov
ThinkBooster 是一个统一的测试时计算(TTC)扩展框架,旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试,以及兼容OpenAI的代理服务,支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡,并展示了实际增益。代码以MIT许可证开源。

推荐理由:做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益,不用再自己拼凑评估流程,建议直接试。
6月5日
12:42
12:42arXiv: DeepSeek@Natalia Tarasova, Enrique Balp-Straffon, Aleksei Iancheruk, Yevhenii Sielskyi, Nikita Kozodoi, Liam H. Byrne, Jack Butler, Dayuan Jiang, Marcin Czelej, Andrew Ang, Yash Shah, Roi Blanco, Sergei Ivanov
精选
SWE-InfraBench 是一个新基准,用于评估大语言模型在云基础设施即代码(IaC)任务上的表现。与现有基准不同,它聚焦于 AWS CDK 的增量代码修改,而非从头生成整个代码库。数据集来自数十个真实 IaC 代码库,要求模型根据自然语言指令修改现有代码,并通过测试用例验证。评估结果显示,当前最强模型 Sonnet 3.7 的成功率仅为 34%,而推理模型 DeepSeek R1 只有 24%,表明 LLM 在云基础设施代码领域仍有显著局限。该数据集已在 Kaggle 上公开。
推荐理由:云基础设施开发者终于有了一个贴近真实工作流的评估基准——SWE-InfraBench 测试的是增量修改而非从头写代码,做 IaC 或 DevOps 的团队值得关注,看看当前模型在 AWS CDK 上的真实表现。
6月4日
6月3日
10:47
10:47arXiv cs.AI@Areeb Gani, Asal Meskin, Gabrielle Kaili-May Liu, Arman Cohan
精选
该研究提出一个系统框架,用于量化大型推理模型(LRM)在输出长链思维时,其内在置信度与语言表达置信度之间的对齐程度(即忠实校准FC)。研究发现,LRM的推理行为并不会自动提升FC,且针对非推理模型的提示干预在推理场景中无效。不同置信度估计器对同一推理轨迹给出分歧评估,暴露了现有评估方法的脆弱性。这项工作将FC确立为LRM在高风险部署场景下的关键可靠性与对齐目标。
推荐理由:LRM的推理链常被用户视为深思熟虑的证据,但这项研究戳破了这个幻觉——推理行为并不等于置信度表达更可靠。做模型对齐或安全评估的团队值得关注,尤其是那些在医疗、金融等高风险场景部署LRM的开发者,看完会重新审视你的置信度校准策略。
6月2日
5月29日
5月28日
5月27日