01:42OpenRouter@OpenRouterAIOpenRouter 持续对大多数开源权重模型运行 GPQA 与 TAU-Bench 两个基准,并将结果公开。这些成绩被用于其 AutoExacto 元基准,后者是路由工具调用的默认依据。当前 Parasail 和 Zai 在排行榜上位列第一。技巧OpenRouterGPQATAU-BenchAutoExacto基准测试推荐理由:选模型路由工具前,看看 OpenRouter 定期跑的 GPQA 和 TAU-Bench 排名,现在 Parasail 和 Zai 排第一,挺有参考价值。原文
14:08AlphaSignal@AlphaSignalAI研究人员在论文《Training-Free Looped Transformers via Numerical ODE Integration》中提出一种无需重新训练即可提升冻结大模型性能的方法。该方法将每一层视为解常微分方程的一步,用多个小阻尼步骤替换原始大步骤,使模型获得更多推理时间。在MMLU-Pro上取得+2.64分提升,在GPQA上取得+2.01分提升,并在87%的测试组合中保持正向效果。AI模型Looped TransformersMMLU-ProGPQA推理模型无训练优化1 个信源在谈推荐理由:这篇论文教会你一种骚操作:不重新训练,就能让现成模型在推理时多思考几轮,MMLU-Pro和GPQA分数都涨了,值得看看。原文