AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:预训练能力保持×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月28日
11:55
11:55arXiv cs.LG@Yangyi Huang, Ruotian Peng, Zeju Qiu, Jiale Kang, Yandong Wen, Bernhard Schölkopf, Weiyang Liu
论文提出 PEFT-Arena 基准,从稳定性-可塑性困境(目标任务适应 vs 预训练能力保持)评估参数高效微调方法。研究发现,在同等参数预算下,正交微调在帕累托前沿上表现最佳。通过权重空间谱分析和激活空间表示保持分析,解释了不同方法遗忘预训练能力的原因。最终检查点往往偏离最优平衡点,论文展示了路径回退的后处理改进案例。
论文参数高效微调稳定性-可塑性正交微调预训练能力保持PEFT-Arena

推荐理由:做 LLM 微调的团队终于有了评估预训练能力保持的基准——PEFT-Arena 帮你选方法时不再只看下游指标,建议做模型适配的开发者点开看看。
原文
精选全部日报登录