Language models scale reliably with over-training and on downstream tasks
相关链接:arxiv
关键字:语言模型、过度训练、下游任务、可扩展性、性能预测
摘要
本文探讨了语言模型在过度训练和下游任务中的可扩展性。尽管现有的扩展研究通常集中在计算最优的训练制度上,但实际上,模型往往被过度训练以降低推理成本。此外,大多数扩展法则主要预测下一个标记的预测损失,而最终模型的性能是基于下游任务的表现来比较的。在本文中,我们通过创建一个包含104个模型的测试平台来解决这两个问题,这些模型在三个数据分布上用不同数量的标记进行了训练。我们首先研究了过度训练制度下的扩展性。我们拟合了扩展法则,该法则在模型参数数量和训练标记比率上进行了外推。这使我们能够预测一个1.4B参数、900B标记运行(即32倍过度训练)和一个6.9B参数、138B标记运行的验证损失——每个实验所需的计算量比构建扩展法则所需的计算量少300倍。其次,我们通过幂律将语言模型的困惑度与其下游任务性能联系起来。我们使用这个法则来预测上述两个模型在下游任务上的平均top-1错误,使用的实验计算量比训练模型少20倍。我们的实验可以在 https://github.com/mlfoundations/scaling 上找到。
核心方法
- 过度训练制度下的扩展性研究:我们发现,在保持训练标记与参数比率恒定的一组模型配置中,模型的可减少损失L’遵循一致的幂律。
- 扩展法则的拟合:我们拟合了扩展法则,通过外推模型参数数量和训练标记比率来预测验证损失。
- 困惑度与下游任务性能的关系:我们建立了一个幂律关系,将语言模型的困惑度与其在一系列下游任务上的平均top-1错误联系起来。
实验说明
模型参数(N) | 训练标记比率(M) | 验证损失预测 | 下游任务平均top-1错误预测 |
---|---|---|---|
1.4B | 640 | 准确预测 | 使用20倍少的计算量准确预测 |
6.9B | 20 | 准确预测 | 使用20倍少的计算量准确预测 |
- 数据结果:上表展示了在不同模型参数和训练标记比率下的验证损失和下游任务平均top-1错误的预测结果。
- 数据要求:实验使用了不同数据分布上训练的模型,并在多个下游任务上评估了它们的性能。
- 来源:实验结果来源于公开的数据集和作者的实验。
结论
我们的研究结果表明,即使在模型大小和过度训练量增加的情况下,扩展法则在过度训练制度下也是可预测的。此外,通过困惑度与下游任务性能之间的幂律关系,我们可以准确预测在下游任务上的平均top-1错误。我们的工作为进一步研究可靠的扩展性提供了实验基础,并希望激发其他研究者进一步探讨模型训练与下游泛化之间的关系。