LLM常见问题(Token 及模型参数部分)-灵析社区

算法无限

1. 预训练模型表现影响因素有那些?

  1. 模型表现强依赖于模型规模(模型参数量 N、训练 Token 数 D、训练总计算量 C)。
  2. 平滑幂定律:模型表现与三个因子均遵循幂定律,不受另外两个因子限制。
  3. 在给定计算量预算下,模型参数量以及训练 Token 数应该同比提升,对应模型参数量需要的训练 Token 数量。

2. SFT需要训练需要多少 Token 数?

  1. 扩大数据量而不同时扩大提示多样性时,收益会大大减少,而在优化数据质量时,收益会大大增加。
  2. 特定任务的模型可能从固定的任务类型中获益,以获得更高的性能;指令格式的多样性可能对特定任务模型的性能影响很小;即使是少量的数据(1.9M tokens)也能为特定任务模型的指令调整带来可喜的结果。
  3. 一个模型的知识和能力几乎完全是在预训练中学习的,而对齐则是教它在与用户交互时应该使用哪种子分布的格式。

3. 重复 Token 对模型性能有什么影响?

在LLM时代,很多模型的 epoch 只有1次或者几次。例如,2022年谷歌的 PaLM 模型,其训练的 epoch 数量只有 1。而 MetaAI 训练的 LLaMA 模型,在不同数据集上训练的 epoch 设置都是 1-2。这似乎与我们之前理解的模型训练充分有不一致。

  1. 2022年,Hoffmann 的论文中提出用重复的 tokens 训练大语言模型会让模型降低性能,而 Taylor 在训练 Galactica 模型时候发现 epochs 次数达到4次也可以提升模型效果。显然,在重复数据集上训练多次对模型的影响目前还没有一个相对完善的研究。
  2. 相对更高质量的数据集并不能降低重复训练带来的影响
  3. FLOPs 较大的模型性能会更好一点,但是依然无法有效降低重复训练带来的模型损失。
  4. 在目前超过 100亿 参数规模的大语言模型中,如 GPT-3、PaLM、LLaMA 等,都没有使用 dropout(可能是因为太慢了)。而前面说的 Galactica 训练使用了,这是 Galactica 能够训练 4 Epochs 提升性能的最重要的原因。

阅读量:421

点赞量:0

收藏量:0