day04

LoRA微调

大模型微调的步骤:在选定相关数据集和预训练模型的基础上,通过设置合适的超参数并对模型进行必要的调整,使用特定任务的数据对模型进行训练以优化其性能。

微调的四个步骤

  • 数据处理:选择与任务相关的数据集,对数据集进行预处理。
  • 模型加载:将预训练的大模型导入。
  • 设置模型微调参数:加载预训练的大模型,使用新的任务数据对其进行微调,包括设定学习率,训练轮次,批次大小等。
  • alt text

大模型微调流程-RLHF(Reinforcement Learning from Human Feedback)

RLHF(Reinforcement Learning from Human Feedback):一种利用人类反馈作为奖励信号来训练强化学习模型的方法,旨在提升模型生成文本等内容的质量,使其更符合人类偏好。
强化学习(Reinforcement Learning)结合人类反馈(Human Feedback)来微调大语言模型(Large Language Models)的一般过程:

1. 使用监督数据微调语言模型

这一步与传统的fine-tuning类似,即使用标注过的数据来调整预训练模型的参数,使其更好地适应特定任务或领域。

2. 训练奖励模型
  • 奖励模型用于评估文本序列的质量,它接受一个文本作为输入,并输出一个数值,表示该文本符合人类偏好的程度。
  • 训练数据通常由多个语言模型生成的文本序列组成,这些序列经过人工评估或使用其他模型(如ChatGPT)进行打分。

alt text

3. 训练RL模型

在强化学习框架中,需要定义状态空间、动作空间、策略函数和价值函数。策略函数就是经过微调的大语言模型,它根据当前状态选择下一个动作。

微调应用

  1. 全量微调
    全量微调利用特定任务数据调整预训练模型的所有参数,以充分适应新任务。它依赖大规模计算资源,但能有效利用预训练模型的通用特征。

  2. 参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)
    PEFT旨在通过最小化微调参数数量和计算复杂度,实现高效的迁移学习。它仅更新模型中的部分参数,显著降低训练时间和成本,适用于计算资源有限的情况。PEFT技术包括Prefix Tuning、Prompt Tuning、Adapter Tuning等多种方法,可根据任务和模型需求灵活选择。