文章目录

      • 系列
      • LLaMA-Factory简介
      • 推荐硬件要求
      • 环境搭建
      • 数据准备
        • 指令微调数据集
        • 偏好数据集
        • 自定义数据集
      • 指令监督微调
      • 合并 LoRA 权重并导出模型
      • 其他(训练全流程)
        • 预训练
        • 奖励模型训练
        • PPO 强化学习训练
        • DPO 强化学习训练
      • 通过一站式网页界面快速上手