文章目录系列LLaMA-Factory简介推荐硬件要求环境搭建数据准备指令微调数据集偏好数据集自定义数据集指令监督微调合并 LoRA 权重并导出模型其他(训练全流程)预训练奖励模型训练PPO 强化学习训练DPO 强化学习训练通过一站式网页界面快速上手