大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
今天给大家带来的文章是大模型微调的技巧和方法,希望能对同学们有所帮助。
文章目录
- 1. 定义
- 2. LoRA微调参数
- 3. 书籍推荐
- 3.1 《实战AI大模型》
- 3.2 粉丝福利
- 3.3 自主购买
1. 定义
对于大语言模型而言,全量微调的代价是比较高的,需要数百GB的显存来训练具有几B参数的模型。为了解决资源不足的问题,大佬们提出了一种新的方法:低秩适应(Low-Rank Adaptation)。与微调OPT-175B相比,LoRA可以将可训练参数数量减少一万倍,并且GPU显存降低3倍以上。详细内容可参考论文《LoRA: Low-Rank Adaptation of Large Language Models》和HuggingFace PEFT博客文章《Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware》。
LoRA是一种常用的高效微调的训练方法(PEFT),旨在加快大型语言模型的训练过程,同时减少显存的使用。通过引入更新矩阵对现有权重进行操作,LoRA专注于训练新添加的权重。LoRA方法具有以下的几大优点:
- 保留预训练权重:LoRA保持先前训练权重的冻结状态,最小化了灾难性遗忘的风险。这确保了模型在适应新数据时保留其现有知识。
- 已训练权重的可移植性:与原始模型相比,LoRA中使用的秩分解矩阵参数明显较少。这个特点使得经过训练的LoRA权重可以轻松地转移到其他环境中,使它们非常易于移植。
- 与注意力层集成:通常将LoRA矩阵合并到原始模型的注意力层中。此外,自适应缩放参数允许控制模型对新培训数据调整程度。
- 显存效率:LoRA改进后具有更高效利用显存资源能力,在不到本机微调所需计算量3倍情况下运行微调任务成为可能。
对于普通用户来说,依然很难满足1/3的显存需求。幸运的是,大佬们又发明了一种新的LoRA训练方法:量化低秩适应(QLoRA)。它利用bitsandbytes库对语言模型进行即时和近无损量化,并将其应用于LoRA训练过程中。这导致显存需求急剧下降,可以在2个3090卡上微调70B的模型。相比之下,要微调同等规模的模型通常需要超过16个A100-80GB GPU,对应的成本将非常巨大。详细内容可参考论文QLoRA: Efficient Finetuning of Quantized LLMs。
2. LoRA微调参数
首先最关键的参数为:低秩矩阵对应的秩(rank)。为了减少显存,对权重矩阵应用了低秩分解。在LoRA论文中,建议rank设置不小于8(r = 8)。请记住,较高的rank会导致更好的结果,但需要更多的显存。数据集的数量和复杂度越高,所需的rank就越高。
除此之外,另外需要设置的参数即为LoRA微调对应的网络层。最基本的训练对象是查询向量(例如q_proj)和值向量(例如v_proj)投影矩阵。不同模型对应的网络层如下所示:
Model | Model size | Default module |
---|---|---|
Baichuan | 7B/13B | W_packbaichuan |
Baichuan2 | 27B/13B | W_packbaichuan2 |
BLOOM | 560M/1.1B/1.7B/3B/7.1B/176B | query_key_value |
BLOOMZ | 560M/1.1B/1.7B/3B/7.1B/176B | query_key_value |
ChatGLM | 36B | query_key_value |
Falcon | 7B/40B/180B | query_key_value |
InternLM | 7B/20B | q_proj,v_proj |
LLaMA | 7B/13B/33B/65B | q_proj,v_proj |
LLaMA-2 | 7B/13B/70B | q_proj,v_proj |
Mistral | 7B | q_proj,v_proj |
Mixtral | 8x7B | q_proj,v_proj |
Phi | 1.5/21.3B/2.7B | Wqkv-Q |
Qwen | 1.8B/7B/14B/72B | c_attn |
XVERSE | 7B/13B/65B | q_proj,v_proj |
Yi | 6B/34B | q_proj,v_proj |
3. 书籍推荐
大模型是深度学习自然语言处理皇冠上的一颗明珠,也是当前AI和NLP研究与产业中最重要的方向之一。《实战AI大模型》系统介绍了大模型的理论和实践方法,非常值得深入学习。
3.1 《实战AI大模型》
本书涉及内容包含基本概念和实践技巧,全方位解读AI大模型填补人工智能领域(特别是AI大模型)) 理论与实践之间鸿沟的实用手册。
本书是由人工智能领域资深专家尤洋老师倾力打造,获得了李开复、周鸿祎、颜水成三位大咖鼎力推荐,一经上市就登上了京东“计算机与互联网”图书排行榜Top1的宝座。
本书涉及模型众多,具体包括Transformer、BERT、ALBERT、InstructGPT、GPT系列、ChatGPT、GPT 4和PaLM视觉模型等经典和最新的大模型。
3.2 粉丝福利
- 本次送书两本
- 活动时间:截止到2024-1-8 9:00
- 参与方式:关注博主、并在此文章下面点赞、收藏并任意评论。
3.3 自主购买
小伙伴也可以访问链接进行自主购买哦~
直达京东购买链接:《实战AI大模型》