大模型微调实战：大语言模型LLM-微调经验分享&总结

本文总结了作者在ChatGLM-6B模型微调的经验，并汇总了目前开源项目&数据。

AI-智能

1383人浏览 · 2024-11-16 14:34:05

AI-智能 · 2024-11-16 14:34:05 发布

本文总结了作者在ChatGLM-6B模型微调的经验，并汇总了目前开源项目&数据。

写在前面

大型语言模型横行，之前非常焦虑，现在全面拥抱。目前也有很多开源项目进行大模型微调等，笔者也做了一阵子大模型了，特此来介绍一下ChatGLM-6B模型微调经验，并汇总了一下目前开源项目&数据。笔者与很多人微调结论不同，本人在采用单指令上进行模型微调，发现模型微调之后，「并没有出现灾难性遗忘现象」。

项目地址：https://github.com/liucongg/ChatGLM-Finetuning

ChatGLM-6B模型微调

模型越大对显卡的要求越高，目前主流对大模型进行微调方法有三种：Freeze方法、P-Tuning方法和Lora方法。笔者也通过这三种方法，在信息抽取任务上，对ChatGLM-6B大模型进行模型微调。为了防止大模型的数据泄露，采用一个领域比赛数据集-汽车工业故障模式关系抽取(https://www.datafountain.cn/competitions/584)，随机抽取50条作为测试集。

详细代码见上面的GitHub链接，并且也被ChatGLM官方收录。

Freeze方法

Freeze方法，即参数冻结，对原始模型部分参数进行冻结操作，仅训练部分参数，以达到在单卡或不进行TP或PP操作，就可以对大模型进行训练。

微调代码，见finetuning_freeze.py，核心部分如下：

for name, param in model.named_parameters():  
    if not any(nd in name for nd in ["layers.27", "layers.26", "layers.25", "layers.24", "layers.23"]):  
        param.requires_grad = False

针对模型不同层进行修改，可以自行修改。训练代码均采用DeepSpeed进行训练，可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text等，可根据自己的任务配置。

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_freeze.py --num_train_epochs 5 --train_batch_size 2

三元组抽取的推理代码，见predict_freeze.py，其他任务可以根据自己的评价标准进行推理预测。

PT方法

PT方法，即P-Tuning方法，参考ChatGLM官方代码(https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md) ，是一种针对于大模型的soft-prompt方法。

P-Tuning(https://arxiv.org/abs/2103.10385)，仅对大模型的Embedding加入新的参数。
P-Tuning-V2(https://arxiv.org/abs/2110.07602)，将大模型的Embedding和每一层前都加上新的参数。

微调代码，见finetuning_pt.py，核心部分如下：

config = ChatGLMConfig.from_pretrained(args.model_dir)  
config.pre_seq_len = args.pre_seq_len  
config.prefix_projection = args.prefix_projection  
  
model = ChatGLMForConditionalGeneration.from_pretrained(args.model_dir, config=config)  
  
for name, param in model.named_parameters():  
    if not any(nd in name for nd in ["prefix_encoder"]):  
        param.requires_grad = False

当prefix_projection为True时，为P-Tuning-V2方法，在大模型的Embedding和每一层前都加上新的参数；为False时，为P-Tuning方法，仅在大模型的Embedding上新的参数。

可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text、pre_seq_len、prompt_text等，可根据自己的任务配置。

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_pt.py --num_train_epochs 5 --train_batch_size 2 --pre_seq_len 16

三元组抽取的推理代码，见predict_pt.py，其他任务可以根据自己的评价标准进行推理预测。

Lora方法

Lora方法，即在大型语言模型上对指定参数增加额外的低秩矩阵，并在模型训练过程中，仅训练而外增加的参数。当“秩值”远小于原始参数维度时，新增的低秩矩阵参数量很小，达到仅训练很小的参数，就能获取较好的结果。

Lora论文：https://arxiv.org/abs/2106.09685
官方代码：https://github.com/microsoft/LoRA
HuggingFace封装的peft库：https://github.com/huggingface/peft

微调代码，见finetuning_lora.py，核心部分如下：

model = ChatGLMForConditionalGeneration.from_pretrained(args.model_dir)  
config = LoraConfig(r=args.lora_r,  
                    lora_alpha=32,  
                    target_modules=["query_key_value"],  
                    lora_dropout=0.1,  
                    bias="none",  
                    task_type="CAUSAL_LM",  
                    inference_mode=False,  
                    )  
  
model = get_peft_model(model, config)

可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text、lora_r等，可根据自己的任务配置。

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_lora.py --num_train_epochs 5 --train_batch_size 2 --lora_r 8

三元组抽取的推理代码，见predict_lora.py，其他任务可以根据自己的评价标准进行推理预测。

注意：对于结果需要保持一致的任务(即关掉dropout，解码关掉do_sample)，需要保存模型的adapter_config.json文件中，inference_mode参数修改成false，并将模型执行model.eval()操作。主要原因是chatglm模型代码中，没有采用Conv1D函数。

三元组抽取实验结果

模型训练时，最大长度为768，Batch大小为2，训练轮数为5，fp16训练，采用DeepSpeed的Zero-1训练；
PT为官方的P-Tuning V2训练方法，PT-Only-Embedding表示仅对Embedding进行soft-prompt，Freeze仅训练模型后五层参数，Lora采用低秩矩阵方法训练，秩为8；
由于之前训练PT在48G-A40显卡上会出现OOM，因此之前进行PT实验时对模型开启了gradient_checkpointing_enable，使得模型显存占用变小，但训练时长增加。
训练示例：

prompt_text：你现在是一个信息抽取模型，请你帮我抽取出关系内容为\"性能故障\", \"部件故障\", \"组成\"和 \"检测工具\"的相关三元组，三元组内部用\"_\"连接，三元组之间用\\n分割。文本：  
输入：故障现象：发动机水温高，风扇始终是低速转动，高速档不工作，开空调尤其如此。  
输出：发动机_部件故障_水温高\n风扇_部件故障_低速转动

时间换空间，可用很好的解决显卡的资源问题，简单玩玩还可以，如果想要模型达到最优效果或可用快速看到效果，还不如租张A100卡，快速实验，推理阶段再用自己的小破卡。

笔者找到一家新的算力平台-揽睿星舟，单张A100仅要6.4元/小时，我翻了一圈，算是便宜的了(反正比AutoDL便宜一点，便宜一点是一点吧)。

下面实验结果均是在租的80G-A100上进行的实验，与Github里用的A40的实验结果会有些差异，主要在训练时长(纯训练速度，剔除模型保存的时间)。说实话，真的要训练一个大模型，多个A100是必不可少的，可以减少很多模型并行的操作，效果上也更好把控一些。

微调方法	PT-Only-Embedding	PT	Freeze	Lora
显卡占用	37G	56G	24G	39G
总参数	6.259B	7.211B	6.255B	6.259B
可训练参数占比	0.0586%	13.26%	16.10%	0.0586%
训练耗时	20min	52min	46min	25min
测试结果F1	0.0	0.6283	0.5675	0.5359

结果分析：

效果为PT>Freeze>Lora>PT-Only-Embedding;
速度为PT-Only-Embedding>Lora>Freeze>PT;
PT-Only-Embedding效果很不理想，发现在训练时，最后的loss仅能收敛到2.几，而其他机制可以收敛到0.几。分析原因为，输出内容形式与原有语言模型任务相差很大，仅增加额外Embedding参数，不足以改变复杂的下游任务;
PT方法占用显存更大，因为也增加了很多而外参数;
测试耗时，采用float16进行模型推理，由于其他方法均增加了额外参数，因此其他方法的推理耗时会比Freeze方法要高。当然由于是生成模型，所以生成的长度也会影响耗时;
模型在指定任务上微调之后，并没有丧失原有能力，例如生成“帮我写个快排算法”，依然可以生成-快排代码;
由于大模型微调都采用大量instruction进行模型训练，仅采用单一的指令进行微调时，对原来其他的指令影响不大，因此并没导致原来模型的能力丧失;
上面测试仅代表个人测试结果。

很多同学在微调后出现了灾难性遗忘现象，但我这边并没有出现，对“翻译任务”、“代码任务”、“问答任务”进行测试，采用freeze模型，可以用test_forgetting.py进行测试，具体测试效果如下：

翻译任务

代码任务

问答任务

后面会把生成任务、分类任务做完，请持续关注Github，会定期更新。（太忙了，会抓紧时间更新，并且官方代码也在持续更新，如遇到代码代码调不通的情况，请及时联系我，我在github也给出了我的代码版本和模型版本）

中文开源大模型&项目

虽然出来很多大模型，但Open的&中文可直接使用的并不多，下面对中文开源大模型、数据集和项目进行一下汇总。

中文开源大模型

直接可微调，无需指令增量训练：

ChatGLM-6B：https://huggingface.co/THUDM/chatglm-6b
ChatYuan-large-v2：https://huggingface.co/ClueAI/ChatYuan-large-v2

原始模型多语言or英文，需要中文指令数据集增量训练：

BloomZ：https://huggingface.co/bigscience/bloomz
LLama：https://github.com/facebookresearch/llama
Flan-T5：https://huggingface.co/google/flan-t5-xxl
OPT：https://huggingface.co/facebook/opt-66b

中文开源指令数据

下面中文指令集，大多数从Alpaca翻译而来，请看下面项目中data目录。目前通过ChatGPT或者GPT4作为廉价标注工为自己的数据进行数据标注一个不错的思路。

[1]：https://github.com/LC1332/Chinese-alpaca-lora
[2]：https://github.com/hikariming/alpaca_chinese_dataset
[3]：https://github.com/carbonz0/alpaca-chinese-dataset
[4]：https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
[5]：https://github.com/LianjiaTech/BELLE
[6]：https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

开源项目

总结下面较火的开源项目：

BELLE：https://github.com/LianjiaTech/BELLE
ChatGLM：https://github.com/THUDM/ChatGLM-6B
Luotuo-Chinese-LLM：https://github.com/LC1332/Luotuo-Chinese-LLM
stanford_alpaca：https://github.com/tatsu-lab/stanford_alpaca

总结

目前各大厂的大模型陆陆续续放出，堪称百家争鸣！个人玩家也是全面拥抱，想尽一切办法来训练微调大模型。只愿大家以后可以实现“大模型”自由。愿再无“model-as-a-service”。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

美团天天神券自动化助手 - 开启智能抢券新时代 [特殊字符]

美团天天神券自动化项目，是基于Python编写的高效工具，专为美团用户设计。它简化了参与美团日常优惠活动的流程，采用直观的脚本形式，大大提升了用户体验。该项目在GitHub上活跃，地址为 [https://github.com/chen-kai-1/meituan-shenquan.git](https://github.com/chen-kai-1/meituan-shenquan.git)，适

EazyDevelop社区

【亲测免费】 AutoJs6: Android平台JavaScript自动化神器指南

---## 项目介绍**AutoJs6** 是一个基于Android平台的JavaScript自动化工具，它脱胎于原Auto js项目，由SuperMonster003于2021年12月01日启动二次开发，旨在延续开源免费的传统。AutoJs6充分利用了无障碍服务，让开发者能够以JavaScript编写脚本来自动化各种Android设备上的任务。它完美继承了前辈的精髓，并在此基础上添加新特

EazyDevelop社区

【亲测免费】 Logparser：自动化日志解析的利器

在现代软件系统中，日志是记录系统运行状态和故障信息的重要手段。然而，大量的非结构化日志数据往往难以直接用于分析和故障排查。为了解决这一问题，`Logparser` 应运而生。`Logparser` 是一个开源的机器学习工具包，专注于自动化日志解析，能够将非结构化的日志数据转换为结构化的日志事件序列，从而为后续的日志分析提供便利。## 项目技术分析`Logparser` 的核心技术在于其强大