全面解析：大模型微调从入门到精通，掌握完整流程与技巧

本次微调经验分享依据于我们参加的“第2届·百度搜索创新大赛——搜索答案组织”整个比赛过程。我们团队选择的基座模型是ChatGLM3-6B-Base模型，训练数据集为官方提供的数据集（9000条）,训练方法为LORA sft 监督微调。最终结果：score 36.12–ROUGE-L 41.03–BLEU-4 31.22,东三省排名第1名,全国最终排名为44/220。

AI小白熊

1351人浏览 · 2024-09-11 10:15:51

AI小白熊 · 2024-09-11 10:15:51 发布

微调实战经历

本次微调经验分享依据于我们参加的“第2届·百度搜索创新大赛——搜索答案组织”整个比赛过程。

我们团队选择的基座模型是ChatGLM3-6B-Base模型，训练数据集为官方提供的数据集（9000条）,训练方法为LORA sft 监督微调。

最终结果：score 36.12–ROUGE-L 41.03–BLEU-4 31.22,东三省排名第1名,全国最终排名为44/220。需要技术交流，文末加入我们，记得点赞、收藏、关注我们。

开始微调（SFT）

准备微调框架

微调框架选择的是github上面的llama-factory开源项目

git clone https://github.com/hiyouga/LLaMA-Factory.git<br>
cd LLaMA-Factory<br>
pip install -r requirements.txt

推荐python=3.10，如果要在 Windows 平台上开启量化 LoRA（QLoRA），需要安装预编译的 bitsandbytes 库, 支持 CUDA 11.1 到 12.1

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.39.1-py3-none-win_amd64.whl

加载数据集

在data文件夹下面创建xxx.json命名格式的数据集json文件，本人设置的是baidutrain.json

json文件格式如下

[
   {
        "query": "王者荣耀钻石夺宝幸运值满是多少",
        "refs": [
            "积分夺宝幸运值满值为360点,钻石夺宝幸运值满值为200点,但是夺宝幸运值满了之后还需要一抽才能获得水晶,所以积分夺宝361抽必定获得水晶,钻石夺宝201抽必定获得水晶。",
            "王者钻石夺宝幸运值满是200。",
            "1、最高的幸运值上限是200,每抽一次会获得1点幸运值。王者荣耀里面的钻石夺宝幸运值达到200就满了,也就是说当幸运值满200时,再夺宝一次是必出一个王者水晶的,拥有王者水晶可以到水晶商店里面去兑换物品了,兑换的物品都是永久的。",
            "幸运值满值是360,玩家在抽361的时候是保底必出水晶,这个保底是人人都能抽出水晶的,也就是100%可以让玩家得到水晶,荣耀水晶的概率是0.8%,但是玩家们如果在不断增加抽奖的次数,那么抽出水晶的概率也会增加,想要抽出水晶的玩家可以将361次当做保底的次数。",
            "玩家获取王者水晶之后，可以使用该道具兑换王者商店中的奖励，包含了回城特效、英雄、中级品质的皮肤等奖励。"
        ],
        "answer": "《王者荣耀》钻石夺宝幸运值满值为200点。\n\n钻石夺宝幸运值满200后再抽一次必出一个王者水晶，玩家获取王者水晶之后，可以使用该道具兑换王者商店中的奖励，其中包含了回城特效、英雄、中级品质的皮肤等，兑换的物品永久有效。"
    },
    {
        "query": "王手是什么意思",
        "refs": [
            "一、原神王手。 王手这个词出现在PV短片《雪姬逢椿》中。 王手是小神里说的,小神里很可爱,说王手二字的声音也不错。 所以玩家说王手二字让我氪了648。 二、王手原意。 王手是日本将棋的说法,与中国象棋将军的用法相似。 意思是将军(棋步),将军。",
            "一、原神王手 在PV短片——「雪霁逢椿」中出现了王手这个词。 王手是由小神里说出的,小神里十分可爱,说王手二字时声音也好听。 所以玩家就表示王手二字让我氪了648。 二、王手原本意思 王手是日本将棋的说法,和中国象棋将军的用法差不多。 是将军(的棋步),将一军的意思。",
            "王手是日本将棋的说法,与中国象棋将军的用法相似。意思是将军(棋步),将军。",
            "其中的王手是指,如能下了能擒拿对方王将的一手,类似于象棋里的将军。称之为王手。",
            "王手，男，浙江温州市人。1981年开始发表小说。近年小说散见于《收获》《人民文学》《当代》《钟山》《花城》《作家》《山花》等刊，出版中短篇小说集《火药枪》《柯依娜一个人》《狮身人面》"
        ],
        "answer": "王手是指下了这步棋能擒拿对方王将的一手，类似于象棋里的将军，是日本将棋中的一种说法。\n\n此外，王手还是中国作家协会会员，一级作家，出版中短篇小说集《火药枪》《柯依娜一个人》等。"
    }
]

一定要将数据集所在的json文件加载到dataset_info.json中!!!

"baidu_train":{
    "file_name": "baidutrain.json"，
    "columns": {
      "prompt": "", #系统prompt
      "query": "refs"+"query", # 输入
      "response": "answer", # 输出
      "history": "" #历史对话
    }
  }

启动微调

使用sft进行微调

CUDA_VISIBLE_DEVICES=0 python work/jwx/ChatGLM-Efficient-Tuning-main/src/train_bash.py \
    --stage sft \ #微调方式
    --model_name_or_path work/jwx/ChatGLM3-main/model \ #模型路径
    --do_train  \
    --dataset_dir work/jwx/ChatGLM-Efficient-Tuning-main/data \ #数据集文件夹
    --dataset baidu_dev,baidu_train \ # 数据集
    --finetuning_type lora \ #微调方法
    --max_source_length 2048 \ #最大长度
    --max_target_length 512 \
    --learning_rate 3e-05 \ #学习率
    --num_train_epochs 3.0 \ #学习轮数
    --max_samples 10000 \
    --lora_rank 8 \ #lora训练的秩
    --lora_dropout 0.1 \
    --lora_target q_proj,v_proj \ #lora作用层
    --resume_lora_training True \
    --output_dir saves/output \ #输出微调的文件夹
    --fp16 True \ #开启fp16微调
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \ 
    --lr_scheduler_type cosine \
    --max_grad_norm 1.0 \
    --logging_steps 5 \
    --save_steps 1000 \

对于所有“基座”（Base）模型，–template 参数可以是 default, alpaca, vicuna 等任意值。但“对话”（Chat）模型请务必使用对应的模板。

更多参数信息：

https://github.com/hiyouga/ChatGLM-Efficient-Tuning/wiki/%E4%BD%BF%E7%94%A8%E6%96%B9%E6%B3%95

合并模型并导出

python src/export_model.py \
    --model_name_or_path work/jwx/ChatGLM3-main/model \
    --adapter_name_or_path saves/output \
    --template default \
    --finetuning_type lora \
    --export_dir path_to_export \
    --export_size 7 \
    --export_legacy_format False

RW

奖励模型训练

数据准备

奖励模型，作为RL中的critic，应该让模型知道什么是正确的答案和什么是错误的答案，因此需要在数据集上进行对于不同答案的一个打分情况，来让机器进行学习。格式如下：

[
   0:  {
   input:  "",
   instruction:  "What are the three primary colors?",
   output:  [
   0:  "The three primary colors are red, blue, and yellow. These colors are called primary because they cannot be created by mixing other colors and all other colors can be made by combining them in various proportions. In the additive color system, used for light, the primary colors are red, green, and blue (RGB)." ,
   1:  "Red, Yellow, and Green."
   ]
 } ,
  1:  {
  input:  "4/16",
  instruction:  "Explain why the following fraction is equivalent to 1/4",
  output:  [
   0:  "The fraction 4/16 is equivalent to 1/4 because both numerators and denominators are divisible by 4. Dividing both the top and bottom numbers by 4 yields the fraction 1/4." ,
   1:  "1/4 is the same as 1/4."
  ]
 }
]

运行微调

微调之后的奖励模型不可以直接进行使用，因为rw模型的输出是一个打分，相当于RL中的critic。

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage rm \
    --do_train \
    --model_name_or_path path_to_llama_model \
    --adapter_name_or_path path_to_sft_checkpoint \ #sft模型微调的权重文件，可加可不加
    --create_new_adapter \
    --dataset comparison_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --output_dir path_to_rm_checkpoint \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-6 \
    --num_train_epochs 1.0 \
    --plot_loss \
    --fp16

RLHF

在这里插入图片描述

准备actor和critic

actor:对应的是sft输出的权重文件

critic：对应的是RW输出的权重文件

运行RLHF

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage ppo \
    --do_train True \
    --model_name_or_path baichuan-inc/baichuan-7B \
    --adapter_name_or_path saves/Baichuan-7B-Base/lora/sft \ #sft输出的权重文件
    --finetuning_type lora \
    --template default \
    --dataset_dir data \
    --dataset alpaca_gpt4_en \
    --cutoff_len 1024 \
    --learning_rate 5e-05 \
    --num_train_epochs 3.0 \
    --max_samples 100000 \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --max_grad_norm 1.0 \
    --logging_steps 5 \
    --save_steps 100 \
    --warmup_steps 0 \
    --lora_rank 8 \
    --lora_dropout 0.1 \
    --lora_target W_pack \
    --create_new_adapter True \
    --output_dir saves/Baichuan-7B-Base/lora/train_2024-03-01-09-49-43 \
    --fp16 True \
    --reward_model saves/Baichuan-7B-Base/lora/rw \  #rw输出的权重文件
    --reward_model_type lora \
    --plot_loss True

多卡训练

使用accelerate进行训练

accelerate config # 首先配置分布式环境
accelerate launch src/train_bash.py 
    --stage sft \ #微调方式
    --model_name_or_path work/jwx/ChatGLM3-main/model \ #模型路径
    --do_train  \
    --dataset_dir work/jwx/ChatGLM-Efficient-Tuning-main/data \ #数据集文件夹
    --dataset baidu_dev,baidu_train \ # 数据集
    --finetuning_type lora \ #微调方法
    --max_source_length 2048 \ #最大长度
    --max_target_length 512 \
    --learning_rate 3e-05 \ #学习率
    --num_train_epochs 3.0 \ #学习轮数
    --max_samples 10000 \
    --lora_rank 8 \ #lora训练的秩
    --lora_dropout 0.1 \
    --lora_target q_proj,v_proj \ #lora作用层
    --resume_lora_training True \
    --output_dir saves/output \ #输出微调的文件夹
    --fp16 True \ #开启fp16微调
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \ 
    --lr_scheduler_type cosine \
    --max_grad_norm 1.0 \
    --logging_steps 5 \
    --save_steps 1000 \# 参数同上

使用deepspeed进行训练

deepspeed --num_gpus 8 --master_port=9901 src/train_bash.py \
    --deepspeed ds_config.json \
    --stage sft \ #微调方式
    --model_name_or_path work/jwx/ChatGLM3-main/model \ #模型路径
    --do_train  \
    --dataset_dir work/jwx/ChatGLM-Efficient-Tuning-main/data \ #数据集文件夹
    --dataset baidu_dev,baidu_train \ # 数据集
    --finetuning_type lora \ #微调方法
    --max_source_length 2048 \ #最大长度
    --max_target_length 512 \
    --learning_rate 3e-05 \ #学习率
    --num_train_epochs 3.0 \ #学习轮数
    --max_samples 10000 \
    --lora_rank 8 \ #lora训练的秩
    --lora_dropout 0.1 \
    --lora_target q_proj,v_proj \ #lora作用层
    --resume_lora_training True \
    --output_dir saves/output \ #输出微调的文件夹
    --fp16 True \ #开启fp16微调
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \ 
    --lr_scheduler_type cosine \
    --max_grad_norm 1.0 \
    --logging_steps 5 \
    --save_steps 1000 \

心得分享

下面我将本次比赛微调训练的得分的过程分享给大家

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。

⑤AI+零售：智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为，提供个性化商品推荐，同时优化库存，减少浪费。

⑥AI+交通：自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶，并优化交通信号控制，减少拥堵。

…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

学习资料领取

如果你对大模型感兴趣，可以看看我整合并且整理成了一份AI大模型资料包，需要的小伙伴文末免费领取哦，无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，皆可用。
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有，跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述

四、LLM面试题

在这里插入图片描述

如果二维码失效，可以点击下方链接，一样的哦
【CSDN大礼包】最新AI大模型资源包，这里全都有！无偿分享！！！

😝朋友们如果有需要的话，可以V扫描下方二维码联系领取~
在这里插入图片描述

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

仓颉迁移实战：将 Node.js 微服务移植到 Cangjie 的工程化评测

EazyDevelop社区

探秘深海：一款强大的深度学习框架——DeepSea

在人工智能领域中，深度学习是推动科技进步的一股强大动力。今天，我们要向大家推荐的是一个专为深度学习爱好者和开发者打造的强大框架——DeepSea。该项目由Team-Neptune团队开发，并托管在Gitcode平台上，旨在简化和加速深度学习模型的研发过程。## 技术分析### 灵活的架构设计DeepSea采用模块化的设计，允许用户根据需求选择不同的组件，如优化器、损失函数等，以构建定制

EazyDevelop社区

taosync：适用于AList v3的自动化同步工具

在现代生活中，数据同步和备份已成为维护数据安全的关键环节。taosync是一款专为AList v3设计的自动化同步工具，能够帮助用户轻松地同步和备份他们的数据到多个网盘或FTP存储服务。这款工具的开发初衷是为了保存孩子的成长照片，其名称“taoSync”也因此而来。taosync以开源免费的形式提供，支持几乎所有的常用平台，并且提供了完善的日志记录、任务管理以及安全的密码加密功能。## 项目技