使用llama-facotry默认的配置，微调llama3 8B 执行的这个脚本ds_zero3.sh 使用3个A100 deepspeed使用zero sta

zero3 有通信成本 zero3 20 分钟 <b

问题解决了，是因为三个显卡型号型号不一样导致的 <a target="_blank" rel="noopener noreferrer" href="https:/

llama3-8B微调，deepspeed配置zero stage3特别慢 about llama-factory HOT 4 CLOSED

xielinzhen commented on June 15, 2024

llama3-8B微调，deepspeed配置zero stage3特别慢

from llama-factory.

Comments (4)

hiyouga commented on June 15, 2024

zero3 有通信成本

from llama-factory.

xielinzhen commented on June 15, 2024

zero3 有通信成本

zero3 20分钟
zero2 17秒
这个通信成本好高，感觉好奇怪 @hiyouga

from llama-factory.

xielinzhen commented on June 15, 2024

#!/bin/bash export NCCL_NET=IB export NCCL P2P DISABLE=1 deepspeed --num_gpus 3 ../../src/train_bash.py \ --deepspeed ../deepspeed/ds_z3_config.json \ --stage sft \ --do_train \ --model_name_or_path Meta-Llama-3-8B-Instruct \ --dataset qa \ --dataset_dir ../../data \ --template default \ --finetuning_type lora \ --lora_target q_proj,v_proj \ --output_dir ../../saves/LLaMA3-8B/lora_zero3/sft \ --overwrite_cache \ --overwrite_output_dir \ --cutoff_len 1024 \ --preprocessing_num_workers 16 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 2 \ --lr_scheduler_type cosine \ --logging_steps 1 \ --warmup_steps 20 \ --save_steps 100 \ --eval_steps 100 \ --evaluation_strategy steps \ --learning_rate 5e-5 \ --num_train_epochs 3.0 \ --max_samples 3000 \ --val_size 0.1 \ --ddp_timeout 180000000 \ --plot_loss \ --fp16
最新代码 sft llama3-8B zero2的速度是zero3的162倍，是不是有点不正常 @hiyouga @fenglui

from llama-factory.

xielinzhen commented on June 15, 2024

问题解决了，是因为三个显卡型号型号不一样导致的

from llama-factory.

llama3-8B微调，deepspeed配置zero stage3特别慢 about llama-factory HOT 4 CLOSED

Comments (4)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent