Comments (12)
@creamiracle 感谢关注。目前我们只提供了一个可以continue finetuning的接口,由于人手比较少,最近也比较忙,暂时没有在垂直领域试过。由于我们使用的是lora,理论上在垂直语料finetune过后是会挖掘llama本身在这个语料上的能力,是可以得到一个垂直语料的模型,不过对于一些没掌握的知识可能掌握的不会很理想
1、可以考虑将lora的lora_r增大,并将lora能训练的参数都加上
2、使用全量微调。不过这个显存需求就比较大。
我们后续将给出在垂直语料上训练的详细方案。
from chinese-vicuna.
你可以参考我们在医学问答的案例medical
from chinese-vicuna.
你可以参考我们在医学问答的案例medical
感谢回复,根据这个新的doc,还有几个问题想请教一下:
1.beam和penalty是在哪里设置进去的呢?
2.在无指令微调中,为什么设置了from_data_beginning=True # False
3.数据大小是20w左右,在我们之前70w的数据上训练第3个epoch,大概会训练3.5个epoch左右。这句话我不是很理解,训练第三个epoch用的70w的数据,也就是这个部分用70w数据做3个epoch的微调,然后保存checkpoint,然后继续用20w数据训练0.5个epoch么?
谢谢。
from chinese-vicuna.
1、这个是用于生成的参数,在generate那些推理脚本那种有
2、因为你要用新的数据,不能跳过他们
3、这里的逻辑是拼接,就是把20w的数据重复拼接3.5次
from chinese-vicuna.
1、这个是用于生成的参数,在generate那些推理脚本那种有 2、因为你要用新的数据,不能跳过他们 3、这里的逻辑是拼接,就是把20w的数据重复拼接3.5次
好的谢谢,前面我都理解了,第三个的意思是先复制20w成为70w然后再继续训练么?那为什么不能在20w上只训练一个epoch呢?
from chinese-vicuna.
1、不是先复制成20w(因为我们医疗问答的规模就是20w),是直接复制成70w
2、因为我们提供的优化器参数是一轮70w的,所以是直接在这个规模上提供的continue_finetune
from chinese-vicuna.
您好,我理解了,那如果我按照您的方式继续训练,也需要变成70w的数据,是这个意思吧?
2中这个参数是在哪里定义的呢?Finetuning中的trainerArguments么?
thx
from chinese-vicuna.
是的,如果不到70w会自动重复拼接到70w(并没有显式的拼接,而是重复了70w训练的step)
优化器参数和训练策略参数就是那几个optimizer.pt、scheduler.pt、scaler.pt等
from chinese-vicuna.
是的,如果不到70w会自动重复拼接到70w(并没有显式的拼接,而是重复了70w训练的step) 优化器参数和训练策略参数就是那几个optimizer.pt、scheduler.pt、scaler.pt等
这个自动重复拼接到70w的原理是什么呢,我对这部分不是很熟悉?烦请您解答一下,谢谢。
from chinese-vicuna.
就是重复训练这段数据,相当于在时间上拼接
from chinese-vicuna.
就是重复训练这段数据,相当于在时间上拼接
那就是说如果直接用这20w数据继续训练,不去复制,应该也不会报错吧
from chinese-vicuna.
是的
from chinese-vicuna.
Related Issues (20)
- 有办法改成分类任务么,用LlamaForSequenceClassification模型类加载
- transformers和pydantic问题 HOT 1
- 是因为梯度为0吗?
- 多卡finetune_chat时报mat1 and mat2 shapes cannot be multiplied (1024x2 and 1x11008) HOT 2
- 中文乱码 HOT 5
- 请问多个lora模型怎么合并?
- 请问llama7b_4bit_128g的input shape是多少呢 HOT 1
- 运行chat_7B.sh聊两句话out of memory
- 多卡训练 bash scripts/finetune.sh报错 HOT 1
- 这几个不同路径下的模型是否有区别?
- 运行generate脚本之后,在页面提问,很久没有产生回答,后台无报错 HOT 2
- OSError: Not enough disk space. Needed: Unknown size (download: Unknown size, generated: Unknown size, post-processed: Unknown size)
- 从belle+guanaco数据集中抽取前5000条样本训练lora,效果不好
- deepspeed跑模型相关问题
- 使用finetune.sh来指令微调llama-33b,出现ZeroDivisionError: integer division or modulo by zero错误 HOT 2
- 可以提供一下huggingface上的Chinese-Vicuna/llama7b_4bit_128g模型的config.json和tokenizer么?
- 官方colab安裝套件失效
- 如果更改數據集格式,要如何更改代碼
- 可以更新一下requirements吗? HOT 1
- 关于中断训练继续训练。 HOT 16
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from chinese-vicuna.