请教thu_chatglm6b下的transformers版本多少，想对比下MyTrainer具体做了哪些修改以及修改原有，谢谢~

还有提示报错，我的torch==1.13.0： <a target="_blank" rel="noopener noreferrer nofollow" href

还有提示报错，我的torch==1.13.0： <a target="_blank" rel="noopener noreferrer nofol

对比MyTrainer和transformers的trainer修改 about zero_nlp HOT 5 CLOSED

yuanzhoulvpi2017 commented on May 14, 2024

对比MyTrainer和transformers的trainer修改

from zero_nlp.

Comments (5)

yuanzhoulvpi2017 commented on May 14, 2024 3

这个是一个好问题，问的质量非常高。其实修改的地方不多（只是修改了_save方法）。但是我也是经过对模型结构的研究、对peft包源码的研究之后、之前就反复看过transformers包的trainer.py之后，才知道在哪里改。

一、就是保存`tokneizer`的时候，出错了。

因为chatglm-6b模型的tokenizer使用的是icetk包来做的，有一个ice_text.model文件。
但是huggingface的tokenizer基本上都是把数据保存在json里面的。
所以说，两个保存的方式不一样，导致出错了。
因为，这个是大模型，覆盖的tokenizer已经很多了，而且你在训练的时候，也没必要添加新的token。
所以，没必要保存tokenizer了。我直接把这个代码给注销了。

二、模型训练好之后，没办法`generate`，也就是没办法生成数据

这个就很奇怪，因为我在训练的时候，loss都是正常下降的，也没出现nan
我在训练的时候，进行debug，发现模型的参数也都正常。那怎么会出现模型权重都是为0的情况呢。
我怀疑是不是半精度fp16的问题，但是检查也没问题。
我直接使用torch 加载checkpoint的bin文件，发现每一层的权重都是正常的。
那我就很奇怪，怎么会这样呢。
经过很久，我才发现，是peft包的问题，peft在对model做完处理之后，会把模型包装在basemodel.xxx里面，导致模型的每一个网络层的名称都变了。
比如，之前的网络层较transformer，现在被peft处理之后，网络层叫basemodel.transformer了。
那么模型在推理的时候，进行初始化的时候，就是找不到对应的权重，然后把这个权重全部设置为0.
然后模型就没办法推理。
因为torch在保存权重的时候，本质的就是一个collection的orderdict（有序字典）。
所以，我在保存的时候，对model的权重名称做了修改。把basemodel.前缀抹掉。这样就保存成功了。
而且在后面的加载中，也不会出现问题。
没想到，这个还是在Trainer的_save方法里面。

具体可以查看我的源码，或者按照我的分析，查看Trainer的_save方法部分。🚀

from zero_nlp.

jiangliqin commented on May 14, 2024

是的,有初步对比过Trainer发现好好多不同之处的差异,应该是我们的transformers版本不一样，所以问问你的transformers版本，例如下面几处：

简单看介绍以为楼主只是包了层peft，想不到背后做了这么深的研究，再次感谢付出，根据你的提示我再继续学习~

from zero_nlp.

jiangliqin commented on May 14, 2024

还有提示报错，我的torch==1.13.0：

from zero_nlp.

yuanzhoulvpi2017 commented on May 14, 2024

还有提示报错，我的torch==1.13.0：

你这用的是官网提供的modeling_chatglm.py代码，不是我提供的代码。看清楚喽

from zero_nlp.

yuanzhoulvpi2017 commented on May 14, 2024

是的,有初步对比过Trainer发现好好多不同之处的差异,应该是我们的transformers版本不一样，所以问问你的transformers版本，例如下面几处：

简单看介绍以为楼主只是包了层peft，想不到背后做了这么深的研究，再次感谢付出，根据你的提示我再继续学习~

是的，版本问题，你直接下载最新的transformers就行了。核心点，就是我上面说的那个#7 (comment)

from zero_nlp.

对比MyTrainer和transformers的trainer修改 about zero_nlp HOT 5 CLOSED

Comments (5)

一、就是保存`tokneizer`的时候，出错了。

二、模型训练好之后，没办法`generate`，也就是没办法生成数据

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Comments (5)

一、就是保存tokneizer的时候，出错了。

二、模型训练好之后，没办法generate，也就是没办法生成数据

Related Issues (20)

Recommend Projects

Recommend Topics

Recommend Org

一、就是保存`tokneizer`的时候，出错了。

二、模型训练好之后，没办法`generate`，也就是没办法生成数据