Code Monkey home page Code Monkey logo

t5-pegasus-chinese's People

Contributors

sunnygjing avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar

t5-pegasus-chinese's Issues

微调其他任务

请问可以在其他生成式下游任务上微调吗?比如文本风格迁移

关于计算rouge值的问题

1656812926703
da
大佬您好,想问一下您在计算rouge值时为什么用空格连接每个字,这样不是将rouge值提高了吗?

文本摘要前置動作

作者好,想確認是不是用pretrain model, 再帶入summarization_csl_train.tsv進行finetune,得到的模型進行推理就可以了呢

【环境问题】高版本的torch比如1.11

高版本的torch和transformers
image

在predict和train py文件做如下修改即可:
#from torch._six import container_abcs, string_classes, int_classes
TORCH_MAJOR=0
if TORCH_MAJOR == 0:
import collections.abc as container_abcs
int_classes = int
string_classes = str
else:
from torch._six import container_abcs

显存不足的优化方法

在个人PC上跑了一下train,显卡6G的3060,把batchsize设为4,然后每一次迭代都del loss,cur,mask,labels,prob和 torch.cuda.empty_cache()。即便如此一个epoch只能跑到38%就没显存了,请问还有什么优化方法吗

预训练模型

您好,我看huggingface上有个模型imxly/t5-pegasus,请问和这里提供的chinese_t5_pegasus_base.zip是同一个模型吗,还是说前者是原生模型,后者是预训练过的?感谢解答。

生成摘要时出现[unused].

我在训练摘要任务的时候,发现结果中有[unused] token,请问这是什么问题? 后面使用bad_word_list可以缓解,但是感觉还是训练中出现了问题?

混合精度训练问题

您好,请问在自己数据集上进行微调时是否支持fp16混合精度训练?
我尝试用fairseq框架搭建t5_pegasus模型,并且用apex库进行混合精度微调。然而相较于fp32,loss下降很慢,而且在训练初期会有loss大幅抖动的情况,fp16和fp32使用一样的参数,包括batch size和学习率。

训练精度下降

我换了一个中文新闻摘要数据集,跟在作者提供的summarization_csl数据集上相比,训练时验证集的rouge从0.6掉到了0.2,有人知道可能的原因吗。。。

文本摘要

您好请问下,用这个模型实现文本摘要的话,把data换成文本摘要相关的数据集,然后跑微调就可以了吗

预训练数据集

请问作者对t5的中文预训练是用的什么数据集?谢谢!

QA

博主,您好.请问如果我要做问答的话,数据处理方面 input_ids与decoder_input_ids分别是问题与对应的回答吗?

关于finetune的学习率

看到作者脚本里面finetune的学习率是2e-4,会不会太大了?预训练一般都是设置3e-5左右?需不需要用warmup?

文本摘要

你好,我想请问一下,微调时我的数据实验结果不太理想,如果我想给模型喂一些先验知识,让他能够学习到这些,用先验知识辅助完成摘要的话,是需要在预训练原模型上进行更改重新训练,还是在微调层面对输入结构进行更改就可以呢?

预训练的模型

您好,我看您使用了bert4keras,所以这两个百度云的模型是在追一的那个模型基础上转化或者继续训练得到的吗?

指代消解

请问大佬如何这个模型如何做指代消解

训练中止后继续训练

想请教下,如果函数训练过程中中断了,想继续训练该怎么做呢,因为封装的原因,直接用torch.load会出问题。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.