sunnygjing / t5-pegasus-chinese Goto Github PK
View Code? Open in Web Editor NEW基于GOOGLE T5中文生成式模型的摘要生成/指代消解,支持batch批量生成,多进程
License: MIT License
基于GOOGLE T5中文生成式模型的摘要生成/指代消解,支持batch批量生成,多进程
License: MIT License
请问可以在其他生成式下游任务上微调吗?比如文本风格迁移
对于长文章的文本摘要是否支持?
以及此方法的推理速度怎么样?
作者好,想確認是不是用pretrain model, 再帶入summarization_csl_train.tsv進行finetune,得到的模型進行推理就可以了呢
请问如何对摘要生成的字数限制?
在个人PC上跑了一下train,显卡6G的3060,把batchsize设为4,然后每一次迭代都del loss,cur,mask,labels,prob和 torch.cuda.empty_cache()。即便如此一个epoch只能跑到38%就没显存了,请问还有什么优化方法吗
您好,我看huggingface上有个模型imxly/t5-pegasus,请问和这里提供的chinese_t5_pegasus_base.zip是同一个模型吗,还是说前者是原生模型,后者是预训练过的?感谢解答。
我在训练摘要任务的时候,发现结果中有[unused] token,请问这是什么问题? 后面使用bad_word_list
可以缓解,但是感觉还是训练中出现了问题?
您好,请问在自己数据集上进行微调时是否支持fp16混合精度训练?
我尝试用fairseq框架搭建t5_pegasus模型,并且用apex库进行混合精度微调。然而相较于fp32,loss下降很慢,而且在训练初期会有loss大幅抖动的情况,fp16和fp32使用一样的参数,包括batch size和学习率。
我换了一个中文新闻摘要数据集,跟在作者提供的summarization_csl数据集上相比,训练时验证集的rouge从0.6掉到了0.2,有人知道可能的原因吗。。。
如題,我用板主的程式跑完後
發現predict_result.tsv的內容還比原本的predict.tsv的內容還多
有人有這問題嗎?
summary應該要縮減內容才對啊,怎麼反而產出更多的內容了!
這程式是不是有問題?
您好请问下,用这个模型实现文本摘要的话,把data换成文本摘要相关的数据集,然后跑微调就可以了吗
请问作者对t5的中文预训练是用的什么数据集?谢谢!
博主,您好.请问如果我要做问答的话,数据处理方面 input_ids与decoder_input_ids分别是问题与对应的回答吗?
看到作者脚本里面finetune的学习率是2e-4,会不会太大了?预训练一般都是设置3e-5左右?需不需要用warmup?
你好,我想请问一下,微调时我的数据实验结果不太理想,如果我想给模型喂一些先验知识,让他能够学习到这些,用先验知识辅助完成摘要的话,是需要在预训练原模型上进行更改重新训练,还是在微调层面对输入结构进行更改就可以呢?
您好,我看您使用了bert4keras,所以这两个百度云的模型是在追一的那个模型基础上转化或者继续训练得到的吗?
这里如何把模型转onnx提高推理速度
请问大佬如何这个模型如何做指代消解
How to generate a word limit for the abstract
想请教下,如果函数训练过程中中断了,想继续训练该怎么做呢,因为封装的原因,直接用torch.load会出问题。
ModuleNotFoundError: No module named 'bert4torch.model'我安装了bert4torch,但是没有model
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.