lassl / lassl Goto Github PK

View Code? Open in Web Editor NEW

125.0 8.0 14.0 465 KB

Easy Language Model Pretraining leveraging Huggingface's Transformers and Datasets

License: Apache License 2.0

Python 71.36% C++ 28.61% Makefile 0.02%

lassl's People

Contributors

Stargazers

Watchers

Forkers

se-hun dhlee347 dumpmemory switiz bage79 jinmang2 mrbananahuman wavy-jung rimiyeyo daehankim techthiyanes seongdeokkim qazcdek seanswyi

lassl's Issues

TODO

Training tokenizer

poetry run python3 train_tokenizer.py --corpora_dir corpora \
--corpus_type sent_text \
--model_type roberta \
--vocab_size 51200 \
--min_frequency 2

Serializing corpora

poetry run python3 serialize_corpora.py --model_type roberta \
--tokenizer_dir tokenizers/roberta \
--corpora_dir corpora \
--corpus_type sent_text \
--max_length 512 \
--num_proc 96 \
--batch_size 1000 \
--writer_batch_size 1000

ref:

https://github.com/huggingface/blog/blob/master/notebooks/13_pytorch_xla.ipynb

TODO

train_tokenizer.py에 사용자가 special tokens을 추가할 수 있도록 한다.

TODO

Update requirements.txt

Summary

기본적으로 전체적인 틀은 잡혀있는 사항 v0.1.0을 release하기에 앞서 다음의 내용에 대해서 논의

serialize_corpora.py와 train_tokenizer.py가 지원하는 model_type에 이격이 존재
- serialie_corpora.py: roberta, gpt2, albert
- train_tokenizer.py: bert-uncased, bert-cased, gpt2, roberta, albert, electra
README.md

AttributeError: 'DataArguments' object has no attribute 'max_train_samples'

아래 코드 추가 필요

max_train_samples: Optional[int] = field(
        default=None,
        metadata={
            "help": "For debugging purposes or quicker training, truncate the number of training examples to this "
            "value if set."
        },
    )

Refactor a training script for supporting Blender

TODO

Refactor pretrain_language_model.py
- Support using Blender class for mixing datasets

to: @seopbo
cc: @lassl/authors

Add a link for hugginface model hub

TODO

README.md에 https://huggingface.co/lassl link에 badge와 link를 추가한다.

cc: @lassl/authors

TODO

transformers 4.13.0이 update되어 dependency를 update 합니다. release note는 아래의 link입니다.

https://github.com/huggingface/transformers/releases/tag/v4.13.0

cc: @bzantium @iron-ij @monologg @alxiom

TODO

Add CITATION.ctf to repository.

ref: https://docs.github.com/en/repositories/managing-your-repositorys-settings-and-features/customizing-your-repository/about-citation-files

cc: @lassl/authors

Summary

renew-hf-style에 RobertaPreProcessor를 개선한다.

Tokenizer 제공 방법 수정 고려

WordPiece like BERT
BBPE like GPT2
Unigram (sentencepiece) like ALBERT

TODO

load_corpora function을 개선한다. 아래의 형태를 추가 지원한다.

sentence per line

문서0
문장0,0
문장0,1
문장0,2
...
문장0,N


문서1
문장1,0
문장1,1
문장1,2
...
문장1,M

개요

pyproject.toml에 author를 추가한다.

Fix a license in `pyproject.toml`

TODO

Replace MIT with Apache-2.0.

cc: @lassl/authors

Translate `README.md` into english

TODO

Translate README.md into english and Post our repo to reddit.

cc: @bzantium

TODO

processing.py에서 process` method가 record 하나당 training example을 0~1개 만드는 bug, 실제로 record의 길이가 길 경우 더 많은 training example을 만들어야함.

cc: @bzantium @iron-ij @monologg @alxiom

Hotfix for importing invalid module

TODO

Fix a typo in clause for import module in src/collators.py

_torch_collator_batch -> _torch_collate_batch

lassl/src/collators.py

Line 5 in 27f8229

from transformers.data.data_collator import _torch_collator_batch

cc: @lassl/authors

TODO

Fix bugs in DataCollatorForBart

Support training BART

Is your feature request related to a problem? Please describe.
BART processor, collator 추가하기

Describe the solution you'd like
text_infilling 방법을 collator로 추가한다.

Add tests codes and refactor processors, collators

TODO

Add tests codes of processors, collators per each model types.
Refactor processros, collators per each model types, If it needs.

Fix packaging subpackage of lassl

TODO

Fix packaging subpackage of lassl

TODO

Add examples configs (bert-small.yaml, roberta-small.yaml, gpt2-small.yaml, albert-small.yaml)

Environment

# /home/iron/mnt
$ git clone https://github.com/lassl/lassl.git

$ pip3 install -r requirements.txt

Fix bugs in GPT2 processor, collator

Describe the bug

GPT2Processor does not need special_tokens
DataCollatorForGpt2 inherit DataCollatorForLanguageModeling which requires pad_token_id which gpt2 tokenizer doesn't have.

Refactor load_corpora function

TODO

(docu_text, DocuSent)
(docu_json, DocuJson)
(sent_text, SentText)
(sent_json, SentJson)
text_type_per_line -> corpus_type
scripts -> loading

serialize 시, serialize에 사용된 tokenizer의 정보를 같이 저장

TODO

serialize_corpora.py 수행 시 결과물을 저장하는 directory에 사용된 tokenizer의 정보도 같이 저장한다.

cc: @bzantium @monologg @iron-ij @alxiom

TODO

Support training T5 model

TODO

package 의존성을 최신화한다.

cc: @bzantium @monologg @iron-ij @alxiom

train_tokenizer.py에서 샘플링할 때 중복 데이터 발생 문제

Describe the bug
train_tokenizer.py에서 np.choice의 디폴트값으로 replace=True을 취하고 있어 중복 데이터를 사용할 가능성 존재

TODO

Refine codes relevants to bart
Refine codes relevants to electra

Support training Electra model

TODO

Support training Electra model

Make a standard of special tokens for processor-collator

TODO

processor : add_special_tokens
collator : pad_to_multiple_of

슬랙에서도 소개하긴 했는데 Universal Language Learning Paradigm 논문에 소개된 Mixture of Denoisers 를 활용한 목적함수가 기존 Span corruption, MLM, CLM 보다 전반적으로 좋다고 합니다. 저도 마침 회사에서 활용해 볼 생각이 있어서 lassl에 collator 및 processor를 구현하려고 하는데 어떻게 생각하시나요??

Refactor pretrain_language_model.py

TODO: Collator

지원하는 모델이 증가함에 따라 collator 또한 지속적으로 구현해야할 것으로 예상되므로 collator를 각 모델별 이름으로 수정하는 것을 건의함.

Sync dependencies

TODO

poetry.lock, pyproject.toml과 requirements.txt의 버전 이격을 해소한다.

TPU + HF Trainer 정상 동작 체크

TODO

TPU + HF Trainer 정상 동작 체크
각 단계에서의 메모리 사용량 체크

Introduce CI, CD using github action

TODO

github action을 이용하여 isort, black formatting을 강제하기

sampling ratio assertion 추가

sampling_ratio > 0 조건 추가
sampling_ratio >= 1 이면 알림

모두의 원시말뭉치 신청하기

README에 LASSL 약자소개 추가하기

README에 LASSL 약자소개 추가하기

DataCollatorForGpt2 클래스가 DataCollatorForLanguageModeling 상속을 받지 않았습니다.

Describe the bug
DataCollatorForGpt2 클래스가 DataCollatorForLanguageModeling 상속을 받지 않았습니다.

Add keep_in_memory option in load_dataset

Is your feature request related to a problem? Please describe.

TPU VM에서 학습하는 과정에서 캐쉬로 인해 메모리가 충분함에도 disk 용량이 꽉차는 이슈가 발생함

Describe the solution you'd like

load_dataset 단계에서 keep_in_memory 옵션을 추가하여 해결
Serialize과정이완료된 데이터는 disk에 저장되므로, train 단계에서는 필요가 없고 tokenizer, serialize과정에서만 추가

Remove poetry

TODO

Replace poetry with conda
Add a setup.py

cc: @bzantium @iron-ij

argument setting

To Do

lassl/pretrain_language_model.py

Line 47 in c507a54

parser = HfArgumentParser((DataArguments, ModelArguments, TrainingArguments))
set ModelArguments from config.json file
set TrainingArguments from config.json file

Issues templates

TODO

Set issues templates

cc: @bzantium @monologg @iron-ij @alxiom

Upload default configs

TODO

Upload default configs for gpu, tpu.

Add Albert Processor

Add albert processor for serialization

lassl / lassl Goto Github PK

lassl's People

Contributors

Stargazers

Watchers

Forkers

lassl's Issues

TODO

Training tokenizer

Serializing corpora

TODO

TODO

Summary

TODO

TODO

TODO

TODO

Summary

TODO

개요

TODO

TODO

TODO

TODO

TODO

TODO

TODO

TODO

Environment

TODO

TODO

TODO

TODO

TODO

TODO

TODO

TODO: Collator

TODO

TODO

TODO

TODO

To Do

TODO

TODO

Recommend Projects

Recommend Topics

Recommend Org