- OS: Linux Ubuntu 20.4 LTS
- Python: 3.9.x
- Docker container: nvidia/cuda:11.8.0-devel-ubuntu20.04
docker pull nvidia/cuda:11.8.0-devel-ubuntu20.04
pip install -r requirements.txt
- Download the dataset LINK
- '재주도'에 해당하는 데이터 및 따라 말하기 데이터만을 다운 받아서 압축을 해제합니다.
이 때, train set 폴더 명을 circum_01로 하면 다른 수정 과정을 거치지 않아도 무방합니다. - EDA_dataset.ipynb 파일부터 실행하여 train, test split 된 파일을 생성합니다.
이후, 각 셀을 실행시키면서 train, validation csv를 저장합니다. - jeju_kobart.ipynb를 실행합니다.
해당 셀을 그대로 실행할 경우 문제가 없지만, 만약 custom dataset을 이용하려는 경우 dictionary 형태를 잘 지켜주세요.
ex. {'kr': "한국어", 'en':"English"} - jeju_kobart.ipynb는 한 파일에 fine tuning과 evaluation을 모두 진행합니다. 참고하여 실행하여 주세요. (trainer.push_to_hub() 이후는 evaluation process)
- 만약, Conformer(no finetuning) + JejuBART(KoBART jeju dialect fine tuning)를 사용하고 싶다면 위의 5번 학습 이후 jeju_conformer.ipynb 파일을 실행해주세요.
Model Name | BLEU Score | CER Score | Human Voting Score |
---|---|---|---|
JejuBART(ours) | 0.7187 | 0.0984 | 2.00 |
More results and cleansing codes would be published as soon as possible.