- ํ๋ก์ ํธ ์๊ฐ โจ
- ์๊ตฌ ์ฌํญ ๐
- ํ์ผ ๊ตฌ์ฑ
- Retriever ํ์ต ๋ฐ ํ๊ฐ
- Reader(MRC) ํ์ต ๋ฐ ํ๊ฐ
- Inference
- Contributor
- ODQA ๋ ์ฃผ์ด์ง ์ง๋ฌธ์ ์ ์ ํ ๋ต์ ์ฐพ๋ ๊ณผ์ ์ด๋ฉฐ,Retriever, Reader ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
- ๋จผ์ ์ง๋ฌธ์ ๋ํ ๋ต์ ํ๊ณ ์๋ ์ง๋ฌธ์ ๊ฒ์ํ๋ Retriver ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋ฉ๋๋ค.
- ์ดํ ํด๋น ์ง๋ฌธ ์ ์ ๋ต์ ์ฐพ๋ Reader ๊ณผ์ ์ ํตํด ์ต์ข ์์ํ์ ์ป์ ์ ์์ต๋๋ค.
!pip install datasets
!pip install transformers
!pip install elasticsearch
!pip install pororo
# Mecab ์ค์น
!sudo apt-get install g++ openjdk-8-jdk python3-dev python3-pip curl
!python3 -m pip install --upgrade pip
!python3 -m pip install konlpy
!sudo apt-get install curl git
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
# Haystack ์ค์น
!pip install git+https://github.com/deepset-ai/haystack.git
|-- dpr # Retriever
| |-- dpr_train.py
| |-- korquad_preprocess.py
| `-- squad_to_dpr.py
|-- mrc # Reader
| |-- tag_compound
| | |-- __init__.py
| | |-- data
| | | |-- tag_train.tsv
| | | |-- tag_train_augmented.tsv
| | | `-- tag_valid.tsv
| | |-- inference.py
| | |-- load_data.py
| | |-- tag_compound.py
| | |-- tag_inference.py
| | `-- train.py
| |-- arguments.py
| |-- customAddedConv.py
| |-- train.py
| |-- trainer_qa.py
| `-- utils_qa.py
`-- readme.md
- Retriver ํ์ต ๋ฐ์ดํฐ : wikipedia๊ธฐ๋ฐ QA ๋ฐ์ดํฐ์ (KorQuAD 1.0, AI hub ๊ธฐ๊ณ ๋ ํด)
- korquad_preprocess.ipynb ์คํ
- KorQuAD 1.0, AI hub ๋ฐ์ดํฐ ์ ์ ํฉ์น๊ณ DPR ํ์ต์ ๋ง๋๋ก positive-negative pair dataset ๊ตฌ์ฑ
- ๊ฐ query๋ง๋ค Elasticsearch๋ฅผ ์ด์ฉํด์ negative sample์ 16๊ฐ์ฉ ์์ฑ
python dpr_train.py
- MRC ํ์ต ๋ฐ์ดํฐ : KLUE MRC Dataset
train.py ๋ฅผ ์คํํ๋ฉด mrc ๋ชจ๋ธ์ ํ์ต์ด ์งํ๋ฉ๋๋ค.
cd ./mrc
# ํ์ต ์์ (ํ์ต ์ค validation ์ ๋์์ ํ๋ ค๋ฉด --do_eval ์ถ๊ฐ)
python train.py --output_dir [path to save trained model] --do_train
# ์ถ๋ก ์์
python train.py --model_name_or_path [path to load trained model] --do_eval
๊น๋จํ_T1014 | ์์ผ_T1093 | ์ํฌ์ค_T1122 | ์ฐ์ข ๋น_T1129 | ์ด๋ณดํ_T1148 | ์ฅ๋ณด์ค_T1178 |
---|---|---|---|---|---|