Este repositório contém o código de um projeto para identificar medicamentos em anotações clínicas.
O modelo usa a biblioteca Transformers, começando com o modelo pré-treinado BERTimbau. Finalmente, o refinamento é realizado em um corpus de notas clínicas anotadas (anotadas usando doccano).
O refinamento pode ser realizado através do script finetune usando o terminal.
Este script assume que os dados são um arquivo JSONL de texto anotado exportado
do doccano (--datafile example.jsonl
), ou um conjunto de dados HuggingFace salvo.
Se você executar este script uma vez em um arquivo JSONL de anotações, poderá optar por
salvar o conjunto de dados em uma pasta (--save_data_dir "save_path"
) e usá-lo para
execuções de treinamento subsequentes (--datafile "save_path"
).
Para o acompanhamento de experimentos, usamos o Weights and Biases.
Você poderá optar habilitar usando o parâmetro (--wandb_on
).
python .\finetune.py --folds 5 --epochs 15 --lr 5e-5 --wandb_on --hub_off
--project 'Example Project' --run_name cross-validation --datafile example.jsonl
Como usar o modelo a partir da biblioteca 🤗/transformers
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("giggio/FarBrBERT-base")
model = AutoModelForTokenClassification.from_pretrained("giggio/FarBrBERT-base")