By Christian Domingues Sanchez
a protein subcellular location prediction program.
Available at https://cds-plpred.herokuapp.com/
$ make setup
environment.yml
: O arquivo environment é utilizado para realizar toda instalação e criar uma estrutura de ambiente pelo conda, com isto podemos criar ambientes isolados com as dependencias necessárias para a aplicação sem utilizar o sistema base como referencia do $Pathrequeriments.txt
: Esse arquivo é a especificação de dependencias do Pip, por exemplo, onde podemos listar as bibliotecas do Python, com isso podemos realizar uma independencia maior do Python.Makefile
: O make é utilizado para gerar regras e automatizar os comandos, rodando por exemplo uma regra setup, irá chamar a criação de ambiente e a atualização do mesmo.data/
: O data é a pasta utilizada para guardar os arquivos que irão processados "data/raw" e também o o resultado final "data/processed/processed.csv" e modelos treinados na pasta "data/models"plpred
: diretório principal do pacote, com as funções da aplicação.plpred/models
: disponibiliza modelos preditivos baseados em Random Forest, Gradient Boosting, SVM e Neural Networks (MLP).tests/
: conjunto de testes unitários para os componentes do Plpred.
usage: plpred-preprocess [-h] -m MEMBRANE_PROTEINS -c CYTOPLASM_PROTEINS -o OUTPUT
plpred-preprocess: data processing tool
optional arguments:
-h, --help show this help message and exit
-m MEMBRANE_PROTEINS, --membrane_proteins MEMBRANE_PROTEINS
path to the file containing membrane proteins (.fasta)
-c CYTOPLASM_PROTEINS, --cytoplasm_proteins CYTOPLASM_PROTEINS
path to the file containing cytoplasm proteins (.fasta)
-o OUTPUT, --output OUTPUT
path to the output file (.csv)
plpred-train: model training tool
optional arguments:
-h, --help show this help message and exit
-p PROCESSED_DATASET, --processed_dataset PROCESSED_DATASET
processed dataset generated by plpred-
preprocessed (.csv)
-o OUTPUT, --output OUTPUT
path to the output trained model (.pickle)
-r, --report show classification report
-a {random_forest,neural_network,gradient_boosting,svm}, --algorithm {random_forest,neural_network,gradient_boosting,svm}
machine learning algorithm
usage: plpred-predict [-h] -i INPUT -o OUTPUT -m MODEL
plpred-predict: subcelullar location prediction program
optional arguments:
-h, --help show this help message and exit
-i INPUT, --input INPUT
input file (.fasta)
-o OUTPUT, --output OUTPUT
output file (.csv
-m MODEL, --model MODEL
trained model (.pickle)
plpred-server: subcellular location prediction server
optional arguments:
-h, --help show this help message and exit
-H HOST, --host HOST host adress
-p PORT, --port PORT host port
-m MODEL, --model MODEL
trained model to be deploy