Code Monkey home page Code Monkey logo

analise_dados_vc_2016's Introduction

Análise de dados Veronica Clemente

Dados de Veronica Clemente (Mestrado INTO 2016)

Objetivo da análise

Estudo retrospectivo com dados de pacientes diagnosticados com TVP.

  • Estatísticas descritivas
  • Gráficos qualitativos

As análises serão feitas em um dataset resumido e anonimizado. Os dados brutos não serão disponibilizados neste repositório, apenas as figuras e o relatório.

Características dos dados

A maior parte dos dados são categóricos, e devem ser resumidos com Frequência (proporção). Os dados numéricos serão resumidos como média (+- DP).

  • A idade dos pacientes data de Nascimento será calculada tendo como base a primeira data de exame
  • O IMC foi calculado para pacientes com dados completos
  • Dados faltantes foram desconsiderados para as estatísticas sumárias

Relatório

Todas as informações descritas abaixo estão sumarizadas no relatório. Este inclui uma sugestão de texto descrevendo a metodologia, e sugestões resumidas de descrição sintética dos resultados analisados.

Resultados brutos

Abaixo estão os resultados "brutos". A apresentação dos mesmos foi compilada e formatada no relatório acima.

Estatísticas descritivas

Sumário das estatísticas descritivas das variáveis.

Tabelas de associação

As tabelas abaixo associam variáveis categóricas, e estão disponíveis em PDF, DOCX e CSV. Os arquivos CSV podem ser abertos diretamente no Excel, formatados e posteriormente colados no Word.

Provisoriamente os arquivos podem ser salvos a partir de resultados

  • Medicamentos x Sexo (PDF, DOCX, CSV)
  • Centros x medicamento
    • Dabigatrana (PDF, DOCX, CSV)
    • Enoxaparina (PDF, DOCX, CSV)
    • Rivaroxabana (PDF, DOCX, CSV)
    • Warfarina (PDF, DOCX, CSV)
  • Centros x TEP (PDF, DOCX, CSV)
  • Centros x SPT (PDF, DOCX, CSV)
  • Centros x TVP Previa (PDF, DOCX, CSV)

Figuras

Figuras descritivas das variáveis.

analise_dados_vc_2016's People

Contributors

philsf avatar

Watchers

 avatar  avatar

analise_dados_vc_2016's Issues

Reorganizar Tabela1 (demografia)

Considerar retirar da tabela1

  • TEP
  • SPT
  • TVP prévia

Mantendo apenas

  • Sexo
  • Idade
  • Idoso
  • Altura
  • Peso
  • IMC
  • Obeso
  • Tipo.Atendimento

e abrindo as duas opções SIM e NAO na tabela. Um protótipo funcional ficaria

                     
                       level      Overall      
  n                                 422        
  Sexo (%)             F            263 (62.3) 
                       M            159 (37.7) 
  Idade (mean (sd))               63.43 (15.84)
  Idoso (%)            NÃO          196 (46.4) 
                       SIM          226 (53.6) 
  Altura (mean (sd))               1.63 (0.10) 
  Peso (mean (sd))                76.28 (19.32)
  IMC (mean (sd))                 28.68 (6.41) 
  Obeso (%)            NÃO          233 (64.7) 
                       SIM          127 (35.3) 
  Tipo.Atendimento (%) EXTERNO      172 (40.8) 
                       INTERNAÇÃO   250 (59.2) 

Figura 5

Exigência

Na figura 5 : Distribuição dos casos de TVP por CAE - foi solicitado a substituição de quantidade por número de pacientes.

figura CAEs: melhorar labels

Agora que os labels dos CAEs estão abreviados, a disposição dos labels do barplot permitem aumentar a fonte. No entando, removendo o cex=0.6 a posição também precisa ser ajustada.

Encontrar o melhor valor para adj, e aumentar a fonte dos labels.

Figura 7

Exigência

Figura 7: Avaliação dos casos de síndrome pós-trombótica. Gráfico representando as proporções de incidência nos CAEs N=52. No texto foi descrito 54 ( solicitado para confirmar).

Investigar modelagem das tabelas

Todas as tabelas são puramente descritivas, sem associação de dados (tabelas de contingência).

Investigar o custo benefício de substituí-las por tabelas de contingência, associando com:

  • Gênero
  • Idoso
  • Obeso

Ordenar os dados pela Data do exame.

Para atender à descrição da metodologia que apenas o primeiro exame foi contabilizado, é necessário ordenar os dados pela Data do Exame. Para não depender da ordem da planilha de dados bruta, estabelecer isto na análise

Será necessário reordenar as instruções do input.R. Seguir a ordem:

  1. Gerenciar dados (tipos de variáveis)
  2. Dropar colunas
  3. Remover pacientes duplicados
  4. etc

Modelos (exemplos) de redação de Legendas (Figs/Tabelas)

É necessário dar pelo menos um bom exemplo de como descrever as legendas das figuras e tabelas.

Incluir no relatório

  • Figura com legenda
  • Tabela com legenda

Legendas explicitando os detalhes essenciais (teste de significância utilizado, unidades, etc)

Retirar TEP do estudo

Os dados de TEP foram obtidos por busca ativa em prontuários, mas a cobertura dos dados não é suficiente para estimativas. Retirar todos os resultados e menções a este dado do estudo.

comorbidades: Figuras 4x2

A resolução das figuras de comorbidades está muito pequena. Conferir qual é a melhor resolução e mudar a composição para c(4,2).

Tabela: Uso de medicamentos por Idade (cat)

A tabela que associa o uso de medicamentos pela Idade (categórica: <65 e >65 anos) foi criada, mas não foi exportada para o diretório de resultados. A figura foi salva no entanto.

Salvar estas tabelas, no mesmo padrão dos outros resultados, para consistência da apresentação.

Tabela 4

Exigência:

  Substituir o zero por não informado ou ignorado e passar para a ultima linha  e na ultima linha o número dois para 2```

Remover resultados obsoletos

Diversas tabelas estão poluindo o diretório de resultados.

Conferir quais estão sendo utilizados, e remover os que não estão mais em uso.

Figura 8

Exigência:
Figura 8: Descrição das comorbidades apresentadas pelos pacientes – incluir no gráfico quantos pacientes não apresentaram comorbidades.

Tabelas: Explicitar o n de cada variável

O pacote tableone mostra o n global na primeira linha. O ideal seria ter uma coluna n considerando as perdas em cada variável. Investigar como fazer isso no R.

Por enquanto, o que se pode fazer é explicitar tanto no texto como nas legendas algo como:

O n exibido na tabela é o número global de pacientes.
Em cada linha, a porcentagem corresponde ao número de pacientes em que havia informação disponível.

Tabela 2

Exigência:

Tabela 2: Descritiva das variáveis numéricas dos pacientes incluídos no estudo – AIQ: Amplitude Interquartílica: Q3-Q1 e uma sugestão para modificar o titulo da tabela para Dados demográficos e antropométrico

Reorganizar a rotina de output dos resultados por blocos

Para facilitar o gerenciamento dos resultados incluídos ou descartados, convém que todas as instruções para um determinado resultado estejam agrupadas.

O resultados-output.R está agrupado por formato de output, e não pela semântica do problema.

Aumentar a fonte exibida nos gráficos

A resolução (700x700) está muito grande, e com isso todas as strings dos gráficos ficam muito pequenas.
possíveis soluções:

  • modificar propriamente o tamanho dos textos (cex e afins)
  • reduzir a resolução dos gráficos

Substituir `Idoso` por `Idade` categórica

Após a geração da tabela1 em que a Idade é apresentada como dado numérico e sumarizada como média (DP) , a Idade deve ser categorizada (feita em #8). Mas ao invés de usar o nome criado na issue #8 (Idoso), convém usar nas tabelas e resultados o nome Idade, com duas categorias.

Talvez a solução mais fácil para manter ambas informações seeja:

  • Renomear Idade (numérica) para Idades
  • Renomear Idoso para Idade
  • Nova Idade como ordinal, com as categorias < 65 anos e >= 65 anos

Tabelas de associação: retirar coluna `test`

A última coluna de todas as tabelas de associação identificam o teste exato de fisher. Como o mesmo teste é utilizado em todas, esta coluna não deve existir nas tabelas finais. Planejar como retirá-las antes da criação do output das tabelas nos formatos DOC e PDF.

Dados quantitativos: amplitude dos dados

A banca de qualificação requeriu o max e o min dos dados quantitativos.

Tentar colocar isto na tabela tableone. Caso não seja viável, explicitar no texto.

Categorizar dados numéricos

Os dados numéricos tem valor sob a ótica de categorias binárias: o IMC indica se é Obeso (IMC>=30) e a Idade se é Idoso (Idade >= 65 anos).

  • Criar novas variáveis Obeso e Idoso e agregar os dados de IMC e Idade (respectivamente)
  • Gráfico de barras
  • Remover histogramas

Considerar construir tabelas de contingência para o uso de medicamentos, CAEs e/ou comorbidades com essas novas variáveis.

Criar coluna para classificar o uso de medicamentos

Foi requerido pela banca de qualificação a classificação do uso de medicamentos como

  1. Profilaxia
  2. Tratamento

Criar uma coluna nova que classifique, para cada paciente qual foi a finalidade dos medicamentos usados. Nomes propostos:

  • uso de medicamento
  • finalidade do medicamento

Para identificar o uso, em cada caso, podemos:

  1. Usar a data de cirurgia
  2. Usar as listas de CAE e citar o protocolo

A opção 1 é complicada pelo fato de

  • não sabermos o início do uso do medicamento
  • Não sabermos qual dos medicamentos foi utilizado em cada fim

Por estas razões, a escolha metotológica viável é 2

Figuras 9 e 10

Exigência:

Figuras 9 e Figuras 10: Igualar as escalas e incluir casas decimais.

Retirar as OUTRAS comorbidades

A presença de uma variável não identificada OUTRAS. A não identificação destas comorbidades (e sua quantidade) gerou questionamentos na banca de qualificação.

Justificativa
O levantamento de todas as comorbidades não essenciais implicará em uma nova coleta, abrangente, com grande impacto no tempo de preparação da planilha com novas colunas para cada uma delas - a quantidade é desconhecida.

Proposta
Caso o presidente da banca aprove, esta coluna da planilha deve ser desconsiderada e os resultados removidos das tabelas e gráficos.

Redação final da metodologia

É necessário uma descrição detalhada da Metodologia utilizada, possivelmente atualizando a versão declarada do R, e principais pacotes utilizados, caso haja.

Alongar os eixos y dos barplots, para que ultrapassem as barras

Foi requerido que os gráficos tivessem eixos que ultrapassem as barras - i.e., se a barra tem altura 17, o eixo não deve se encerrar na altura 15, e sim na próxima altura disponível (no caso, provavelmente 20).

Investigar se há como consultar o objeto do barplot() (como é possível no hist() para descobrir os ticks. Caso não seja viável em pouco tempo, definir os ylim manualmente.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.