Code Monkey home page Code Monkey logo

Comments (16)

alexanderfschley avatar alexanderfschley commented on July 28, 2024 3

Boa notícia @turicas ! A Secretaria de Estado da Saúde do Paraná liberou a extensão CSV! Basta substituir a extensão pdf por csv na URL.
sesa_csv

from covid19-br.

turicas avatar turicas commented on July 28, 2024 1

@leo-smi você viu o corona_pr_spider.py que eu fiz nesse repositório? Os dados do PR que estão no Brasil.IO são resultado desse script. Eu uso a biblioteca rows para extrair o PDF - ainda não está tão boa/fácil para esse PDF quanto o camelot, mas funciona.

from covid19-br.

turicas avatar turicas commented on July 28, 2024 1

@leo-smi por enquanto não (eu rodo e atualizo). Ainda estou automatizando os processos para que tudo fique o mais automatizado possível.
As planilhas no Google vão mudar de estrutura, pra facilitar quem precisará digitar à mão os dados.

from covid19-br.

turicas avatar turicas commented on July 28, 2024 1

Me mandaram isso:
"Atualização sobre o PR, talvez ajude:

from covid19-br.

leo-smi avatar leo-smi commented on July 28, 2024 1

Paraná com arquivos csv http://www.saude.pr.gov.br/modules/conteudo/conteudo.php?conteudo=3507

from covid19-br.

turicas avatar turicas commented on July 28, 2024 1

Ainda não está perfeito, mas já fiz uma implementação inicial em web/spiders/spider_pr.py (baixa somente os CSVs). Por isso fecharei essa issue.

from covid19-br.

leo-smi avatar leo-smi commented on July 28, 2024

https://github.com/CoronaTrack/Covid19-Parana-Database

from covid19-br.

leo-smi avatar leo-smi commented on July 28, 2024

Amigo esse spider aí ta atualizando o arquivo no google drive? então faltam 23 desses pra cobrir todos os estados?

from covid19-br.

Bonifacio2 avatar Bonifacio2 commented on July 28, 2024

O spider do Paraná tá quebrando pra o dia 22/3. Tou investigando.

from covid19-br.

Bonifacio2 avatar Bonifacio2 commented on July 28, 2024

Coisas que tentei até agora pra extrair dados do pdf do dia 22:

  • Usar a biblioteca tabula-py
  • Usar a bibiloteca camelot

Tabula é bem fácil de instalar e usar (e os dados extraídos são um DataFrame pandas). Camelot tem até um exemplo simples de como usar aqui: https://github.com/CoronaTrack/Covid19-Parana-Database/blob/master/covid19_PR.ipynb

Nenhuma dessas bibliotecas (incluindo rows, que é a usada pelo spider atual do Paraná) consegue parsear esse pdf com sucesso.
Exemplo do resultado usando Tabula (atenção que a tabela rola para a direita):

REGIONAL DE\rSAÚDE MUNICÍPIO CONFIRMADOS DESCARTADOS EM\rINVESTIGAÇÃO TOTAL
6a – RS Cruz Machado NaN NaN 2.0 2.0
NaN General Carneiro NaN NaN 1.0 1.0
NaN São Mateus do Sul NaN NaN 5.0 5.0
NaN União da Vitória NaN NaN 1.0 1.0
7a – RS Bom Sucesso do Sul NaN NaN 4.0 4.0
Chopinzinho NaN NaN 7.0 7.0 NaN
Clevelândia NaN NaN 2.0 2.0 NaN
Coronel Domingos Soares NaN NaN 1.0 1.0 NaN
Coronel Vivida NaN NaN 7.0 7.0 NaN
Mangueirinha NaN NaN 5.0 5.0 NaN

Notem que a partir da regional 7a – RS as colunas seguintes parecem estar deslocadas à esquerda.

Alguém tem alguma ideia ou sugestão?

from covid19-br.

biketrooper avatar biketrooper commented on July 28, 2024

Rodei o tabula "na mão" e deu certo. Fiz um cron simples pra verificar e avisar qdo o índice de boletins for alterado.

Dados de 24/3: https://docs.google.com/spreadsheets/d/e/2PACX-1vRU-AIpWul3Tk2EW4EBSgUwzHnv3SHZjOCprHnuuB7O47uxN4h000axmdNFpPPBKvyIhUcjUy6Tle92/pubhtml

from covid19-br.

Bonifacio2 avatar Bonifacio2 commented on July 28, 2024

Olá, @biketrooper . É especificamente com o pdf do dia 22 que não funciona.

from covid19-br.

leo-smi avatar leo-smi commented on July 28, 2024

Boa notícia @turicas ! A Secretaria de Estado da Saúde do Paraná liberou a extensão CSV! Basta substituir a extensão pdf por csv na URL.
sesa_csv

que maravilha

from covid19-br.

leo-smi avatar leo-smi commented on July 28, 2024

Muito bom, o Paraná aprendendo com os erros!

from covid19-br.

alexanderfschley avatar alexanderfschley commented on July 28, 2024

Ainda não está perfeito, mas já fiz uma implementação inicial em web/spiders/spider_pr.py (baixa somente os CSVs). Por isso fecharei essa issue.

A Secretaria de Estado da Saúde do Paraná alterou o diretório de armazenamento dos PDFs e CSVs. Inseriu no caminho um diretório referente aos meses.

from covid19-br.

leo-smi avatar leo-smi commented on July 28, 2024

http://www.saude.pr.gov.br/Pagina/Coronavirus-COVID-19

from covid19-br.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.