Code Monkey home page Code Monkey logo

projetocrowd4city's Introduction

Projeto Crowd4City

Repositório para desenvolver as atividades realizadas para o projeto do LSI - Crowd4City

Os estudos feitos aqui resultou na criação da biblioteca PyElit.

Repositório para o projeto principal

Respositório do site do Crowd4City

OBSERVAÇÃO:

O código twittwe_scraping não foi feito por mim. Um colega do LSI(Anderson Almeida), aluno do doutorado, me passou o código para facilitar no desenvolvimento do projeto que participo. Eu apenas peguei a base do código e alterei para conseguir utilizar no projeto.

projetocrowd4city's People

Contributors

dependabot[bot] avatar richecr avatar

Stargazers

 avatar

projetocrowd4city's Issues

Spacy não reconhece entidades com iniciais minúsculas

Pensar em uma forma de corrigir isso.

  • Todas as palavras com inicias maiúsculas(Não funcionou)

  • Usar uma biblioteca para isso(Sacremoses).

  • Utilizar o truecase.

    • Apesar de ter suporte apenas para o inglês, parece ter um ótimo desempenho. Então, os textos podem ser traduzidos e testados com essa biblioteca.
  • Utilizar o LeNER-Br

    • Começar a realizar testes.
    • Testes concluídos.
  • Treinar o Spacy.

Conclusão:

  • O LeNER-Br acaba ficando com uma acurácia muito baixa.
  • O Sacremoses não realiza o Truecasing bem para o idioma Português.
  • Treinar o Spacy não tem bons resultados também.
  • Utilizar o TrueCase, mesmo com suporte apenas para inglês, realizando a tradução para inglês e realizando o true case, parece ser a melhor solução.

Fazer analises de gráficos no TopicModel

Gráficos para analisar a modelagem de tópicos:

  • Usar o pyLDAVis.
  • Gerar gráfico para as palavras que mais aparecem nos documentos.
  • Gerar um gráfico com a quantidade de documentos que são de um determinado tópico.

Objetivo:

  • Utilizar esses dados no artigo e realizar as analises desses gráficos.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.