Code Monkey home page Code Monkey logo

prenomes's Introduction

datasets-br

Describing the datasets-br directives and using this project as point of generic discussions.

Dataset-BR directives

  1. To post qualified datasets in the Datahub.io;
  2. To unify, by curatory process, a set of Wikidata fragments if items, or commom instances of an item;
  3. To unify terminology to express CSV colunm names, table and column semantics (SchemaOrg conventions when possible)
  4. Digital preservation (CSV files and data dumps from original soruces) of the curated datasets;
  5. Monitoring/auditing Wikidata and OpenStreetMap changes, in the context of the curated datasets.

Use as an ecosystem of datasets

Example of use with 2 BR's datasets, state-codes and city-codes.

Operating with pure SQL or SQL-unifier will be easy to merge with other datasets... With PopstgreSQL you can offer datasets in an standard API with PostgreREST (or its descendents pREST and PostGraphile), or plug-and-play with SchemaOrg standards, FrictionlessData standards (and tools), etc.

Documentation

... under construction

Conventions for data provenance and prepare.


  Contents and data of this project are dedicated to

prenomes's People

Contributors

ppkrauss avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

prenomes's Issues

Pressupor fuzzy-sets nos homófonos

A tabela gr-homofonos.csv atualmente apresenta na sua coluna "grau" um valor arbitrário, um score... Idealmente poderíamos utiliza-lo para outros fins, sendo o mais importante a conversão para fuzzy set, ou seja, tendo a coluna como realmente "grau de pertinência". Basta estabelecer uma convenção mais ampla:

grau grau_norm semântica
4 100% Homófono consensual, abrangência nacional
3 75% Homófono regionalmente, ou sem maior consenso
1 25% Homófono apenas em contexto de ruído (ex. telefone)

Nesta nova escala o "score 1" passa a ter um significado mais claro, de "praticamente não-membro", e todos os valores normalizados (grau_norm) são obtidos diretamente do grau, pela função grau/grau_max.

Os valores de grau 2 e 0 não são usados. O valor 2 resulta em 50%, ou seja, crossover point, que é indesejado na presente semântica. O valor zero é atribuído a qualquer coisa que seja não-membro, portanto "100% não-homófono".

Exemplos e operações

  • Seleção do fuzzy set dos homófonos de um canônico c. SELECT * FROM gr_homofonos WHERE canonico=c

  • Cardinalidade escalar do mesmo fuzzy set, expressa em percentual: SELECT round(100.0*sum(grau_norm)) FROM gr_homofonos WHERE canonico=c.

  • Interseção entre dois conjuntos: dois canônicos diferentes que eventualmente partilham, em certo grau, as mesmas homófonas. Por questão de consistência deve-se obrigar que os elementos das interseções de pares nunca tenham membros com grau de pertinência superior a 50%. Não podem ser totais (100%) pois senão descaracterizariam os canônicos. Mesmo sendo parciais, como num dos conjuntos a pertinência é de 75%, pode-se impor que no outro seja seu complemento, portanto 25% < 50%.

  • ...

Como se tratam de convenções, os valores grau_norm_max de qualquer conjunto fuzzy podem ser armazenados em cache, ou seja, no dataset.meta.info, dispensando queries complementares de agrupamento com consulta ao MAX(grau_norm).

Antes de apelar para bibliotecas sofisticadas, criar no schema do framework um kit simples de funções fuzzy-set, por sem convenção do resgate de cache:

  • dataset.f2jf(dataset_id,fuzzy_field) transforma coluna desejada (se normalizada ou com normalização definida) em uma representação JSONb para repesenta-lo como fuzzy-set. Usar jsonb_object(elementos,graus_norm) para gerar o objeto. Pode-se acrescentar um valor controlado (ex. "MAX") para usar como referência de normalização quando forem graus inteiros.

  • dataset.fsc(float[]) obtém a "fuzzy scalar cardinality" da array de graus normalizados (float) ... idem para argumento JSONb obtido da representação acima.

  • dataset.feq(JSONb, JSONb), "fuzzy equals" de dois membros para inferir igualdade.

  • dataset.fintersec(JSONb, JSONb) e dataset.funion(JSONb, JSONb) para interseção e união...

  • ... e só.


Referências e links úteis

o que são os arquivos com prefixo `wd_` e `gr_`?

Não achei explicação no README sobre esses arquivos, nem sobre a coluna wdId dos arquivos com wd_ e do arquivo gr-semanticos, nem sobre a coluna grau do arquivo gr-homofonos.csv. Seria interessante adicionar essa explicação, talvez.

image

LICENÇA

Qual é a licença? Existe direitos autorais ou de propriedade sobre os dados?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.