Code Monkey home page Code Monkey logo

jroc's Issues

Retrieving wrong tags

We should modify both entity recognition and tag recognition.

An example text is:

{"data": "VG henta i fjor ut tal frå inspeksjonane til Statens vegvesen, som viste at 104 bruer i Noreg er svekka. Og brusjefen i Vegdirektoratet vedgår at etterslepet framleis er stort. – Vi har eit relativt stort vedlikehaldsetterslep som vi arbeider med å redusere. Så det er ein stor innsats på gang no for å redusere dette etterslepet, seier han til NRK. Stengde bru. Måndag hastestengde vegvesenet Rauma bru på E136. Dykkarar oppdaga ein usikker brupilar. Dette er ei av landets bruer som sårt trengde oppgradering, og dette arbeidet hadde halde på i lang tid, før brua blei heilt stengt måndag. Det er slik vegvesenet skal jobbe, for å vareta tryggleiken, seier Stensvold. – Dersom vi oppdagar noko vi er usikker på, så må vi stenge til vi har funne ut kor alvorleg det er. Tryggleiken kjem først. Og Stensvold meiner dei har god kontroll på situasjonen, trass det store etterslepet. – Vi har jamlege inspeksjonar, der eventuelle feil ved konstruksjonen vil bli avdekka. Problematisk. Men stenginga av vegen har ikkje vore uproblematisk midt i turistsesongen. Ein av dei som ofte køyrer strekninga, Lars Hardeland frå Nettbuss, ristar oppgitt på hovudet over situasjonen. – Her har dei halde på med oppgraderingsarbeid og lysregulering i to år, og så oppdagar dei at brua er så dårleg at dei stenger den. Eg synest det er heilt ufatteleg, seier han. Lastebileigarforbundet er ei anna gruppe som er råka av vegstenginga, og distriktssjef Dagrunn Krakeli meiner at beredskapen ved brustengingar må bli betre. – Det har skjedd før, og det vil skje igjen, så planen for omkøyringar eller reservebruer frå forsvaret må vere klar, seier ho."}

It recognizes the word Dykkarar as both tag and entity where it should be ignored.

When retrieving an entity by /entities, the result changes based on the capitalization of the word

This is an example:
Uri: https:///entities/usa

It works correctly with:

  • https:///entities/Usa
  • https:///entities/USA

Result:

    {
         uri: "http://<your-domain>/entities/http://www.ontologyportal.org/WordNet#WN30Word-usa",
         data: {
               properties_uri: "http://<your-domain>/entities/http://www.ontologyportal.org/WordNet#WN30Word-usa/properties",
               types_uri: "http://jroc-t1.herokuapp.com/entities/http://www.ontologyportal.org/WordNet#WN30Word-usa/types",
               name: "http://www.ontologyportal.org/WordNet#WN30Word-usa",
               redirected_from: "http://<your-domain>/entities/usa"
         }
    }

Expected:

     {
        uri: "http://<your-domain>/entities/United_States",
        data: {
              properties_uri: "http://<your-domain>/entities/United_States/properties",
              types_uri: "http://<your-domain>/entities/United_States/types",
              name: "United_States",
              redirected_from: "<your-domain>/entities/Usa"
        }
    }

Refactoring: Better package structure

It needs a better package structure.

  • Language detection
  • Tokenization
  • POS Tagger
  • Costituency Parser
  • NERC
    • NER
    • Regex NER
    • Classifier
  • NED
  • Coreference Resolution
  • Polarity Tagging
  • Opinion Detection
  • API

Similarity search

JRoc should have the possibility to cluster similar tags together.
What is similar?

In v1: the similarity is based on Levenshtein distance
In v2: the similarity is going to be based on similar concepts.

Property tagger

Add property tagger.
It detects aspect words links them with the correct aspect class.
Useful for hotel reviews.

Example

Word found: cleanliness -> bed

Documentation: Architecture

Add new documentation about the new architecture for jroc
It should document:

  • The main lib
  • The tasks
  • Pipelines
    • In-Memory
    • Queue-based
  • Webservices
  • Workers
    • Queues

Add Redis support

Add Redis support for using jroc as a background worker in Heroku

Error using HusPos in Heroku

Error when using the tagger with statistical disambiguation on Heroku.

Error log:

   sh: 1: /app/The-Oslo-Bergen-Tagger/OBT-Stat/hunpos/hunpos-1.0-linux/hunpos-tag: not found
   /app/The-Oslo-Bergen-Tagger/OBT-Stat/lib/disambiguation_context.rb:21:in `initialize': Inconsistent token count in OBT and Hunpos data. (ArgumentError)
   from /app/The-Oslo-Bergen-Tagger/OBT-Stat/lib/disambiguator.rb:153:in `disambiguate'
   from /app/The-Oslo-Bergen-Tagger/OBT-Stat/lib/disambiguator.rb:153:in `new'
   from /app/modules/tagger/../../The-Oslo-Bergen-Tagger/OBT-Stat/bin/run_obt_stat.rb:29:in `run_disambiguator'
   from /app/modules/tagger/../../The-Oslo-Bergen-Tagger/OBT-Stat/bin/run_obt_stat.rb:107:in `<main>'

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.