Code Monkey home page Code Monkey logo

plamk's People

Contributors

flammie avatar ftyers avatar jjpp avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar

Forkers

kristiank

plamk's Issues

Analüüsikontroll korrektseks

check_analyze.pl peaks kontrollima, kas analüüsiväljundis esinevad kõik käsitsiühestatud korpuses leiduvad analüüsivariandid.
Esialgses versioonis võrreldakse vaid märgendust ning ei võrrelda leitud tüve korpuses tooduga. See tuleb ära parandada. Põnevaks teeb asja see, et PLAMK analüüsib ka liitsõnade esimesed pooled aga korpuses on need enamasti algkujul.

Spelleri näiterakendus

Tuleb uurida, kuidas soomlased oma fst-põhised spellerid ehitanud on. libvoikko ja sõbrad on arvatavasti hea algus uurimiseks. Ja siis tuleb tekitada mehhanism olemasoleva fst pealt eesti spelleri tekitamiseks.

Tüvemuutuste info kodeerimine paremaks

Ajalooliselt kasutab praegune süsteem muutuvate märkide-häälikute-tähtede tähistamiseks suurtähti. See põhjustab tavaliste tekstide analüüsimisel mitmesuguseid anomaaliaid ja peamiselt takistab pärisnimede korrektsete vormide kirjeldamist. Tuleks uurida, kuidas nt saamid omi asju teinud on ja kodeering paremaks muuta.

Litsentsindus korda

Praegusel kujul on PLAMKi litsentsindus kardetavasti katki.

Plaan ja kavatsus on, et kõik siin leiduvad tükid, mis on tarvilikud eesti keele morfoloogiat kirjeldavate lõplike automaatide ehitamiseks oleks LGPLi all levitatavad ning vajalikud välised sõltuvused (kompilaatorid jms utiliidid) oleks võimalikult vabalt kasutatavad ja ei seaks piiranguid saadavatele automaatidele.

Praegu on teada, et

  • kahetasemeline reeglikomplekt ja käänamist-pööramist kirjeldav jätkusõnastike süsteem, ehitussüsteem ja testskriptid on LGPLi all, vähemalt on nii kavatsetud.
  • erandid ja kaasnev vormikoodifail on kas otse pärit või tuletatud EKI andmefailidest (http://www.eki.ee/tarkvara/est_morpho_data.zip, litsents http://www.eki.ee/eki/litsents.html)
  • praegu on vajalik ettearvutatud tüvevariante sisaldav EKI tüvebaas, mis ei ole (veel?) avalikult otse kättesaadav aga mis on teoreetiliselt EKI andmefailidest tuletatav ja teoreetiliselt käib sama litsentsi alla.
  • osa faile (analüüsikontrollija juures sisalduvad teisendajad?) võivad olla algselt pärit Kaili Müürisep'a süntaksianalüüsimaterjalide juurest (http://math.ut.ee/~kaili/grammatika/)

Mida teha vaja on:

  • kontrollida üle kõigi repositooriumis leiduvate failide päritolu ja seotud kasutamise- ja levitamisõigused.
  • tähistada failid repositooriumis korrektselt.
  • suhelda EKIga tüvebaasi litsentsi osas. Mingil määral on seda juba tehtud, võimalikud lahendused on eraldi lepngu sõlmimine, mis lubaks seda faili levitada või tüvebaasi avaldamine analoogselt muude morfoloogia-andmefailidega.

Analüüsikontrolli vahekuju paremaks

Praegu on check_analyze.pl sees kasutusel vahekuju, kus osa korpuses toodud märgendust on eemaldatud jms. Kontrolliks tuleb teisendada nii PLAMKi väljundit kui ka ESTMORFi väljundit. Praegu on kasutusel mitte millegagi ühilduv vahekuju. Pikemas perspektiivis oleks tore saavutada olukord, kus ESTMORFi väljundi konvertimiseks piisaks http://math.ut.ee/~kaili/grammatika/estmorfcg.tar.gz sees olevatest vahenditest -- see võiks tähendada, et PLAMK koos testimiseks mõeldud konverteriga on kasutatav ka süntaksianalüüsi sisendis.

Ühtlasi võiks nende Kaili skriptide uurimisest selguda mitmesuguseid põnevaid omadusi, mida tüvebaasis märgendada.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.