Code Monkey home page Code Monkey logo

biblissima / collatinus Goto Github PK

View Code? Open in Web Editor NEW

This project forked from phverkerk/collatinus-11

63.0 63.0 15.0 42.02 MB

Sources of Collatinus software - Latin lemmatizer, morphological analyzer and scansion

Home Page: http://outils.biblissima.fr/en/collatinus

License: GNU General Public License v3.0

JavaScript 46.76% QMake 0.35% Makefile 0.16% CSS 0.08% C++ 45.66% Shell 0.61% HTML 6.39%
latin latin-language lemmatization lemmatizer morphological-analysis

collatinus's People

Contributors

brroman avatar eroux avatar phverkerk avatar ponteineptique avatar regisrob avatar tjklemz avatar ycollatin avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

collatinus's Issues

Gestion des i consonnes notés i

Cf. ce commentaire, certains i consonnes ne sont jamais notés j, il faut pourtant pouvoir les identifier dans le lexique afin de les scander correctement. Cela pourrait se faire avec la lettre ı.

illius

Dans 10.3, le 2e i d'illius était commun, comme dans le Cart-Grimal p. 36, §65.
Maintenant, il est devenu bref.
Il faudrait probablement vérifier toutes les désinences...

désinences rares et "vphages"

Collatinus 10.3 introduit les notions de désinences rares (mises entre parenthèses) et v-phage (commençant par -), c'est à dire qu'elle supprime le v du parfait. Si je comprend bien, le deuxième n'a plus de raison d'être avec le nouveau système de modèle, mais le premier pourrait être utile ?

Extension du lexique

Philippe a créé une grande extension au lexique, disponible sur collatinus-10-data, il faut :

  • la relire entièrement
  • la convertir dans le nouveau format du lexique
  • pouvoir l'intégrer optionnellement à Collatinus

hieronymous

Hieronymous (et Hierusalem, etc.) est un cas assez particulier car ils est écrit "Hieronymus" dans les graphies ramistes (noté Hĭĕrōnўmus dans le Gaffiot et Hĭĕrōnymus dans le L&S), et pourtant, au en latin liturgiques, il est prononcé avec un premier i consonne, et donc devrait théoriquement être écrit "Hjeronymus" (qui est assez moche). Pedecerto donne un (seul) exemple de Hieronymus avec un i voyelle et 0 avec un i consonne, donc on peut penser que les deux existent. La question est : comment faire pour qu'une personne que seul le latin ecclésiastique intéresse puisse ne trouver que Hjeronymus et jamais Hieronymus ?

possibilité d'enlever les accents

Collatinus 10.3 offre la possibilité de débarasser un texte de ses accents (aigus, breve macron), ce qui est assez pratique. J'aurais tendance à le faire automatiquement (comme pour œ et æ), mais je vous laisse voir, dans la 10.3 c'est une action dans le menu.

Alleluia

(ces tickets viennent d'un retour que j'ai eu d'un moine) En essayant d'accentuer Alleluia, on tombe sur une forme un peu bizarre : Alˌleˌlúˌia (Alˌléˌluja) qui contient deux erreurs :

  • la première, facile, est qu'il manque une virgule avant le j dans la forme entre parenthèses
  • la deuxième est que je ne comprend pas la première forme:
    • si c'est un vraiment un i, il manque une virgule entre le i et le a
    • mais je ne crois pas que ce soit un i... on trouve cela dans le Gaffiot (2016), mais ça semble être une erreur, le L&S donne bien un j... qu'en pensez-vous ?

homogéinisation de l'indentation (et du style en général)

Ce serait assez pratique de se mettre d'accord sur un style et de pouvoir formatter le code automatiquement. Dans le style actuel il y a un mélange de tabs et de blocs de 4 espaces. Je propose de passer tout le code à clang-format en lui disant d'indenter avec 4 espaces, qu'en pensez-vous ?

déramisation de V ?

Pour l'instant, V n'est pas déramisé en U, cela pose un problème pour reconnaître Vlixes. La ligne est commentée dans Ch::deramise, il faudrait comprendre pourquoi

Vocabulaire médiéval

Une très gande quantité de termes médiévaux apparaissent dans le DuCange mais ne sont pas reconnus par Collatinus, il faudrait pouvoir les importer. Parmi eux :

  • solemniis
  • animabus
  • benesonantibus
  • confixit
  • cordium
  • damnarant
  • deduc
  • exquisierunt
  • finem
  • idipsum
  • jubilos
  • languentum
  • lingent
  • meipso
  • necnon
  • nitis
  • partibor
  • parturiit
  • pellicano
  • perduc
  • perfulgidos
  • plebium
  • prudentum
  • præambula
  • præest
  • renuerunt
  • scatuere
  • seipsum
  • unicuique
  • abbas
  • abiectio
  • affectu
  • analogium
  • annuntiabit
  • anteriores
  • breviandum
  • centesimus
  • considerationem
  • Dominico
  • Duodecimus
  • Ecclesia
  • extremitate
  • feria
  • humilians
  • humiliasti
  • humiliatus
  • hymnum
  • Incurvatus
  • inserviatur
  • labia
  • linguosus
  • litania
  • memoriter
  • memoriter
  • monachus
  • monasterii
  • multiloquio
  • naturaliter
  • nihilum
  • octogesimus
  • operarium
  • opprobrium
  • oratorio
  • parvissimo
  • pausetur
  • perdicto
  • psalmodiae
  • rationabilia
  • regula
  • responsoria
  • responsorium
  • responsorius
  • sabbatorum
  • satisfaciat
  • scamnis
  • scandalorum
  • septuagesimus
  • sollemnitas
  • supradictas
  • suprascripto
  • temperius
  • tricesimus
  • uermis
  • unumquemque
  • usquequaque
  • vespertina

petites erreurs dans lemmes.la et lem_ext.la

supprimer les parenthèses ouvrantes dans le participe et les génétifs, et le point d'exclamation dans le lemme

concustōdĭo=cōncūstōdĭo|audio|cōncūstōdīv|cōncūstōdī(|is, ire, iui, itum|2
Aether2=Āethĕr|miles|Āetheris (er||eris (eros), m.|1
Phĭlŏchărēs2|miles|Phĭlŏchărētis (||ētis (is), m.|1
ho!|inv|||interj.|1

suggestions

concustōdĭo=cōncūstōdĭo|audio|cōncūstōdīv|cōncūstōdī|is, ire, iui, itum|2
Aether2=Āethĕr|miles|Āetheris||eris (eros), m.|1
Phĭlŏchărēs2|miles|Phĭlŏchărētis||ētis (is), m.|1
ho|inv|||interj.|1

intégration de l'accentuation/césure de Collatinus 10.3

Dans la version 10.3, @PhVerkerk a développé un module d'accentuation comprenant plusieurs fonctionnalités :

  • accentuation et césure dans l'interface de scansion, en cliquant sur le bouton alpha (certainement à changer)
  • fenêtre d'option de l'accentation/césure
  • possibilité, depuis l'interface de Collatinus, de charger un fichier contenant des exceptions aux césures, dans un format à documenter

reconnaissance de æ et œ

Ce serait pratique si Collatinus pouvait transformer automatiquement æ en ae et œ en oe, pour pouvoir analyser des textes médiévaux directement

ille

Dans le modèle ille, la ligne "des:16,28,40:0:ī̆ŭs" était inutile, puisque le i du génitif est déjà commun dans le modèle "unus", qui est le père du modèle ille.
La ligne qui suit "des+:15,18,21,25,27,42:1:ūnc;ōc;ōscĭnĕ;āec;ānc;ōc" a des effets dévastateurs sur le tableau de flexion. Quand elle est commentée, j'obtiens un tableau de flexion qui ressemble à celui que je trouve dans le Cart-Grimal. Quand elle ne l'est pas, j'obtiens un accusatif masculin "īllūnc" et un ablatif "īllōc", conformes aux deux premiers items de la liste. Sauf que les formes normales "īllŭm" et "īllō" ont disparu. Comme si le "des+:" était interprété comme un "des:".
Une erreur liée aux derniers merge ?

do, das, dedi, datum

Pour une raison obscure, le a des formes de do, dare est presque toujours bref, contrairement à celui d'amo, amare qui est presque toujours long. Il reste long dans das (indicatif présent) et da (impératif présent), ainsi que dans tous les cas où il est entravé : dant, dantur [...], dans, dantis et autres dandus.
Dans Collatinus 10.2 nous avions un patch qui reconnaissait les composés de do, dare. Dans Collatinus 11, il doit avoir son propre modèle.

duplications de mots inutiles dans lemmes.la

les duplications de mots suivantes semblent inutiles dans lemmes.la :

dĭpundius=dĭpūndĭus,dĭpūndĭus|filius|||i, m.|1
Tmōlus=Tmōlus,Tmōlus|lupus|||i, m.|7
vulnus=vūlnŭs,vūlnŭs|corpus|vūlnĕr,vōlnĕr||ĕris, n.|400

on les trouvent avec le motif de recherche \w+=(\w+),\1\b

Error in modeles.la

Under the entry 'infans' in modeles.la we see:

modele:infans
pere:fortis
des:37-39:1:ns
des+:18,30,42:1:ē
des+:22,34,46:1:ŭm3

Attempting to decline this in Collatinus 11.2 gives the neut. sing. n/v/a forms infantns, instead of expected infans

from what I can gather from the code, Root 1 is usually the stem form given in lemmes.la (i.e. here infant)
Either this should be "0:ns" (which the model infans should inherit from its model fortis as 2:0 (remove two characters, add nothing))
or it should be a "4:" (which it would inherit from fortis as K:)

expressions agglutinées

Collatinus devrait pouvoir reconnaître des formes agglutinées comme

  • usquequo
  • quousque
  • noniam
  • etenim
  • enimuero
  • attamen

etc. peut-être dans une liste à part (aggl.la) ?

complura

The usual neuter form of complures is complura, but this form is not recognized by Collatinus.

Indice de rareté sur les lemmes

Il faudrait pouvoir avoir un indice de rareté ou de fréquence sur les lemmes ou les radicaux, cela permettrait d'éliminer des formes très rares. Il faudrait également pouvoir redéfinir la rareté d'un lemme ou d'un radical dans un lexique personnalisé.

Vocabulaire liturgique

Beaucoup de termes de vocabulaire liturgique (principalement des noms propres) sont absents de Collatinus. Les sources pour cela sont la Nova Vulgata, les hymnes. Certains sont archi courants même en dehors du contexte liturgique :

  • Abrahæ (gen. de Abraham)
  • Jesus (declinaison)
  • Abiram
  • Abstergat
  • Abstergit
  • Adesto
  • Adæ
  • Agareni
  • Agie
  • Alberte
  • Alberti
  • Aleph
  • Alleluia
  • Ambrosianum
  • Amen
  • Amorræorum
  • antiphona
  • Apocalypsis
  • Apostoli
  • Artubus
  • Baalphegor
  • Basan
  • Bertrandi
  • Beth
  • Caph
  • Catharina
  • Catharinæ
  • catholicis
  • Cison
  • Collisor
  • Coph
  • Daleth
  • Dathan
  • Educ
  • eleison
  • Endor
  • Ephratha
  • Evangelia
  • Ferrerii
  • Franciscus
  • Fœno
  • Galaad
  • Gebal
  • gehennae
  • Ghimel
  • Gorgomiensi
  • Hermon
  • Hermonim
  • Herodem
  • Horeb
  • Hungaria
  • Hæresum
  • Iaar
  • Iabin
  • Increpasti
  • Iod
  • Jerusalem
  • Joachim
  • Joelis
  • Kyrie
  • Lamed
  • Limana
  • Ludovicus
  • Magdalæ
  • Melchisedech
  • Mem
  • Mementote
  • Meriba
  • Misar
  • Mosaico
  • Mosoch
  • Nun
  • Og
  • Omega
  • Oreb
  • orthodoxis
  • Pascha
  • Phe
  • Phinees
  • Plusquam
  • Politiano
  • Porres
  • Propheta
  • psalmus
  • psalterii
  • Rahab
  • Raymundus
  • Ricciis
  • Sade
  • Salmana
  • Samech
  • Sarion
  • Sehon
  • Selmon
  • Sichimam
  • Succoth
  • Taneos
  • Teresa
  • Teresiæ
  • Teth
  • Trinitatis
  • Vau
  • Zain
  • Zeb
  • Zebee
  • Zelosus

mots agglutinés déclinés

Les mots suivants:

  • jusjurandum
  • respublica
  • paterfamilias
  • meipse
  • teipse
  • seipse

devraient pouvoir être déclinés par collatinus

mise à jour des désinences avec celles de la 10.3

Voici les différences entre les désinences de la 10.3 et de la 11 : diff.txt

  • ajout des modèles facile, humiliter, acriter
  • utilisation des nouveaux modèles dans lemmes.la
  • utilisation des nouveaux modèles dans lem_ext.la
  • ajout des formes de aio
  • degrés irréguliers des adjectifs en ilis

Analyse for long vowels / mark ambiguous?

Hi there, it would be possible to add a feature to:

  1. Mark long vowels, eg scripsi » scrīpsī (or, if preferred, scrípsí); and optionally
  2. Find and mark text that is ambiguous, eg puella vs puellā; or mala vs māla

The second of these is less important, but it seems the first of these would be quite easy. Also apologies if Collatinus does this and I have misunderstood.

Lemma inconnus sur le corpus de Proiel [PyCollatinus]

D'après PyCollatinus, les formes et lemmes suivant-e-s sont inconnu-e-s :

forme lemme
Abiud Abiud
absorta absorbeo
Acheldemach Acheldemach
Achim Achim
Acutilianam Acutilianus
Acutiliano Acutilianus
Adae Adam
adduc adduco
adherebit adhaereo
adherentes adhaereo
adheret adhaereo
adhesit adhaereo
adhortere adhortor
Adiatunnus Adiatunnus
adpropinquassent appropinquo
adpropinquasset appropinquo
adsciscunt ascisco
adspirante aspiro
adspirare aspiro
adsuefacti assuefacio
adtractent attrecto
Aeduae Haeduus
afuturum absum
Agabus Agabus
alligasset alligo
Allobrogas Allobroges
amethistus amethistus
Amiano Amianus
Amon Amon
Amos Amos
Amphipolim Amphipolis
Apellen Apelles
Apenas Apenas
apocalypsin apocalypsis
Apollonidensem Apollonidensis
April April
Araus Araus
Arfaxat Arfaxat
Ariopagi Ariopagus
Ariopagita Ariopagita
Ariopagitae Ariopagita
Ariopagitis Ariopagita
Ariopago Ariopagus
Ariopagum Ariopagus
Atuatucam Aduatuca
aventu adventus
Azor Azor
Bar Bar
Barsabban Barsabban
Bartholomeum Bartholomeus
Bartholomeus Bartholomeus
Bartimeus Bartimeus
Beroensis Beroensis
Bethfage Bethfage
bithalassum bithalassus
Blasto Blastus
Caiapha Caiaphas
Caiaphae Caiaphas
Caiaphan Caiaphas
Caiaphas Caiaphas
Cananeum Cananeus
Cananeus Cananeus
carcedonius carcedonius
Catamantaloedis Catamantaloedes
catecizat catecizo
catecizatur catecizo
Catuvolcus Catuvolcus
CCCC CCCC
CCIↃↃ CCIↃↃ
Cencris Cenchreae
Cephae Cephas
Cephas Cephas
chananea chananeus
chirografum chirographum
Cho Cho
chrysolitus chrysolitus
chrysoprassus chrysoprassus
Chuza Chuza
Cimberium Cimberius
clamydem clamys
Cleopae Cleopa
Cleopas Cleopas
Coctia Coctius
cofini cofinus
cofinos cofinus
cogitaramus cogito
cognoram cognosco
cognoris cognosco
cognoro cognosco
cognosse cognosco
colleximus colligo
collexistis colligo
comesationes comesatio
comesationibus comesatio
conbuserunt comburo
conlocaram colloco
conlocarat colloco
consequerere consequor
consuessem consuesco
consuessent consuesco
contemnabamus contemno
Corazain Corazain
corban corban
corbanan corbanas
Coriosolitas Coriosolitae
Coriosolites Coriosolites
cristallum cristallus
cuicui quisquis
cyrenei Cyrenaeus
Cyreneum Cyrenaeus
cyreneum Cyrenaeus
Danihelo Danihelus
D̅C̅C̅C̅ D̅C̅C̅C̅
Dec Dec
Decembr Decembr
Decembr. Decembr.
decressent decerno
decucurrerunt decurro
decucurrit decurro
dicundo dico
didragma didragma
difficillimis difficilis
Dionisius Dionisius
Divico Divico
duodetreginta duodetreginta
earundem is
Eber Eber
ecquae ecquis
ecquod ecqui
Efrem Efrem
elemosynam elemosyna
elemosynas elemosyna
Eliachim Eliachim
Eliud Eliud
Elymas Elymas
Emmanuhel Emmanuhel
encenia encenium
Enos Enos
Epafrodito Epafroditus
Epafroditum Epafroditus
Ephaenetum Ephaenetus
Epicratem Epicrates
eppheta eppheta
Equotutico Equotuticus
Esli Esli
Esrom Esrom
Esuvios Esuvii
Eufrate Eufrates
Eufraten Eufrates
Euhodiam Euhodia
exiebant exeo
exiebat exeo
exilierunt ex(s)ilio
expiscere expiscor
extinguntur ex(s)tinguo
faciundi facio
facteon facio
fantasma fantasma
Febr Febr
Februar Februar
ficu ficus
Filologum Filologus
Flegonta Flegon
Foenicen Foenicen
Fontius Fontius
Frygiam Phrygia
Funisulanus Funisulanus
Gabrihel Gabrihel
Gad Gad
Gamalihel Gamalihel
gazofilacio gazophylacium
gazofilacium gazophylacium
Gennesar Gennesar
Gnaio Gnaius
Gnaium Gnaeus
Gog Gog
Gomorraeorum Gomorraei
grabatto grabattus
grabattum grabattus
Haeduae Aeduus
haurierant haurio
hedis haedus
hedos haedus
Helia Helias
Heliae Helias
Heliam Helias
Heliseo Heliseus
Helmadam Helmadam
Heloi Heloi
Helonius Helonius
hereticum haereticus
Hermagedon Hermagedon
Hermonis Hermo
Hierichum Hiericho
Hierusalem Hierosolyma
hii hic
honorificentior honorificus
honorificentius honorifice
Iannae Iannae
Ianuar Ianuar
Iared Iared
idolatriae idolatria
idolatris idolatra
Idumea Idumea
iiii iiii
IIII IIII
implesset impleo
ingemescens ingemesco
ingemescimus ingemesco
ingemescit ingemesco
inirentur ineo
inlustrarunt illustro
inquiens inquam
insuflavit insufflo
introduc introduco
Ioda Ioda
Iohanna Iohanna
Iohel Iohel
Ioram Ioram
Iordanen Iordanes
Iorim Iorim
Iosech Iosech
iretur eo
Israhelita Israelitae
Israhelitae Israelitae
israhelitae Israelitae
Itureae Iturea
Kal. Kal.
Kal.Iunias Kal.Iunias
Kal.Maias Kal.Maias
Kaldiem Kaldiem
Kalend Kalend
KalMaias KalMaias
laguenam lagona
Lamech Lamech
Levin Levi
Lingonas Lingones
linuit lino
longevus longevus
Luteciam Lutecia
Lybiae Lybia
Maath Maath
Magog Magog
Maias. Maias.
Malchus Malchus
Malelehel Malelehel
Manaen Manaen
manufacta manufactus
manufactis manufactus
maranatha maranatha
Matinio Matinius
Matinium Matinius
Matthan Matthan
Matthat Matthat
Matthata Matthata
Matthathiae Matthathias
Melchi Melchi
mementote meminisse
Menna Menna
Mennianorum Mennianus
Menophili Menophilus
Menturnensis Minturnensis
Menturnis Minturnae
Michahel Michael
Militene Militene
miscite misceo
Moeragene Moeragenes
Moeragenes Moeragenes
molentes molo
n ne
Nachor Nachor
Naggae Naggae
Nammeius Nammeius
Nasuam Nasua
Nathanahel Nathanahel
Naum Naum
necessariora necessarius
neglegant neglego
neglegemus neglego
neglegenda neglego
neglegere neglego
Neman Neman
Nepthalim Nepthalim
ninevitae Ninevitae
Ninevitis Ninevitae
Non. Non.
norim nosco
norunt nosco
nosset nosco
Nov. Nov.
Novembr Novembr
Novembr. Novembr.
Numestio Numestius
Numestium Numestius
Octobr Octobr
octogenti octogenti
Omega omega
Onesifori Onesiforus
optaramus opto
Orcyniam Orcynia
orfanos orphanus
Orgetoricem Orgetorix
Osaces Osaces
osanna osanna
Pamphilia Pamphylia
Pamphiliae Pamphylia
Pamphiliam Pamphylia
paterfamiliae paterfamiliae
pedagogo paedagogus
pedagogorum paedagogus
pedagogus paedagogus
perduc perduco
perfodiri perfodio
pertransiebant pertranseo
pertransiet pertranseo
pervelim pervolo
petum impetus
Phaetho Phaetho
Phalec Phalec
Phanuhel Phanuhel
Pilius Pilius
pinguidinis pinguido
Plotia Plotius
Pontidia Pontidia
praesciit praescio
prendiderunt pr(eh)endo
prendidistis pr(eh)endo
prohoemiis prooemium
Ptianii Ptanii
Ptolomaeum Ptolomaeus
Ptolomaida Ptolemais
quandam quidam
quartadecima quartusdecimus
quartamdecimam quartusdecimus
quendam quidam
quidlibet quilibet
Quint Quint
Quint. Quint.
quintodecimo quintusdecimus
quodque quisque
rabboni rabboni
Rachab Rachab
Ragau Ragau
Rama Rama
Rantius Rantius
repetisset repeto
Resa Resa
sabacthani sabacthani
Sabaoth Sabaoth
Sabim Sabis
Saddoc Saddoc
Salathihel Salathihel
Salim Salim
Salmon Salmon
sapphyrus sapphyrus
sardonix sardonix
Sareptha Sareptha
Scaldim Scaldis
Scariotes Scarioth
Scarioth Scarioth
Scariotis Scarioth
Scevae Sceva
scisma schisma
semicintia semicintium
Sept Sept
Seruch Seruch
Sext. Sext.
Sextil Sextil
Sextil. Sextil.
Sibusates Sibusates
Sopolidis Sopolis
sordem sordes
Sosthenen Sosthenes
Sotiatium Sotiates
Stachyn Stachys
Sufenas Sufenas
Sychar Sychar
Symeon Symeon
Syntychen Syntyche
Syrtim Syrtis
Tadiana Tadianus
Tadiano Tadianus
taedeat taedet
taedebat taedet
taedere taedet
taederet taedet
Thaddeum Thaddeus
Thaddeus Thaddeus
Thare Thara
Thyillus Thyillus
Timei Timeus
transiebat transeo
transient transeo
transiri transeo
tremefactus tremefacio
Troucillum Troucillus
Tryfenam Tryphaena
Tryfosam Tryphosa
tunditores tunditor
unianimiter unianimiter
utervis utervis
Vedianas Vedianus
Verucloetius Verucloetius
vetati veto
viiii viiii
Voccionis Voccio
Volcatium Volcatius
Xenocratem Xenocrates
xiiii xiiii
Zaccharia Zaccharias
Zacchariae Zaccharias
Zacchariam Zaccharias
Zaccharias Zaccharias
Zacchee Zaccheus
Zaccheus Zaccheus
Zostera Zostera

enclitiques ambiguës

Certaines formes ont une ambiguïté sur le fait qu'elles portent ou non une enclitique. Actuellement elles sont reconnues comme n'en portant pas, mais li faudrait pouvoir lister ces cas dans Collatinus, par exemple :

  • quoque
  • ave
  • atque
  • denique
  • Iove
  • itaque
  • neque
  • neve
  • quisque
  • salve
  • sive
  • suave
  • ubique
  • uterque

comptage des v, æ et œ.

Pour éviter de scander voluit en vŏlŭĭt (vōlvĭt), nous comptions les v dans la forme d'origine (éventuellement ramiste) pour ne pas proposer volvo comme lemmatisation de voluit. À partir du moment où on convertit les æ en ae, il faudrait le faire aussi pour ces diphtongues. Pas critique pour œ, mais peut éviter la confusion Æneas aeneas, comme pour voluit volvit.

Collatinus OSX hangs when tagging certain abbreviations

[copy also sent via email]

Hello,

Je vous présente mes excuses de vous écrire en anglais, mais ma
grammaire française est horrible. Néanmoins, j'arrive assez bien à la
lecture, alors n'hésitez pas à répondre en français si vous voulez :)

I have encountered some bugs while using Collatinus for OSX 11.1 full.
I have been using the TCP server with a custom python wrapper with the
statistical tagger. Overall, it works very well, and I have tagged
~1.8million sentences. However, certain words cause the server to go
into what looks like an infinite loop (100% CPU utilisation, does not
respond correctly to further tagging requests).

Based on experimentation, I think the main issues are with
abbreviations. Here is the list of words I have discovered so far:

Cn, Sex, Post, Pro, Cap, Ser, Oct, Ap, Kal, Tib, St, Pl

You should be able to replicate the issue by sending a remote tag
request with the client. eg:

/Applications/Collatinus_11.1.app/Contents/MacOS/Client_C11 -P3 "Ap"

Please let me know if you would like any more information. I'd be
happy to test any updated builds on my dataset.

Thankyou for the software!

Trop peu de traductions en anglais

Il faut vérifier mais il semblerait que lors du partage des lemmes.* après le travail sur les textes du LASLA. Les traductions en anglais n'aient pas suivi. Les chiffres que donne alpheios sont clairs :
9889 words Collatinus translation for eng
57769 words Collatinus translation for eng (Extension)
23912 words Collatinus translation for fre
57783 words Collatinus translation for fre (Extension)
9905 words Collatinus translation for por

Je ne dis pas que nous devrions avoir 23912 traductions en anglais, mais le 9889 indique clairement que lemmes.en n'a pas suivi la migration des lemmes de lem_ext.la dans lemmes.la
Il faut retrouver où et quand ça s'est fait.

Format of .col files

Hi,
I would like to decompress the .col files (the dictionaries), but I have not found the proper format they are in. Could you please help me with that?
Thanks.
Nicolas Vaughan

Composés de sum

La flexion de sum contient des formes commençant par une consonne et d'autres commençant par une voyelle. Le préfixe peut alors changer.
Pour les composés de sum, nous avions, dans la 10.2, introduit un 3e radical qui correspond à la forme du préfixe devant une voyelle. Ces radicaux ont subsisté dans le changement de format :
possŭm=pōssŭm|possum|pŏtŭ|pŏt|potes, posse, potui
praesŭm=prāesŭm|sum|prāefŭ|prăe|es, esse, fui
Mais ils n'ont pas été utilisés (ou je ne l'ai pas vu) dans les modèles. En particulier, la scansion de potest donne pōtēst, alors que j'attends pŏtēst.

Poesis est présent comme modèle. Pas comme lemme

Bonjour à vous,
En transférant le code en python, j'ai découvert que Poesis était présent comme modèle mais absent de lemmes.la. Peut-être ai-je raté une ligne de code mais il me semble que cela devrait y être ?

Mise à jour du lexique avec celui de la 10.3

Lorsqu'on tente de syllaber/accentuer Patribus, on obtient Patriˌbus, dans lequel il manque une séparation de syllabe et donc l'accent. Ça doit être dû à la première voyelle qui est commune j'imagine...

alternance i/u

On trouve parfois des formes en u à la place de i, par exemple:

  • quæsumus
  • optumus
  • proxumus
  • ultumus
  • maxumus
  • lubens, lubenter, etc.
  • vicensumus
  • miserrumus
  • decumus
  • simillumarum
  • clarissuma
  • decumis
  • -issumus
  • -uma -umam, -umae, -umas, -umorum, -umo, -umos, -umum

(et leurs dérivés), il faudrait que Collatinus puisse les reconnaître.

Is flexion of a lemma available over Collatinus CLI-client?

Using Collatinus 11 over the command line interface I have the following options:

La syntaxe est '[commande] [texte]' ou '[commande] -f nom_de_fichier'.
Éventuellement complétée par '-o nom_de_fichier_de_sortie'.
Par défaut (sans commande), on obtient la scansion du texte.
Les commandes possibles sont :
        -s : Scansion du texte (-s1 : avec recherche des mètres).
        -a : Accentuation du texte (avec options -a1..-a15).
        -l : Lemmatisation du texte (avec options -l0..-l15, -l16 pour les fréquences).
        -h : Lemmatisation du texte en HTML (mêmes options que -l).
        -e : Lemmatisation du texte en CSV, sans option sauf la langue cible.
        -S, -A, -L, -H, -E : Les mêmes avec Majuscules pertinentes.
        -t : Langue cible pour les traductions (par exemple -tfr, -ten).
        -C : Majuscules pertinentes.
        -c : Majuscules non-pertinentes.
        -? : Affichage de l'aide.

Is there also a flag for lemma flexion?

E.g.
./Client_C11.exe -F dominus

Questions pour une compilation/installation sur Manjaro

Bonjour !

Pour utiliser collatinus sur Manjaro (distribution linux basée sur Arch), j'aimerais savoir quelle version tenter de compiler, car je vois sur le site de biblissima que la version proposée est la 10.2.2. Est-ce que collatinus 11 est cependant déjà utilisable ?

Si je dois compiler la version 10, à partir des sources disponibles ici, est-ce que ce sera bien la version 10.2.2 ?

Puis-je compiler la version 10 en suivant le processus décrit pour la version 11 ?

Merci ! Bon week-end !

bug potentiel avec contractions.la

Le fichier "contractions.la" a adopté des notations non-ramistes. Cela risque de poser un problème avec le comptage des "v" que contient une forme.
Pas de soucis avec amaram --> amaueram. Mais si le radical contenait un "v", cela poserait un problème car l'identification de volaueram avec volaveram (de volo, as, are) ne se ferait plus.
Je pense qu'il faudrait ramiser le fichier "contractions.la". Si la forme contracte contient au moins un "u" et pas de "v", on pourrait avoir affaire à un texte non-ramiste auquel cas il faut déramiser la contraction.
uolaram = uolaueram --> volaveram.
D'autre part, ce même fichier contient "ast:a" et d'autres "st" qui sont maintenant traités comme des suffixes. Donc inutiles. Toutefois, on peut visiblement avoir "-ust" qui est la contraction de "-us"+"st". C'est donc un cas particulier qu'il faudrait examiner lors de la dé-suffixation. En bref, si une forme se termine par "st", je dois examiner 2 cas : la forme sans le "t" final et la forme sans le "st" final.
Je vois bien où intervenir. Mais avant de le faire, je voudrais avoir votre opinion.

console version

I would like to have a pure console version without server.

Server mode could be good for effective processing of big texts, but I would like to have a simple command-line tool, even at cost of slow initialization and data files reading. It would be nice for occasional requests.

Another acceptable solution would be a daemon process, or the app minimized to tray, so there no need to hold the application window open.

OS: Linux

[feature request] spelling permutations

Collatinus is quite smart in understanding of variative Latin spelling, but still fails "uva" test:

  • uva 🗸
  • vua 🗸
  • uua 🗸
  • vva — formes non reconnues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.