The collatinus from biblissima

Gestion des i consonnes notés i

Cf. ce commentaire, certains i consonnes ne sont jamais notés j, il faut pourtant pouvoir les identifier dans le lexique afin de les scander correctement. Cela pourrait se faire avec la lettre ı.

illius

Dans 10.3, le 2e i d'illius était commun, comme dans le Cart-Grimal p. 36, §65.
Maintenant, il est devenu bref.
Il faudrait probablement vérifier toutes les désinences...

Collatinus 10.3 introduit les notions de désinences rares (mises entre parenthèses) et v-phage (commençant par -), c'est à dire qu'elle supprime le v du parfait. Si je comprend bien, le deuxième n'a plus de raison d'être avec le nouveau système de modèle, mais le premier pourrait être utile ?

Extension du lexique

Philippe a créé une grande extension au lexique, disponible sur collatinus-10-data, il faut :

la relire entièrement
la convertir dans le nouveau format du lexique
pouvoir l'intégrer optionnellement à Collatinus

hieronymous

Hieronymous (et Hierusalem, etc.) est un cas assez particulier car ils est écrit "Hieronymus" dans les graphies ramistes (noté Hĭĕrōnўmus dans le Gaffiot et Hĭĕrōnymus dans le L&S), et pourtant, au en latin liturgiques, il est prononcé avec un premier i consonne, et donc devrait théoriquement être écrit "Hjeronymus" (qui est assez moche). Pedecerto donne un (seul) exemple de Hieronymus avec un i voyelle et 0 avec un i consonne, donc on peut penser que les deux existent. La question est : comment faire pour qu'une personne que seul le latin ecclésiastique intéresse puisse ne trouver que Hjeronymus et jamais Hieronymus ?

possibilité d'enlever les accents

Collatinus 10.3 offre la possibilité de débarasser un texte de ses accents (aigus, breve macron), ce qui est assez pratique. J'aurais tendance à le faire automatiquement (comme pour œ et æ), mais je vous laisse voir, dans la 10.3 c'est une action dans le menu.

Alleluia

(ces tickets viennent d'un retour que j'ai eu d'un moine) En essayant d'accentuer Alleluia, on tombe sur une forme un peu bizarre : Alˌleˌlúˌia (Alˌléˌluja) qui contient deux erreurs :

la première, facile, est qu'il manque une virgule avant le j dans la forme entre parenthèses
la deuxième est que je ne comprend pas la première forme:
- si c'est un vraiment un i, il manque une virgule entre le i et le a
- mais je ne crois pas que ce soit un i... on trouve cela dans le Gaffiot (2016), mais ça semble être une erreur, le L&S donne bien un j... qu'en pensez-vous ?

gestion des voyelles sans indication dans le lexique

Beaucoup de voyelles n'ont pas d'indication de longueur dans l'extension du lexique, il faudrait faire en sorte que Collatinus ne soit pas trop perdu quand il tombe sur ces cas. Cf ce commentaire et les suivants

corrections des bugs cachés par Qt

Je vous propose de mettre Qt en mode debug pour pouvoir réparer des bugs dans le code, il y en a pas mal qui apparaissent...

homogéinisation de l'indentation (et du style en général)

Ce serait assez pratique de se mettre d'accord sur un style et de pouvoir formatter le code automatiquement. Dans le style actuel il y a un mélange de tabs et de blocs de 4 espaces. Je propose de passer tout le code à clang-format en lui disant d'indenter avec 4 espaces, qu'en pensez-vous ?

déramisation de V ?

Pour l'instant, V n'est pas déramisé en U, cela pose un problème pour reconnaître Vlixes. La ligne est commentée dans Ch::deramise, il faudrait comprendre pourquoi

Vocabulaire médiéval

Une très gande quantité de termes médiévaux apparaissent dans le DuCange mais ne sont pas reconnus par Collatinus, il faudrait pouvoir les importer. Parmi eux :

petites erreurs dans lemmes.la et lem_ext.la

supprimer les parenthèses ouvrantes dans le participe et les génétifs, et le point d'exclamation dans le lemme

concustōdĭo=cōncūstōdĭo|audio|cōncūstōdīv|cōncūstōdī(|is, ire, iui, itum|2
Aether2=Āethĕr|miles|Āetheris (er||eris (eros), m.|1
Phĭlŏchărēs2|miles|Phĭlŏchărētis (||ētis (is), m.|1
ho!|inv|||interj.|1

suggestions

concustōdĭo=cōncūstōdĭo|audio|cōncūstōdīv|cōncūstōdī|is, ire, iui, itum|2
Aether2=Āethĕr|miles|Āetheris||eris (eros), m.|1
Phĭlŏchărēs2|miles|Phĭlŏchărētis||ētis (is), m.|1
ho|inv|||interj.|1

intégration de l'accentuation/césure de Collatinus 10.3

Dans la version 10.3, @PhVerkerk a développé un module d'accentuation comprenant plusieurs fonctionnalités :

accentuation et césure dans l'interface de scansion, en cliquant sur le bouton alpha (certainement à changer)
fenêtre d'option de l'accentation/césure
possibilité, depuis l'interface de Collatinus, de charger un fichier contenant des exceptions aux césures, dans un format à documenter

reconnaissance de æ et œ

Ce serait pratique si Collatinus pouvait transformer automatiquement æ en ae et œ en oe, pour pouvoir analyser des textes médiévaux directement

ille

Dans le modèle ille, la ligne "des:16,28,40:0:ī̆ŭs" était inutile, puisque le i du génitif est déjà commun dans le modèle "unus", qui est le père du modèle ille.
La ligne qui suit "des+:15,18,21,25,27,42:1:ūnc;ōc;ōscĭnĕ;āec;ānc;ōc" a des effets dévastateurs sur le tableau de flexion. Quand elle est commentée, j'obtiens un tableau de flexion qui ressemble à celui que je trouve dans le Cart-Grimal. Quand elle ne l'est pas, j'obtiens un accusatif masculin "īllūnc" et un ablatif "īllōc", conformes aux deux premiers items de la liste. Sauf que les formes normales "īllŭm" et "īllō" ont disparu. Comme si le "des+:" était interprété comme un "des:".
Une erreur liée aux derniers merge ?

do, das, dedi, datum

Pour une raison obscure, le a des formes de do, dare est presque toujours bref, contrairement à celui d'amo, amare qui est presque toujours long. Il reste long dans das (indicatif présent) et da (impératif présent), ainsi que dans tous les cas où il est entravé : dant, dantur [...], dans, dantis et autres dandus.
Dans Collatinus 10.2 nous avions un patch qui reconnaissait les composés de do, dare. Dans Collatinus 11, il doit avoir son propre modèle.

duplications de mots inutiles dans lemmes.la

les duplications de mots suivantes semblent inutiles dans lemmes.la :

dĭpundius=dĭpūndĭus,dĭpūndĭus|filius|||i, m.|1
Tmōlus=Tmōlus,Tmōlus|lupus|||i, m.|7
vulnus=vūlnŭs,vūlnŭs|corpus|vūlnĕr,vōlnĕr||ĕris, n.|400

on les trouvent avec le motif de recherche \w+=(\w+),\1\b

Error in modeles.la

Under the entry 'infans' in modeles.la we see:

modele:infans
pere:fortis
des:37-39:1:ns
des+:18,30,42:1:ē
des+:22,34,46:1:ŭm3

Attempting to decline this in Collatinus 11.2 gives the neut. sing. n/v/a forms infantns, instead of expected infans

from what I can gather from the code, Root 1 is usually the stem form given in lemmes.la (i.e. here infant)
Either this should be "0:ns" (which the model infans should inherit from its model fortis as 2:0 (remove two characters, add nothing))
or it should be a "4:" (which it would inherit from fortis as K:)

Effacement intempestif des résultats de scansion

Lorsque l'on clique sur un mot avec le dock scansion ouvert, sa scansion apparaît, mais tout résultat préexistant est effacé.

expressions agglutinées

Collatinus devrait pouvoir reconnaître des formes agglutinées comme

etc. peut-être dans une liste à part (aggl.la) ?

complura

The usual neuter form of complures is complura, but this form is not recognized by Collatinus.

Indice de rareté sur les lemmes

Il faudrait pouvoir avoir un indice de rareté ou de fréquence sur les lemmes ou les radicaux, cela permettrait d'éliminer des formes très rares. Il faudrait également pouvoir redéfinir la rareté d'un lemme ou d'un radical dans un lexique personnalisé.

Vocabulaire liturgique

Beaucoup de termes de vocabulaire liturgique (principalement des noms propres) sont absents de Collatinus. Les sources pour cela sont la Nova Vulgata, les hymnes. Certains sont archi courants même en dehors du contexte liturgique :

mots agglutinés déclinés

Les mots suivants:

devraient pouvoir être déclinés par collatinus

mise à jour des désinences avec celles de la 10.3

Voici les différences entre les désinences de la 10.3 et de la 11 : diff.txt

ajout des modèles facile, humiliter, acriter
utilisation des nouveaux modèles dans lemmes.la
utilisation des nouveaux modèles dans lem_ext.la
ajout des formes de aio
degrés irréguliers des adjectifs en ilis

Analyse for long vowels / mark ambiguous?

Hi there, it would be possible to add a feature to:

Mark long vowels, eg scripsi » scrīpsī (or, if preferred, scrípsí); and optionally
Find and mark text that is ambiguous, eg puella vs puellā; or mala vs māla

The second of these is less important, but it seems the first of these would be quite easy. Also apologies if Collatinus does this and I have misunderstood.

Lemma inconnus sur le corpus de Proiel [PyCollatinus]

D'après PyCollatinus, les formes et lemmes suivant-e-s sont inconnu-e-s :

forme	lemme
Abiud	Abiud
absorta	absorbeo
Acheldemach	Acheldemach
Achim	Achim
Acutilianam	Acutilianus
Acutiliano	Acutilianus
Adae	Adam
adduc	adduco
adherebit	adhaereo
adherentes	adhaereo
adheret	adhaereo
adhesit	adhaereo
adhortere	adhortor
Adiatunnus	Adiatunnus
adpropinquassent	appropinquo
adpropinquasset	appropinquo
adsciscunt	ascisco
adspirante	aspiro
adspirare	aspiro
adsuefacti	assuefacio
adtractent	attrecto
Aeduae	Haeduus
afuturum	absum
Agabus	Agabus
alligasset	alligo
Allobrogas	Allobroges
amethistus	amethistus
Amiano	Amianus
Amon	Amon
Amos	Amos
Amphipolim	Amphipolis
Apellen	Apelles
Apenas	Apenas
apocalypsin	apocalypsis
Apollonidensem	Apollonidensis
April	April
Araus	Araus
Arfaxat	Arfaxat
Ariopagi	Ariopagus
Ariopagita	Ariopagita
Ariopagitae	Ariopagita
Ariopagitis	Ariopagita
Ariopago	Ariopagus
Ariopagum	Ariopagus
Atuatucam	Aduatuca
aventu	adventus
Azor	Azor
Bar	Bar
Barsabban	Barsabban
Bartholomeum	Bartholomeus
Bartholomeus	Bartholomeus
Bartimeus	Bartimeus
Beroensis	Beroensis
Bethfage	Bethfage
bithalassum	bithalassus
Blasto	Blastus
Caiapha	Caiaphas
Caiaphae	Caiaphas
Caiaphan	Caiaphas
Caiaphas	Caiaphas
Cananeum	Cananeus
Cananeus	Cananeus
carcedonius	carcedonius
Catamantaloedis	Catamantaloedes
catecizat	catecizo
catecizatur	catecizo
Catuvolcus	Catuvolcus
CCCC	CCCC
CCIↃↃ	CCIↃↃ
Cencris	Cenchreae
Cephae	Cephas
Cephas	Cephas
chananea	chananeus
chirografum	chirographum
Cho	Cho
chrysolitus	chrysolitus
chrysoprassus	chrysoprassus
Chuza	Chuza
Cimberium	Cimberius
clamydem	clamys
Cleopae	Cleopa
Cleopas	Cleopas
Coctia	Coctius
cofini	cofinus
cofinos	cofinus
cogitaramus	cogito
cognoram	cognosco
cognoris	cognosco
cognoro	cognosco
cognosse	cognosco
colleximus	colligo
collexistis	colligo
comesationes	comesatio
comesationibus	comesatio
conbuserunt	comburo
conlocaram	colloco
conlocarat	colloco
consequerere	consequor
consuessem	consuesco
consuessent	consuesco
contemnabamus	contemno
Corazain	Corazain
corban	corban
corbanan	corbanas
Coriosolitas	Coriosolitae
Coriosolites	Coriosolites
cristallum	cristallus
cuicui	quisquis
cyrenei	Cyrenaeus
Cyreneum	Cyrenaeus
cyreneum	Cyrenaeus
Danihelo	Danihelus
D̅C̅C̅C̅	D̅C̅C̅C̅
Dec	Dec
Decembr	Decembr
Decembr.	Decembr.
decressent	decerno
decucurrerunt	decurro
decucurrit	decurro
dicundo	dico
didragma	didragma
difficillimis	difficilis
Dionisius	Dionisius
Divico	Divico
duodetreginta	duodetreginta
earundem	is
Eber	Eber
ecquae	ecquis
ecquod	ecqui
Efrem	Efrem
elemosynam	elemosyna
elemosynas	elemosyna
Eliachim	Eliachim
Eliud	Eliud
Elymas	Elymas
Emmanuhel	Emmanuhel
encenia	encenium
Enos	Enos
Epafrodito	Epafroditus
Epafroditum	Epafroditus
Ephaenetum	Ephaenetus
Epicratem	Epicrates
eppheta	eppheta
Equotutico	Equotuticus
Esli	Esli
Esrom	Esrom
Esuvios	Esuvii
Eufrate	Eufrates
Eufraten	Eufrates
Euhodiam	Euhodia
exiebant	exeo
exiebat	exeo
exilierunt	ex(s)ilio
expiscere	expiscor
extinguntur	ex(s)tinguo
faciundi	facio
facteon	facio
fantasma	fantasma
Febr	Febr
Februar	Februar
ficu	ficus
Filologum	Filologus
Flegonta	Flegon
Foenicen	Foenicen
Fontius	Fontius
Frygiam	Phrygia
Funisulanus	Funisulanus
Gabrihel	Gabrihel
Gad	Gad
Gamalihel	Gamalihel
gazofilacio	gazophylacium
gazofilacium	gazophylacium
Gennesar	Gennesar
Gnaio	Gnaius
Gnaium	Gnaeus
Gog	Gog
Gomorraeorum	Gomorraei
grabatto	grabattus
grabattum	grabattus
Haeduae	Aeduus
haurierant	haurio
hedis	haedus
hedos	haedus
Helia	Helias
Heliae	Helias
Heliam	Helias
Heliseo	Heliseus
Helmadam	Helmadam
Heloi	Heloi
Helonius	Helonius
hereticum	haereticus
Hermagedon	Hermagedon
Hermonis	Hermo
Hierichum	Hiericho
Hierusalem	Hierosolyma
hii	hic
honorificentior	honorificus
honorificentius	honorifice
Iannae	Iannae
Ianuar	Ianuar
Iared	Iared
idolatriae	idolatria
idolatris	idolatra
Idumea	Idumea
iiii	iiii
IIII	IIII
implesset	impleo
ingemescens	ingemesco
ingemescimus	ingemesco
ingemescit	ingemesco
inirentur	ineo
inlustrarunt	illustro
inquiens	inquam
insuflavit	insufflo
introduc	introduco
Ioda	Ioda
Iohanna	Iohanna
Iohel	Iohel
Ioram	Ioram
Iordanen	Iordanes
Iorim	Iorim
Iosech	Iosech
iretur	eo
Israhelita	Israelitae
Israhelitae	Israelitae
israhelitae	Israelitae
Itureae	Iturea
Kal.	Kal.
Kal.Iunias	Kal.Iunias
Kal.Maias	Kal.Maias
Kaldiem	Kaldiem
Kalend	Kalend
KalMaias	KalMaias
laguenam	lagona
Lamech	Lamech
Levin	Levi
Lingonas	Lingones
linuit	lino
longevus	longevus
Luteciam	Lutecia
Lybiae	Lybia
Maath	Maath
Magog	Magog
Maias.	Maias.
Malchus	Malchus
Malelehel	Malelehel
Manaen	Manaen
manufacta	manufactus
manufactis	manufactus
maranatha	maranatha
Matinio	Matinius
Matinium	Matinius
Matthan	Matthan
Matthat	Matthat
Matthata	Matthata
Matthathiae	Matthathias
Melchi	Melchi
mementote	meminisse
Menna	Menna
Mennianorum	Mennianus
Menophili	Menophilus
Menturnensis	Minturnensis
Menturnis	Minturnae
Michahel	Michael
Militene	Militene
miscite	misceo
Moeragene	Moeragenes
Moeragenes	Moeragenes
molentes	molo
n	ne
Nachor	Nachor
Naggae	Naggae
Nammeius	Nammeius
Nasuam	Nasua
Nathanahel	Nathanahel
Naum	Naum
necessariora	necessarius
neglegant	neglego
neglegemus	neglego
neglegenda	neglego
neglegere	neglego
Neman	Neman
Nepthalim	Nepthalim
ninevitae	Ninevitae
Ninevitis	Ninevitae
Non.	Non.
norim	nosco
norunt	nosco
nosset	nosco
Nov.	Nov.
Novembr	Novembr
Novembr.	Novembr.
Numestio	Numestius
Numestium	Numestius
Octobr	Octobr
octogenti	octogenti
Omega	omega
Onesifori	Onesiforus
optaramus	opto
Orcyniam	Orcynia
orfanos	orphanus
Orgetoricem	Orgetorix
Osaces	Osaces
osanna	osanna
Pamphilia	Pamphylia
Pamphiliae	Pamphylia
Pamphiliam	Pamphylia
paterfamiliae	paterfamiliae
pedagogo	paedagogus
pedagogorum	paedagogus
pedagogus	paedagogus
perduc	perduco
perfodiri	perfodio
pertransiebant	pertranseo
pertransiet	pertranseo
pervelim	pervolo
petum	impetus
Phaetho	Phaetho
Phalec	Phalec
Phanuhel	Phanuhel
Pilius	Pilius
pinguidinis	pinguido
Plotia	Plotius
Pontidia	Pontidia
praesciit	praescio
prendiderunt	pr(eh)endo
prendidistis	pr(eh)endo
prohoemiis	prooemium
Ptianii	Ptanii
Ptolomaeum	Ptolomaeus
Ptolomaida	Ptolemais
quandam	quidam
quartadecima	quartusdecimus
quartamdecimam	quartusdecimus
quendam	quidam
quidlibet	quilibet
Quint	Quint
Quint.	Quint.
quintodecimo	quintusdecimus
quodque	quisque
rabboni	rabboni
Rachab	Rachab
Ragau	Ragau
Rama	Rama
Rantius	Rantius
repetisset	repeto
Resa	Resa
sabacthani	sabacthani
Sabaoth	Sabaoth
Sabim	Sabis
Saddoc	Saddoc
Salathihel	Salathihel
Salim	Salim
Salmon	Salmon
sapphyrus	sapphyrus
sardonix	sardonix
Sareptha	Sareptha
Scaldim	Scaldis
Scariotes	Scarioth
Scarioth	Scarioth
Scariotis	Scarioth
Scevae	Sceva
scisma	schisma
semicintia	semicintium
Sept	Sept
Seruch	Seruch
Sext.	Sext.
Sextil	Sextil
Sextil.	Sextil.
Sibusates	Sibusates
Sopolidis	Sopolis
sordem	sordes
Sosthenen	Sosthenes
Sotiatium	Sotiates
Stachyn	Stachys
Sufenas	Sufenas
Sychar	Sychar
Symeon	Symeon
Syntychen	Syntyche
Syrtim	Syrtis
Tadiana	Tadianus
Tadiano	Tadianus
taedeat	taedet
taedebat	taedet
taedere	taedet
taederet	taedet
Thaddeum	Thaddeus
Thaddeus	Thaddeus
Thare	Thara
Thyillus	Thyillus
Timei	Timeus
transiebat	transeo
transient	transeo
transiri	transeo
tremefactus	tremefacio
Troucillum	Troucillus
Tryfenam	Tryphaena
Tryfosam	Tryphosa
tunditores	tunditor
unianimiter	unianimiter
utervis	utervis
Vedianas	Vedianus
Verucloetius	Verucloetius
vetati	veto
viiii	viiii
Voccionis	Voccio
Volcatium	Volcatius
Xenocratem	Xenocrates
xiiii	xiiii
Zaccharia	Zaccharias
Zacchariae	Zaccharias
Zacchariam	Zaccharias
Zaccharias	Zaccharias
Zacchee	Zaccheus
Zaccheus	Zaccheus
Zostera	Zostera

enclitiques ambiguës

Certaines formes ont une ambiguïté sur le fait qu'elles portent ou non une enclitique. Actuellement elles sont reconnues comme n'en portant pas, mais li faudrait pouvoir lister ces cas dans Collatinus, par exemple :

comptage des v, æ et œ.

Pour éviter de scander voluit en vŏlŭĭt (vōlvĭt), nous comptions les v dans la forme d'origine (éventuellement ramiste) pour ne pas proposer volvo comme lemmatisation de voluit. À partir du moment où on convertit les æ en ae, il faudrait le faire aussi pour ces diphtongues. Pas critique pour œ, mais peut éviter la confusion Æneas aeneas, comme pour voluit volvit.

Collatinus OSX hangs when tagging certain abbreviations

[copy also sent via email]

Hello,

Je vous présente mes excuses de vous écrire en anglais, mais ma
grammaire française est horrible. Néanmoins, j'arrive assez bien à la
lecture, alors n'hésitez pas à répondre en français si vous voulez :)

I have encountered some bugs while using Collatinus for OSX 11.1 full.
I have been using the TCP server with a custom python wrapper with the
statistical tagger. Overall, it works very well, and I have tagged
~1.8million sentences. However, certain words cause the server to go
into what looks like an infinite loop (100% CPU utilisation, does not
respond correctly to further tagging requests).

Based on experimentation, I think the main issues are with
abbreviations. Here is the list of words I have discovered so far:

Cn, Sex, Post, Pro, Cap, Ser, Oct, Ap, Kal, Tib, St, Pl

You should be able to replicate the issue by sending a remote tag
request with the client. eg:

/Applications/Collatinus_11.1.app/Contents/MacOS/Client_C11 -P3 "Ap"

Please let me know if you would like any more information. I'd be
happy to test any updated builds on my dataset.

Thankyou for the software!

Trop peu de traductions en anglais

Il faut vérifier mais il semblerait que lors du partage des lemmes.* après le travail sur les textes du LASLA. Les traductions en anglais n'aient pas suivi. Les chiffres que donne alpheios sont clairs :
9889 words Collatinus translation for eng
57769 words Collatinus translation for eng (Extension)
23912 words Collatinus translation for fre
57783 words Collatinus translation for fre (Extension)
9905 words Collatinus translation for por

Je ne dis pas que nous devrions avoir 23912 traductions en anglais, mais le 9889 indique clairement que lemmes.en n'a pas suivi la migration des lemmes de lem_ext.la dans lemmes.la
Il faut retrouver où et quand ça s'est fait.

Importation des dictionnaires sur Linux

Compatibility problem with Windows11 ? (missing buttons)

Bonjour,

Depuis passage à Windows 11, dans la version PC, certains boutons ne sont plus visibles. Par exemple, le bouton "Lemmatiser".

Est-ce un pb connu avec Windows11 ?
Y a-t-il une solution ? ...
Merci !

Format of .col files

Hi,
I would like to decompress the .col files (the dictionaries), but I have not found the proper format they are in. Could you please help me with that?
Thanks.
Nicolas Vaughan

Composés de sum

La flexion de sum contient des formes commençant par une consonne et d'autres commençant par une voyelle. Le préfixe peut alors changer.
Pour les composés de sum, nous avions, dans la 10.2, introduit un 3e radical qui correspond à la forme du préfixe devant une voyelle. Ces radicaux ont subsisté dans le changement de format :
possŭm=pōssŭm|possum|pŏtŭ|pŏt|potes, posse, potui
praesŭm=prāesŭm|sum|prāefŭ|prăe|es, esse, fui
Mais ils n'ont pas été utilisés (ou je ne l'ai pas vu) dans les modèles. En particulier, la scansion de potest donne pōtēst, alors que j'attends pŏtēst.

Poesis est présent comme modèle. Pas comme lemme

Bonjour à vous,
En transférant le code en python, j'ai découvert que Poesis était présent comme modèle mais absent de lemmes.la. Peut-être ai-je raté une ligne de code mais il me semble que cela devrait y être ?

Mise à jour du lexique avec celui de la 10.3

Lorsqu'on tente de syllaber/accentuer Patribus, on obtient Patriˌbus, dans lequel il manque une séparation de syllabe et donc l'accent. Ça doit être dû à la première voyelle qui est commune j'imagine...

Source of truth for Collatinus data files (particularly lemmes.la)?

Hi, I wanted to be sure that I contribute to the main lemmes.la file when I do contribute. I see there's a few branches in this repo, and I see variations and forks of this project, e.g. gocol. ycollatin/gocol#1

Should I treat the master branch of biblissima/collatinus as the source of truth for all the data files?

Thanks! Just double-checking...

alternance i/u

On trouve parfois des formes en u à la place de i, par exemple:

(et leurs dérivés), il faudrait que Collatinus puisse les reconnaître.

Is flexion of a lemma available over Collatinus CLI-client?

Using Collatinus 11 over the command line interface I have the following options:

La syntaxe est '[commande] [texte]' ou '[commande] -f nom_de_fichier'.
Éventuellement complétée par '-o nom_de_fichier_de_sortie'.
Par défaut (sans commande), on obtient la scansion du texte.
Les commandes possibles sont :
        -s : Scansion du texte (-s1 : avec recherche des mètres).
        -a : Accentuation du texte (avec options -a1..-a15).
        -l : Lemmatisation du texte (avec options -l0..-l15, -l16 pour les fréquences).
        -h : Lemmatisation du texte en HTML (mêmes options que -l).
        -e : Lemmatisation du texte en CSV, sans option sauf la langue cible.
        -S, -A, -L, -H, -E : Les mêmes avec Majuscules pertinentes.
        -t : Langue cible pour les traductions (par exemple -tfr, -ten).
        -C : Majuscules pertinentes.
        -c : Majuscules non-pertinentes.
        -? : Affichage de l'aide.

Is there also a flag for lemma flexion?

E.g.
./Client_C11.exe -F dominus

Questions pour une compilation/installation sur Manjaro

Bonjour !

Pour utiliser collatinus sur Manjaro (distribution linux basée sur Arch), j'aimerais savoir quelle version tenter de compiler, car je vois sur le site de biblissima que la version proposée est la 10.2.2. Est-ce que collatinus 11 est cependant déjà utilisable ?

Si je dois compiler la version 10, à partir des sources disponibles ici, est-ce que ce sera bien la version 10.2.2 ?

Puis-je compiler la version 10 en suivant le processus décrit pour la version 11 ?

Merci ! Bon week-end !

bug potentiel avec contractions.la

Le fichier "contractions.la" a adopté des notations non-ramistes. Cela risque de poser un problème avec le comptage des "v" que contient une forme.
Pas de soucis avec amaram --> amaueram. Mais si le radical contenait un "v", cela poserait un problème car l'identification de volaueram avec volaveram (de volo, as, are) ne se ferait plus.
Je pense qu'il faudrait ramiser le fichier "contractions.la". Si la forme contracte contient au moins un "u" et pas de "v", on pourrait avoir affaire à un texte non-ramiste auquel cas il faut déramiser la contraction.
uolaram = uolaueram --> volaveram.
D'autre part, ce même fichier contient "ast:a" et d'autres "st" qui sont maintenant traités comme des suffixes. Donc inutiles. Toutefois, on peut visiblement avoir "-ust" qui est la contraction de "-us"+"st". C'est donc un cas particulier qu'il faudrait examiner lors de la dé-suffixation. En bref, si une forme se termine par "st", je dois examiner 2 cas : la forme sans le "t" final et la forme sans le "st" final.
Je vois bien où intervenir. Mais avant de le faire, je voudrais avoir votre opinion.

console version

I would like to have a pure console version without server.

Server mode could be good for effective processing of big texts, but I would like to have a simple command-line tool, even at cost of slow initialization and data files reading. It would be nice for occasional requests.

Another acceptable solution would be a daemon process, or the app minimized to tray, so there no need to hold the application window open.

OS: Linux

[feature request] spelling permutations

Collatinus is quite smart in understanding of variative Latin spelling, but still fails "uva" test:

uva 🗸
vua 🗸
uua 🗸
vva — formes non reconnues

biblissima / collatinus Goto Github PK

collatinus's People

Contributors

Stargazers

Watchers

Forkers

collatinus's Issues

Recommend Projects

Recommend Topics

Recommend Org