The tnah-2021-decameronfr from psl-chartes-htr-students

Rapport : format .tex ou .odt ?

C'est la grande question !

(transcriptionPAL1989.md) Collecte des transcriptions faites pour le devoir de M1

Il ne manque plus que la transcription de Kristina !

Pointage en début de ligne: virgule, point ou rien ?

Bonjour à tous,

J'ai remarqué que le copiste faisait parfois des pointages en début de ligne, qui correspondent normalement à une virgule ou un point. Je les ai d'abord transcris en virgule suivies d'une espace, mais ça donne un résultat assez étrange. Le point pourrait aussi être une solution, mais souvent le sens le plus logique serait une virgule (par rapport à la phrase).

Voici un exemple (f.21):

Les ignorer ne me paraît pas être la bonne solution, puisqu'ils sont bien marqués, et il paraît souvent logique de mettre une virgule là où il les place.
Qu'en pensez-vous ?

Annotations en marge: zones à part ou à intégrer au texte?

Bonjour à tous,

Certains passages du manuscrits sont écrits en marge. A votre avis, faut-il les traiter comme des zones différentes ou faire en sorte de les intégrer au sein du texte ?

En tant que zone, ils pourraient peut-être correspondre à la zone Margin de Segmonto. Il faudrait alors voir comment l'appliquer dans la segmentation du manuscrit.

En tant que texte, il s'agirait de trouver comment et à quel endroit il faudrait les intégrer dans le texte, sans risquer de transformer le texte.

Point médian: une espace avant ou non ?

Bonjour à tous,

Une question s'est posée lors de la relcture de transcriptions: doit-on mettre une espace avant le point médian (pause forte) ou non ?
On peut choisir de ne pas en mettre et cela est en accord avec nos normes actuelles de transcription, mais le copiste positionne ses pauses fortes de façon assez centrée entre deux caractères, et cela ne devrait pas non plus être un problème par rapport aux normes de transcription.

Qu'en pensez-vous ?

Très + adj. : ensemble ou séparément ?

Bonjour à tous !

Lors de ma transcription j'ai tombé plusieurs fois sur l'emploi de "très" suivi d'un adjectif que notre copiste écrit d'une manière un peu contradictoire comme par exemple ici (f.19):

ou ici (f.20):

On a parlé de la séparation des mots dans le cadre des Normes de transcriptions, mais d'une manière très générale, donc je préfères de précisér. Je les ai transcrit collés, mais j'hésite parce que "très" ce n'est quand-même ni la préposition ni l'article.

Qu'en pensez-vous ?

Merci !

Un cas particulier: "s" long ou "s" court ?

Bonjour à tous,

Il y a de très nombreuses occurrences des deux types de "s" (longs et courts) dans le manuscrit.
La question que je me pose est la suivante: faut-il choisir d'utiliser deux caractères différents pour distinguer les deux types de "s" (ce qui peut être intéressant pour des chercheurs souhaitant exploiter le texte par la suite), ou faut-il tous les écrire de la même façon, avec un "s" simple ?

Dans le premier cas, cela pourrait être intéressant pour les chercheurs souhaitant exploiter le texte par la suite, mais cela implique certaines complications avec l'utilisation d'un caractère ajouté et un temps de correction supplémentaire. Nous pourrions par exemple utiliser le caractère MUFI Latin small letter long s : ſ (017F).

Dans le second cas, le texte perd une partie de ses informations mais c'est un gain de temps assez important.

Qu'en pensez-vous ?

La question pourrait aussi éventuellement se poser concernant les deux "f" ligaturés dans certains mots, mais il me semble assez logique de les considérer comme deux caractères "f" à la suite l'un de l'autre et non comme un seul caractère.

Format des images

Bonjour,

je propose de créer une branch pour le stokage des images sources.

Souhaiteriez-vous des images jpeg pour chaque page à transcrire ou un pdf rassemblant les 9 pages en un fichier unique?

Bien à vous
Victor

Rapport : plan

Voici une proposition de plan pour le rapport, avec des titres très longs pour être explicites et évidemment provisoires :

Présentation du projet
1. Choix du sujet
2. Intérêt paléographique d'Arsenal 5070
3. Modèles HTR pour les manuscrits littéraires médiévaux et spécificités de leurs corpus d'entraînement
  1. Cremma Médiéval 1.0.0 Bicerin
  2. ModeleHTREneide_PostDocLucien
4. Ontologie de segmentation des zones : Segmonto
Mise en oeuvre
1. Etablissement des normes de transcription
  1. Majuscules
  2. Le problème des i/j et u/v
    1. La transcription graphématique : une définition difficile à saisir
    2. Hétérogénéité du corpus Cremma-Médiéval
    3. Choix : avantages, limites et justification
2. Utilisation de la plateforme e-Scriptorium
  1. Segmentation
  2. Transcription
Bilan
1. Performances des modèles entraînés
2. Réflexion sur les normes de transcription
3. Evaluation de la plateforme e-Scriptorium

Vidéo tuto segmentation

Bonjour,

J'ai fait un merge pour le tutoriel sur la segmentation mais la vidéo ne semble pas fonctionner: je peux la télécharger, mais c'est une image noire sans son... Avez-vous le même problème ?

Correction des transcriptions

Bonsoir à tous,

Comme VIctor le proposait dans l'issue #11, nous pourrions relire les transcriptions les uns des autres avant de les ajouter définitvement au projet. Le plus simple serait de le faire directement sur eScriptorium, mais j'ai eu la surprise de voir que certaines choses avaient bougé dans ma transcription depuis ma dernière connexion (comme des tildes qui se décalent sur des lettres qui précèdent celles qui en avaient un au départ).
Pour éviter d'avoir de fausses erreurs qui s'ajoutent à nos transcriptions, que pensez-vous de les échanger sous format texte dans un dossier à part sur notre projet ? Elles seraient alors plus accessibles.

Zonage des folios : établir la liste des entités dont nous aurions besoin

Il faudrait regarder les entités et définitions proposées dans Segmonto.
J'ai l'impression que les phénomènes ne sont pas très diversifiés dans notre manuscrit…

Comment traiterait-on les pieds de mouche qui séparent les paragraphes ?

Organisation - répartition sources

Bonjour,
nous devrions nous répartir le travail et assigner les folios de notre source au sein de l'équipe.
Je veux bien le faire si vous le souhaitez et si vous pouvez m'indiquer les folios que vous avez déjà préparés le cas échéant.

Merci de vos retours
Victor

(README.md) Reprendre la rédaction

Bonjour,

Le readme est encore dans un état trop provisoire :

Les liens vers des URLs ne sont pas configurés ;
Le texte est trop incomplet et ne présente pas vraiment le projet.

Transcription 2: Abréviation de "que"

Bonjour,

quel caractère adopter pour l'abréviation de "que" (marge de gauche folio 2v):

q tilde/macron de Cremma (MUFI non trouvé ?)

Merci
Victor

Première issue test

Transcription 4 : corrections de caracteres.html pour v/vre ?

Bonjour,
il semblerait que des précisions doivent être apportées à caracteres.html:
pour l'abbréviation de ur̃e, nous avons comme instruction Transcrire vr̃e, or nous avons fait le choix le transcrire v en u.

De même, ce choix n'est pas reflété à la lettre v:

alors que nous le précisons pour j:

Qu'en pensez-vous?
Merci
Victor

Rapport : bibliographie

Salut à tous,

Je viens de créer un groupe Zotero privé pour gérer notre bibliographie.

Pouvez-vous m'indiquer une adresse électronique (liée à un compte Zotero) où je puisse vous envoyer l'invitation ?

Si vous n'avez pas de compte et que vous ne voulez pas en créer, on peut paser en gestion publique…

Transcription 3: p barré

Bonjour,

n'aurions-nous pas besoin de référencer le caractère (marge gauche folio 2v)

Nous n'avons que le caractère suivant dans caracteres.html

Merci!

Normes de transcription - abréviations, caractères spéciaux

Bonjour à tous,

Le texte contient de nombreuses abréviations, avec l'utilisation de caractères spéciaux. Comme les abréviations ne doivent pas être résolues, quels caractères spéciaux choisissons-nous ?
Nous pouvons aussi suivre le modèle cremma medieval pour résoudre ce problème.

Un cas particulier: "s" long ou "s" court ?

Bonjour à tous,

Il y a de très nombreuses occurrences des deux types de "s" (longs et courts) dans le manuscrit.
La question que je me pose est la suivante: faut-il choisir d'utiliser deux caractères différents pour distinguer les deux types de "s" (ce qui peut être intéressant pour des chercheurs souhaitant exploiter le texte par la suite), ou faut-il tous les écrire de la même façon, avec un "s" simple ?

Dans le premier cas, cela pourrait être intéressant pour les chercheurs souhaitant exploiter le texte par la suite, mais cela implique certaines complications avec l'utilisation d'un caractère ajouté et un temps de correction supplémentaire. Nous pourrions par exemple utiliser le caractère MUFI Latin small letter long s : ſ (017F).

Dans le second cas, le texte perd une partie de ses informations mais c'est un gain de temps assez important.

Qu'en pensez-vous ?

La question pourrait aussi éventuellement se poser concernant les deux "f" ligaturés dans certains mots, mais il me semble assez logique de les considérer comme deux caractères "f" à la suite l'un de l'autre et non comme un seul caractère.

Modèle de transcription: Cremma ou Eneide ?

Bonjour à tous,
D'après les propositions qui ont été faites, nous avons le choix entre deux modèles: Cremma Medieval ou finTunEneide.
Le modèle Cremma a l'avantage d'avoir de très bons résultats, et nos contributions pourraient aider à le perfectionner. Nous avons par ailleurs jusqu'ici réfléchi selon les façons dont ce projet a été mené.
Le deuxième modèle, d'après A. Pinche, est une personnalisation du pojet Cremma qui a été faite sur un manuscrit en particulier, et elle nous déconseille de l'utiliser (ce serait une "personnalisation d'une personnalisation"). Je suis plutôt de son avis, il semble plus utile de participer à un projet qui peut servir à une large échelle (des manuscrits particuliers y compris), plutôt qu'à un projet qui ne peut servir que dans des cas particuliers, et avec des résultats avec une accuracy assez faible (comme nous le démontre A. Pinche).
Néanmoins, le sujet vaut la peine d'être discuté, au moins avant de faire le pull request.
Nous pouvons aussi faire des tests avec les deux modèles et comparer l'accuracy pour voir lequel des deux est le plus efficace et nous décider ensuite.

psl-chartes-htr-students / tnah-2021-decameronfr Goto Github PK

tnah-2021-decameronfr's People

Contributors

Watchers

Forkers

tnah-2021-decameronfr's Issues

Recommend Projects

Recommend Topics

Recommend Org