Code Monkey home page Code Monkey logo

tnah-2021-decameronfr's People

Contributors

kristinkonstantinova avatar ponteineptique avatar sbiay avatar vicpsl avatar zcappe avatar

Watchers

 avatar

tnah-2021-decameronfr's Issues

Pointage en début de ligne: virgule, point ou rien ?

Bonjour à tous,

J'ai remarqué que le copiste faisait parfois des pointages en début de ligne, qui correspondent normalement à une virgule ou un point. Je les ai d'abord transcris en virgule suivies d'une espace, mais ça donne un résultat assez étrange. Le point pourrait aussi être une solution, mais souvent le sens le plus logique serait une virgule (par rapport à la phrase).

Voici un exemple (f.21):
virguledebutligne

Les ignorer ne me paraît pas être la bonne solution, puisqu'ils sont bien marqués, et il paraît souvent logique de mettre une virgule là où il les place.
Qu'en pensez-vous ?

Annotations en marge: zones à part ou à intégrer au texte?

Bonjour à tous,

Certains passages du manuscrits sont écrits en marge. A votre avis, faut-il les traiter comme des zones différentes ou faire en sorte de les intégrer au sein du texte ?

En tant que zone, ils pourraient peut-être correspondre à la zone Margin de Segmonto. Il faudrait alors voir comment l'appliquer dans la segmentation du manuscrit.

En tant que texte, il s'agirait de trouver comment et à quel endroit il faudrait les intégrer dans le texte, sans risquer de transformer le texte.

Point médian: une espace avant ou non ?

Bonjour à tous,

Une question s'est posée lors de la relcture de transcriptions: doit-on mettre une espace avant le point médian (pause forte) ou non ?
On peut choisir de ne pas en mettre et cela est en accord avec nos normes actuelles de transcription, mais le copiste positionne ses pauses fortes de façon assez centrée entre deux caractères, et cela ne devrait pas non plus être un problème par rapport aux normes de transcription.

Qu'en pensez-vous ?

Très + adj. : ensemble ou séparément ?

Bonjour à tous !

Lors de ma transcription j'ai tombé plusieurs fois sur l'emploi de "très" suivi d'un adjectif que notre copiste écrit d'une manière un peu contradictoire comme par exemple ici (f.19):

Capture d’écran 2022-01-17 à 14 50 37

ou ici (f.20):

Capture d’écran 2022-01-17 à 14 55 28

On a parlé de la séparation des mots dans le cadre des Normes de transcriptions, mais d'une manière très générale, donc je préfères de précisér. Je les ai transcrit collés, mais j'hésite parce que "très" ce n'est quand-même ni la préposition ni l'article.

Qu'en pensez-vous ?

Merci !

Un cas particulier: "s" long ou "s" court ?

Bonjour à tous,

Il y a de très nombreuses occurrences des deux types de "s" (longs et courts) dans le manuscrit.
La question que je me pose est la suivante: faut-il choisir d'utiliser deux caractères différents pour distinguer les deux types de "s" (ce qui peut être intéressant pour des chercheurs souhaitant exploiter le texte par la suite), ou faut-il tous les écrire de la même façon, avec un "s" simple ?

Dans le premier cas, cela pourrait être intéressant pour les chercheurs souhaitant exploiter le texte par la suite, mais cela implique certaines complications avec l'utilisation d'un caractère ajouté et un temps de correction supplémentaire. Nous pourrions par exemple utiliser le caractère MUFI Latin small letter long s : ſ (017F).

Dans le second cas, le texte perd une partie de ses informations mais c'est un gain de temps assez important.

Qu'en pensez-vous ?

La question pourrait aussi éventuellement se poser concernant les deux "f" ligaturés dans certains mots, mais il me semble assez logique de les considérer comme deux caractères "f" à la suite l'un de l'autre et non comme un seul caractère.

Format des images

Bonjour,

je propose de créer une branch pour le stokage des images sources.

Souhaiteriez-vous des images jpeg pour chaque page à transcrire ou un pdf rassemblant les 9 pages en un fichier unique?

Bien à vous
Victor

Rapport : plan

Voici une proposition de plan pour le rapport, avec des titres très longs pour être explicites et évidemment provisoires :

  1. Présentation du projet
    1. Choix du sujet
    2. Intérêt paléographique d'Arsenal 5070
    3. Modèles HTR pour les manuscrits littéraires médiévaux et spécificités de leurs corpus d'entraînement
      1. Cremma Médiéval 1.0.0 Bicerin
      2. ModeleHTREneide_PostDocLucien
    4. Ontologie de segmentation des zones : Segmonto
  2. Mise en oeuvre
    1. Etablissement des normes de transcription
      1. Majuscules
      2. Le problème des i/j et u/v
        1. La transcription graphématique : une définition difficile à saisir
        2. Hétérogénéité du corpus Cremma-Médiéval
        3. Choix : avantages, limites et justification
    2. Utilisation de la plateforme e-Scriptorium
      1. Segmentation
      2. Transcription
  3. Bilan
    1. Performances des modèles entraînés
    2. Réflexion sur les normes de transcription
    3. Evaluation de la plateforme e-Scriptorium

Vidéo tuto segmentation

Bonjour,

J'ai fait un merge pour le tutoriel sur la segmentation mais la vidéo ne semble pas fonctionner: je peux la télécharger, mais c'est une image noire sans son... Avez-vous le même problème ?

Correction des transcriptions

Bonsoir à tous,

Comme VIctor le proposait dans l'issue #11, nous pourrions relire les transcriptions les uns des autres avant de les ajouter définitvement au projet. Le plus simple serait de le faire directement sur eScriptorium, mais j'ai eu la surprise de voir que certaines choses avaient bougé dans ma transcription depuis ma dernière connexion (comme des tildes qui se décalent sur des lettres qui précèdent celles qui en avaient un au départ).
Pour éviter d'avoir de fausses erreurs qui s'ajoutent à nos transcriptions, que pensez-vous de les échanger sous format texte dans un dossier à part sur notre projet ? Elles seraient alors plus accessibles.

Organisation - répartition sources

Bonjour,
nous devrions nous répartir le travail et assigner les folios de notre source au sein de l'équipe.
Je veux bien le faire si vous le souhaitez et si vous pouvez m'indiquer les folios que vous avez déjà préparés le cas échéant.

Merci de vos retours
Victor

(README.md) Reprendre la rédaction

Bonjour,

Le readme est encore dans un état trop provisoire :

  • Les liens vers des URLs ne sont pas configurés ;
  • Le texte est trop incomplet et ne présente pas vraiment le projet.

Transcription 4 : corrections de caracteres.html pour v/vre ?

Bonjour,
il semblerait que des précisions doivent être apportées à caracteres.html:
pour l'abbréviation de ur̃e, nous avons comme instruction Transcrire vr̃e, or nous avons fait le choix le transcrire v en u.

image

De même, ce choix n'est pas reflété à la lettre v:
image
alors que nous le précisons pour j:
image

Qu'en pensez-vous?
Merci
Victor

Rapport : bibliographie

Salut à tous,

Je viens de créer un groupe Zotero privé pour gérer notre bibliographie.

Pouvez-vous m'indiquer une adresse électronique (liée à un compte Zotero) où je puisse vous envoyer l'invitation ?

Si vous n'avez pas de compte et que vous ne voulez pas en créer, on peut paser en gestion publique…

Transcription 3: p barré

Bonjour,

n'aurions-nous pas besoin de référencer le caractère (marge gauche folio 2v)
image

Nous n'avons que le caractère suivant dans caracteres.html
image

Merci!

Normes de transcription - abréviations, caractères spéciaux

Bonjour à tous,

Le texte contient de nombreuses abréviations, avec l'utilisation de caractères spéciaux. Comme les abréviations ne doivent pas être résolues, quels caractères spéciaux choisissons-nous ?
Nous pouvons aussi suivre le modèle cremma medieval pour résoudre ce problème.

Un cas particulier: "s" long ou "s" court ?

Bonjour à tous,

Il y a de très nombreuses occurrences des deux types de "s" (longs et courts) dans le manuscrit.
La question que je me pose est la suivante: faut-il choisir d'utiliser deux caractères différents pour distinguer les deux types de "s" (ce qui peut être intéressant pour des chercheurs souhaitant exploiter le texte par la suite), ou faut-il tous les écrire de la même façon, avec un "s" simple ?

Dans le premier cas, cela pourrait être intéressant pour les chercheurs souhaitant exploiter le texte par la suite, mais cela implique certaines complications avec l'utilisation d'un caractère ajouté et un temps de correction supplémentaire. Nous pourrions par exemple utiliser le caractère MUFI Latin small letter long s : ſ (017F).

Dans le second cas, le texte perd une partie de ses informations mais c'est un gain de temps assez important.

Qu'en pensez-vous ?

La question pourrait aussi éventuellement se poser concernant les deux "f" ligaturés dans certains mots, mais il me semble assez logique de les considérer comme deux caractères "f" à la suite l'un de l'autre et non comme un seul caractère.

Modèle de transcription: Cremma ou Eneide ?

Bonjour à tous,
D'après les propositions qui ont été faites, nous avons le choix entre deux modèles: Cremma Medieval ou finTunEneide.
Le modèle Cremma a l'avantage d'avoir de très bons résultats, et nos contributions pourraient aider à le perfectionner. Nous avons par ailleurs jusqu'ici réfléchi selon les façons dont ce projet a été mené.
Le deuxième modèle, d'après A. Pinche, est une personnalisation du pojet Cremma qui a été faite sur un manuscrit en particulier, et elle nous déconseille de l'utiliser (ce serait une "personnalisation d'une personnalisation"). Je suis plutôt de son avis, il semble plus utile de participer à un projet qui peut servir à une large échelle (des manuscrits particuliers y compris), plutôt qu'à un projet qui ne peut servir que dans des cas particuliers, et avec des résultats avec une accuracy assez faible (comme nous le démontre A. Pinche).
Néanmoins, le sujet vaut la peine d'être discuté, au moins avant de faire le pull request.
Nous pouvons aussi faire des tests avec les deux modèles et comparer l'accuracy pour voir lequel des deux est le plus efficace et nous décider ensuite.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.