Code Monkey home page Code Monkey logo

tnah-2021-argusdesbrevets's People

Contributors

ponteineptique avatar rayondemiel avatar valentindecraene avatar virgile-reignier avatar

Stargazers

 avatar

Watchers

 avatar

tnah-2021-argusdesbrevets's Issues

Tuto aide numérotation ligne

Salut à tous. Voici une manière de restructurer les lignes en fonction des colonnes afin d'avoir une numérotation correcte et lisible pour du traitement de texte.

Etapes :
1- Sélectionner les zones et les ciseaux afin de découper les zones en fonction des colonnes, titres ect. PS : @ValentinDeCraene on est pas au pixel près. 💯
2- Desélectionner les zones et les ciseaux, sélectionner les lignes, puis faire ctrl + a
3- Appuyer sur "Unlink" (la touche U) puis appuyer "Link" (la touche Y)

Voilà, normalement les lignes sont correctement positionnées. :)

Erreur manifeste

Je suis ici fasse à une erreur manifeste d'un "e" transformé en "f" par faute de frappe. Comme conseillé par l'ouvrage sur l'édition critique des textes contemporains, j'ai rétabli le "e" dans la transcription. Mais je voulais tout de même vous le soumettre

image
image

Choix du modèle de transcription sur e-scriptorium

Bonjour,
Je vous propose de discuter et comparer les différents modèles d'HTR afin de déterminer le plus efficace pour notre projet. J'ai fais un premier test avec le modèle "19th century prints HTRcatalogs Artlas". Le résultat est globalement très satisfaisant. Les problèmes sont notamment :

  • la non détection de certaines majuscules aux noms propres (c'est moins le cas pour les débuts de lignes).
  • l'insertion d'espaces indésirables dans les mots de plus de 14-15 caractères.
  • l'insertion de parenthèses au début de certains mots.

Avez-vous testé d'autres modèles ?
Cordialement,

Dénomination des zones

Il peut être intéressant de mettre en place une dénomination des zones afin de les rendre facilement identifiable dans le xml et donc faciliter le traitement de texte. Le mieux serait de les normaliser en appliquant un standard içi.

On peut essayer ce modèle :
nom de la zone - zone
Colonne 1 colonne gauche
Colonne 2 colonne droite
Num. page numérotation
Titre titre
Sous-titre sous-titre (1,2 ou 3)

Dites-moi ce que vous en pensez ou si vous préférez procéder autrement ? Des ajouts ou des modifications en fonction de vos contenus respectifs ?

(10_10fe5_default.xml) (l.2122-2155) Problème zone

Salut !
J'ai un petit soucis concernant une zone. En feuilletant le fichier XML, je me suis aperçu que Kraken considérait ma ligne de numérotation dans une autre zone que celle de NumPage. J'ai essayé de modifier cela sur E-Scriptorium, observer si il n'y a pas une petite zone cachée, mais rien ...
ProblemeZone

Organisation de la bibliographie scientifique sur le projet

Bonjour,
J'ouvre cette issue pour discuter de la manière d'organiser et de gérer la bibliographie concernant le projet, puisque nous devons l'inclure au sein du rapport final pour le devoir.
Je vois plusieurs solutions :

  • créer une issue au sein de laquelle nous ajouterons progressivement les réfèrences des ouvrages et articles que l'on trouvera (avec une part de discussion importante donc).
  • créer une bibliographie Zotero de groupe que l'on pourra rendre publique et ouverte à la fin du projet.
  • associer les deux solutions : une issue de discussion et d'organisation d'une part, et une issue donnant le lien de la bibliographie Zotero (qui pourrait être commentée à la fin du projet) d'autre part.

Qu'en pensez vous ?

Problème lié à la pull request et réorganisation des fichiers

Bonjour,
Suite à la réorganisation des fichiers et de l'arborescence, j'ai du annuler ma première pull request avec un "revert" comme l'a indiqué la documentation. Or, il m'était ensuite impossible de merge à nouveau les fichiers xml. J'ai donc du modifier le nom des fichiers xml (la dernière lettre changée avec un g) afin de pouvoir refaire une pull request valide. J'ai comparé le fichier xml et cela ne devrait pas avoir d'impact puisque le lien est toujours intègre à l'intérieur de la balise
Cette situation explique les divers commits sur ma branche

Répartition de la transcription de l'Argus des brevets

Bonjour,
Voici la répartition de la transcription des pages de l'Argus des brevets, comme nous l'avons convenu lors de notre réunion du mardi 2 novembre :

Valentin : pages 3 à 8 incluses
Maxime : pages 9 à 13 incluses
Virgile : pages 14 à 18 incluses

Si par la suite nous transcrivons plus que l'objectif du devoir, je propose de l'indiquer dans la conversation sous cette issue pour assurer un suivi du projet.
De même, si vous préférez que "j'anonimise" les noms de participants, je peux éditer l'issue pour vous taguer avec vos noms d'utilisateurs à la place.

Perte d'une page

J'ai eu un problème avec ma page 15, j'ai plus ma transcription sur eScriptorium. Je ne sais pas s'il est possible d'importer une transcription en XML ?

Mauvaise qualité d'impression

Je viens de tomber sur deux mots caractérisés par une assez mauvaise qualité d'impression (ex du premier en image). Dans les deux cas je n'ai eu aucun mal à compléter la lacune (ici "appendice"), mais je me demandais si on laisse en l'état ou s'il faut laisser une indication pour dire que l'ordinateur risque de se tromper en cas d'utilisation pour entraîner le modèle ?

image

Normalisation des numéros de page

Personnellement j'ai transcrit la ligne contenant le numéro de ma première page sous la forme "_ N _", mais je pense que ça mérite discussion. Qu'en pensez-vous ?

Différenciation entre les tirets séparateur de mot et de groupe de mots

J'ai pris l'habitude dans mes transcriptions d'indiquer par des tirets du bas ("_") ce qui entoure les numéros de page et des tirets du haut ("-") les éléments séparateurs imprimés entre les groupes de mots. Sauf que je viens de me rendre compte que ces tirets sont parfois aussi utilisés à l'intérieur d'un mot ou d'un chiffre (cf image jointe). Est-ce gênant ? Est-ce que la différenciation par l'espace entourant le tiret suffit à indiquer de quel genre de caractère il s'agit ? Peut-être doubler le tiret dans le premier cas ?

image

Abréviation en exposant

J'ai page 14, ligne 24 un "Sté anme" avec les deux dernières lettres en exposant, comme indiqué par l'image ci-dessous.

Comment le transcrire correctement ? Faut-il ici développer l'abréviation (que je ne connais pas d'ailleurs) ? Sinon comment indiquer que l'élément est en exposant ?

image

Organisation des fichiers dans le repository github

Bonjour,

J'ouvre cette issue pour discuter de l'organisation des fichiers au sein du repository github. Comme nous en avions discuté ensemble au préalable, je vois deux solutions :

  • soit créer un fichier dans lequel nous pouvons push, sur nos branches, nos transcriptions, exportées au formal .xml.
  • soit créer un fichier vierge des transcriptions sur lesquelles nous pouvons push notre travail (au risque d'avoir des conflits d'historiques)

Je pense que la première solution est la plus intéressante (il me semble que nous devons l'appeller data, à voir avec la consigne du devoir).

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.