Code Monkey home page Code Monkey logo

ojs-xml-pipeline-plugin's People

Contributors

grazingscientist avatar kthth avatar

Watchers

 avatar

Forkers

kthth withanage

ojs-xml-pipeline-plugin's Issues

Intial Kickoff paper

Goal

  • Mögliche Workflows von Office-Formaten (docx) über XML (TEI-P5) zu verschiedenen Ausgabeformaten (HTML, PDF, JATS, EPUB, …) ausarbeiten
  • Workflows sollen individuell konfiguriert werden können
  • Workflow soll innerhalb von OJS verwendbar sein

Ressources

Overview of XML import tools dedicated to PKP uses (from 2018 sprint):

Front-end Gruppe

  1. Eingabe-Format wählen (vlt. Dropdown Menu): docx, odt, etc.
  2. Metadaten
  3. Zitate (regular expressions?)
  4. Bilder
  5. Ausgabe-Format wählen: HTML, Jats, etc.

Results

  1. docx-Konvertierung mit Kommandozeile-Konverter
  • Tools

    • myTypeset (Fußnoten müssen separat gesetzt werden)
    • docxConverter (keine Fußnoten, Zitate nur mit Nummerierungen)
    • Pandoc native
    • oxGarage
  • Anforderungen

    • Autoren müssen sich an definierte Dokument-Templates und redaktionelle Vorgaben halten
    • Feste Parameter für die Konvertierung müssen konfiguriert werden können (auf welcher Ebene? Hosting, Journal Manager/Editor)
    • Variable Parameter müssen abgefragt werden
    • Referenzen müssen standardisiert werden, parsing muss extra implementiert werden
    • Automatisiertes post-processing muss möglich sein
    • Manuelle Nachbearbeitung wird immer nötig sein
    • Individuelle zusätzlich Bearbeitungsschritte müssen integriert werden können z.B. für:
      • Sprachidentifikation (mit z.B. Tikka) muss integriert werden (für Layout/Silbentrennung), eventuell inklusive Wörterbücher (die gepflegt werden müssen)
      • Anpassung von Lizenzrechten
    • Bearbeitungsverlauf zwischenspeichern und verfügbar machen
  1. Wunschvorstellung OJS-XML-Editor
  • Entwicklung kostet viel Zeit und Geld/Personal

    • Institutsübergreifendes Projekt?
    • Kommunikation an die Institute
    • Ist Texture eine Möglichkeit? -> Stand des Plugins?
  • Backend für Editoren

  • Frontend für Autoren (zum Schreiben und für Revision)

    • arbeiten direkt in einem OJS-XML-Editor
    • Erfahrungen von vergleichbaren Editoren: Autoren arbeiten in Word und kopieren formatierte Daten
  • Pandoc, meTypeset, XSLT und Texture verarbeiten nicht immer alle nach JATS erlaubten Tags. Es muss eine Liste von Tag erstellt werden die nicht verwendet werden dürfen.

  • Eine Überprüfung auf Elemente dieser Art muss vor starten der Pipeline erfolgen

  • Informationen übergreifend sammeln (Community-Forum?, ojs-de.net?) und aktualisieren (z.B. bei neuen Versionen)

Beispielkonvertierungen

Pandoc

pandoc -f docx -t jats --standalone -o <out_file>.xml <in_file>.docx
Ergebnis mit komplexen docx-Dateien (Tabellen + Formeln, nur Formeln): das generierte JATS kann in Texture nicht angezeigt werden:

<table> is not valid
<email> not valid (e-mail-Link in Word)
einfache Auflistung i), ii), iii) funktioniert nicht
Einfache Grafik (ohne Caption) funktioniert nicht
<alternatives>-Tag in <inline-formula> funktioniert nicht

... und viele andere Fehler
Nach Entfernung aller Tabellen, Bilder, Formel und Aufzählungen:
Keine kommentierte Texture-Fehlermeldung mehr
Browser meldet:

ERROR:Node already exists

Gesamte Citavi-Bibliographie wird in einen

-Tag gepackt

myTypeset

  • Keine Konvertierung ohne LibreOffice oder Word auf dem System
  • Hier müsste evtl. in Zusammenarbeit mit dem Entwickler der ReferenceLinker verbessert werden. Vor allem die Erkennung der Referenzliste selber ist noch sehr fehleranfällig.

oxGarage

Stylesheets/bin/docxtotei --localsource=/Users/kthoden/EOAKram/dev/dockerized/EOASkripts/dependencies/TEI EVA_Paper_b.docx ep_b-tei.xml
Stylesheets/bin/teitonlm --localsource=/Users/kthoden/EOAKram/dev/dockerized/EOASkripts/dependencies/TEI ep_b-tei.xml ep_b-jats.xml

Ergebnis: Jats nicht in Texture nicht lesbar:

<caption> in not allowed at the current position

Weiteres Vorgehen

Github Repo mit Beispieldateien wird erstellt
Informationsaustausch und Weiterentwicklung über Github-Issues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.