paptagger Teil 3 – Wie spielt man die Daten ein?

Im diesem dritten Teil zur paptagger-Serie zeige ich, wie man denn nun an seine extrahierten Texte kommt und wie man sie in eine Datenbank importiert.

paptagger Teil 3 – Wie spielt man die Daten ein?

Kurzform

Drei Kröten musst du leider schlucken, wenn du den paptagger verwenden möchtest.

Kurzform:

  1. Du musst deinen Text zu einem Webtool hochladen.
  2. Deutsche Umlaute und Sonderzeichen werden umgeschrieben.
  3. Die Ergebnisse musst du dann in eine Papyrus Base einspielen.

Wenn du damit klarkommst, klickst du auf den folgenden Button. Wenn nicht, brichst du hier ab oder liest die Langversion.

Papyrus-Vorlage für paptagger-Tabelle herunterladen Zum paptagger

Und nun die Langversion

Kröte Nr. 1: paptagger ist eine Webtool

Ich kann viele Dinge, aber ich kenne nur die Programmiersprachen PHP und Javascript. Damit schreibt man keine installierbaren Programme, sondern Webanwendungen.

Wir Autoren sind ja mitunter paranoid. Wir arbeiten jahrelang an einem Text und haben Angst, dass er gestohlen werden könnte. So begegnen einige ihrer Angst, indem sie alles supersicher verschlüsseln.

Ich will mal so ehrlich sein, dass ich auch paranoid war, bis ich Testleser brauchte. Denen kannst du ja nicht ins Gehirn schauen. Inzwischen hab ich mich entspannt.

Um es kurz zu machen: Um den paptagger zu nutzen, musst du folgendes tun:

  1. Deinen Text in Papyrus als HTML exportieren (15 Sekunden Arbeit)
  2. Mein paptagger-Tool aufrufen unter https://tpub.poppner.net/paptagger (15 Sekunden)
  3. Dort den Import-Assistenten durchgehen (mit etwas Übung unter 1 Minute)

Die Krux liegt bei Punkt 2: Du musst deinen heiligen Text vollständig zu meinem blöden Tool hochladen. Und mein blödes Tool wirft dann eine CSV-Datei aus.

Auch richtig: Ich könnte deinen Text speichern, lesen und schlimme DInge tun. Es ist technisch unabdingbar, dass dein Text für einige Millisekunden auf meinem Webspace gespeichert wird.

Mein Skript selbst fertigt keine Kopien an und tut nach dem Absenden des Ergebisses an dich etwas, das eigentlich sinnlos ist: Es löscht die temporäre Datei mit deinem Upload. Darum würde sich eigentlich PHP selbst nach Skriptablauf kümmern. Aber ich hatte das Gefühl, diesen kleinen (überflüssigen) Löschbefehl selbst noch einmal zu setzen zu müssen. So wird dein Text also wahrscheinlich noch einige Milli-Millisekunden kürzer auf dem Server stehen, bevor er ins Nirvana verabschiedet wird.

Prüfen kannst du das natürlich nicht und beweisen kann ich es auch nicht. Vertrau mir oder nicht – ganz wie du willst.

Kröte Nr. 2: Fluch der Zeichensätze

Freu dich, wenn du noch nie von Kinderkrankheiten wie Unicode, ASCII, ISO-8859, Mac OS Roman oder Windows 1252 gehört hast.

Lass es mich so ausdrücken: Du glaubst, auf deiner Tastatur Buchstaben zu schreiben. Für deinen Computer sind das aber alles Zahlen und er zeigt daraufhin Buchstaben an. Welche Buchstaben nun welchen Zahlen zugeordnet sind, bestimmt der Zeichensatz.

Was in Zeiten von Tera-Byte, Giga-Byte, Mega-Byte und Kilo-Byte gern vergessen geht, ist das Byte. Es besteht aus 8 Bit, also 8 Stellen, die an oder aus sein können – Null oder Eins. Und mit so einem Byte kann man von 0 bis 255 rechnen. Wie naheliegend war es da, vor langer Zeit festzulegen, dass 1 Byte = 1 Buchstabe darstellen soll. Genug Platz für 26 Buchstaben in Groß- und Kleinschrift wäre ja theoretisch. Aber unglücklicherweise sprechen wir ja nicht alle Deutsch und tatsächlich gibt es weit mehr als 256 verschiedene Buchstaben auf der Welt. Aber weil man die Idee mit 1 Byte = 1 Buchstabe so toll fand, kreierte man halt Zeichensätze. Am besten verwendet man also ISO-8859-1, wenn man einen deutschen Text schreiben will. Hast du das schon mal irgendwo eingestellt? Eben!

Wenn du also an deinem Windows-Rechner fleißig mit dem Zeichensatz Windows 1252 schreibst, könnte ein Mac die Datei zunächst einmal mit Mac OS Roman zu interpretieren versuchen. Das würde in vielen Fällen gut gehen, aber eben nur in vielen. Wahrscheinlilch hättest du ein paar sonderbare Zeichen im Text stehen – eben dort, wo Windows und macOS verschiedene Wege mit ihren Zeichensätzen gegangen sind.

Die Lösung lautet Unicode. Dies kann man sich vorstellen wie einen riesengroßen Tanker. Ein Buchstabe ist hier bis zu 4 Byte groß. Der Unicode-Tanker braucht also mehr Platz als kleinere Schiffe, aber dafür passt dort alles rein. Nicht nur Ä, Ö und Ü, sondern auch griechische, russische, hebräische, arabische, chinesische und weißichwelche Schriftzeichen.

In der heutigen Zeit ist Speicherplatz nahezu ohne Begrenzung verfügbar. Unicode macht das Leben leichter und es ist doch völlig egal, ob dein Dokument dadurch viermal größer wird. Die Vorteile überwiegen die Nachteile. Und  glücklicherweise versteht Papyrus Unicode. Wenigstens an den meisten Stellen.

Es gibt nur dieses kleine Dorf in Gallien, das man seitens des Papyrus-Herstellers bisher hat gewähren lassen. Und dieses Dort heißt: Import in die Papyrus Base. Offenbar hielt man Unicode-Unterstützung an dieser Stelle für einen selten benötigten Fall. Und ein solcher Fall bin ich nun mit meinem paptagger und nach vielen Tests hab ich fast aufgegeben.

Weil ich keine Überraschungen erleben wollte – ich erlebte immer wieder Überraschungen –, bin ich schließlich auf den kleinsten gemeinsamen Nennen zurückgegangen, nämlich auf …

ASCII – American Standard Code for Information Interchange

ASCII macht eigentlich keinen Spaß, denn ASCII kann gar nichts. Wenn Unicode ein Tanker ist, ist ASCII ein Ruderboot. Es hat genau die folgenden 128 Zeichen:

!"#$%&'()*+,-./0123456789:;<=>?
@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_
`abcdefghijklmnopqrstuvwxyz{|}~

Wie wir alle schnell bemerkt haben werden, ist da kein Ä, Ö oder Ü dabei. Was bedeutet das für den Import in Papyrus Base?

Ich habe mich dazu entschieden, alle Zeichen, die es in der vorgenannten Auflistung nicht gibt, durch gültige ASCII-Zeichen zu ersetzen. Wir kennen etwas Ähnliches von Domainnamen und E-Mail-Adressen. Dort lebten wir lange mit ASCII. Alles bleibt also lesbar, aber eine Rechtschreibprüfung kann man mit den importierten Texten nicht durchführen. Aber das ist auch nicht der Sinn.

Um alles mit Leben zu füllen, ein Beispielsatz (entstanden zur Corona-Zeit):

Fünf schöne Männer genießen bei 25° die Sonne. „Hallo!“, ruft jemand. „Bitte rücken Sie auseinander. Nach § 1 kostet das sonst 1.000 € Strafe.“

Mein Programm macht daraus:

Fuenf schoene Maenner geniessen bei 25Grad die Sonne. "Hallo!", ruft jemand. "Bitte ruecken Sie auseinander. Nach Paragraf 1 kostet das sonst 1.000 Euro Strafe."

Das ist alles, was ich bieten kann. Wie gesagt – alle Texte sind prima lesbar, entsprechen aber aufgrund der Zeichensatz-Problematik nicht buchstabengetreu dem Original.

Kröte Nr. 3: Keine Textverlinkung

Eigentlich klar, aber wer Papyrus nutzt, ist hier verwöhnt. Es ist leider nicht möglich, auf eine Stelle in der Datenbank zu klicken, um damit den Text aufzurufen.

Nach einigen Nachdenken fällt mir auf: Das kann die Figuren-Datenbank auch nicht.

Es wäre aber natürlich schön, wenn die Tags im Navigator angezeigt werden könnten. Das geht leider nicht. Eigentlich klar.

Zurück

Kommentare

Einen Kommentar schreiben

Bitte addieren Sie 9 und 5.

*)
Mit einem Sternchen markierte Eingabefelder müssen ausgefüllt werden.
Bei „Name” darf auch ein Pseudonym stehen. Weiteres in meinen Datenschutzhinweisen.
Kommentare sind zunächst unsichtbar und werden von einem Moderator gesichtet.