Kodierungen sind Vorschriften zur Abbildung eines Datenformates oder -Modells in einem anderen Datenformat. Kodierungen deren Zielformat auf einer Zeichenkette oder anderen Art von Reihenfolge basiert werden auch Serialisierung genannt.

Liste von Kodierungen

Die folgenden Kodierungen von Ausgangs-Modell zu Ziel-Format sind auf dieser Seite dokumentiert.

Kodierung Modell Format
Human JSON (Hjson) JSON Unicode
MABxml Maschinelles Austauschformat für Bibliotheken (MAB) XML
Coffescript Object Notation (CSON) JSON Unicode
Pragmatic XML XML JSON
UTF-8 Unicode Bytes
Human-Optimized Config Object Notation (HOCON) JSON Unicode
Encoded Archival Context for Corporate Bodies, Persons, and Families (EAC-CPF) International Standard Archival Authority Record for Corporate Bodies, Persons, and Families (ISAAR(CPF)) XML
DAIA/XML Document Availability Information API (DAIA) XML
DAIA/JSON Document Availability Information API (DAIA) JSON
MicroXML XML JSON
JSON5 JSON Unicode
JSON-LD RDF JSON
RDF/XML RDF XML
Turtle RDF Unicode
N-Triples RDF Unicode
Header, Dictionaries, Triples (HDT) RDF Bytes
Universal Binary JSON (UBJSON) JSON Bytes
DataCite Metadata Schema (DataCite) DataCite XML
DataCite JSON (DataCite) DataCite JSON
LOM XML Learning Objects Metadata (LOM) XML
MARC Documentation Format MARC Zeichenkette
MARCXML MARC XML
MARC in JSON (mij) MARC JSON
MARCMaker MARC Bytes
MARC JSON MARC JSON
Turbomarc MARC XML
MicroLIF MARC Bytes
MARC Line MARC Zeichenkette
ISO MARC MARC Bytes
ShEx Compact syntax (ShExC) Shape Expression Language (ShEx) Unicode
ShEx JSON Syntax (ShExJ) Shape Expression Language (ShEx) JSON
Smile JSON Bytes
PICA XML PICA-Format (PICA) XML
PPXML PICA-Format (PICA) XML
PICA JSON PICA-Format (PICA), PICA Patch JSON
Binäres PICA PICA-Format (PICA) Bytes
PICA-Importformat PICA-Format (PICA) Bytes
Normalisiertes PICA PICA-Format (PICA) Bytes
PICA Plain PICA-Format (PICA), PICA Patch Bytes

Eigenschaften von Kodierungen

Letzendlich basieren alle Kodierungen über eine oder mehrere Ebenen auf Bytes (und damit wiederum auf Bits), denn dies ist die einzige Form in der digitale Daten physikalisch vorliegen.

Kodierungen können in beide Richtungen angewandt werden. Im Englischen wird zwischen encoding (Kodierung, vom Modell zum Format) und decoding (Dekodierung, vom Format zum Modell) unterschieden.

Kodierung sollten für jedes mögliche Dokument des Ausangs-Modells mindestens ein Dokument im Ziel-Format bereitstellen. Anderfalls ist die Kodierung unvollständig.

Während es bei den meisten Kodierung mehrere alternative Möglichkeiten der Abbildung gibt (beispielsweise die mögliche Verwendung oder Auslassung zusätzliche Leerzeichen), sollte die Dekodierung immer eindeutig sein.

Im Mathematischen Sinne (also auch so wie Computer die Daten verarbeiten) ist die Abbildung einer Kodierung eher umgekehrt definiert: als Dekodierungs-Funktion vom Format zum kodierten Modell. Die Funktion ist dabei meist nur partiell, es gibt also Dokumente die sich nicht dekodieren lassen weil sie der Kodierungsvorschrift nach fehlerhaft sind.

Falls eine Kodierung/Dekodierung in beide Richtungen eindeutig ist, wird sie auch als Normalisierung bezeichnet. Eine Folge normalisierender Kodierungen bis zur Ebene von Bytes ist notwendig um bei Bedarf gleiche Dokumente anhand ihrer Prüfsummen identifizieren zu können. In der Praxis ist dies bislang jedoch nur für die wenigsten Formate möglich.