Kodierungen sind Vorschriften zur Abbildung eines Datenformates oder -Modells in einem anderen Datenformat. Kodierungen deren Zielformat auf einer Zeichenkette oder anderen Art von Reihenfolge basiert werden auch Serialisierung genannt.

Liste von Kodierungen

Die folgenden Kodierungen von Ausgangs-Modell zu Ziel-Format sind auf dieser Seite dokumentiert.

Kodierung Modell Format
Research Information System Format Syntax (RIS) Research Information System Format (RIS) Bytes
Human JSON (Hjson) JSON Unicode
XML Syntax XML Unicode
MABxml Maschinelles Austauschformat für Bibliotheken (MAB) XML
Coffescript Object Notation (CSON) JSON Unicode
Simple Binary Encoding Syntax (SBE) Simple Binary Encoding (SBE) Bytes
Pragmatic XML XML JSON
UTF-8 Unicode Bytes
BSON Syntax BSON Bytes
Human-Optimized Config Object Notation (HOCON) JSON Unicode
Encoded Archival Context for Corporate Bodies, Persons, and Families (EAC-CPF) International Standard Archival Authority Record for Corporate Bodies, Persons, and Families (ISAAR(CPF)) XML
Lightweight Information Describing Objects Syntax (LIDO) Lightweight Information Describing Objects (LIDO) XML
DAIA/XML Document Availability Information API (DAIA) XML
DAIA/JSON Document Availability Information API (DAIA) JSON
MicroXML XML JSON
museumdat Syntax museumdat XML
Bencode Syntax Bencode Bytes
YAML Syntax YAML Unicode
Categories for the Description of Works of Art Lite (CDWA Lite) Categories for the Description of Works of Art (CDWA) XML
JSON5 JSON Unicode
JSON-LD RDF JSON
RDF/XML RDF XML
Turtle RDF Unicode
N-Triples RDF Unicode
Header, Dictionaries, Triples (HDT) RDF Bytes
Universal Binary JSON (UBJSON) JSON Bytes
Tom's Obvious, Minimal Language Syntax (TOML) Tom's Obvious, Minimal Language (TOML) Unicode
JSON Syntax JSON Unicode
Encoded Archival Description Syntax (EAD) Encoded Archival Description (EAD) XML
JSKOS data format for Knowledge Organization Systems Syntax (JSKOS) JSKOS data format for Knowledge Organization Systems (JSKOS) JSON-LD
DataCite Metadata Schema (DataCite) DataCite XML
DataCite JSON (DataCite) DataCite JSON
Metadata Authority Description Schema Syntax (MADS) Metadata Authority Description Schema (MADS) XML
LOM XML Learning Objects Metadata (LOM) XML
Normal File Format Syntax (.NORM) Normal File Format (.NORM) .NORM
MessagePack Syntax MessagePack Bytes
Endnote Tagged Format Syntax (ENW) Endnote Tagged Format (ENW) Bytes
MARC Documentation Format MARC Zeichenkette
MARCXML MARC XML
MARC in JSON (mij) MARC JSON
MARCMaker MARC Bytes
MARC JSON MARC JSON
Turbomarc MARC XML
MicroLIF MARC Bytes
MARC Line MARC Zeichenkette
ISO MARC MARC Bytes
Aleph Sequential Format Syntax (ASEQ) Aleph Sequential Format (ASEQ) Zeichenkette
CBOR Syntax CBOR Bytes
Avram Schema Language Syntax (Avram) Avram Schema Language (Avram) JSON
Metadata Object Description Schema Syntax (MODS) Metadata Object Description Schema (MODS) XML
Smile JSON Bytes
PICA XML PICA-Format (PICA) XML
PPXML PICA-Format (PICA) XML
PICA JSON PICA-Format (PICA), PICA Patch JSON
Binäres PICA PICA-Format (PICA) Bytes
PICA-Importformat PICA-Format (PICA) Bytes
Normalisiertes PICA PICA-Format (PICA) Bytes
PICA Plain PICA-Format (PICA), PICA Patch Bytes
Jupyter Notebook Format Syntax (nbformat) Jupyter Notebook Format (nbformat) JSON

Eigenschaften von Kodierungen

Letzendlich basieren alle Kodierungen über eine oder mehrere Ebenen auf Bytes (und damit wiederum auf Bits), denn dies ist die einzige Form in der digitale Daten physikalisch vorliegen.

Kodierungen können in beide Richtungen angewandt werden. Im Englischen wird zwischen encoding (Kodierung, vom Modell zum Format) und decoding (Dekodierung, vom Format zum Modell) unterschieden.

Kodierung sollten für jedes mögliche Dokument des Ausangs-Modells mindestens ein Dokument im Ziel-Format bereitstellen. Anderfalls ist die Kodierung unvollständig.

Während es bei den meisten Kodierung mehrere alternative Möglichkeiten der Abbildung gibt (beispielsweise die mögliche Verwendung oder Auslassung zusätzliche Leerzeichen), sollte die Dekodierung immer eindeutig sein.

Im Mathematischen Sinne (also auch so wie Computer die Daten verarbeiten) ist die Abbildung einer Kodierung eher umgekehrt definiert: als Dekodierungs-Funktion vom Format zum kodierten Modell. Die Funktion ist dabei meist nur partiell, es gibt also Dokumente die sich nicht dekodieren lassen weil sie der Kodierungsvorschrift nach fehlerhaft sind.

Falls eine Kodierung/Dekodierung in beide Richtungen eindeutig ist, wird sie auch als Normalisierung bezeichnet. Eine Folge normalisierender Kodierungen bis zur Ebene von Bytes ist notwendig um bei Bedarf gleiche Dokumente anhand ihrer Prüfsummen identifizieren zu können. In der Praxis ist dies bislang jedoch nur für die wenigsten Formate möglich.