Kodierungen sind Vorschriften zur Abbildung eines Datenformates oder
-Modells in einem anderen Datenformat. Kodierungen deren Zielformat auf einer
Zeichenkette oder anderen Art von Reihenfolge basiert werden auch
Serialisierung genannt.
Liste von Kodierungen
Die folgenden Kodierungen von Ausgangs-Modell zu Ziel-Format sind auf dieser Seite dokumentiert.
RDF-basierte Formate sind in dieser Übersicht noch nicht enthalten!
Kodierung |
Modell |
Format |
Research Information System Format Syntax (RIS) |
Research Information System Format (RIS) |
Bytes |
Human JSON (Hjson) |
JSON |
Unicode |
XML Syntax |
XML |
Unicode |
MABxml |
Maschinelles Austauschformat für Bibliotheken (MAB) |
XML |
Coffescript Object Notation (CSON) |
JSON |
Unicode |
Simple Binary Encoding Syntax (SBE) |
Simple Binary Encoding (SBE) |
Bytes |
Pragmatic XML |
XML |
JSON |
UTF-8 |
Unicode |
Bytes |
BSON Syntax |
BSON |
Bytes |
Human-Optimized Config Object Notation (HOCON) |
JSON |
Unicode |
Encoded Archival Context for Corporate Bodies, Persons, and Families (EAC-CPF) |
International Standard Archival Authority Record for Corporate Bodies, Persons, and Families (ISAAR(CPF)) |
XML |
Lightweight Information Describing Objects Syntax (LIDO) |
Lightweight Information Describing Objects (LIDO) |
XML |
DAIA/XML |
Document Availability Information API (DAIA) |
XML |
DAIA/JSON |
Document Availability Information API (DAIA) |
JSON |
MicroXML |
XML |
JSON |
museumdat Syntax |
museumdat |
XML |
Bencode Syntax |
Bencode |
Bytes |
YAML Syntax |
YAML |
Unicode |
Categories for the Description of Works of Art Lite (CDWA Lite) |
Categories for the Description of Works of Art (CDWA) |
XML |
JSON5 |
JSON |
Unicode |
JSON-LD |
RDF |
JSON |
RDF/XML |
RDF |
XML |
Turtle |
RDF |
Unicode |
N-Triples |
RDF |
Unicode |
Header, Dictionaries, Triples (HDT) |
RDF |
Bytes |
Universal Binary JSON (UBJSON) |
JSON |
Bytes |
Tom's Obvious, Minimal Language Syntax (TOML) |
Tom's Obvious, Minimal Language (TOML) |
Unicode |
JSON Syntax |
JSON |
Unicode |
Encoded Archival Description Syntax (EAD) |
Encoded Archival Description (EAD) |
XML |
JSKOS data format for Knowledge Organization Systems Syntax (JSKOS) |
JSKOS data format for Knowledge Organization Systems (JSKOS) |
JSON-LD |
DataCite Metadata Schema (DataCite) |
DataCite |
XML |
DataCite JSON (DataCite) |
DataCite |
JSON |
Metadata Authority Description Schema Syntax (MADS) |
Metadata Authority Description Schema (MADS) |
XML |
LOM XML |
Learning Objects Metadata (LOM) |
XML |
Normal File Format Syntax (.NORM) |
Normal File Format (.NORM) |
.NORM |
MessagePack Syntax |
MessagePack |
Bytes |
Endnote Tagged Format Syntax (ENW) |
Endnote Tagged Format (ENW) |
Bytes |
MARC Documentation Format |
MARC |
Zeichenkette |
MARCXML |
MARC |
XML |
MARC in JSON (mij) |
MARC |
JSON |
MARCMaker |
MARC |
Bytes |
MARC JSON |
MARC |
JSON |
Turbomarc |
MARC |
XML |
MicroLIF |
MARC |
Bytes |
MARC Line |
MARC |
Zeichenkette |
ISO MARC |
MARC |
Bytes |
Aleph Sequential Format Syntax (ASEQ) |
Aleph Sequential Format (ASEQ) |
Zeichenkette |
CBOR Syntax |
CBOR |
Bytes |
Avram Schema Language Syntax (Avram) |
Avram Schema Language (Avram) |
JSON |
Metadata Object Description Schema Syntax (MODS) |
Metadata Object Description Schema (MODS) |
XML |
Smile |
JSON |
Bytes |
PICA XML |
PICA-Format (PICA) |
XML |
PPXML |
PICA-Format (PICA) |
XML |
PICA JSON |
PICA-Format (PICA), PICA Patch |
JSON |
Binäres PICA |
PICA-Format (PICA) |
Bytes |
PICA-Importformat |
PICA-Format (PICA) |
Bytes |
Normalisiertes PICA |
PICA-Format (PICA) |
Bytes |
PICA Plain |
PICA-Format (PICA), PICA Patch |
Bytes |
Jupyter Notebook Format Syntax (nbformat) |
Jupyter Notebook Format (nbformat) |
JSON |
Eigenschaften von Kodierungen
Letzendlich basieren alle Kodierungen über eine oder mehrere Ebenen auf Bytes
(und damit wiederum auf Bits), denn dies ist die einzige Form in der digitale
Daten physikalisch vorliegen.
Kodierungen können in beide Richtungen angewandt werden. Im Englischen wird
zwischen encoding (Kodierung, vom Modell zum Format) und decoding
(Dekodierung, vom Format zum Modell) unterschieden.
Kodierung sollten für jedes mögliche Dokument des Ausangs-Modells mindestens
ein Dokument im Ziel-Format bereitstellen. Anderfalls ist die Kodierung
unvollständig.
Während es bei den meisten Kodierung mehrere alternative Möglichkeiten der
Abbildung gibt (beispielsweise die mögliche Verwendung oder Auslassung
zusätzliche Leerzeichen), sollte die Dekodierung immer eindeutig sein.
Im Mathematischen Sinne (also auch so wie Computer die Daten verarbeiten) ist
die Abbildung einer Kodierung eher umgekehrt definiert: als
Dekodierungs-Funktion vom Format zum kodierten Modell. Die Funktion ist dabei
meist nur partiell, es gibt also Dokumente die sich nicht dekodieren lassen
weil sie der Kodierungsvorschrift nach fehlerhaft sind.
Falls eine Kodierung/Dekodierung in beide Richtungen eindeutig ist, wird sie
auch als Normalisierung bezeichnet. Eine Folge normalisierender Kodierungen
bis zur Ebene von Bytes ist notwendig um bei Bedarf gleiche Dokumente anhand
ihrer Prüfsummen identifizieren zu können. In der Praxis ist dies bislang
jedoch nur für die wenigsten Formate möglich.