Analyzed Layout and Text Object

ALTO (Analyzed Layout and Text Object) ist ein XML-basiertes Format für digitalisierte Dokumente. Mit ALTO kann insbesondere ausgedrückt werden, wo welcher durch OCR erkannter Text auf einer Seite abgebildet ist. Das Format wurde 2009 von der Library of Congress standardisiert und wird meist in Kombination mit METS verwendet. Vergleichbare Formate für OCR-Daten sind PAGE und hOCR. Für intellektuell transkribierte Dokumente wird dagegen eher TEI benutzt.

Homepagehttps://www.loc.gov/standards/alto/
erstellt2004
GrundformatXML
AnwendungDokumentformate
Schemahttps://www.loc.gov/standards/alto/v4/alto-4-2.xsd (XSD) version 4.2
WikidataQ2819247