Loading AI tools
Dateiformat Aus Wikipedia, der freien Enzyklopädie
Das Dateiformat CSV steht für englisch Comma-separated values (seltener Character-separated values[1]) und beschreibt den Aufbau einer Textdatei zur Speicherung oder zum Austausch einfach strukturierter Daten. Die Dateinamenserweiterung lautet .csv.
CSV | |
---|---|
Dateiendung: | .csv |
MIME-Type: | text/csv |
Ein allgemeiner Standard für das Dateiformat CSV existiert nicht, jedoch wird es im RFC 4180[2] grundlegend beschrieben; es existiert auch der neuere Standard RFC 7111.[3] Die zu verwendende Zeichenkodierung ist ebenso wenig festgelegt; 7-Bit-ASCII-Code gilt weithin als der kleinste gemeinsame Nenner.
In CSV-Dateien können Tabellen oder eine Liste unterschiedlich langer Listen abgebildet werden.
Kompliziertere, beispielsweise geschachtelte Datenstrukturen können durch zusätzliche Regeln oder in verketteten CSV-Dateien gespeichert werden. Um sie in einer Datei abzuspeichern, eignen sich jedoch andere Formate wie JSON, XML oder EDIFACT besser.
Innerhalb der Textdatei haben einige Zeichen eine Sonderfunktion zur Strukturierung der Daten.
"
– benutzt, das die Daten umschließt, wenn es selbst oder die anderen beiden in dieser Liste genannten Zeichen in den Felddaten vorkommen. Wenn der Feldbegrenzer in den Daten enthalten ist, wird er zudem bei der Ausgabe verdoppelt (siehe Maskierungszeichen).Der erste Datensatz kann ein Kopfdatensatz sein, der die Spaltennamen definiert.
Jeder Datensatz sollte laut RFC 4180,[2] Absatz 2, Punkt 4 die gleiche Anzahl Spalten enthalten – dies wird aber nicht immer eingehalten.
Wird für die Trennung der Datenfelder das Tabulatorzeichen verwendet, wird das Dateiformat auch als TSV (englisch Tab-separated values) bezeichnet. Es hat den Vorteil, dass Tabulatorzeichen in der Regel nicht in den Nutzdaten vorkommen. Kommen auch keine Zeilenumbrüche darin vor, erübrigt sich die Verwendung eines Feldbegrenzers. TSV kommt oft beim Austausch von Daten zwischen Tabellenkalkulations- und sonstigen Programmen über die Zwischenablage zum Einsatz.
Die Formatierung der Daten selbst ist nicht festgelegt. Das bedeutet, dass die verwendeten Formate zwischen den beteiligten Benutzern abgesprochen werden müssen. Besonders davon betroffen sind:
Beispiele: Ist 04/03/02 der 4. März 2002, der 3. April 2002, der 2. März 2004 oder ein ganz anderer Wert? Entspricht 8:09 „morgens neun Minuten nach acht“, „20 Uhr 09“ oder ist es eine „Dauer von 8 Minuten und 9 Sekunden“?
""
wird manchmal als leerer Inhalt und manchmal als einzelnes Anführungszeichen interpretiert./etc/passwd
der Unix-Benutzerverwaltung ist eine CSV-Datei mit dem Trennzeichen „:“.Der folgende Quelltext einer CSV-Datei, mit dem Komma (,
) als Feldtrennzeichen und Zeilenumbruch (CR LF) als Datensatz-Trennzeichen sowie mit Spaltenüberschriften in der ersten Zeile:
Stunde,Montag,Dienstag,Mittwoch,Donnerstag,Freitag 1,Mathematik,Deutsch,Englisch,Erdkunde,Politik 2,Sport,Deutsch,Englisch,Sport,Geschichte 3,Sport,"Religion (ev., kath.)",Kunst,,Kunst
repräsentiert die folgende Tabelle:
Stunde | Montag | Dienstag | Mittwoch | Donnerstag | Freitag |
1 | Mathematik | Deutsch | Englisch | Erdkunde | Politik |
2 | Sport | Deutsch | Englisch | Sport | Geschichte |
3 | Sport | Religion (ev., kath.) | Kunst | Kunst |
In diesem Beispiel werden die Anführungszeichen verwendet, um das Komma zwischen ev. und kath. in der letzten Zeile als Text zu kennzeichnen. Das dritte Element dieser Zeile lautet also Religion (ev., kath.). Außerdem werden alle ASCII-Zeichen in Form des 8-Bit-Zeichensatzes ISO 8859-1 verarbeitet.
Das Dateiformat CSV ist auch als Request for Comments (RFC) spezifiziert:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.