Parquet-Datei ist eine HDFS-Datei, die die Metadaten für die Datei enth alten muss. Dies ermöglicht das Aufteilen von Sp alten in mehrere Dateien sowie das Verweisen einer einzelnen Metadatendatei auf mehrere Parquet-Dateien. Die Metadaten umfassen das Schema für die in der Datei gespeicherten Daten.
Wie erstelle ich ein Schema für eine Parkettdatei?
Um das Schema der Parquet-Beispieldaten zu generieren, gehen Sie wie folgt vor:
- Melden Sie sich bei der Haddop/Hive-Box an.
- Erzeugt das Schema in der Standardausgabe wie folgt: -------------- [~] Parquet-Tools Schema abc.parquet. message hive_schema { …
- Dieses Schema mit in eine Datei kopieren. Parkett/. par Erweiterung.
Unterstützt Parkett die Schema-Evolution?
Schema-Zusammenführung
Wie Protocol Buffer, Avro und Thrift unterstützt Parquet auch die Schema-Evolution Benutzer können mit einem einfachen Schema beginnen und nach und nach weitere Sp alten hinzufügen das Schema nach Bedarf. Auf diese Weise erh alten Benutzer möglicherweise mehrere Parquet-Dateien mit unterschiedlichen, aber gegenseitig kompatiblen Schemas.
Haben Parkettdateien Datentypen?
Parquet-Dateidatentypen werden Umwandlungsdatentypen zugeordnet, die der Datenintegrationsdienst verwendet, um Daten zwischen Plattformen zu verschieben. Das Parquet-Schema, das Sie zum Lesen oder Schreiben einer Parquet-Datei angeben, muss in Kleinbuchstaben geschrieben werden.
Wie ist die Parkettdatei aufgebaut?
Parquet-Dateien sind aus Zeilengruppen, Kopf- und Fußzeilen zusammengesetzt Jede Zeilengruppe enthält Daten aus denselben Sp alten. Dieselben Sp alten werden zusammen in jeder Zeilengruppe gespeichert: Diese Struktur ist sowohl für eine schnelle Abfrageleistung als auch für geringe E/A (Minimierung der gescannten Datenmenge) gut optimiert.