Haben Parquet-Dateien ein Schema?

Inhaltsverzeichnis:

Haben Parquet-Dateien ein Schema?
Haben Parquet-Dateien ein Schema?

Video: Haben Parquet-Dateien ein Schema?

Video: Haben Parquet-Dateien ein Schema?
Video: Parquet: Visualize Big Data 2025, Januar
Anonim

Parquet-Datei ist eine HDFS-Datei, die die Metadaten für die Datei enth alten muss. Dies ermöglicht das Aufteilen von Sp alten in mehrere Dateien sowie das Verweisen einer einzelnen Metadatendatei auf mehrere Parquet-Dateien. Die Metadaten umfassen das Schema für die in der Datei gespeicherten Daten.

Wie erstelle ich ein Schema für eine Parkettdatei?

Um das Schema der Parquet-Beispieldaten zu generieren, gehen Sie wie folgt vor:

  1. Melden Sie sich bei der Haddop/Hive-Box an.
  2. Erzeugt das Schema in der Standardausgabe wie folgt: -------------- [~] Parquet-Tools Schema abc.parquet. message hive_schema { …
  3. Dieses Schema mit in eine Datei kopieren. Parkett/. par Erweiterung.

Unterstützt Parkett die Schema-Evolution?

Schema-Zusammenführung

Wie Protocol Buffer, Avro und Thrift unterstützt Parquet auch die Schema-Evolution Benutzer können mit einem einfachen Schema beginnen und nach und nach weitere Sp alten hinzufügen das Schema nach Bedarf. Auf diese Weise erh alten Benutzer möglicherweise mehrere Parquet-Dateien mit unterschiedlichen, aber gegenseitig kompatiblen Schemas.

Haben Parkettdateien Datentypen?

Parquet-Dateidatentypen werden Umwandlungsdatentypen zugeordnet, die der Datenintegrationsdienst verwendet, um Daten zwischen Plattformen zu verschieben. Das Parquet-Schema, das Sie zum Lesen oder Schreiben einer Parquet-Datei angeben, muss in Kleinbuchstaben geschrieben werden.

Wie ist die Parkettdatei aufgebaut?

Parquet-Dateien sind aus Zeilengruppen, Kopf- und Fußzeilen zusammengesetzt Jede Zeilengruppe enthält Daten aus denselben Sp alten. Dieselben Sp alten werden zusammen in jeder Zeilengruppe gespeichert: Diese Struktur ist sowohl für eine schnelle Abfrageleistung als auch für geringe E/A (Minimierung der gescannten Datenmenge) gut optimiert.

Empfohlen: