Articles

Parquet

Posted on

Parquet é um formato de ficheiro de código aberto disponível para qualquer projecto no ecossistema Hadoop. O Apache Parquet foi concebido para um formato de armazenamento de dados eficiente e eficaz, bem como para um formato de armazenamento de dados plano, em comparação com ficheiros baseados em linhas como ficheiros CSV ou TSV.

Parquet utiliza o algoritmo de retalhamento e montagem de registos, que é superior ao simples achatamento de espaços de nomes aninhados. O Parquet é optimizado para trabalhar com dados complexos em massa e apresenta diferentes formas de compressão de dados e tipos de codificação eficientes. Esta abordagem é melhor especialmente para as consultas que precisam de ler certas colunas a partir de uma tabela grande. Parquet só pode ler as colunas necessárias, minimizando assim grandemente a IO.

Vantagens de Armazenar Dados em Formato Colunar:

  • Armazenamento Colunar como Apache Parquet é concebido para trazer eficiência em comparação com ficheiros baseados em linhas como o CSV. Ao consultar, o armazenamento colunar pode saltar muito rapidamente os dados não relevantes. Como resultado, as consultas de agregação são menos demoradas em comparação com as bases de dados orientadas para as linhas. Esta forma de armazenamento traduziu-se em poupanças de hardware e minimizou a latência de acesso aos dados.
  • Apache Parquet é construído a partir do chão. Por conseguinte, é capaz de suportar estruturas de dados aninhadas avançadas. A disposição dos ficheiros de dados Parquet é optimizada para consultas que processam grandes volumes de dados, na gama de gigabytes para cada ficheiro individual.

  • Parquet é construído para suportar opções de compressão flexíveis e esquemas de codificação eficientes. Como o tipo de dados para cada coluna é bastante semelhante, a compressão de cada coluna é simples (o que torna as consultas ainda mais rápidas). Os dados podem ser comprimidos utilizando um dos vários codecs disponíveis; como resultado, diferentes ficheiros de dados podem ser comprimidos de forma diferente.
  • Apache Parquet funciona melhor com tecnologias interactivas e sem servidores como AWS Athena, Amazon Redshift Spectrum, Google BigQuery e Google Dataproc.

Diferença entre Parquet e CSV

CSV é um formato simples e amplamente difundido que é utilizado por muitas ferramentas tais como Excel, Google Sheets, e numerosas outras podem gerar ficheiros CSV. Embora os ficheiros CSV sejam o formato padrão para pipelines de processamento de dados, tem algumas desvantagens:

  • Amazon Athena e Spectrum cobrará com base na quantidade de dados digitalizados por consulta.
  • Google e Amazon cobrará de acordo com a quantidade de dados armazenados em GS/S3.
  • Google Dataproc cobrará com base no tempo.

Parquet ajudou os seus utilizadores a reduzir os requisitos de armazenamento em pelo menos um terço em grandes conjuntos de dados, além disso, melhorou consideravelmente o tempo de digitalização e desserialização, daí os custos globais.

A tabela seguinte compara a poupança, bem como a velocidade obtida pela conversão de dados em Parquet a partir do CSV.

>>p>1.15 TB

>p>>p>130 GB/td>>>p>6,78 segundos>>p>2.51 GB

>p>p>87% menos quando se usa Parquetp>34x mais rápido>>p>p>99% menos dados digitalizados>>p>p>99.7% de poupança

>p>Dataset/td>>>>p> Tamanho na Amazon S3 >p> Tempo de execução da consulta>/td>

Data Scanned

Cost

>/td>

p>Data stored as CSV files p>1 TB p>236 segundos

Dados armazenados no formato Apache Parquet

p>Savings

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *