[infra] Suporte a parquet #1082

guissalustiano · 2022-01-23T19:05:07Z

Sua solicitação de recurso está relacionada a um problema? Por favor descreva.
Suporte a arquivos parquet para o bigquery. Atualmente não há nenhuma documentação sobre como subir arquivos em parquet e não há suporte da cli em python

Descreva a solução que você gostaria
Dar suporte a parquet no cli e recomenda-lo pelo menos para grandes datasets

Descreva alternativas que você considerou

Contexto adicional
O parquet é um formato de armazenamento colunar muito usado no ecossistema hadoop.
Ele armazena os valores em formato binario garantindo que o mesmo tipo escrito seja lido, além disso por ser armazenado por coluna tem a leitura de poucas colunas muito mais rapido (oque é o caso da maioria de consultas analiticas) e seu esquema de encoding cria dicionarios para colunas com menos de 10^15 oque contribui muito para diminuir seu tamanho e cria uma duvida sobre a ultilização de dicionarios externos.
Ele é suportado pelo big query sem nenhum contra limitação, em comparação ao csv que é dado essa ressalva.

Estou tentando importar dados da ANS (#1078 ) que dariam algo perto de 300GB em CSV. Ao armazena-los em parquet gastaria menos 10GB, facilitando o tratamento local e diminuindo os gastos de banda e armazenamento da cloud.

guissalustiano · 2022-01-23T19:06:34Z

Eu estou tentando aprender um pouco mais de GCP e a infra de vocês para poder ajudar aqui

JoaoCarabetta · 2022-01-31T22:08:48Z

Adicionar parquet nas funções do seguinte arquivo https://github.com/basedosdados/mais/blob/master/python-package/basedosdados/upload/datatypes.py\
Atualizar documentação de funções que tenham alguma flag com o tipo de arquivo
Criar testes com arquivos parquet

guissalustiano added the enhancement New feature or request label Jan 23, 2022

guissalustiano assigned d116626 and JoaoCarabetta Jan 23, 2022

guissalustiano changed the title ~~[infra] <Suporte a parquet>~~ [infra] Suporte a parquet Jan 23, 2022

JoaoCarabetta assigned guissalustiano and unassigned d116626 and JoaoCarabetta Jan 24, 2022

d116626 linked a pull request Feb 7, 2022 that will close this issue

[infra] Adiciona suporte a Avro e Parquet #1100

Closed

2 tasks

JoaoCarabetta assigned isadorabugarin Feb 7, 2022

lucascr91 closed this as completed Apr 4, 2022

lucascr91 linked a pull request Apr 4, 2022 that will close this issue

[infra] Adiciona suporte a Avro e Parquet (cont.) #1145

Merged

2 tasks

lucascr91 removed a link to a pull request Apr 4, 2022

[infra] Adiciona suporte a Avro e Parquet #1100

Closed

2 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[infra] Suporte a parquet #1082

[infra] Suporte a parquet #1082

guissalustiano commented Jan 23, 2022 •

edited

Loading

guissalustiano commented Jan 23, 2022

JoaoCarabetta commented Jan 31, 2022

[infra] Suporte a parquet #1082

[infra] Suporte a parquet #1082

Comments

guissalustiano commented Jan 23, 2022 • edited Loading

guissalustiano commented Jan 23, 2022

JoaoCarabetta commented Jan 31, 2022

guissalustiano commented Jan 23, 2022 •

edited

Loading