Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[infra] Suporte a parquet #1082

Closed
guissalustiano opened this issue Jan 23, 2022 · 2 comments · Fixed by #1145
Closed

[infra] Suporte a parquet #1082

guissalustiano opened this issue Jan 23, 2022 · 2 comments · Fixed by #1145
Assignees
Labels
enhancement New feature or request

Comments

@guissalustiano
Copy link
Contributor

guissalustiano commented Jan 23, 2022

Sua solicitação de recurso está relacionada a um problema? Por favor descreva.
Suporte a arquivos parquet para o bigquery. Atualmente não há nenhuma documentação sobre como subir arquivos em parquet e não há suporte da cli em python

Descreva a solução que você gostaria
Dar suporte a parquet no cli e recomenda-lo pelo menos para grandes datasets

Descreva alternativas que você considerou

Contexto adicional
O parquet é um formato de armazenamento colunar muito usado no ecossistema hadoop.
Ele armazena os valores em formato binario garantindo que o mesmo tipo escrito seja lido, além disso por ser armazenado por coluna tem a leitura de poucas colunas muito mais rapido (oque é o caso da maioria de consultas analiticas) e seu esquema de encoding cria dicionarios para colunas com menos de 10^15 oque contribui muito para diminuir seu tamanho e cria uma duvida sobre a ultilização de dicionarios externos.
Ele é suportado pelo big query sem nenhum contra limitação, em comparação ao csv que é dado essa ressalva.

Estou tentando importar dados da ANS (#1078 ) que dariam algo perto de 300GB em CSV. Ao armazena-los em parquet gastaria menos 10GB, facilitando o tratamento local e diminuindo os gastos de banda e armazenamento da cloud.
image

@guissalustiano guissalustiano added the enhancement New feature or request label Jan 23, 2022
@guissalustiano
Copy link
Contributor Author

Eu estou tentando aprender um pouco mais de GCP e a infra de vocês para poder ajudar aqui

@guissalustiano guissalustiano changed the title [infra] <Suporte a parquet> [infra] Suporte a parquet Jan 23, 2022
@JoaoCarabetta
Copy link
Contributor

@d116626 d116626 linked a pull request Feb 7, 2022 that will close this issue
2 tasks
@lucascr91 lucascr91 linked a pull request Apr 4, 2022 that will close this issue
2 tasks
@lucascr91 lucascr91 removed a link to a pull request Apr 4, 2022
2 tasks
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

Successfully merging a pull request may close this issue.

5 participants