You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Sua solicitação de recurso está relacionada a um problema? Por favor descreva.
Suporte a arquivos parquet para o bigquery. Atualmente não há nenhuma documentação sobre como subir arquivos em parquet e não há suporte da cli em python
Descreva a solução que você gostaria
Dar suporte a parquet no cli e recomenda-lo pelo menos para grandes datasets
Descreva alternativas que você considerou
Contexto adicional
O parquet é um formato de armazenamento colunar muito usado no ecossistema hadoop.
Ele armazena os valores em formato binario garantindo que o mesmo tipo escrito seja lido, além disso por ser armazenado por coluna tem a leitura de poucas colunas muito mais rapido (oque é o caso da maioria de consultas analiticas) e seu esquema de encoding cria dicionarios para colunas com menos de 10^15 oque contribui muito para diminuir seu tamanho e cria uma duvida sobre a ultilização de dicionarios externos.
Ele é suportado pelo big query sem nenhum contra limitação, em comparação ao csv que é dado essa ressalva.
Estou tentando importar dados da ANS (#1078 ) que dariam algo perto de 300GB em CSV. Ao armazena-los em parquet gastaria menos 10GB, facilitando o tratamento local e diminuindo os gastos de banda e armazenamento da cloud.
The text was updated successfully, but these errors were encountered:
Sua solicitação de recurso está relacionada a um problema? Por favor descreva.
Suporte a arquivos parquet para o bigquery. Atualmente não há nenhuma documentação sobre como subir arquivos em parquet e não há suporte da cli em python
Descreva a solução que você gostaria
Dar suporte a parquet no cli e recomenda-lo pelo menos para grandes datasets
Descreva alternativas que você considerou
Contexto adicional
O parquet é um formato de armazenamento colunar muito usado no ecossistema hadoop.
Ele armazena os valores em formato binario garantindo que o mesmo tipo escrito seja lido, além disso por ser armazenado por coluna tem a leitura de poucas colunas muito mais rapido (oque é o caso da maioria de consultas analiticas) e seu esquema de encoding cria dicionarios para colunas com menos de 10^15 oque contribui muito para diminuir seu tamanho e cria uma duvida sobre a ultilização de dicionarios externos.
Ele é suportado pelo big query sem nenhum contra limitação, em comparação ao csv que é dado essa ressalva.
Estou tentando importar dados da ANS (#1078 ) que dariam algo perto de 300GB em CSV. Ao armazena-los em parquet gastaria menos 10GB, facilitando o tratamento local e diminuindo os gastos de banda e armazenamento da cloud.
![image](https://user-images.githubusercontent.com/32439070/150693471-baa6c515-9d14-43f9-8bef-2f002c0c9f19.png)
The text was updated successfully, but these errors were encountered: