From 0e2977209c06b39005ede2773bc039691771664d Mon Sep 17 00:00:00 2001 From: gustavoairestiago Date: Mon, 24 Jan 2022 16:10:51 -0300 Subject: [PATCH 1/3] Sobe diretorio etnia_indigena --- .../dataset_config.yaml | 90 ++++------- .../etnia_indigena/publish.sql | 24 +++ .../etnia_indigena/schema-prod.json | 1 + .../etnia_indigena/schema-staging.json | 1 + .../etnia_indigena/table_config.yaml | 146 ++++++++++++++++++ .../etnia_indigena/table_description.txt | 62 ++++++++ 6 files changed, 264 insertions(+), 60 deletions(-) create mode 100644 bases/br_bd_diretorios_brasil/etnia_indigena/publish.sql create mode 100644 bases/br_bd_diretorios_brasil/etnia_indigena/schema-prod.json create mode 100644 bases/br_bd_diretorios_brasil/etnia_indigena/schema-staging.json create mode 100644 bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml create mode 100644 bases/br_bd_diretorios_brasil/etnia_indigena/table_description.txt diff --git a/bases/br_bd_diretorios_brasil/dataset_config.yaml b/bases/br_bd_diretorios_brasil/dataset_config.yaml index d630263e7..f3c644e31 100644 --- a/bases/br_bd_diretorios_brasil/dataset_config.yaml +++ b/bases/br_bd_diretorios_brasil/dataset_config.yaml @@ -1,78 +1,48 @@ -dataset_id: br_bd_diretorios_brasil # AUTO GENERATED - -url_ckan: https://basedosdados.org/dataset/br-bd-diretorios-brasil -url_github: https://github.com/basedosdados/mais/tree/master/bases/br_bd_diretorios_brasil - -# Descreva a base. -# Ela é sobre o que? -# Quais as principais fontes de dados? -# Há links para FAQs e explicações? -description: | # REQUIRED - Conjunto de diretórios brasileiros compilados pela Base dos Dados para cruzar informações de diferentes instituições. # Qual organização disponibiliza os dados originais? # Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/organization_list -organization: - - "instituto-brasileiro-de-geografia-e-estatistica" - - "ministerio-da-educacao-e-cultura-mec" - - "secretaria-de-educacao-de-sao-paulo" # REQUIRED +# Exemplos: br-ibge, br-tse, br-rj-gov +organization: + - br-bd + +dataset_id: br_bd_diretorios_brasil -# Qual departamento/grupo/pessoa mantém os dados originais? -author: - name: Ricardo Dahis - email: rdahis@basedosdados.org +# Título do conjunto, a ser exibido no mecanismo de busca. +# Exemplo: População brasileira +title: Diretórios Brasileiros -# Onde encontrar os dados originais e mais informações? -website: - - https://www.ibge.gov.br/estatisticas/downloads-estatisticas.html - - https://dados.educacao.sp.gov.br/story/idesp - - http://bve.cibec.inep.gov.br/web/guest/dados +# Descrição e anotações úteis sobre os dados. +description: -# Quais grupos caracterizam a base? +# Quais temas caracterizam a base? # Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/group_list +# Importante: preencher com a chave, e não o valor. groups: - - "territorio" - - "educacao" - - "ciencia-tec-inov" + - ciencia-tec-inov + - educacao + - territorio # Quais etiquetas caracterizam a base? # Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/tag_list +# Exemplos: fertilidade, preco, desmatamento. # Caso crie etiquetas novas, as regras são: -# - letras minúsculas -# - sem acentos -# - não repita nomes de grupos (ex. educacao, saude, meio ambiente, economia, etc.) +# - letras minúsculas +# - sem acentos +# - sempre no singular +# - não repita nomes de grupos (ex. educacao, saude, meio ambiente, economia, etc.) tags: - diretorio - - municipios - escolas + - municipios -# Em quais línguas a base (ou a fonte original) está disponível? -# Regras: minúsculo, sem acentos. -# Opções: portugues, ingles, espanhol, frances, chines, russo, hindi, alemao, etc. -languages: - - portugues - -# Os dados originais estão disponíveis de graça? -free: sim - -# Are microdata available for download? -microdata: não - -# Existe uma API na fonte original? -API: não - -# É necessário registrar um usuário para baixar os dados originais? -registration: não - -# Como os dados originais estão disponibilizados? -availability: online +# Url completa do CKAN já contendo o dataset-id +# Exemplo: https://basedosdados.org/dataset/ +ckan_url: -# A fonte original requer IP brasileiro para acesso? -brazilian_IP: não +# Url completa do Github já contendo o dataset_id +# Exemplo: https://github.com/basedosdados/mais/tree/master/bases/ +github_url: -# Essa base está sob qual licença? -# A licença MIT se aplica a bases públicas. -# Caso não seja pública, ver opções aqui: https://help.data.world/hc/en-us/articles/115006114287-Common-license-types-for-datasets -license: - name: MIT # REQUIRED - url: \ No newline at end of file +# Não altere esse campo. +# Data da última modificação dos metadados gerada automaticamente pelo CKAN. +metadata_modified: '2022-01-24T01:27:43.000805' diff --git a/bases/br_bd_diretorios_brasil/etnia_indigena/publish.sql b/bases/br_bd_diretorios_brasil/etnia_indigena/publish.sql new file mode 100644 index 000000000..3329fd1af --- /dev/null +++ b/bases/br_bd_diretorios_brasil/etnia_indigena/publish.sql @@ -0,0 +1,24 @@ +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_diretorios_brasil.etnia_indigena AS +SELECT +SAFE_CAST(id_etnia_indigena AS STRING) id_etnia_indigena, +SAFE_CAST(nome AS STRING) nome +FROM basedosdados-dev.br_bd_diretorios_brasil_staging.etnia_indigena AS t \ No newline at end of file diff --git a/bases/br_bd_diretorios_brasil/etnia_indigena/schema-prod.json b/bases/br_bd_diretorios_brasil/etnia_indigena/schema-prod.json new file mode 100644 index 000000000..f5022cb0b --- /dev/null +++ b/bases/br_bd_diretorios_brasil/etnia_indigena/schema-prod.json @@ -0,0 +1 @@ +[{"name": "id_etnia_indigena", "bigquery_type": "string", "description": "ID da etnia ind\u00edgena", "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "is_in_staging": true, "is_partition": false, "type": "STRING", "mode": "NULLABLE"}, {"name": "nome", "bigquery_type": "string", "description": "Nome da etnia nd\u00edgena", "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "is_in_staging": true, "is_partition": false, "type": "STRING", "mode": "NULLABLE"}] \ No newline at end of file diff --git a/bases/br_bd_diretorios_brasil/etnia_indigena/schema-staging.json b/bases/br_bd_diretorios_brasil/etnia_indigena/schema-staging.json new file mode 100644 index 000000000..29a8c6d57 --- /dev/null +++ b/bases/br_bd_diretorios_brasil/etnia_indigena/schema-staging.json @@ -0,0 +1 @@ +[{"name": "id_etnia_indigena", "bigquery_type": "string", "description": "ID da etnia ind\u00edgena", "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "is_in_staging": true, "is_partition": false, "type": "STRING"}, {"name": "nome", "bigquery_type": "string", "description": "Nome da etnia nd\u00edgena", "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "is_in_staging": true, "is_partition": false, "type": "STRING"}] \ No newline at end of file diff --git a/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml b/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml new file mode 100644 index 000000000..4485d3c2c --- /dev/null +++ b/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml @@ -0,0 +1,146 @@ + +dataset_id: br_bd_diretorios_brasil + +table_id: etnia_indigena + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: Diretório das etnias indígenas nos Sistemas de Informação Ambulatorial e Hospitalar - SIA/SUS e SIH/SUS + - 'https://bvsms.saude.gov.br/bvs/saudelegis/sas/2010/prt0508_28_09_2010.html' + +# A máxima unidade espacial que a tabela cobre. +spatial_coverage: + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplo: 1995(1)2019. +temporal_coverage: + - 2010 + - 2011 + - 2012 + - 2013 + - 2014 + - 2015 + - 2016 + - 2017 + - 2018 + - 2019 + - 2020 + - 2021 + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: unique + +# Entidade representada por cada linha. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +entity: race + +# A unidade temporal representada por cada linha. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +time_unit: + +# O conjunto mínimo de colunas identificando cada linha unicamente. +# Preencha com os nomes de colunas. +# Exemplos: id_municipio, ano. +# Pode ser vazio pois certas tabelas não possuem identificadores. +identifying_columns: + - id_etnia_indigena + +last_updated: + metadata: + data: + release: + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: '' + +# Quem está preenchendo esses metadados? +published_by: + name: Gustavo Aires Tiago + email: gustavo.tiago@basedosdados.org + github_user: + website: + ckan_user: gustavoairestiago + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: Gustavo Aires Tiago + email: gustavo.tiago@basedosdados.org + github_user: + website: + ckan_user: gustavoairestiago + code_url: + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: Definição do nome das colunas + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +# A tabela tem colunas que precisam de dicionário? +# Opções: yes, no. +covered_by_dictionary: no + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +bdm_file_size: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: id_etnia_indigena + bigquery_type: string + description: ID da etnia indígena + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + is_in_staging: true + is_partition: false + - name: nome + bigquery_type: string + description: Nome da etnia ndígena + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + is_in_staging: true + is_partition: false + +metadata_modified: '2022-01-24T01:27:43.000805' diff --git a/bases/br_bd_diretorios_brasil/etnia_indigena/table_description.txt b/bases/br_bd_diretorios_brasil/etnia_indigena/table_description.txt new file mode 100644 index 000000000..7fb6d9a39 --- /dev/null +++ b/bases/br_bd_diretorios_brasil/etnia_indigena/table_description.txt @@ -0,0 +1,62 @@ +Diretório das etnias indígenas nos Sistemas de Informação Ambulatorial e Hospitalar - SIA/SUS e SIH/SUS - 'https://bvsms.saude.gov.br/bvs/saudelegis/sas/2010/prt0508_28_09_2010.html' + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: Gustavo Aires Tiago +Código: +Email: gustavo.tiago@basedosdados.org +Tratado por +----------- +Nome: Gustavo Aires Tiago +Email: gustavo.tiago@basedosdados.org + + + + +Colunas identificando linhas unicamente +------------------- +- id_etnia_indigena + + + + +Cobertura Temporal +------------------ +- 2010 +- 2011 +- 2012 +- 2013 +- 2014 +- 2015 +- 2016 +- 2017 +- 2018 +- 2019 +- 2020 +- 2021 + + + + +Cobertura Espacial +------------------ + + + + +Tratamento +---------- +Definição do nome das colunas + + + +Frequencia de Atualização +------------------------- +unique From 8cc26b81f2952dc93bfb412bba2e17ad1c68a7f1 Mon Sep 17 00:00:00 2001 From: gustavoairestiago Date: Mon, 24 Jan 2022 16:24:44 -0300 Subject: [PATCH 2/3] Update table_config.yaml --- .../etnia_indigena/table_config.yaml | 39 ++++++++++--------- 1 file changed, 20 insertions(+), 19 deletions(-) diff --git a/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml b/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml index 4485d3c2c..3a27a4430 100644 --- a/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml +++ b/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml @@ -7,28 +7,28 @@ table_id: etnia_indigena # Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de # como usar os dados. # Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: Diretório das etnias indígenas nos Sistemas de Informação Ambulatorial e Hospitalar - SIA/SUS e SIH/SUS - - 'https://bvsms.saude.gov.br/bvs/saudelegis/sas/2010/prt0508_28_09_2010.html' +description: Diretório das etnias indígenas nos Sistemas de Informação Ambulatorial + e Hospitalar - SIA/SUS e SIH/SUS - 'https://bvsms.saude.gov.br/bvs/saudelegis/sas/2010/prt0508_28_09_2010.html' # A máxima unidade espacial que a tabela cobre. -spatial_coverage: +spatial_coverage: # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplo: 1995(1)2019. temporal_coverage: - - 2010 - - 2011 - - 2012 - - 2013 - - 2014 - - 2015 - - 2016 - - 2017 - - 2018 - - 2019 - - 2020 - - 2021 + - 2010 + - 2011 + - 2012 + - 2013 + - 2014 + - 2015 + - 2016 + - 2017 + - 2018 + - 2019 + - 2020 + - 2021 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -36,7 +36,8 @@ update_frequency: unique # Entidade representada por cada linha. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' -entity: race +entity: + - race # A unidade temporal representada por cada linha. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -46,7 +47,7 @@ time_unit: # Preencha com os nomes de colunas. # Exemplos: id_municipio, ano. # Pode ser vazio pois certas tabelas não possuem identificadores. -identifying_columns: +identifying_columns: - id_etnia_indigena last_updated: @@ -73,8 +74,8 @@ data_cleaned_by: name: Gustavo Aires Tiago email: gustavo.tiago@basedosdados.org github_user: - website: ckan_user: gustavoairestiago + website: code_url: # Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. @@ -143,4 +144,4 @@ columns: is_in_staging: true is_partition: false -metadata_modified: '2022-01-24T01:27:43.000805' +metadata_modified: '2022-01-24T19:10:17.569420' From 0fc6e940bfc38630d54911c055ff0b0c8ae23cbd Mon Sep 17 00:00:00 2001 From: gustavoairestiago Date: Tue, 25 Jan 2022 18:17:39 -0300 Subject: [PATCH 3/3] Update table_config.yaml --- bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml b/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml index 3a27a4430..6d44dc2f6 100644 --- a/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml +++ b/bases/br_bd_diretorios_brasil/etnia_indigena/table_config.yaml @@ -132,7 +132,7 @@ columns: is_partition: false - name: nome bigquery_type: string - description: Nome da etnia ndígena + description: Nome da etnia indígena temporal_coverage: covered_by_dictionary: directory_column: