From 1f6a8b856811675a000772d07c6a2ba5e0297fc3 Mon Sep 17 00:00:00 2001 From: Ricardo Dahis Date: Mon, 3 Oct 2022 12:19:57 -0400 Subject: [PATCH 1/7] feat: init metadata --- bases/br_bd_metadados/columns/publish.sql | 34 ++ .../br_bd_metadados/columns/schema-prod.json | 1 + .../columns/schema-staging.json | 1 + .../br_bd_metadados/columns/table_config.yaml | 273 +++++++++++++++ .../columns/table_description.txt | 41 +++ bases/br_bd_metadados/dataset_config.yaml | 36 ++ bases/br_bd_metadados/datasets/publish.sql | 30 ++ .../br_bd_metadados/datasets/schema-prod.json | 1 + .../datasets/schema-staging.json | 1 + .../datasets/table_config.yaml | 217 ++++++++++++ .../datasets/table_description.txt | 45 +++ .../external_links/publish.sql | 38 ++ .../external_links/schema-prod.json | 1 + .../external_links/schema-staging.json | 1 + .../external_links/table_config.yaml | 329 ++++++++++++++++++ .../external_links/table_description.txt | 41 +++ .../information_requests/publish.sql | 38 ++ .../information_requests/schema-prod.json | 1 + .../information_requests/schema-staging.json | 1 + .../information_requests/table_config.yaml | 329 ++++++++++++++++++ .../table_description.txt | 41 +++ .../br_bd_metadados/organizations/publish.sql | 29 ++ .../organizations/schema-prod.json | 1 + .../organizations/schema-staging.json | 1 + .../organizations/table_config.yaml | 203 +++++++++++ .../organizations/table_description.txt | 45 +++ bases/br_bd_metadados/resources/publish.sql | 28 ++ .../resources/schema-prod.json | 1 + .../resources/schema-staging.json | 1 + .../resources/table_config.yaml | 189 ++++++++++ .../resources/table_description.txt | 41 +++ bases/br_bd_metadados/tables/publish.sql | 34 ++ bases/br_bd_metadados/tables/schema-prod.json | 1 + .../tables/schema-staging.json | 1 + .../br_bd_metadados/tables/table_config.yaml | 273 +++++++++++++++ .../tables/table_description.txt | 41 +++ 36 files changed, 2389 insertions(+) create mode 100644 bases/br_bd_metadados/columns/publish.sql create mode 100644 bases/br_bd_metadados/columns/schema-prod.json create mode 100644 bases/br_bd_metadados/columns/schema-staging.json create mode 100644 bases/br_bd_metadados/columns/table_config.yaml create mode 100644 bases/br_bd_metadados/columns/table_description.txt create mode 100644 bases/br_bd_metadados/dataset_config.yaml create mode 100644 bases/br_bd_metadados/datasets/publish.sql create mode 100644 bases/br_bd_metadados/datasets/schema-prod.json create mode 100644 bases/br_bd_metadados/datasets/schema-staging.json create mode 100644 bases/br_bd_metadados/datasets/table_config.yaml create mode 100644 bases/br_bd_metadados/datasets/table_description.txt create mode 100644 bases/br_bd_metadados/external_links/publish.sql create mode 100644 bases/br_bd_metadados/external_links/schema-prod.json create mode 100644 bases/br_bd_metadados/external_links/schema-staging.json create mode 100644 bases/br_bd_metadados/external_links/table_config.yaml create mode 100644 bases/br_bd_metadados/external_links/table_description.txt create mode 100644 bases/br_bd_metadados/information_requests/publish.sql create mode 100644 bases/br_bd_metadados/information_requests/schema-prod.json create mode 100644 bases/br_bd_metadados/information_requests/schema-staging.json create mode 100644 bases/br_bd_metadados/information_requests/table_config.yaml create mode 100644 bases/br_bd_metadados/information_requests/table_description.txt create mode 100644 bases/br_bd_metadados/organizations/publish.sql create mode 100644 bases/br_bd_metadados/organizations/schema-prod.json create mode 100644 bases/br_bd_metadados/organizations/schema-staging.json create mode 100644 bases/br_bd_metadados/organizations/table_config.yaml create mode 100644 bases/br_bd_metadados/organizations/table_description.txt create mode 100644 bases/br_bd_metadados/resources/publish.sql create mode 100644 bases/br_bd_metadados/resources/schema-prod.json create mode 100644 bases/br_bd_metadados/resources/schema-staging.json create mode 100644 bases/br_bd_metadados/resources/table_config.yaml create mode 100644 bases/br_bd_metadados/resources/table_description.txt create mode 100644 bases/br_bd_metadados/tables/publish.sql create mode 100644 bases/br_bd_metadados/tables/schema-prod.json create mode 100644 bases/br_bd_metadados/tables/schema-staging.json create mode 100644 bases/br_bd_metadados/tables/table_config.yaml create mode 100644 bases/br_bd_metadados/tables/table_description.txt diff --git a/bases/br_bd_metadados/columns/publish.sql b/bases/br_bd_metadados/columns/publish.sql new file mode 100644 index 000000000..098ed8f5e --- /dev/null +++ b/bases/br_bd_metadados/columns/publish.sql @@ -0,0 +1,34 @@ +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.columns AS +SELECT +SAFE_CAST(table_id AS STRING) table_id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(bigquery_type AS STRING) bigquery_type, +SAFE_CAST(description AS STRING) description, +SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, +SAFE_CAST(covered_by_dictionary AS STRING) covered_by_dictionary, +SAFE_CAST(directory_column AS STRING) directory_column, +SAFE_CAST(measurement_unit AS STRING) measurement_unit, +SAFE_CAST(has_sensitive_data AS STRING) has_sensitive_data, +SAFE_CAST(observations AS STRING) observations, +SAFE_CAST(is_in_staging AS STRING) is_in_staging, +SAFE_CAST(is_partition AS STRING) is_partition +FROM basedosdados-dev.br_bd_metadados_staging.columns AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/columns/schema-prod.json b/bases/br_bd_metadados/columns/schema-prod.json new file mode 100644 index 000000000..867b9ca78 --- /dev/null +++ b/bases/br_bd_metadados/columns/schema-prod.json @@ -0,0 +1 @@ +[{"name": "table_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "bigquery_type", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "description", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "temporal_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "covered_by_dictionary", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "directory_column", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "measurement_unit", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "has_sensitive_data", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "observations", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "is_in_staging", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "is_partition", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/columns/schema-staging.json b/bases/br_bd_metadados/columns/schema-staging.json new file mode 100644 index 000000000..dfdba64bc --- /dev/null +++ b/bases/br_bd_metadados/columns/schema-staging.json @@ -0,0 +1 @@ +[{"name": "table_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "bigquery_type", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "description", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "temporal_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "covered_by_dictionary", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "directory_column", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "measurement_unit", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "has_sensitive_data", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "observations", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "is_in_staging", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "is_partition", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/columns/table_config.yaml b/bases/br_bd_metadados/columns/table_config.yaml new file mode 100644 index 000000000..75a9eba4d --- /dev/null +++ b/bases/br_bd_metadados/columns/table_config.yaml @@ -0,0 +1,273 @@ + +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: columns + +# Título da tabela. +title: Colunas na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + +last_updated: + metadata: + data: + release: + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: + +# Quem está preenchendo esses metadados? +published_by: + name: + email: + github_user: + ckan_user: + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: + email: + github_user: + ckan_user: + website: + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: table_id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: name + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: bigquery_type + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: description + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: temporal_coverage + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: covered_by_dictionary + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: directory_column + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: measurement_unit + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: has_sensitive_data + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: observations + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: is_in_staging + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: is_partition + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + +number_rows: + +metadata_modified: '2022-09-19T14:07:24.192582' diff --git a/bases/br_bd_metadados/columns/table_description.txt b/bases/br_bd_metadados/columns/table_description.txt new file mode 100644 index 000000000..8c823ccfb --- /dev/null +++ b/bases/br_bd_metadados/columns/table_description.txt @@ -0,0 +1,41 @@ +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: None +Código: +Tratado por +----------- +Nome: None +Código: + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/dataset_config.yaml b/bases/br_bd_metadados/dataset_config.yaml new file mode 100644 index 000000000..9c2f9f11c --- /dev/null +++ b/bases/br_bd_metadados/dataset_config.yaml @@ -0,0 +1,36 @@ + +# Nome (slug) do conjunto no CKAN +# Exemplos: br-ibge-populacao, br-tse-eleicoes +name: br-bd-metadados + +# Título do conjunto, a ser exibido no mecanismo de busca. +# Exemplo: População brasileira +title: Metadados na BD+ + +# Qual organização disponibiliza os dados originais? +# Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/organization_list +# Exemplos: br-ibge, br-tse, br-rj-gov +organization: br-bd + +# Descrição do conjunto +notes: Informações compiladas sobre os metadados mantidos na plataforma BD+. + +# Quais temas caracterizam a base? +# Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/group_list +# Importante: preencher com a chave, e não o valor. +groups: + - ciencia-tec-inov + +# Quais etiquetas caracterizam a base? +# Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/tag_list +# Exemplos: fertilidade, preco, desmatamento. +# Caso crie etiquetas novas, as regras são: +# - letras minúsculas +# - sem acentos +# - sempre no singular +# - não repita nomes de grupos (ex. educacao, saude, meio ambiente, economia, etc.) +tags: + +# Não altere esse campo. +# Data da última modificação dos metadados gerada automaticamente pelo CKAN. +metadata_modified: diff --git a/bases/br_bd_metadados/datasets/publish.sql b/bases/br_bd_metadados/datasets/publish.sql new file mode 100644 index 000000000..f1c2cd955 --- /dev/null +++ b/bases/br_bd_metadados/datasets/publish.sql @@ -0,0 +1,30 @@ +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.datasets AS +SELECT +SAFE_CAST(organization_id AS STRING) organization_id, +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(title AS STRING) title, +SAFE_CAST(date_created AS DATE) date_created, +SAFE_CAST(date_last_modified AS DATE) date_last_modified, +SAFE_CAST(themes AS STRING) themes, +SAFE_CAST(tags AS STRING) tags +FROM basedosdados-dev.br_bd_metadados_staging.datasets AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/datasets/schema-prod.json b/bases/br_bd_metadados/datasets/schema-prod.json new file mode 100644 index 000000000..32a12cfaa --- /dev/null +++ b/bases/br_bd_metadados/datasets/schema-prod.json @@ -0,0 +1 @@ +[{"name": "organization_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "title", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "date_last_modified", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "themes", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "tags", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/datasets/schema-staging.json b/bases/br_bd_metadados/datasets/schema-staging.json new file mode 100644 index 000000000..5c7979bf2 --- /dev/null +++ b/bases/br_bd_metadados/datasets/schema-staging.json @@ -0,0 +1 @@ +[{"name": "organization_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "title", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "date_last_modified", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "themes", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "tags", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/datasets/table_config.yaml b/bases/br_bd_metadados/datasets/table_config.yaml new file mode 100644 index 000000000..4f43b19f2 --- /dev/null +++ b/bases/br_bd_metadados/datasets/table_config.yaml @@ -0,0 +1,217 @@ + +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: datasets + +# Título da tabela. +title: Conjuntos de dados na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + +last_updated: + metadata: + data: + release: + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: + +# Quem está preenchendo esses metadados? +published_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: organization_id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: name + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: title + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: date_created + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: date_last_modified + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: themes + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: tags + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + +number_rows: + +metadata_modified: '2022-09-19T14:07:24.192582' diff --git a/bases/br_bd_metadados/datasets/table_description.txt b/bases/br_bd_metadados/datasets/table_description.txt new file mode 100644 index 000000000..9f1894a1b --- /dev/null +++ b/bases/br_bd_metadados/datasets/table_description.txt @@ -0,0 +1,45 @@ +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: Ricardo Dahis +Código: +Website: www.ricardodahis.com +Email: rdahis@basedosdados.org +Tratado por +----------- +Nome: Ricardo Dahis +Código: +Website: www.ricardodahis.com +Email: rdahis@basedosdados.org + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/external_links/publish.sql b/bases/br_bd_metadados/external_links/publish.sql new file mode 100644 index 000000000..7299fbed7 --- /dev/null +++ b/bases/br_bd_metadados/external_links/publish.sql @@ -0,0 +1,38 @@ +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.external_links AS +SELECT +SAFE_CAST(dataset_id AS STRING) dataset_id, +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(date_created AS date) date_created, +SAFE_CAST(date_last_modified AS date) date_last_modified, +SAFE_CAST(url AS STRING) url, +SAFE_CAST(language AS STRING) language, +SAFE_CAST(has_structured_data AS STRING) has_structured_data, +SAFE_CAST(has_api AS STRING) has_api, +SAFE_CAST(is_free AS STRING) is_free, +SAFE_CAST(requires_registration AS STRING) requires_registration, +SAFE_CAST(availability AS STRING) availability, +SAFE_CAST(spatial_coverage AS STRING) spatial_coverage, +SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, +SAFE_CAST(update_frequency AS STRING) update_frequency, +SAFE_CAST(observation_level AS STRING) observation_level +FROM basedosdados-dev.br_bd_metadados_staging.external_links AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/external_links/schema-prod.json b/bases/br_bd_metadados/external_links/schema-prod.json new file mode 100644 index 000000000..23c95e398 --- /dev/null +++ b/bases/br_bd_metadados/external_links/schema-prod.json @@ -0,0 +1 @@ +[{"name": "dataset_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "DATE", "mode": "NULLABLE"}, {"name": "date_last_modified", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "DATE", "mode": "NULLABLE"}, {"name": "url", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "language", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "has_structured_data", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "has_api", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "is_free", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "requires_registration", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "availability", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "spatial_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "temporal_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "update_frequency", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "observation_level", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/external_links/schema-staging.json b/bases/br_bd_metadados/external_links/schema-staging.json new file mode 100644 index 000000000..208507011 --- /dev/null +++ b/bases/br_bd_metadados/external_links/schema-staging.json @@ -0,0 +1 @@ +[{"name": "dataset_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "date_last_modified", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "url", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "language", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "has_structured_data", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "has_api", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "is_free", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "requires_registration", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "availability", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "spatial_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "temporal_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "update_frequency", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "observation_level", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/external_links/table_config.yaml b/bases/br_bd_metadados/external_links/table_config.yaml new file mode 100644 index 000000000..7bd528339 --- /dev/null +++ b/bases/br_bd_metadados/external_links/table_config.yaml @@ -0,0 +1,329 @@ + +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: external_links + +# Título da tabela. +title: Fontes externas na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + +last_updated: + metadata: + data: + release: + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: + +# Quem está preenchendo esses metadados? +published_by: + name: + email: + github_user: + ckan_user: + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: + email: + github_user: + ckan_user: + website: + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: dataset_id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: name + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: date_created + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: date_last_modified + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: url + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: language + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: has_structured_data + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: has_api + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: is_free + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: requires_registration + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: availability + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: spatial_coverage + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: temporal_coverage + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: update_frequency + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: observation_level + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + +number_rows: + +metadata_modified: '2022-09-19T14:29:01.366146' diff --git a/bases/br_bd_metadados/external_links/table_description.txt b/bases/br_bd_metadados/external_links/table_description.txt new file mode 100644 index 000000000..8c823ccfb --- /dev/null +++ b/bases/br_bd_metadados/external_links/table_description.txt @@ -0,0 +1,41 @@ +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: None +Código: +Tratado por +----------- +Nome: None +Código: + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/information_requests/publish.sql b/bases/br_bd_metadados/information_requests/publish.sql new file mode 100644 index 000000000..c8541ebfb --- /dev/null +++ b/bases/br_bd_metadados/information_requests/publish.sql @@ -0,0 +1,38 @@ +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.information_requests AS +SELECT +SAFE_CAST(dataset_id AS STRING) dataset_id, +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(date_created AS DATE) date_created, +SAFE_CAST(date_last_modified AS DATE) date_last_modified, +SAFE_CAST(url AS STRING) url, +SAFE_CAST(origin AS STRING) origin, +SAFE_CAST(number AS STRING) number, +SAFE_CAST(opening_date AS DATE) opening_date, +SAFE_CAST(requested_by AS STRING) requested_by, +SAFE_CAST(status AS STRING) status, +SAFE_CAST(data_url AS STRING) data_url, +SAFE_CAST(spatial_coverage AS STRING) spatial_coverage, +SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, +SAFE_CAST(update_frequency AS STRING) update_frequency, +SAFE_CAST(observation_level AS STRING) observation_level +FROM basedosdados-dev.br_bd_metadados_staging.information_requests AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/information_requests/schema-prod.json b/bases/br_bd_metadados/information_requests/schema-prod.json new file mode 100644 index 000000000..4ca2b4337 --- /dev/null +++ b/bases/br_bd_metadados/information_requests/schema-prod.json @@ -0,0 +1 @@ +[{"name": "dataset_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "DATE", "mode": "NULLABLE"}, {"name": "date_last_modified", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "DATE", "mode": "NULLABLE"}, {"name": "url", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "origin", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "number", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "opening_date", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "DATE", "mode": "NULLABLE"}, {"name": "requested_by", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "status", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "data_url", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "spatial_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "temporal_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "update_frequency", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "observation_level", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/information_requests/schema-staging.json b/bases/br_bd_metadados/information_requests/schema-staging.json new file mode 100644 index 000000000..b3a7e60bf --- /dev/null +++ b/bases/br_bd_metadados/information_requests/schema-staging.json @@ -0,0 +1 @@ +[{"name": "dataset_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "date_last_modified", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "url", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "origin", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "number", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "opening_date", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "requested_by", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "status", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "data_url", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "spatial_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "temporal_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "update_frequency", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "observation_level", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/information_requests/table_config.yaml b/bases/br_bd_metadados/information_requests/table_config.yaml new file mode 100644 index 000000000..ae5eb6a3f --- /dev/null +++ b/bases/br_bd_metadados/information_requests/table_config.yaml @@ -0,0 +1,329 @@ + +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: information_requests + +# Título da tabela. +title: Pedidos LAI na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + +last_updated: + metadata: + data: + release: + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: + +# Quem está preenchendo esses metadados? +published_by: + name: + email: + github_user: + ckan_user: + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: + email: + github_user: + ckan_user: + website: + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: dataset_id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: name + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: date_created + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: date_last_modified + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: url + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: origin + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: number + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: opening_date + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: requested_by + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: status + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: data_url + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: spatial_coverage + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: temporal_coverage + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: update_frequency + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: observation_level + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + +number_rows: + +metadata_modified: '2022-09-19T14:29:01.366146' diff --git a/bases/br_bd_metadados/information_requests/table_description.txt b/bases/br_bd_metadados/information_requests/table_description.txt new file mode 100644 index 000000000..8c823ccfb --- /dev/null +++ b/bases/br_bd_metadados/information_requests/table_description.txt @@ -0,0 +1,41 @@ +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: None +Código: +Tratado por +----------- +Nome: None +Código: + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/organizations/publish.sql b/bases/br_bd_metadados/organizations/publish.sql new file mode 100644 index 000000000..b6cb3bf2c --- /dev/null +++ b/bases/br_bd_metadados/organizations/publish.sql @@ -0,0 +1,29 @@ +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.organizations AS +SELECT +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(description AS STRING) description, +SAFE_CAST(display_name AS STRING) display_name, +SAFE_CAST(title AS STRING) title, +SAFE_CAST(package_count AS INT64) package_count, +SAFE_CAST(date_created AS DATE) date_created, +FROM basedosdados-dev.br_bd_metadados_staging.organizations AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/organizations/schema-prod.json b/bases/br_bd_metadados/organizations/schema-prod.json new file mode 100644 index 000000000..2f820cdbf --- /dev/null +++ b/bases/br_bd_metadados/organizations/schema-prod.json @@ -0,0 +1 @@ +[{"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING", "mode": "NULLABLE"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING", "mode": "NULLABLE"}, {"name": "description", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING", "mode": "NULLABLE"}, {"name": "display_name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING", "mode": "NULLABLE"}, {"name": "title", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING", "mode": "NULLABLE"}, {"name": "package_count", "bigquery_type": "int64", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "INTEGER", "mode": "NULLABLE"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "DATE", "mode": "NULLABLE"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/organizations/schema-staging.json b/bases/br_bd_metadados/organizations/schema-staging.json new file mode 100644 index 000000000..8f49f7464 --- /dev/null +++ b/bases/br_bd_metadados/organizations/schema-staging.json @@ -0,0 +1 @@ +[{"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING"}, {"name": "description", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING"}, {"name": "display_name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING"}, {"name": "title", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING"}, {"name": "package_count", "bigquery_type": "int64", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": true, "is_partition": false, "type": "STRING"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/organizations/table_config.yaml b/bases/br_bd_metadados/organizations/table_config.yaml new file mode 100644 index 000000000..b1d5e54c8 --- /dev/null +++ b/bases/br_bd_metadados/organizations/table_config.yaml @@ -0,0 +1,203 @@ + +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: organizations + +# Título da tabela. +title: Organizações na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: Organizações na BD+ + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + +last_updated: + metadata: + data: + release: + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: + +# Quem está preenchendo esses metadados? +published_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: True + is_partition: False + - name: name + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: True + is_partition: False + - name: description + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: True + is_partition: False + - name: display_name + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: True + is_partition: False + - name: title + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: True + is_partition: False + - name: package_count + bigquery_type: int64 + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: True + is_partition: False + - name: date_created + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: True + is_partition: False + +number_rows: + +metadata_modified: '2022-09-19T13:25:38.970590' diff --git a/bases/br_bd_metadados/organizations/table_description.txt b/bases/br_bd_metadados/organizations/table_description.txt new file mode 100644 index 000000000..db12613c6 --- /dev/null +++ b/bases/br_bd_metadados/organizations/table_description.txt @@ -0,0 +1,45 @@ +Organizações na BD+ + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: Ricardo Dahis +Código: +Website: www.ricardodahis.com +Email: rdahis@basedosdados.org +Tratado por +----------- +Nome: Ricardo Dahis +Código: +Website: www.ricardodahis.com +Email: rdahis@basedosdados.org + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/resources/publish.sql b/bases/br_bd_metadados/resources/publish.sql new file mode 100644 index 000000000..97de6d705 --- /dev/null +++ b/bases/br_bd_metadados/resources/publish.sql @@ -0,0 +1,28 @@ +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.resources AS +SELECT +SAFE_CAST(dataset_id AS STRING) dataset_id, +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(date_created AS DATE) date_created, +SAFE_CAST(date_last_modified AS DATE) date_last_modified, +SAFE_CAST(type AS STRING) type +FROM basedosdados-dev.br_bd_metadados_staging.resources AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/resources/schema-prod.json b/bases/br_bd_metadados/resources/schema-prod.json new file mode 100644 index 000000000..7f1097740 --- /dev/null +++ b/bases/br_bd_metadados/resources/schema-prod.json @@ -0,0 +1 @@ +[{"name": "dataset_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "DATE", "mode": "NULLABLE"}, {"name": "date_last_modified", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "DATE", "mode": "NULLABLE"}, {"name": "type", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/resources/schema-staging.json b/bases/br_bd_metadados/resources/schema-staging.json new file mode 100644 index 000000000..d8d3947b0 --- /dev/null +++ b/bases/br_bd_metadados/resources/schema-staging.json @@ -0,0 +1 @@ +[{"name": "dataset_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "date_last_modified", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "type", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/resources/table_config.yaml b/bases/br_bd_metadados/resources/table_config.yaml new file mode 100644 index 000000000..982fbd432 --- /dev/null +++ b/bases/br_bd_metadados/resources/table_config.yaml @@ -0,0 +1,189 @@ + +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: resources + +# Título da tabela. +title: + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + +last_updated: + metadata: + data: + release: + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: + +# Quem está preenchendo esses metadados? +published_by: + name: + email: + github_user: + ckan_user: + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: + email: + github_user: + ckan_user: + website: + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: dataset_id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: name + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: date_created + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: date_last_modified + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: type + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + +number_rows: + +metadata_modified: '2022-09-19T14:26:30.770331' diff --git a/bases/br_bd_metadados/resources/table_description.txt b/bases/br_bd_metadados/resources/table_description.txt new file mode 100644 index 000000000..8c823ccfb --- /dev/null +++ b/bases/br_bd_metadados/resources/table_description.txt @@ -0,0 +1,41 @@ +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: None +Código: +Tratado por +----------- +Nome: None +Código: + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/tables/publish.sql b/bases/br_bd_metadados/tables/publish.sql new file mode 100644 index 000000000..8448305e9 --- /dev/null +++ b/bases/br_bd_metadados/tables/publish.sql @@ -0,0 +1,34 @@ +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.tables AS +SELECT +SAFE_CAST(dataset_id AS STRING) dataset_id, +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(date_created AS DATE) date_created, +SAFE_CAST(date_last_modified AS DATE) date_last_modified, +SAFE_CAST(spatial_coverage AS STRING) spatial_coverage, +SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, +SAFE_CAST(update_frequency AS STRING) update_frequency, +SAFE_CAST(observation_level AS STRING) observation_level, +SAFE_CAST(number_rows AS INT64) number_rows, +SAFE_CAST(number_columns AS INT64) number_columns, +SAFE_CAST(outdated AS INT64) outdated +FROM basedosdados-dev.br_bd_metadados_staging.tables AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/tables/schema-prod.json b/bases/br_bd_metadados/tables/schema-prod.json new file mode 100644 index 000000000..c2f61d498 --- /dev/null +++ b/bases/br_bd_metadados/tables/schema-prod.json @@ -0,0 +1 @@ +[{"name": "dataset_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "DATE", "mode": "NULLABLE"}, {"name": "date_last_modified", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "DATE", "mode": "NULLABLE"}, {"name": "spatial_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "temporal_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "update_frequency", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "observation_level", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING", "mode": "NULLABLE"}, {"name": "number_rows", "bigquery_type": "int64", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "INTEGER", "mode": "NULLABLE"}, {"name": "number_columns", "bigquery_type": "int64", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "INTEGER", "mode": "NULLABLE"}, {"name": "outdated", "bigquery_type": "int64", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "INTEGER", "mode": "NULLABLE"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/tables/schema-staging.json b/bases/br_bd_metadados/tables/schema-staging.json new file mode 100644 index 000000000..7e3189075 --- /dev/null +++ b/bases/br_bd_metadados/tables/schema-staging.json @@ -0,0 +1 @@ +[{"name": "dataset_id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "id", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "name", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "date_created", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "date_last_modified", "bigquery_type": "date", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "spatial_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "temporal_coverage", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "update_frequency", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "observation_level", "bigquery_type": "string", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "number_rows", "bigquery_type": "int64", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "number_columns", "bigquery_type": "int64", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}, {"name": "outdated", "bigquery_type": "int64", "description": null, "temporal_coverage": null, "covered_by_dictionary": null, "directory_column": {"dataset_id": null, "table_id": null, "column_name": null}, "measurement_unit": null, "has_sensitive_data": null, "observations": null, "is_in_staging": null, "is_partition": null, "type": "STRING"}] \ No newline at end of file diff --git a/bases/br_bd_metadados/tables/table_config.yaml b/bases/br_bd_metadados/tables/table_config.yaml new file mode 100644 index 000000000..465de171e --- /dev/null +++ b/bases/br_bd_metadados/tables/table_config.yaml @@ -0,0 +1,273 @@ + +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: tables + +# Título da tabela. +title: Tabelas na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + +last_updated: + metadata: + data: + release: + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: + +# Quem está preenchendo esses metadados? +published_by: + name: + email: + github_user: + ckan_user: + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: + email: + github_user: + ckan_user: + website: + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: dataset_id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: id + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: name + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: date_created + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: date_last_modified + bigquery_type: date + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: spatial_coverage + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: temporal_coverage + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: update_frequency + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: observation_level + bigquery_type: string + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: number_rows + bigquery_type: int64 + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: number_columns + bigquery_type: int64 + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + - name: outdated + bigquery_type: int64 + description: + temporal_coverage: + covered_by_dictionary: + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: + observations: + is_in_staging: + is_partition: + +number_rows: + +metadata_modified: '2022-09-19T23:31:26.152890' diff --git a/bases/br_bd_metadados/tables/table_description.txt b/bases/br_bd_metadados/tables/table_description.txt new file mode 100644 index 000000000..8c823ccfb --- /dev/null +++ b/bases/br_bd_metadados/tables/table_description.txt @@ -0,0 +1,41 @@ +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: None +Código: +Tratado por +----------- +Nome: None +Código: + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day From bac4c50fabc498a2d95efb9ef0ec6f9cb48ccfe1 Mon Sep 17 00:00:00 2001 From: tricktx Date: Tue, 7 Mar 2023 19:07:06 -0300 Subject: [PATCH 2/7] preenchimento d --- .../br_bd_metadados/columns/table_config.yaml | 187 ++++++------- .../datasets/table_config.yaml | 141 +++++----- .../external_links/table_config.yaml | 240 ++++++++--------- .../information_requests/table_config.yaml | 245 +++++++++--------- .../organizations/table_config.yaml | 121 ++++----- .../resources/table_config.yaml | 117 +++++---- .../br_bd_metadados/tables/table_config.yaml | 180 ++++++------- 7 files changed, 627 insertions(+), 604 deletions(-) diff --git a/bases/br_bd_metadados/columns/table_config.yaml b/bases/br_bd_metadados/columns/table_config.yaml index 75a9eba4d..709a4ceed 100644 --- a/bases/br_bd_metadados/columns/table_config.yaml +++ b/bases/br_bd_metadados/columns/table_config.yaml @@ -1,4 +1,3 @@ - # Igual ao dataset.name mas como lower case. # Exemplos: br_ibge_populacao, br_inep_censo_escolar dataset_id: br_bd_metadados @@ -12,17 +11,18 @@ title: Colunas na BD+ # Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de # como usar os dados. # Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: +description: Colunas na BD+ # As máximas unidades espaciais que a tabela cobre. # Exemplo: # - sa.br spatial_coverage: + - world # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: +temporal_coverage: 1954(1)2023 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -30,33 +30,36 @@ update_frequency: day # Nível de observação da tabela: o que representa cada linha. observation_level: + - entity: other + columns: + - table_id -last_updated: - metadata: - data: - release: +last_updated: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: +version: v1 # Quem está preenchendo esses metadados? published_by: - name: - email: - github_user: - ckan_user: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira website: # Qual organização/departamento/pessoa tratou os dados? # As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. # Se essa pessoa é você, preencha abaixo com suas informações. data_cleaned_by: - name: - email: - github_user: - ckan_user: - website: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com # Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. data_cleaning_description: @@ -101,173 +104,173 @@ partitions: columns: - name: table_id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Table ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: name bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Name + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: bigquery_type bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Bigquery type + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: description bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Description + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: temporal_coverage bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Temporal Coverage + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: - measurement_unit: - has_sensitive_data: + measurement_unit: year + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: covered_by_dictionary bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Covered by dictionary + temporal_coverage: (1) + covered_by_dictionary: no covered_by_dictionary directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: directory_column bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: - directory_column: + description: Directory Column + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: directory_column dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: measurement_unit bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Measurement unit + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: has_sensitive_data bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Has sensitive data + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: observations bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Observations + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: is_in_staging bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Is in staging + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: is_partition bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Is Partition + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false -number_rows: +number_rows: 14880 metadata_modified: '2022-09-19T14:07:24.192582' diff --git a/bases/br_bd_metadados/datasets/table_config.yaml b/bases/br_bd_metadados/datasets/table_config.yaml index 4f43b19f2..9601f82bc 100644 --- a/bases/br_bd_metadados/datasets/table_config.yaml +++ b/bases/br_bd_metadados/datasets/table_config.yaml @@ -1,4 +1,3 @@ - # Igual ao dataset.name mas como lower case. # Exemplos: br_ibge_populacao, br_inep_censo_escolar dataset_id: br_bd_metadados @@ -12,17 +11,18 @@ title: Conjuntos de dados na BD+ # Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de # como usar os dados. # Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: +description: Conjuntos de dados na BD+ # As máximas unidades espaciais que a tabela cobre. # Exemplo: # - sa.br spatial_coverage: + - world # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: +temporal_coverage: 2019-09-17(1)2023-03-06 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -30,23 +30,26 @@ update_frequency: day # Nível de observação da tabela: o que representa cada linha. observation_level: + - entity: other + columns: + - id last_updated: - metadata: - data: - release: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: +version: v1 # Quem está preenchendo esses metadados? published_by: - name: Ricardo Dahis - email: rdahis@basedosdados.org - github_user: rdahis - ckan_user: rdahis - website: www.ricardodahis.com + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira + website: # Qual organização/departamento/pessoa tratou os dados? # As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. @@ -101,117 +104,117 @@ partitions: columns: - name: organization_id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Organization ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: name bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Name + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: title bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Title + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: date_created bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Date Created + temporal_coverage: (1) + covered_by_dictionary: no directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data + measurement_unit: date + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: date_last_modified bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Last Modified date + temporal_coverage: (1) + covered_by_dictionary: no directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data + measurement_unit: date + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: themes bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Themes + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: tags bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Tags + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false -number_rows: +number_rows: 1000 metadata_modified: '2022-09-19T14:07:24.192582' diff --git a/bases/br_bd_metadados/external_links/table_config.yaml b/bases/br_bd_metadados/external_links/table_config.yaml index 7bd528339..5b458a75f 100644 --- a/bases/br_bd_metadados/external_links/table_config.yaml +++ b/bases/br_bd_metadados/external_links/table_config.yaml @@ -12,17 +12,18 @@ title: Fontes externas na BD+ # Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de # como usar os dados. # Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: +description: Fontes externas na BD+ # As máximas unidades espaciais que a tabela cobre. # Exemplo: # - sa.br spatial_coverage: + - world # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: +temporal_coverage: 2019-09-17(1)2023-03-06 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -30,33 +31,36 @@ update_frequency: day # Nível de observação da tabela: o que representa cada linha. observation_level: + - entity: other + columns: + - id last_updated: - metadata: - data: - release: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: +version: v1 # Quem está preenchendo esses metadados? published_by: - name: - email: - github_user: - ckan_user: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira website: # Qual organização/departamento/pessoa tratou os dados? # As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. # Se essa pessoa é você, preencha abaixo com suas informações. data_cleaned_by: - name: - email: - github_user: - ckan_user: - website: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com # Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. data_cleaning_description: @@ -101,229 +105,229 @@ partitions: columns: - name: dataset_id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Dataset ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: name bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Name + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: date_created bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Created Date + temporal_coverage: (1) + covered_by_dictionary: no directory_column: - dataset_id: - table_id: - column_name: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: date_last_modified bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Last Modified Date + temporal_coverage: (1) + covered_by_dictionary: no directory_column: - dataset_id: - table_id: - column_name: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: url bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: url + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: language bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Language + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: has_structured_data bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Has structured data + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: has_api bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Has api + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: is_free bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Is free + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: requires_registration bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Requires registration + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: availability bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Availability + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: spatial_coverage bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Spatial coverage + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: temporal_coverage bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Temporal coverage + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: update_frequency bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Update frequency + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: observation_level bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Observation level + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false -number_rows: +number_rows: 1259 metadata_modified: '2022-09-19T14:29:01.366146' diff --git a/bases/br_bd_metadados/information_requests/table_config.yaml b/bases/br_bd_metadados/information_requests/table_config.yaml index ae5eb6a3f..cd80e0746 100644 --- a/bases/br_bd_metadados/information_requests/table_config.yaml +++ b/bases/br_bd_metadados/information_requests/table_config.yaml @@ -1,4 +1,3 @@ - # Igual ao dataset.name mas como lower case. # Exemplos: br_ibge_populacao, br_inep_censo_escolar dataset_id: br_bd_metadados @@ -12,51 +11,55 @@ title: Pedidos LAI na BD+ # Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de # como usar os dados. # Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: +description: Pedidos LAI na BD+ # As máximas unidades espaciais que a tabela cobre. # Exemplo: # - sa.br -spatial_coverage: +spatial_coverage: + - world # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: +temporal_coverage: 2020-10-13(1)2023-02-08 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' update_frequency: day # Nível de observação da tabela: o que representa cada linha. -observation_level: +observation_level: + - entity: request + columns: + - id last_updated: - metadata: - data: - release: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: +version: v1 # Quem está preenchendo esses metadados? published_by: - name: - email: - github_user: - ckan_user: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira website: # Qual organização/departamento/pessoa tratou os dados? # As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. # Se essa pessoa é você, preencha abaixo com suas informações. data_cleaned_by: - name: - email: - github_user: - ckan_user: - website: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com # Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. data_cleaning_description: @@ -101,229 +104,229 @@ partitions: columns: - name: dataset_id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Dataset ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: name bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Name + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: date_created bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Created Date + temporal_coverage: (1) + covered_by_dictionary: no directory_column: - dataset_id: - table_id: - column_name: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: date_last_modified bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Last Modified Date + temporal_coverage: (1) + covered_by_dictionary: no directory_column: - dataset_id: - table_id: - column_name: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: url bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: url + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: origin bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Origin + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: number bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Number + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: opening_date bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Opening date + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: requested_by bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Requested by + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: status bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Status + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: data_url bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Data url + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: spatial_coverage bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Spatial coverage + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: temporal_coverage bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Temporal coverage + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: update_frequency bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Update frequency + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: observation_level bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Observation level + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false -number_rows: +number_rows: 389 metadata_modified: '2022-09-19T14:29:01.366146' diff --git a/bases/br_bd_metadados/organizations/table_config.yaml b/bases/br_bd_metadados/organizations/table_config.yaml index b1d5e54c8..430f9644d 100644 --- a/bases/br_bd_metadados/organizations/table_config.yaml +++ b/bases/br_bd_metadados/organizations/table_config.yaml @@ -1,4 +1,3 @@ - # Igual ao dataset.name mas como lower case. # Exemplos: br_ibge_populacao, br_inep_censo_escolar dataset_id: br_bd_metadados @@ -18,11 +17,12 @@ description: Organizações na BD+ # Exemplo: # - sa.br spatial_coverage: + - world # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: +temporal_coverage: 2019-09-14(1)2023-03-06 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -30,23 +30,26 @@ update_frequency: day # Nível de observação da tabela: o que representa cada linha. observation_level: + - entity: other + columns: + - id -last_updated: - metadata: - data: - release: +last_updated: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: +version: v1 # Quem está preenchendo esses metadados? published_by: - name: Ricardo Dahis - email: rdahis@basedosdados.org - github_user: rdahis - ckan_user: rdahis - website: www.ricardodahis.com + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira + website: # Qual organização/departamento/pessoa tratou os dados? # As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. @@ -101,103 +104,103 @@ partitions: columns: - name: id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: True - is_partition: False + is_in_staging: true + is_partition: false - name: name bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Name + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: True - is_partition: False + is_in_staging: true + is_partition: false - name: description bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Description + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: True - is_partition: False + is_in_staging: true + is_partition: false - name: display_name bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Display name + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: True - is_partition: False + is_in_staging: true + is_partition: false - name: title bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Title + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: True - is_partition: False + is_in_staging: true + is_partition: false - name: package_count bigquery_type: int64 - description: - temporal_coverage: - covered_by_dictionary: + description: Package count + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: True - is_partition: False + is_in_staging: true + is_partition: false - name: date_created bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Created date + temporal_coverage: (1) + covered_by_dictionary: no directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data + measurement_unit: date + has_sensitive_data: no observations: - is_in_staging: True - is_partition: False + is_in_staging: true + is_partition: false -number_rows: +number_rows: 224 metadata_modified: '2022-09-19T13:25:38.970590' diff --git a/bases/br_bd_metadados/resources/table_config.yaml b/bases/br_bd_metadados/resources/table_config.yaml index 982fbd432..d552d4f0d 100644 --- a/bases/br_bd_metadados/resources/table_config.yaml +++ b/bases/br_bd_metadados/resources/table_config.yaml @@ -1,4 +1,3 @@ - # Igual ao dataset.name mas como lower case. # Exemplos: br_ibge_populacao, br_inep_censo_escolar dataset_id: br_bd_metadados @@ -6,23 +5,24 @@ dataset_id: br_bd_metadados table_id: resources # Título da tabela. -title: +title: Recursos na BD+ # Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. # Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de # como usar os dados. # Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: +description: Recursos na BD+ # As máximas unidades espaciais que a tabela cobre. # Exemplo: # - sa.br spatial_coverage: + - world # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: +temporal_coverage: 2019-09-17(1)2023-03-06 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -30,33 +30,36 @@ update_frequency: day # Nível de observação da tabela: o que representa cada linha. observation_level: + - entity: other + columns: + - id -last_updated: - metadata: - data: - release: +last_updated: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: +version: v1 # Quem está preenchendo esses metadados? published_by: - name: - email: - github_user: - ckan_user: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira website: # Qual organização/departamento/pessoa tratou os dados? # As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. # Se essa pessoa é você, preencha abaixo com suas informações. data_cleaned_by: - name: - email: - github_user: - ckan_user: - website: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com # Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. data_cleaning_description: @@ -101,89 +104,89 @@ partitions: columns: - name: dataset_id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Dataset ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: name bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Name + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: date_created bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Created date + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: - measurement_unit: - has_sensitive_data: + measurement_unit: date + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: date_last_modified bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Last Modified Data + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: - measurement_unit: - has_sensitive_data: + measurement_unit: date + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: type bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Type + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false -number_rows: +number_rows: 1648 metadata_modified: '2022-09-19T14:26:30.770331' diff --git a/bases/br_bd_metadados/tables/table_config.yaml b/bases/br_bd_metadados/tables/table_config.yaml index 465de171e..44133c324 100644 --- a/bases/br_bd_metadados/tables/table_config.yaml +++ b/bases/br_bd_metadados/tables/table_config.yaml @@ -12,17 +12,18 @@ title: Tabelas na BD+ # Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de # como usar os dados. # Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: +description: Tabelas na BD+ # As máximas unidades espaciais que a tabela cobre. # Exemplo: # - sa.br spatial_coverage: + - world # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: +temporal_coverage: 2020-10-13(1)2023-03-06 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -30,33 +31,36 @@ update_frequency: day # Nível de observação da tabela: o que representa cada linha. observation_level: + - entity: other + columns: + - id last_updated: - metadata: - data: - release: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: +version: v1 # Quem está preenchendo esses metadados? published_by: - name: - email: - github_user: - ckan_user: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira website: # Qual organização/departamento/pessoa tratou os dados? # As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. # Se essa pessoa é você, preencha abaixo com suas informações. data_cleaned_by: - name: - email: - github_user: - ckan_user: - website: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com # Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. data_cleaning_description: @@ -101,173 +105,173 @@ partitions: columns: - name: dataset_id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Dataset ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: id bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: ID + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: name bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Name + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: date_created bigquery_type: date description: - temporal_coverage: - covered_by_dictionary: + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: date_last_modified bigquery_type: date - description: - temporal_coverage: - covered_by_dictionary: + description: Last modified date + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: - measurement_unit: - has_sensitive_data: + measurement_unit: date + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: spatial_coverage bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Cobertura Espacial + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: temporal_coverage bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Temporal Coverage + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: update_frequency bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: update Frequency + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: observation_level bigquery_type: string - description: - temporal_coverage: - covered_by_dictionary: + description: Observation level + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: number_rows bigquery_type: int64 - description: - temporal_coverage: - covered_by_dictionary: + description: number rows + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: number_columns bigquery_type: int64 - description: - temporal_coverage: - covered_by_dictionary: + description: Number Columns + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false - name: outdated bigquery_type: int64 - description: - temporal_coverage: - covered_by_dictionary: + description: Outdated + temporal_coverage: (1) + covered_by_dictionary: no directory_column: dataset_id: table_id: column_name: measurement_unit: - has_sensitive_data: + has_sensitive_data: no observations: - is_in_staging: - is_partition: + is_in_staging: true + is_partition: false -number_rows: +number_rows: 436 metadata_modified: '2022-09-19T23:31:26.152890' From cc3fbe75a575d5e14d078c6c66b4ca4c33d58e06 Mon Sep 17 00:00:00 2001 From: tricktx Date: Tue, 7 Mar 2023 19:09:09 -0300 Subject: [PATCH 3/7] update dataset_config --- bases/br_bd_metadados/dataset_config.yaml | 2 ++ 1 file changed, 2 insertions(+) diff --git a/bases/br_bd_metadados/dataset_config.yaml b/bases/br_bd_metadados/dataset_config.yaml index 9c2f9f11c..04365b4c1 100644 --- a/bases/br_bd_metadados/dataset_config.yaml +++ b/bases/br_bd_metadados/dataset_config.yaml @@ -30,6 +30,8 @@ groups: # - sempre no singular # - não repita nomes de grupos (ex. educacao, saude, meio ambiente, economia, etc.) tags: + - administracao + - dados abertos # Não altere esse campo. # Data da última modificação dos metadados gerada automaticamente pelo CKAN. From 61ee3cd90076612cabef0cb3fdcaa3b76145aa3e Mon Sep 17 00:00:00 2001 From: tricktx Date: Tue, 7 Mar 2023 19:14:51 -0300 Subject: [PATCH 4/7] update table_config columns --- bases/br_bd_metadados/columns/table_config.yaml | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/bases/br_bd_metadados/columns/table_config.yaml b/bases/br_bd_metadados/columns/table_config.yaml index 709a4ceed..36343652b 100644 --- a/bases/br_bd_metadados/columns/table_config.yaml +++ b/bases/br_bd_metadados/columns/table_config.yaml @@ -191,7 +191,7 @@ columns: description: Directory Column temporal_coverage: (1) covered_by_dictionary: no - directory_column: directory_column + directory_column: dataset_id: table_id: column_name: From bc4f1d9cef828470a320883f76dd535f5c1ef8a1 Mon Sep 17 00:00:00 2001 From: tricktx Date: Mon, 13 Mar 2023 12:03:37 -0300 Subject: [PATCH 5/7] update --- .../br_bd_metadados/columns/table_config.yaml | 15 +++++++------- .../datasets/table_config.yaml | 16 +++++++-------- .../external_links/table_config.yaml | 6 +++--- .../information_requests/table_config.yaml | 14 ++++++------- .../organizations/table_config.yaml | 16 +++++++-------- .../resources/table_config.yaml | 10 +++++----- .../br_bd_metadados/tables/table_config.yaml | 20 +++++++++---------- 7 files changed, 48 insertions(+), 49 deletions(-) diff --git a/bases/br_bd_metadados/columns/table_config.yaml b/bases/br_bd_metadados/columns/table_config.yaml index 36343652b..a56a2e02e 100644 --- a/bases/br_bd_metadados/columns/table_config.yaml +++ b/bases/br_bd_metadados/columns/table_config.yaml @@ -22,7 +22,7 @@ spatial_coverage: # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 1954(1)2023 +temporal_coverage: 2022-03-13 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -41,7 +41,7 @@ last_updated: # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: v1 +version: v1.0 # Quem está preenchendo esses metadados? published_by: @@ -132,7 +132,7 @@ columns: is_partition: false - name: bigquery_type bigquery_type: string - description: Bigquery type + description: Bigquery Type temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -174,9 +174,8 @@ columns: is_partition: false - name: covered_by_dictionary bigquery_type: string - description: Covered by dictionary + description: Indicates if it is covered by dictionary temporal_coverage: (1) - covered_by_dictionary: no covered_by_dictionary directory_column: dataset_id: table_id: @@ -202,7 +201,7 @@ columns: is_partition: false - name: measurement_unit bigquery_type: string - description: Measurement unit + description: Measurement Unit temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -216,7 +215,7 @@ columns: is_partition: false - name: has_sensitive_data bigquery_type: string - description: Has sensitive data + description: Indicates if it has sensitive data temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -273,4 +272,4 @@ columns: number_rows: 14880 -metadata_modified: '2022-09-19T14:07:24.192582' +metadata_modified: diff --git a/bases/br_bd_metadados/datasets/table_config.yaml b/bases/br_bd_metadados/datasets/table_config.yaml index 9601f82bc..9a8be7908 100644 --- a/bases/br_bd_metadados/datasets/table_config.yaml +++ b/bases/br_bd_metadados/datasets/table_config.yaml @@ -22,7 +22,7 @@ spatial_coverage: # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2019-09-17(1)2023-03-06 +temporal_coverage: 2023-03-13 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -30,9 +30,9 @@ update_frequency: day # Nível de observação da tabela: o que representa cada linha. observation_level: - - entity: other + - entity: name columns: - - id + - name last_updated: metadata: '2023-03-07' @@ -41,7 +41,7 @@ last_updated: # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: v1 +version: v1.0 # Quem está preenchendo esses metadados? published_by: @@ -118,7 +118,7 @@ columns: is_partition: false - name: id bigquery_type: string - description: ID + description: Dataset ID temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -132,7 +132,7 @@ columns: is_partition: false - name: name bigquery_type: string - description: Name + description: Dataset name temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -174,7 +174,7 @@ columns: is_partition: false - name: date_last_modified bigquery_type: date - description: Last Modified date + description: Last Modified Date temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -217,4 +217,4 @@ columns: number_rows: 1000 -metadata_modified: '2022-09-19T14:07:24.192582' +metadata_modified: diff --git a/bases/br_bd_metadados/external_links/table_config.yaml b/bases/br_bd_metadados/external_links/table_config.yaml index 5b458a75f..23cb8d5d5 100644 --- a/bases/br_bd_metadados/external_links/table_config.yaml +++ b/bases/br_bd_metadados/external_links/table_config.yaml @@ -23,7 +23,7 @@ spatial_coverage: # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2019-09-17(1)2023-03-06 +temporal_coverage: 2022-03-13 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -42,7 +42,7 @@ last_updated: # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: v1 +version: v1.0 # Quem está preenchendo esses metadados? published_by: @@ -330,4 +330,4 @@ columns: number_rows: 1259 -metadata_modified: '2022-09-19T14:29:01.366146' +metadata_modified: diff --git a/bases/br_bd_metadados/information_requests/table_config.yaml b/bases/br_bd_metadados/information_requests/table_config.yaml index cd80e0746..75938213c 100644 --- a/bases/br_bd_metadados/information_requests/table_config.yaml +++ b/bases/br_bd_metadados/information_requests/table_config.yaml @@ -22,7 +22,7 @@ spatial_coverage: # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2020-10-13(1)2023-02-08 +temporal_coverage: 2023-03-13 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -41,7 +41,7 @@ last_updated: # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: v1 +version: v1.0 # Quem está preenchendo esses metadados? published_by: @@ -272,7 +272,7 @@ columns: is_partition: false - name: spatial_coverage bigquery_type: string - description: Spatial coverage + description: Spatial Coverage temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -286,7 +286,7 @@ columns: is_partition: false - name: temporal_coverage bigquery_type: string - description: Temporal coverage + description: Temporal Coverage temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -300,7 +300,7 @@ columns: is_partition: false - name: update_frequency bigquery_type: string - description: Update frequency + description: Update Frequency temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -314,7 +314,7 @@ columns: is_partition: false - name: observation_level bigquery_type: string - description: Observation level + description: Observation Level temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -329,4 +329,4 @@ columns: number_rows: 389 -metadata_modified: '2022-09-19T14:29:01.366146' +metadata_modified: diff --git a/bases/br_bd_metadados/organizations/table_config.yaml b/bases/br_bd_metadados/organizations/table_config.yaml index 430f9644d..1aa79653d 100644 --- a/bases/br_bd_metadados/organizations/table_config.yaml +++ b/bases/br_bd_metadados/organizations/table_config.yaml @@ -22,7 +22,7 @@ spatial_coverage: # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2019-09-14(1)2023-03-06 +temporal_coverage: 2022-03-13 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -30,9 +30,9 @@ update_frequency: day # Nível de observação da tabela: o que representa cada linha. observation_level: - - entity: other + - entity: name columns: - - id + - name last_updated: metadata: '2023-03-07' @@ -41,7 +41,7 @@ last_updated: # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: v1 +version: v1.0 # Quem está preenchendo esses metadados? published_by: @@ -174,7 +174,7 @@ columns: is_partition: false - name: package_count bigquery_type: int64 - description: Package count + description: Package Count temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -188,7 +188,7 @@ columns: is_partition: false - name: date_created bigquery_type: date - description: Created date + description: Created Date temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -201,6 +201,6 @@ columns: is_in_staging: true is_partition: false -number_rows: 224 +number_rows: 554 -metadata_modified: '2022-09-19T13:25:38.970590' +metadata_modified: diff --git a/bases/br_bd_metadados/resources/table_config.yaml b/bases/br_bd_metadados/resources/table_config.yaml index d552d4f0d..84a715c27 100644 --- a/bases/br_bd_metadados/resources/table_config.yaml +++ b/bases/br_bd_metadados/resources/table_config.yaml @@ -5,7 +5,7 @@ dataset_id: br_bd_metadados table_id: resources # Título da tabela. -title: Recursos na BD+ +title: Recursos na BD+, incluindo tabelas, pedidos LAI e links externos # Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. # Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de @@ -22,7 +22,7 @@ spatial_coverage: # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2019-09-17(1)2023-03-06 +temporal_coverage: 2023-03-13 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -41,7 +41,7 @@ last_updated: # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: v1 +version: v1.0 # Quem está preenchendo esses metadados? published_by: @@ -146,7 +146,7 @@ columns: is_partition: false - name: date_created bigquery_type: date - description: Created date + description: Created Date temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -189,4 +189,4 @@ columns: number_rows: 1648 -metadata_modified: '2022-09-19T14:26:30.770331' +metadata_modified: diff --git a/bases/br_bd_metadados/tables/table_config.yaml b/bases/br_bd_metadados/tables/table_config.yaml index 44133c324..86ed0ec7d 100644 --- a/bases/br_bd_metadados/tables/table_config.yaml +++ b/bases/br_bd_metadados/tables/table_config.yaml @@ -23,7 +23,7 @@ spatial_coverage: # Anos cobertos pela tabela. # Preencher como lista de intervalos. # Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2020-10-13(1)2023-03-06 +temporal_coverage: 2023-03-2023 # A unidade temporal com qual a tabela é atualizada. # Opções em 'https://basedosdados.org/api/3/action/bd_available_options' @@ -42,7 +42,7 @@ last_updated: # Versão da tabela. Seguindo o padrão de semantic versioning. # Exemplo: v1.1.3 -version: v1 +version: v1.0 # Quem está preenchendo esses metadados? published_by: @@ -147,7 +147,7 @@ columns: is_partition: false - name: date_created bigquery_type: date - description: + description: Date Created temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -161,7 +161,7 @@ columns: is_partition: false - name: date_last_modified bigquery_type: date - description: Last modified date + description: Last Modified Date temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -175,7 +175,7 @@ columns: is_partition: false - name: spatial_coverage bigquery_type: string - description: Cobertura Espacial + description: Spatial Coverage temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -203,7 +203,7 @@ columns: is_partition: false - name: update_frequency bigquery_type: string - description: update Frequency + description: Update Frequency temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -217,7 +217,7 @@ columns: is_partition: false - name: observation_level bigquery_type: string - description: Observation level + description: Observation Level temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -231,7 +231,7 @@ columns: is_partition: false - name: number_rows bigquery_type: int64 - description: number rows + description: Number Rows temporal_coverage: (1) covered_by_dictionary: no directory_column: @@ -272,6 +272,6 @@ columns: is_in_staging: true is_partition: false -number_rows: 436 +number_rows: 435 -metadata_modified: '2022-09-19T23:31:26.152890' +metadata_modified: From 1e91807395bcd3f863c8f75df8efd4bd2c7bb7ec Mon Sep 17 00:00:00 2001 From: tricktx Date: Wed, 15 Mar 2023 09:53:01 -0300 Subject: [PATCH 6/7] update br_bd_metadados --- bases/br_bd_metadados/columns/table_config.yaml | 3 +++ 1 file changed, 3 insertions(+) diff --git a/bases/br_bd_metadados/columns/table_config.yaml b/bases/br_bd_metadados/columns/table_config.yaml index a56a2e02e..13fb1a977 100644 --- a/bases/br_bd_metadados/columns/table_config.yaml +++ b/bases/br_bd_metadados/columns/table_config.yaml @@ -33,6 +33,9 @@ observation_level: - entity: other columns: - table_id + - entity: other + columns: + - name last_updated: metadata: '2023-03-07' From 374d0dbdfe1f8aa9607db709972dbf8aa56148cc Mon Sep 17 00:00:00 2001 From: tricktx Date: Wed, 15 Mar 2023 15:07:06 -0300 Subject: [PATCH 7/7] final update --- bases/br_bd_metadados/columns/publish.sql | 66 +- .../br_bd_metadados/columns/table_config.yaml | 569 ++++++++------- .../columns/table_description.txt | 82 +-- bases/br_bd_metadados/dataset_config.yaml | 76 +- bases/br_bd_metadados/datasets/publish.sql | 58 +- .../datasets/table_config.yaml | 449 ++++++------ .../datasets/table_description.txt | 90 +-- .../external_links/publish.sql | 74 +- .../external_links/table_config.yaml | 666 ++++++++--------- .../external_links/table_description.txt | 82 +-- .../information_requests/publish.sql | 74 +- .../information_requests/table_config.yaml | 681 +++++++++--------- .../table_description.txt | 82 +-- .../br_bd_metadados/organizations/publish.sql | 56 +- .../organizations/table_config.yaml | 420 +++++------ .../organizations/table_description.txt | 90 +-- bases/br_bd_metadados/resources/publish.sql | 54 +- .../resources/table_config.yaml | 391 +++++----- .../resources/table_description.txt | 82 +-- bases/br_bd_metadados/tables/publish.sql | 66 +- .../br_bd_metadados/tables/table_config.yaml | 567 ++++++++------- .../tables/table_description.txt | 82 +-- 22 files changed, 2462 insertions(+), 2395 deletions(-) diff --git a/bases/br_bd_metadados/columns/publish.sql b/bases/br_bd_metadados/columns/publish.sql index 098ed8f5e..6945d4ee2 100644 --- a/bases/br_bd_metadados/columns/publish.sql +++ b/bases/br_bd_metadados/columns/publish.sql @@ -1,34 +1,34 @@ -/* -Query para publicar a tabela. - -Esse é o lugar para: - - modificar nomes, ordem e tipos de colunas - - dar join com outras tabelas - - criar colunas extras (e.g. logs, proporções, etc.) - -Qualquer coluna definida aqui deve também existir em `table_config.yaml`. - -# Além disso, sinta-se à vontade para alterar alguns nomes obscuros -# para algo um pouco mais explícito. - -TIPOS: - - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. - - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` - - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types -*/ - -CREATE VIEW basedosdados-dev.br_bd_metadados.columns AS -SELECT -SAFE_CAST(table_id AS STRING) table_id, -SAFE_CAST(name AS STRING) name, -SAFE_CAST(bigquery_type AS STRING) bigquery_type, -SAFE_CAST(description AS STRING) description, -SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, -SAFE_CAST(covered_by_dictionary AS STRING) covered_by_dictionary, -SAFE_CAST(directory_column AS STRING) directory_column, -SAFE_CAST(measurement_unit AS STRING) measurement_unit, -SAFE_CAST(has_sensitive_data AS STRING) has_sensitive_data, -SAFE_CAST(observations AS STRING) observations, -SAFE_CAST(is_in_staging AS STRING) is_in_staging, -SAFE_CAST(is_partition AS STRING) is_partition +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.columns AS +SELECT +SAFE_CAST(table_id AS STRING) table_id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(bigquery_type AS STRING) bigquery_type, +SAFE_CAST(description AS STRING) description, +SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, +SAFE_CAST(covered_by_dictionary AS STRING) covered_by_dictionary, +SAFE_CAST(directory_column AS STRING) directory_column, +SAFE_CAST(measurement_unit AS STRING) measurement_unit, +SAFE_CAST(has_sensitive_data AS STRING) has_sensitive_data, +SAFE_CAST(observations AS STRING) observations, +SAFE_CAST(is_in_staging AS STRING) is_in_staging, +SAFE_CAST(is_partition AS STRING) is_partition FROM basedosdados-dev.br_bd_metadados_staging.columns AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/columns/table_config.yaml b/bases/br_bd_metadados/columns/table_config.yaml index 13fb1a977..bc5fb1012 100644 --- a/bases/br_bd_metadados/columns/table_config.yaml +++ b/bases/br_bd_metadados/columns/table_config.yaml @@ -1,278 +1,291 @@ -# Igual ao dataset.name mas como lower case. -# Exemplos: br_ibge_populacao, br_inep_censo_escolar -dataset_id: br_bd_metadados - -table_id: columns - -# Título da tabela. -title: Colunas na BD+ - -# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. -# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de -# como usar os dados. -# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: Colunas na BD+ - -# As máximas unidades espaciais que a tabela cobre. -# Exemplo: -# - sa.br -spatial_coverage: - - world - -# Anos cobertos pela tabela. -# Preencher como lista de intervalos. -# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2022-03-13 - -# A unidade temporal com qual a tabela é atualizada. -# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' -update_frequency: day - -# Nível de observação da tabela: o que representa cada linha. -observation_level: - - entity: other - columns: - - table_id - - entity: other - columns: - - name - -last_updated: - metadata: '2023-03-07' - data: '2023-03-07 14:54:00' - release: '2023-03-07 14:54:00' - -# Versão da tabela. Seguindo o padrão de semantic versioning. -# Exemplo: v1.1.3 -version: v1.0 - -# Quem está preenchendo esses metadados? -published_by: - name: Patrick Teixeira - email: Patrick.teixeira@basedosdados.org - github_user: tricktx - ckan_user: patrickteixeira - website: - -# Qual organização/departamento/pessoa tratou os dados? -# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. -# Se essa pessoa é você, preencha abaixo com suas informações. -data_cleaned_by: - name: Ricardo Dahis - email: rdahis@basedosdados.org - github_user: rdahis - ckan_user: rdahis - website: www.ricardodahis.com - -# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. -data_cleaning_description: - -# Url do código de limpeza dos dados. -data_cleaning_code_url: - -# Organização que ajudou institucionalmente na disponibilização dos dados. -partner_organization: - name: - organization_id: - -# Url dos dados originais no GCP Storage. -raw_files_url: - -# Url dos arquivos auxiliares no GCP Storage. -auxiliary_files_url: - -# Url da tabela de arquitetura no GCP Storage. -architecture_url: - -source_bucket_name: basedosdados-dev - -project_id_prod: basedosdados-dev - -project_id_staging: basedosdados-dev - -# Liste as colunas da tabela que representam partições. -# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. -# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. -# Se não houver partições, não modifique abaixo. -partitions: - -# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar -# para saber sobre o que é a coluna. -# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando -# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que -# preencherá automaticamente as colunas. -# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. -# Para esses, defina is_in_staging como False. -# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. -columns: - - name: table_id - bigquery_type: string - description: Table ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: name - bigquery_type: string - description: Name - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: bigquery_type - bigquery_type: string - description: Bigquery Type - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: description - bigquery_type: string - description: Description - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: temporal_coverage - bigquery_type: string - description: Temporal Coverage - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: year - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: covered_by_dictionary - bigquery_type: string - description: Indicates if it is covered by dictionary - temporal_coverage: (1) - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: directory_column - bigquery_type: string - description: Directory Column - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: measurement_unit - bigquery_type: string - description: Measurement Unit - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: has_sensitive_data - bigquery_type: string - description: Indicates if it has sensitive data - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: observations - bigquery_type: string - description: Observations - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: is_in_staging - bigquery_type: string - description: Is in staging - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: is_partition - bigquery_type: string - description: Is Partition - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - -number_rows: 14880 - -metadata_modified: +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: columns + +# Título da tabela. +title: Colunas na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: Colunas na BD+ + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + - world + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + - '2023-03-15' + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + - entity: other + columns: + - table_id + - entity: other + columns: + - name + +last_updated: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: v1.0 + +# Quem está preenchendo esses metadados? +published_by: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: table_id + bigquery_type: string + description: Table ID + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: name + bigquery_type: string + description: Name + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: bigquery_type + bigquery_type: string + description: Bigquery Type + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: description + bigquery_type: string + description: Description + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: temporal_coverage + bigquery_type: string + description: Temporal Coverage + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: year + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: covered_by_dictionary + bigquery_type: string + description: Indicates if it is covered by dictionary + temporal_coverage: + - (1) + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: directory_column + bigquery_type: string + description: Directory Column + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: measurement_unit + bigquery_type: string + description: Measurement Unit + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: has_sensitive_data + bigquery_type: string + description: Indicates if it has sensitive data + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: observations + bigquery_type: string + description: Observations + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: is_in_staging + bigquery_type: string + description: Is in staging + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: is_partition + bigquery_type: string + description: Is Partition + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + +number_rows: 14880 + +metadata_modified: \ No newline at end of file diff --git a/bases/br_bd_metadados/columns/table_description.txt b/bases/br_bd_metadados/columns/table_description.txt index 8c823ccfb..93d38c5cf 100644 --- a/bases/br_bd_metadados/columns/table_description.txt +++ b/bases/br_bd_metadados/columns/table_description.txt @@ -1,41 +1,41 @@ -None - -Para saber mais acesse: -Website: -Github: - -Ajude a manter o projeto :) -Apoia-se: https://apoia.se/basedosdados - -Publicado por -------------- -Nome: None -Código: -Tratado por ------------ -Nome: None -Código: - - - - - - -Cobertura Temporal ------------------- - - - - -Cobertura Espacial ------------------- - - - - - - - -Frequencia de Atualização -------------------------- -day +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: None +Código: +Tratado por +----------- +Nome: None +Código: + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/dataset_config.yaml b/bases/br_bd_metadados/dataset_config.yaml index 04365b4c1..996b54d93 100644 --- a/bases/br_bd_metadados/dataset_config.yaml +++ b/bases/br_bd_metadados/dataset_config.yaml @@ -1,38 +1,38 @@ - -# Nome (slug) do conjunto no CKAN -# Exemplos: br-ibge-populacao, br-tse-eleicoes -name: br-bd-metadados - -# Título do conjunto, a ser exibido no mecanismo de busca. -# Exemplo: População brasileira -title: Metadados na BD+ - -# Qual organização disponibiliza os dados originais? -# Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/organization_list -# Exemplos: br-ibge, br-tse, br-rj-gov -organization: br-bd - -# Descrição do conjunto -notes: Informações compiladas sobre os metadados mantidos na plataforma BD+. - -# Quais temas caracterizam a base? -# Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/group_list -# Importante: preencher com a chave, e não o valor. -groups: - - ciencia-tec-inov - -# Quais etiquetas caracterizam a base? -# Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/tag_list -# Exemplos: fertilidade, preco, desmatamento. -# Caso crie etiquetas novas, as regras são: -# - letras minúsculas -# - sem acentos -# - sempre no singular -# - não repita nomes de grupos (ex. educacao, saude, meio ambiente, economia, etc.) -tags: - - administracao - - dados abertos - -# Não altere esse campo. -# Data da última modificação dos metadados gerada automaticamente pelo CKAN. -metadata_modified: + +# Nome (slug) do conjunto no CKAN +# Exemplos: br-ibge-populacao, br-tse-eleicoes +name: br-bd-metadados + +# Título do conjunto, a ser exibido no mecanismo de busca. +# Exemplo: População brasileira +title: Metadados da Base dos Dados + +# Qual organização disponibiliza os dados originais? +# Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/organization_list +# Exemplos: br-ibge, br-tse, br-rj-gov +organization: br-bd + +# Descrição do conjunto +notes: Informações compiladas sobre os metadados mantidos na plataforma BD+. + +# Quais temas caracterizam a base? +# Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/group_list +# Importante: preencher com a chave, e não o valor. +groups: + - ciencia-tec-inov + +# Quais etiquetas caracterizam a base? +# Opções: escolher dessa lista -> https://basedosdados.org/api/3/action/tag_list +# Exemplos: fertilidade, preco, desmatamento. +# Caso crie etiquetas novas, as regras são: +# - letras minúsculas +# - sem acentos +# - sempre no singular +# - não repita nomes de grupos (ex. educacao, saude, meio ambiente, economia, etc.) +tags: + - administracao + - dados abertos + +# Não altere esse campo. +# Data da última modificação dos metadados gerada automaticamente pelo CKAN. +metadata_modified: diff --git a/bases/br_bd_metadados/datasets/publish.sql b/bases/br_bd_metadados/datasets/publish.sql index f1c2cd955..82c5d2099 100644 --- a/bases/br_bd_metadados/datasets/publish.sql +++ b/bases/br_bd_metadados/datasets/publish.sql @@ -1,30 +1,30 @@ -/* -Query para publicar a tabela. - -Esse é o lugar para: - - modificar nomes, ordem e tipos de colunas - - dar join com outras tabelas - - criar colunas extras (e.g. logs, proporções, etc.) - -Qualquer coluna definida aqui deve também existir em `table_config.yaml`. - -# Além disso, sinta-se à vontade para alterar alguns nomes obscuros -# para algo um pouco mais explícito. - -TIPOS: - - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. - - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` - - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types -*/ - -CREATE VIEW basedosdados-dev.br_bd_metadados.datasets AS -SELECT -SAFE_CAST(organization_id AS STRING) organization_id, -SAFE_CAST(id AS STRING) id, -SAFE_CAST(name AS STRING) name, -SAFE_CAST(title AS STRING) title, -SAFE_CAST(date_created AS DATE) date_created, -SAFE_CAST(date_last_modified AS DATE) date_last_modified, -SAFE_CAST(themes AS STRING) themes, -SAFE_CAST(tags AS STRING) tags +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.datasets AS +SELECT +SAFE_CAST(organization_id AS STRING) organization_id, +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(title AS STRING) title, +SAFE_CAST(date_created AS DATE) date_created, +SAFE_CAST(date_last_modified AS DATE) date_last_modified, +SAFE_CAST(themes AS STRING) themes, +SAFE_CAST(tags AS STRING) tags FROM basedosdados-dev.br_bd_metadados_staging.datasets AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/datasets/table_config.yaml b/bases/br_bd_metadados/datasets/table_config.yaml index 9a8be7908..4b71f5eba 100644 --- a/bases/br_bd_metadados/datasets/table_config.yaml +++ b/bases/br_bd_metadados/datasets/table_config.yaml @@ -1,220 +1,229 @@ -# Igual ao dataset.name mas como lower case. -# Exemplos: br_ibge_populacao, br_inep_censo_escolar -dataset_id: br_bd_metadados - -table_id: datasets - -# Título da tabela. -title: Conjuntos de dados na BD+ - -# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. -# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de -# como usar os dados. -# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: Conjuntos de dados na BD+ - -# As máximas unidades espaciais que a tabela cobre. -# Exemplo: -# - sa.br -spatial_coverage: - - world - -# Anos cobertos pela tabela. -# Preencher como lista de intervalos. -# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2023-03-13 - -# A unidade temporal com qual a tabela é atualizada. -# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' -update_frequency: day - -# Nível de observação da tabela: o que representa cada linha. -observation_level: - - entity: name - columns: - - name - -last_updated: - metadata: '2023-03-07' - data: '2023-03-07 14:54:00' - release: '2023-03-07 14:54:00' - -# Versão da tabela. Seguindo o padrão de semantic versioning. -# Exemplo: v1.1.3 -version: v1.0 - -# Quem está preenchendo esses metadados? -published_by: - name: Patrick Teixeira - email: Patrick.teixeira@basedosdados.org - github_user: tricktx - ckan_user: patrickteixeira - website: - -# Qual organização/departamento/pessoa tratou os dados? -# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. -# Se essa pessoa é você, preencha abaixo com suas informações. -data_cleaned_by: - name: Ricardo Dahis - email: rdahis@basedosdados.org - github_user: rdahis - ckan_user: rdahis - website: www.ricardodahis.com - -# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. -data_cleaning_description: - -# Url do código de limpeza dos dados. -data_cleaning_code_url: - -# Organização que ajudou institucionalmente na disponibilização dos dados. -partner_organization: - name: - organization_id: - -# Url dos dados originais no GCP Storage. -raw_files_url: - -# Url dos arquivos auxiliares no GCP Storage. -auxiliary_files_url: - -# Url da tabela de arquitetura no GCP Storage. -architecture_url: - -source_bucket_name: basedosdados-dev - -project_id_prod: basedosdados-dev - -project_id_staging: basedosdados-dev - -# Liste as colunas da tabela que representam partições. -# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. -# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. -# Se não houver partições, não modifique abaixo. -partitions: - -# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar -# para saber sobre o que é a coluna. -# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando -# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que -# preencherá automaticamente as colunas. -# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. -# Para esses, defina is_in_staging como False. -# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. -columns: - - name: organization_id - bigquery_type: string - description: Organization ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: id - bigquery_type: string - description: Dataset ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: name - bigquery_type: string - description: Dataset name - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: title - bigquery_type: string - description: Title - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_created - bigquery_type: date - description: Date Created - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: br_bd_diretorios_data_tempo - table_id: data - column_name: data - measurement_unit: date - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_last_modified - bigquery_type: date - description: Last Modified Date - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: br_bd_diretorios_data_tempo - table_id: data - column_name: data - measurement_unit: date - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: themes - bigquery_type: string - description: Themes - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: tags - bigquery_type: string - description: Tags - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - -number_rows: 1000 - -metadata_modified: +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: datasets + +# Título da tabela. +title: Conjuntos de dados na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: Conjuntos de dados na BD+ + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + - world + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + - '2023-03-15' + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + - entity: name + columns: + - name + +last_updated: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: v1.0 + +# Quem está preenchendo esses metadados? +published_by: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: organization_id + bigquery_type: string + description: Organization ID + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: id + bigquery_type: string + description: Dataset ID + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: name + bigquery_type: string + description: Dataset name + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: title + bigquery_type: string + description: Title + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_created + bigquery_type: date + description: Date Created + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data + measurement_unit: date + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_last_modified + bigquery_type: date + description: Last Modified Date + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data + measurement_unit: date + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: themes + bigquery_type: string + description: Themes + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: tags + bigquery_type: string + description: Tags + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + +number_rows: 1000 + +metadata_modified: diff --git a/bases/br_bd_metadados/datasets/table_description.txt b/bases/br_bd_metadados/datasets/table_description.txt index 9f1894a1b..c97857363 100644 --- a/bases/br_bd_metadados/datasets/table_description.txt +++ b/bases/br_bd_metadados/datasets/table_description.txt @@ -1,45 +1,45 @@ -None - -Para saber mais acesse: -Website: -Github: - -Ajude a manter o projeto :) -Apoia-se: https://apoia.se/basedosdados - -Publicado por -------------- -Nome: Ricardo Dahis -Código: -Website: www.ricardodahis.com -Email: rdahis@basedosdados.org -Tratado por ------------ -Nome: Ricardo Dahis -Código: -Website: www.ricardodahis.com -Email: rdahis@basedosdados.org - - - - - - -Cobertura Temporal ------------------- - - - - -Cobertura Espacial ------------------- - - - - - - - -Frequencia de Atualização -------------------------- -day +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: Ricardo Dahis +Código: +Website: www.ricardodahis.com +Email: rdahis@basedosdados.org +Tratado por +----------- +Nome: Ricardo Dahis +Código: +Website: www.ricardodahis.com +Email: rdahis@basedosdados.org + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/external_links/publish.sql b/bases/br_bd_metadados/external_links/publish.sql index 7299fbed7..ce181058d 100644 --- a/bases/br_bd_metadados/external_links/publish.sql +++ b/bases/br_bd_metadados/external_links/publish.sql @@ -1,38 +1,38 @@ -/* -Query para publicar a tabela. - -Esse é o lugar para: - - modificar nomes, ordem e tipos de colunas - - dar join com outras tabelas - - criar colunas extras (e.g. logs, proporções, etc.) - -Qualquer coluna definida aqui deve também existir em `table_config.yaml`. - -# Além disso, sinta-se à vontade para alterar alguns nomes obscuros -# para algo um pouco mais explícito. - -TIPOS: - - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. - - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` - - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types -*/ - -CREATE VIEW basedosdados-dev.br_bd_metadados.external_links AS -SELECT -SAFE_CAST(dataset_id AS STRING) dataset_id, -SAFE_CAST(id AS STRING) id, -SAFE_CAST(name AS STRING) name, -SAFE_CAST(date_created AS date) date_created, -SAFE_CAST(date_last_modified AS date) date_last_modified, -SAFE_CAST(url AS STRING) url, -SAFE_CAST(language AS STRING) language, -SAFE_CAST(has_structured_data AS STRING) has_structured_data, -SAFE_CAST(has_api AS STRING) has_api, -SAFE_CAST(is_free AS STRING) is_free, -SAFE_CAST(requires_registration AS STRING) requires_registration, -SAFE_CAST(availability AS STRING) availability, -SAFE_CAST(spatial_coverage AS STRING) spatial_coverage, -SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, -SAFE_CAST(update_frequency AS STRING) update_frequency, -SAFE_CAST(observation_level AS STRING) observation_level +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.external_links AS +SELECT +SAFE_CAST(dataset_id AS STRING) dataset_id, +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(date_created AS date) date_created, +SAFE_CAST(date_last_modified AS date) date_last_modified, +SAFE_CAST(url AS STRING) url, +SAFE_CAST(language AS STRING) language, +SAFE_CAST(has_structured_data AS STRING) has_structured_data, +SAFE_CAST(has_api AS STRING) has_api, +SAFE_CAST(is_free AS STRING) is_free, +SAFE_CAST(requires_registration AS STRING) requires_registration, +SAFE_CAST(availability AS STRING) availability, +SAFE_CAST(spatial_coverage AS STRING) spatial_coverage, +SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, +SAFE_CAST(update_frequency AS STRING) update_frequency, +SAFE_CAST(observation_level AS STRING) observation_level FROM basedosdados-dev.br_bd_metadados_staging.external_links AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/external_links/table_config.yaml b/bases/br_bd_metadados/external_links/table_config.yaml index 23cb8d5d5..2bdaaf14a 100644 --- a/bases/br_bd_metadados/external_links/table_config.yaml +++ b/bases/br_bd_metadados/external_links/table_config.yaml @@ -1,333 +1,333 @@ - -# Igual ao dataset.name mas como lower case. -# Exemplos: br_ibge_populacao, br_inep_censo_escolar -dataset_id: br_bd_metadados - -table_id: external_links - -# Título da tabela. -title: Fontes externas na BD+ - -# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. -# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de -# como usar os dados. -# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: Fontes externas na BD+ - -# As máximas unidades espaciais que a tabela cobre. -# Exemplo: -# - sa.br -spatial_coverage: - - world - -# Anos cobertos pela tabela. -# Preencher como lista de intervalos. -# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2022-03-13 - -# A unidade temporal com qual a tabela é atualizada. -# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' -update_frequency: day - -# Nível de observação da tabela: o que representa cada linha. -observation_level: - - entity: other - columns: - - id - -last_updated: - metadata: '2023-03-07' - data: '2023-03-07 14:54:00' - release: '2023-03-07 14:54:00' - -# Versão da tabela. Seguindo o padrão de semantic versioning. -# Exemplo: v1.1.3 -version: v1.0 - -# Quem está preenchendo esses metadados? -published_by: - name: Patrick Teixeira - email: Patrick.teixeira@basedosdados.org - github_user: tricktx - ckan_user: patrickteixeira - website: - -# Qual organização/departamento/pessoa tratou os dados? -# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. -# Se essa pessoa é você, preencha abaixo com suas informações. -data_cleaned_by: - name: Ricardo Dahis - email: rdahis@basedosdados.org - github_user: rdahis - ckan_user: rdahis - website: www.ricardodahis.com - -# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. -data_cleaning_description: - -# Url do código de limpeza dos dados. -data_cleaning_code_url: - -# Organização que ajudou institucionalmente na disponibilização dos dados. -partner_organization: - name: - organization_id: - -# Url dos dados originais no GCP Storage. -raw_files_url: - -# Url dos arquivos auxiliares no GCP Storage. -auxiliary_files_url: - -# Url da tabela de arquitetura no GCP Storage. -architecture_url: - -source_bucket_name: basedosdados-dev - -project_id_prod: basedosdados-dev - -project_id_staging: basedosdados-dev - -# Liste as colunas da tabela que representam partições. -# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. -# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. -# Se não houver partições, não modifique abaixo. -partitions: - -# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar -# para saber sobre o que é a coluna. -# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando -# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que -# preencherá automaticamente as colunas. -# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. -# Para esses, defina is_in_staging como False. -# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. -columns: - - name: dataset_id - bigquery_type: string - description: Dataset ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: id - bigquery_type: string - description: ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: name - bigquery_type: string - description: Name - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_created - bigquery_type: date - description: Created Date - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: br_bd_diretorios_data_tempo - table_id: data - column_name: data - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_last_modified - bigquery_type: date - description: Last Modified Date - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: br_bd_diretorios_data_tempo - table_id: data - column_name: data - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: url - bigquery_type: string - description: url - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: language - bigquery_type: string - description: Language - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: has_structured_data - bigquery_type: string - description: Has structured data - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: has_api - bigquery_type: string - description: Has api - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: is_free - bigquery_type: string - description: Is free - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: requires_registration - bigquery_type: string - description: Requires registration - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: availability - bigquery_type: string - description: Availability - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: spatial_coverage - bigquery_type: string - description: Spatial coverage - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: temporal_coverage - bigquery_type: string - description: Temporal coverage - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: update_frequency - bigquery_type: string - description: Update frequency - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: observation_level - bigquery_type: string - description: Observation level - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - -number_rows: 1259 - -metadata_modified: + +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: external_links + +# Título da tabela. +title: Fontes externas na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: Fontes externas na BD+ + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + - world + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: 2022-03-13 + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + - entity: other + columns: + - id + +last_updated: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: v1.0 + +# Quem está preenchendo esses metadados? +published_by: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: dataset_id + bigquery_type: string + description: Dataset ID + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: id + bigquery_type: string + description: ID + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: name + bigquery_type: string + description: Name + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_created + bigquery_type: date + description: Created Date + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_last_modified + bigquery_type: date + description: Last Modified Date + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: url + bigquery_type: string + description: url + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: language + bigquery_type: string + description: Language + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: has_structured_data + bigquery_type: string + description: Has structured data + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: has_api + bigquery_type: string + description: Has api + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: is_free + bigquery_type: string + description: Is free + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: requires_registration + bigquery_type: string + description: Requires registration + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: availability + bigquery_type: string + description: Availability + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: spatial_coverage + bigquery_type: string + description: Spatial coverage + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: temporal_coverage + bigquery_type: string + description: Temporal coverage + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: update_frequency + bigquery_type: string + description: Update frequency + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: observation_level + bigquery_type: string + description: Observation level + temporal_coverage: (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + +number_rows: 1259 + +metadata_modified: diff --git a/bases/br_bd_metadados/external_links/table_description.txt b/bases/br_bd_metadados/external_links/table_description.txt index 8c823ccfb..93d38c5cf 100644 --- a/bases/br_bd_metadados/external_links/table_description.txt +++ b/bases/br_bd_metadados/external_links/table_description.txt @@ -1,41 +1,41 @@ -None - -Para saber mais acesse: -Website: -Github: - -Ajude a manter o projeto :) -Apoia-se: https://apoia.se/basedosdados - -Publicado por -------------- -Nome: None -Código: -Tratado por ------------ -Nome: None -Código: - - - - - - -Cobertura Temporal ------------------- - - - - -Cobertura Espacial ------------------- - - - - - - - -Frequencia de Atualização -------------------------- -day +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: None +Código: +Tratado por +----------- +Nome: None +Código: + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/information_requests/publish.sql b/bases/br_bd_metadados/information_requests/publish.sql index c8541ebfb..20069bf40 100644 --- a/bases/br_bd_metadados/information_requests/publish.sql +++ b/bases/br_bd_metadados/information_requests/publish.sql @@ -1,38 +1,38 @@ -/* -Query para publicar a tabela. - -Esse é o lugar para: - - modificar nomes, ordem e tipos de colunas - - dar join com outras tabelas - - criar colunas extras (e.g. logs, proporções, etc.) - -Qualquer coluna definida aqui deve também existir em `table_config.yaml`. - -# Além disso, sinta-se à vontade para alterar alguns nomes obscuros -# para algo um pouco mais explícito. - -TIPOS: - - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. - - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` - - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types -*/ - -CREATE VIEW basedosdados-dev.br_bd_metadados.information_requests AS -SELECT -SAFE_CAST(dataset_id AS STRING) dataset_id, -SAFE_CAST(id AS STRING) id, -SAFE_CAST(name AS STRING) name, -SAFE_CAST(date_created AS DATE) date_created, -SAFE_CAST(date_last_modified AS DATE) date_last_modified, -SAFE_CAST(url AS STRING) url, -SAFE_CAST(origin AS STRING) origin, -SAFE_CAST(number AS STRING) number, -SAFE_CAST(opening_date AS DATE) opening_date, -SAFE_CAST(requested_by AS STRING) requested_by, -SAFE_CAST(status AS STRING) status, -SAFE_CAST(data_url AS STRING) data_url, -SAFE_CAST(spatial_coverage AS STRING) spatial_coverage, -SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, -SAFE_CAST(update_frequency AS STRING) update_frequency, -SAFE_CAST(observation_level AS STRING) observation_level +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.information_requests AS +SELECT +SAFE_CAST(dataset_id AS STRING) dataset_id, +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(date_created AS DATE) date_created, +SAFE_CAST(date_last_modified AS DATE) date_last_modified, +SAFE_CAST(url AS STRING) url, +SAFE_CAST(origin AS STRING) origin, +SAFE_CAST(number AS STRING) number, +SAFE_CAST(opening_date AS DATE) opening_date, +SAFE_CAST(requested_by AS STRING) requested_by, +SAFE_CAST(status AS STRING) status, +SAFE_CAST(data_url AS STRING) data_url, +SAFE_CAST(spatial_coverage AS STRING) spatial_coverage, +SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, +SAFE_CAST(update_frequency AS STRING) update_frequency, +SAFE_CAST(observation_level AS STRING) observation_level FROM basedosdados-dev.br_bd_metadados_staging.information_requests AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/information_requests/table_config.yaml b/bases/br_bd_metadados/information_requests/table_config.yaml index 75938213c..c0b960abd 100644 --- a/bases/br_bd_metadados/information_requests/table_config.yaml +++ b/bases/br_bd_metadados/information_requests/table_config.yaml @@ -1,332 +1,349 @@ -# Igual ao dataset.name mas como lower case. -# Exemplos: br_ibge_populacao, br_inep_censo_escolar -dataset_id: br_bd_metadados - -table_id: information_requests - -# Título da tabela. -title: Pedidos LAI na BD+ - -# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. -# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de -# como usar os dados. -# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: Pedidos LAI na BD+ - -# As máximas unidades espaciais que a tabela cobre. -# Exemplo: -# - sa.br -spatial_coverage: - - world - -# Anos cobertos pela tabela. -# Preencher como lista de intervalos. -# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2023-03-13 - -# A unidade temporal com qual a tabela é atualizada. -# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' -update_frequency: day - -# Nível de observação da tabela: o que representa cada linha. -observation_level: - - entity: request - columns: - - id - -last_updated: - metadata: '2023-03-07' - data: '2023-03-07 14:54:00' - release: '2023-03-07 14:54:00' - -# Versão da tabela. Seguindo o padrão de semantic versioning. -# Exemplo: v1.1.3 -version: v1.0 - -# Quem está preenchendo esses metadados? -published_by: - name: Patrick Teixeira - email: Patrick.teixeira@basedosdados.org - github_user: tricktx - ckan_user: patrickteixeira - website: - -# Qual organização/departamento/pessoa tratou os dados? -# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. -# Se essa pessoa é você, preencha abaixo com suas informações. -data_cleaned_by: - name: Ricardo Dahis - email: rdahis@basedosdados.org - github_user: rdahis - ckan_user: rdahis - website: www.ricardodahis.com - -# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. -data_cleaning_description: - -# Url do código de limpeza dos dados. -data_cleaning_code_url: - -# Organização que ajudou institucionalmente na disponibilização dos dados. -partner_organization: - name: - organization_id: - -# Url dos dados originais no GCP Storage. -raw_files_url: - -# Url dos arquivos auxiliares no GCP Storage. -auxiliary_files_url: - -# Url da tabela de arquitetura no GCP Storage. -architecture_url: - -source_bucket_name: basedosdados-dev - -project_id_prod: basedosdados-dev - -project_id_staging: basedosdados-dev - -# Liste as colunas da tabela que representam partições. -# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. -# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. -# Se não houver partições, não modifique abaixo. -partitions: - -# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar -# para saber sobre o que é a coluna. -# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando -# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que -# preencherá automaticamente as colunas. -# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. -# Para esses, defina is_in_staging como False. -# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. -columns: - - name: dataset_id - bigquery_type: string - description: Dataset ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: id - bigquery_type: string - description: ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: name - bigquery_type: string - description: Name - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_created - bigquery_type: date - description: Created Date - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: br_bd_diretorios_data_tempo - table_id: data - column_name: data - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_last_modified - bigquery_type: date - description: Last Modified Date - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: br_bd_diretorios_data_tempo - table_id: data - column_name: data - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: url - bigquery_type: string - description: url - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: origin - bigquery_type: string - description: Origin - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: number - bigquery_type: string - description: Number - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: opening_date - bigquery_type: date - description: Opening date - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: requested_by - bigquery_type: string - description: Requested by - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: status - bigquery_type: string - description: Status - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: data_url - bigquery_type: string - description: Data url - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: spatial_coverage - bigquery_type: string - description: Spatial Coverage - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: temporal_coverage - bigquery_type: string - description: Temporal Coverage - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: update_frequency - bigquery_type: string - description: Update Frequency - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: observation_level - bigquery_type: string - description: Observation Level - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - -number_rows: 389 - -metadata_modified: +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: information_requests + +# Título da tabela. +title: Pedidos LAI na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: Pedidos LAI na BD+ + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + - world + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + - '2023-03-15' + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + - entity: request + columns: + - id + +last_updated: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: v1.0 + +# Quem está preenchendo esses metadados? +published_by: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: dataset_id + bigquery_type: string + description: Dataset ID + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: id + bigquery_type: string + description: ID + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: name + bigquery_type: string + description: Name + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_created + bigquery_type: date + description: Created Date + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_last_modified + bigquery_type: date + description: Last Modified Date + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: url + bigquery_type: string + description: url + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: origin + bigquery_type: string + description: Origin + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: number + bigquery_type: string + description: Number + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: opening_date + bigquery_type: date + description: Opening date + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: requested_by + bigquery_type: string + description: Requested by + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: status + bigquery_type: string + description: Status + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: data_url + bigquery_type: string + description: Data url + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: spatial_coverage + bigquery_type: string + description: Spatial Coverage + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: temporal_coverage + bigquery_type: string + description: Temporal Coverage + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: update_frequency + bigquery_type: string + description: Update Frequency + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: observation_level + bigquery_type: string + description: Observation Level + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + +number_rows: 389 + +metadata_modified: diff --git a/bases/br_bd_metadados/information_requests/table_description.txt b/bases/br_bd_metadados/information_requests/table_description.txt index 8c823ccfb..93d38c5cf 100644 --- a/bases/br_bd_metadados/information_requests/table_description.txt +++ b/bases/br_bd_metadados/information_requests/table_description.txt @@ -1,41 +1,41 @@ -None - -Para saber mais acesse: -Website: -Github: - -Ajude a manter o projeto :) -Apoia-se: https://apoia.se/basedosdados - -Publicado por -------------- -Nome: None -Código: -Tratado por ------------ -Nome: None -Código: - - - - - - -Cobertura Temporal ------------------- - - - - -Cobertura Espacial ------------------- - - - - - - - -Frequencia de Atualização -------------------------- -day +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: None +Código: +Tratado por +----------- +Nome: None +Código: + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/organizations/publish.sql b/bases/br_bd_metadados/organizations/publish.sql index b6cb3bf2c..8dc3f53a6 100644 --- a/bases/br_bd_metadados/organizations/publish.sql +++ b/bases/br_bd_metadados/organizations/publish.sql @@ -1,29 +1,29 @@ -/* -Query para publicar a tabela. - -Esse é o lugar para: - - modificar nomes, ordem e tipos de colunas - - dar join com outras tabelas - - criar colunas extras (e.g. logs, proporções, etc.) - -Qualquer coluna definida aqui deve também existir em `table_config.yaml`. - -# Além disso, sinta-se à vontade para alterar alguns nomes obscuros -# para algo um pouco mais explícito. - -TIPOS: - - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. - - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` - - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types -*/ - -CREATE VIEW basedosdados-dev.br_bd_metadados.organizations AS -SELECT -SAFE_CAST(id AS STRING) id, -SAFE_CAST(name AS STRING) name, -SAFE_CAST(description AS STRING) description, -SAFE_CAST(display_name AS STRING) display_name, -SAFE_CAST(title AS STRING) title, -SAFE_CAST(package_count AS INT64) package_count, -SAFE_CAST(date_created AS DATE) date_created, +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.organizations AS +SELECT +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(description AS STRING) description, +SAFE_CAST(display_name AS STRING) display_name, +SAFE_CAST(title AS STRING) title, +SAFE_CAST(package_count AS INT64) package_count, +SAFE_CAST(date_created AS DATE) date_created, FROM basedosdados-dev.br_bd_metadados_staging.organizations AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/organizations/table_config.yaml b/bases/br_bd_metadados/organizations/table_config.yaml index 1aa79653d..6dea96b90 100644 --- a/bases/br_bd_metadados/organizations/table_config.yaml +++ b/bases/br_bd_metadados/organizations/table_config.yaml @@ -1,206 +1,214 @@ -# Igual ao dataset.name mas como lower case. -# Exemplos: br_ibge_populacao, br_inep_censo_escolar -dataset_id: br_bd_metadados - -table_id: organizations - -# Título da tabela. -title: Organizações na BD+ - -# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. -# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de -# como usar os dados. -# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: Organizações na BD+ - -# As máximas unidades espaciais que a tabela cobre. -# Exemplo: -# - sa.br -spatial_coverage: - - world - -# Anos cobertos pela tabela. -# Preencher como lista de intervalos. -# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2022-03-13 - -# A unidade temporal com qual a tabela é atualizada. -# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' -update_frequency: day - -# Nível de observação da tabela: o que representa cada linha. -observation_level: - - entity: name - columns: - - name - -last_updated: - metadata: '2023-03-07' - data: '2023-03-07 14:54:00' - release: '2023-03-07 14:54:00' - -# Versão da tabela. Seguindo o padrão de semantic versioning. -# Exemplo: v1.1.3 -version: v1.0 - -# Quem está preenchendo esses metadados? -published_by: - name: Patrick Teixeira - email: Patrick.teixeira@basedosdados.org - github_user: tricktx - ckan_user: patrickteixeira - website: - -# Qual organização/departamento/pessoa tratou os dados? -# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. -# Se essa pessoa é você, preencha abaixo com suas informações. -data_cleaned_by: - name: Ricardo Dahis - email: rdahis@basedosdados.org - github_user: rdahis - ckan_user: rdahis - website: www.ricardodahis.com - -# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. -data_cleaning_description: - -# Url do código de limpeza dos dados. -data_cleaning_code_url: - -# Organização que ajudou institucionalmente na disponibilização dos dados. -partner_organization: - name: - organization_id: - -# Url dos dados originais no GCP Storage. -raw_files_url: - -# Url dos arquivos auxiliares no GCP Storage. -auxiliary_files_url: - -# Url da tabela de arquitetura no GCP Storage. -architecture_url: - -source_bucket_name: basedosdados-dev - -project_id_prod: basedosdados-dev - -project_id_staging: basedosdados-dev - -# Liste as colunas da tabela que representam partições. -# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. -# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. -# Se não houver partições, não modifique abaixo. -partitions: - -# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar -# para saber sobre o que é a coluna. -# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando -# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que -# preencherá automaticamente as colunas. -# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. -# Para esses, defina is_in_staging como False. -# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. -columns: - - name: id - bigquery_type: string - description: ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: name - bigquery_type: string - description: Name - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: description - bigquery_type: string - description: Description - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: display_name - bigquery_type: string - description: Display name - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: title - bigquery_type: string - description: Title - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: package_count - bigquery_type: int64 - description: Package Count - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_created - bigquery_type: date - description: Created Date - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: br_bd_diretorios_data_tempo - table_id: data - column_name: data - measurement_unit: date - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - -number_rows: 554 - -metadata_modified: +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: organizations + +# Título da tabela. +title: Organizações na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: Organizações na BD+ + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + - world + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + - '2023-03-15' + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + - entity: name + columns: + - name + +last_updated: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: v1.0 + +# Quem está preenchendo esses metadados? +published_by: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: id + bigquery_type: string + description: ID + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: name + bigquery_type: string + description: Name + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: description + bigquery_type: string + description: Description + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: display_name + bigquery_type: string + description: Display name + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: title + bigquery_type: string + description: Title + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: package_count + bigquery_type: int64 + description: Package Count + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_created + bigquery_type: date + description: Created Date + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: br_bd_diretorios_data_tempo + table_id: data + column_name: data + measurement_unit: date + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + +number_rows: 554 + +metadata_modified: diff --git a/bases/br_bd_metadados/organizations/table_description.txt b/bases/br_bd_metadados/organizations/table_description.txt index db12613c6..574fd95a4 100644 --- a/bases/br_bd_metadados/organizations/table_description.txt +++ b/bases/br_bd_metadados/organizations/table_description.txt @@ -1,45 +1,45 @@ -Organizações na BD+ - -Para saber mais acesse: -Website: -Github: - -Ajude a manter o projeto :) -Apoia-se: https://apoia.se/basedosdados - -Publicado por -------------- -Nome: Ricardo Dahis -Código: -Website: www.ricardodahis.com -Email: rdahis@basedosdados.org -Tratado por ------------ -Nome: Ricardo Dahis -Código: -Website: www.ricardodahis.com -Email: rdahis@basedosdados.org - - - - - - -Cobertura Temporal ------------------- - - - - -Cobertura Espacial ------------------- - - - - - - - -Frequencia de Atualização -------------------------- -day +Organizações na BD+ + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: Ricardo Dahis +Código: +Website: www.ricardodahis.com +Email: rdahis@basedosdados.org +Tratado por +----------- +Nome: Ricardo Dahis +Código: +Website: www.ricardodahis.com +Email: rdahis@basedosdados.org + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/resources/publish.sql b/bases/br_bd_metadados/resources/publish.sql index 97de6d705..c757c60c8 100644 --- a/bases/br_bd_metadados/resources/publish.sql +++ b/bases/br_bd_metadados/resources/publish.sql @@ -1,28 +1,28 @@ -/* -Query para publicar a tabela. - -Esse é o lugar para: - - modificar nomes, ordem e tipos de colunas - - dar join com outras tabelas - - criar colunas extras (e.g. logs, proporções, etc.) - -Qualquer coluna definida aqui deve também existir em `table_config.yaml`. - -# Além disso, sinta-se à vontade para alterar alguns nomes obscuros -# para algo um pouco mais explícito. - -TIPOS: - - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. - - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` - - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types -*/ - -CREATE VIEW basedosdados-dev.br_bd_metadados.resources AS -SELECT -SAFE_CAST(dataset_id AS STRING) dataset_id, -SAFE_CAST(id AS STRING) id, -SAFE_CAST(name AS STRING) name, -SAFE_CAST(date_created AS DATE) date_created, -SAFE_CAST(date_last_modified AS DATE) date_last_modified, -SAFE_CAST(type AS STRING) type +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.resources AS +SELECT +SAFE_CAST(dataset_id AS STRING) dataset_id, +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(date_created AS DATE) date_created, +SAFE_CAST(date_last_modified AS DATE) date_last_modified, +SAFE_CAST(type AS STRING) type FROM basedosdados-dev.br_bd_metadados_staging.resources AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/resources/table_config.yaml b/bases/br_bd_metadados/resources/table_config.yaml index 84a715c27..55c225621 100644 --- a/bases/br_bd_metadados/resources/table_config.yaml +++ b/bases/br_bd_metadados/resources/table_config.yaml @@ -1,192 +1,199 @@ -# Igual ao dataset.name mas como lower case. -# Exemplos: br_ibge_populacao, br_inep_censo_escolar -dataset_id: br_bd_metadados - -table_id: resources - -# Título da tabela. -title: Recursos na BD+, incluindo tabelas, pedidos LAI e links externos - -# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. -# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de -# como usar os dados. -# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: Recursos na BD+ - -# As máximas unidades espaciais que a tabela cobre. -# Exemplo: -# - sa.br -spatial_coverage: - - world - -# Anos cobertos pela tabela. -# Preencher como lista de intervalos. -# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2023-03-13 - -# A unidade temporal com qual a tabela é atualizada. -# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' -update_frequency: day - -# Nível de observação da tabela: o que representa cada linha. -observation_level: - - entity: other - columns: - - id - -last_updated: - metadata: '2023-03-07' - data: '2023-03-07 14:54:00' - release: '2023-03-07 14:54:00' - -# Versão da tabela. Seguindo o padrão de semantic versioning. -# Exemplo: v1.1.3 -version: v1.0 - -# Quem está preenchendo esses metadados? -published_by: - name: Patrick Teixeira - email: Patrick.teixeira@basedosdados.org - github_user: tricktx - ckan_user: patrickteixeira - website: - -# Qual organização/departamento/pessoa tratou os dados? -# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. -# Se essa pessoa é você, preencha abaixo com suas informações. -data_cleaned_by: - name: Ricardo Dahis - email: rdahis@basedosdados.org - github_user: rdahis - ckan_user: rdahis - website: www.ricardodahis.com - -# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. -data_cleaning_description: - -# Url do código de limpeza dos dados. -data_cleaning_code_url: - -# Organização que ajudou institucionalmente na disponibilização dos dados. -partner_organization: - name: - organization_id: - -# Url dos dados originais no GCP Storage. -raw_files_url: - -# Url dos arquivos auxiliares no GCP Storage. -auxiliary_files_url: - -# Url da tabela de arquitetura no GCP Storage. -architecture_url: - -source_bucket_name: basedosdados-dev - -project_id_prod: basedosdados-dev - -project_id_staging: basedosdados-dev - -# Liste as colunas da tabela que representam partições. -# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. -# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. -# Se não houver partições, não modifique abaixo. -partitions: - -# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar -# para saber sobre o que é a coluna. -# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando -# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que -# preencherá automaticamente as colunas. -# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. -# Para esses, defina is_in_staging como False. -# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. -columns: - - name: dataset_id - bigquery_type: string - description: Dataset ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: id - bigquery_type: string - description: ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: name - bigquery_type: string - description: Name - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_created - bigquery_type: date - description: Created Date - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: date - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_last_modified - bigquery_type: date - description: Last Modified Data - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: date - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: type - bigquery_type: string - description: Type - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - -number_rows: 1648 - -metadata_modified: +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: resources + +# Título da tabela. +title: Recursos na BD+, incluindo tabelas, pedidos LAI e links externos + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: Recursos na BD+ + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + - world + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + - '2023-03-15' + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + - entity: other + columns: + - id + +last_updated: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: v1.0 + +# Quem está preenchendo esses metadados? +published_by: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: dataset_id + bigquery_type: string + description: Dataset ID + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: id + bigquery_type: string + description: ID + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: name + bigquery_type: string + description: Name + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_created + bigquery_type: date + description: Created Date + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: date + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_last_modified + bigquery_type: date + description: Last Modified Data + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: date + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: type + bigquery_type: string + description: Type + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + +number_rows: 1648 + +metadata_modified: diff --git a/bases/br_bd_metadados/resources/table_description.txt b/bases/br_bd_metadados/resources/table_description.txt index 8c823ccfb..93d38c5cf 100644 --- a/bases/br_bd_metadados/resources/table_description.txt +++ b/bases/br_bd_metadados/resources/table_description.txt @@ -1,41 +1,41 @@ -None - -Para saber mais acesse: -Website: -Github: - -Ajude a manter o projeto :) -Apoia-se: https://apoia.se/basedosdados - -Publicado por -------------- -Nome: None -Código: -Tratado por ------------ -Nome: None -Código: - - - - - - -Cobertura Temporal ------------------- - - - - -Cobertura Espacial ------------------- - - - - - - - -Frequencia de Atualização -------------------------- -day +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: None +Código: +Tratado por +----------- +Nome: None +Código: + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day diff --git a/bases/br_bd_metadados/tables/publish.sql b/bases/br_bd_metadados/tables/publish.sql index 8448305e9..3acdf927b 100644 --- a/bases/br_bd_metadados/tables/publish.sql +++ b/bases/br_bd_metadados/tables/publish.sql @@ -1,34 +1,34 @@ -/* -Query para publicar a tabela. - -Esse é o lugar para: - - modificar nomes, ordem e tipos de colunas - - dar join com outras tabelas - - criar colunas extras (e.g. logs, proporções, etc.) - -Qualquer coluna definida aqui deve também existir em `table_config.yaml`. - -# Além disso, sinta-se à vontade para alterar alguns nomes obscuros -# para algo um pouco mais explícito. - -TIPOS: - - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. - - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` - - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types -*/ - -CREATE VIEW basedosdados-dev.br_bd_metadados.tables AS -SELECT -SAFE_CAST(dataset_id AS STRING) dataset_id, -SAFE_CAST(id AS STRING) id, -SAFE_CAST(name AS STRING) name, -SAFE_CAST(date_created AS DATE) date_created, -SAFE_CAST(date_last_modified AS DATE) date_last_modified, -SAFE_CAST(spatial_coverage AS STRING) spatial_coverage, -SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, -SAFE_CAST(update_frequency AS STRING) update_frequency, -SAFE_CAST(observation_level AS STRING) observation_level, -SAFE_CAST(number_rows AS INT64) number_rows, -SAFE_CAST(number_columns AS INT64) number_columns, -SAFE_CAST(outdated AS INT64) outdated +/* +Query para publicar a tabela. + +Esse é o lugar para: + - modificar nomes, ordem e tipos de colunas + - dar join com outras tabelas + - criar colunas extras (e.g. logs, proporções, etc.) + +Qualquer coluna definida aqui deve também existir em `table_config.yaml`. + +# Além disso, sinta-se à vontade para alterar alguns nomes obscuros +# para algo um pouco mais explícito. + +TIPOS: + - Para modificar tipos de colunas, basta substituir STRING por outro tipo válido. + - Exemplo: `SAFE_CAST(column_name AS NUMERIC) column_name` + - Mais detalhes: https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types +*/ + +CREATE VIEW basedosdados-dev.br_bd_metadados.tables AS +SELECT +SAFE_CAST(dataset_id AS STRING) dataset_id, +SAFE_CAST(id AS STRING) id, +SAFE_CAST(name AS STRING) name, +SAFE_CAST(date_created AS DATE) date_created, +SAFE_CAST(date_last_modified AS DATE) date_last_modified, +SAFE_CAST(spatial_coverage AS STRING) spatial_coverage, +SAFE_CAST(temporal_coverage AS STRING) temporal_coverage, +SAFE_CAST(update_frequency AS STRING) update_frequency, +SAFE_CAST(observation_level AS STRING) observation_level, +SAFE_CAST(number_rows AS INT64) number_rows, +SAFE_CAST(number_columns AS INT64) number_columns, +SAFE_CAST(outdated AS INT64) outdated FROM basedosdados-dev.br_bd_metadados_staging.tables AS t \ No newline at end of file diff --git a/bases/br_bd_metadados/tables/table_config.yaml b/bases/br_bd_metadados/tables/table_config.yaml index 86ed0ec7d..62c3da96b 100644 --- a/bases/br_bd_metadados/tables/table_config.yaml +++ b/bases/br_bd_metadados/tables/table_config.yaml @@ -1,277 +1,290 @@ - -# Igual ao dataset.name mas como lower case. -# Exemplos: br_ibge_populacao, br_inep_censo_escolar -dataset_id: br_bd_metadados - -table_id: tables - -# Título da tabela. -title: Tabelas na BD+ - -# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. -# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de -# como usar os dados. -# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., -description: Tabelas na BD+ - -# As máximas unidades espaciais que a tabela cobre. -# Exemplo: -# - sa.br -spatial_coverage: - - world - -# Anos cobertos pela tabela. -# Preencher como lista de intervalos. -# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. -temporal_coverage: 2023-03-2023 - -# A unidade temporal com qual a tabela é atualizada. -# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' -update_frequency: day - -# Nível de observação da tabela: o que representa cada linha. -observation_level: - - entity: other - columns: - - id - -last_updated: - metadata: '2023-03-07' - data: '2023-03-07 14:54:00' - release: '2023-03-07 14:54:00' - -# Versão da tabela. Seguindo o padrão de semantic versioning. -# Exemplo: v1.1.3 -version: v1.0 - -# Quem está preenchendo esses metadados? -published_by: - name: Patrick Teixeira - email: Patrick.teixeira@basedosdados.org - github_user: tricktx - ckan_user: patrickteixeira - website: - -# Qual organização/departamento/pessoa tratou os dados? -# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. -# Se essa pessoa é você, preencha abaixo com suas informações. -data_cleaned_by: - name: Ricardo Dahis - email: rdahis@basedosdados.org - github_user: rdahis - ckan_user: rdahis - website: www.ricardodahis.com - -# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. -data_cleaning_description: - -# Url do código de limpeza dos dados. -data_cleaning_code_url: - -# Organização que ajudou institucionalmente na disponibilização dos dados. -partner_organization: - name: - organization_id: - -# Url dos dados originais no GCP Storage. -raw_files_url: - -# Url dos arquivos auxiliares no GCP Storage. -auxiliary_files_url: - -# Url da tabela de arquitetura no GCP Storage. -architecture_url: - -source_bucket_name: basedosdados-dev - -project_id_prod: basedosdados-dev - -project_id_staging: basedosdados-dev - -# Liste as colunas da tabela que representam partições. -# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. -# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. -# Se não houver partições, não modifique abaixo. -partitions: - -# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar -# para saber sobre o que é a coluna. -# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando -# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que -# preencherá automaticamente as colunas. -# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. -# Para esses, defina is_in_staging como False. -# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. -columns: - - name: dataset_id - bigquery_type: string - description: Dataset ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: id - bigquery_type: string - description: ID - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: name - bigquery_type: string - description: Name - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_created - bigquery_type: date - description: Date Created - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: date_last_modified - bigquery_type: date - description: Last Modified Date - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: date - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: spatial_coverage - bigquery_type: string - description: Spatial Coverage - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: temporal_coverage - bigquery_type: string - description: Temporal Coverage - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: update_frequency - bigquery_type: string - description: Update Frequency - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: observation_level - bigquery_type: string - description: Observation Level - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: number_rows - bigquery_type: int64 - description: Number Rows - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: number_columns - bigquery_type: int64 - description: Number Columns - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - - name: outdated - bigquery_type: int64 - description: Outdated - temporal_coverage: (1) - covered_by_dictionary: no - directory_column: - dataset_id: - table_id: - column_name: - measurement_unit: - has_sensitive_data: no - observations: - is_in_staging: true - is_partition: false - -number_rows: 435 - -metadata_modified: + +# Igual ao dataset.name mas como lower case. +# Exemplos: br_ibge_populacao, br_inep_censo_escolar +dataset_id: br_bd_metadados + +table_id: tables + +# Título da tabela. +title: Tabelas na BD+ + +# Descreva a tabela. Essas são as primeiras frases que um usuário vai ver. +# Você não precisa ser muito conciso. Sinta-se a vontade para dar exemplos de +# como usar os dados. +# Se souber, liste também aplicações: pesquisa, apps, etc. que usem os dados., +description: Tabelas na BD+ + +# As máximas unidades espaciais que a tabela cobre. +# Exemplo: +# - sa.br +spatial_coverage: + - world + +# Anos cobertos pela tabela. +# Preencher como lista de intervalos. +# Exemplos: ['1995(1)2019'], ['2002(2)2010', '2016', '2020']. +temporal_coverage: + - '2023-03-15' + +# A unidade temporal com qual a tabela é atualizada. +# Opções em 'https://basedosdados.org/api/3/action/bd_available_options' +update_frequency: day + +# Nível de observação da tabela: o que representa cada linha. +observation_level: + - entity: other + columns: + - id + +last_updated: + metadata: '2023-03-07' + data: '2023-03-07 14:54:00' + release: '2023-03-07 14:54:00' + +# Versão da tabela. Seguindo o padrão de semantic versioning. +# Exemplo: v1.1.3 +version: v1.0 + +# Quem está preenchendo esses metadados? +published_by: + name: Patrick Teixeira + email: Patrick.teixeira@basedosdados.org + github_user: tricktx + ckan_user: patrickteixeira + website: + +# Qual organização/departamento/pessoa tratou os dados? +# As vezes há um ponto intermediário entre os dados originais e subir na Base dos Dados. +# Se essa pessoa é você, preencha abaixo com suas informações. +data_cleaned_by: + name: Ricardo Dahis + email: rdahis@basedosdados.org + github_user: rdahis + ckan_user: rdahis + website: www.ricardodahis.com + +# Se houve passos de tratamento, limpeza e manipulação de dados, descreva-os aqui. +data_cleaning_description: + +# Url do código de limpeza dos dados. +data_cleaning_code_url: + +# Organização que ajudou institucionalmente na disponibilização dos dados. +partner_organization: + name: + organization_id: + +# Url dos dados originais no GCP Storage. +raw_files_url: + +# Url dos arquivos auxiliares no GCP Storage. +auxiliary_files_url: + +# Url da tabela de arquitetura no GCP Storage. +architecture_url: + +source_bucket_name: basedosdados-dev + +project_id_prod: basedosdados-dev + +project_id_staging: basedosdados-dev + +# Liste as colunas da tabela que representam partições. +# Não esqueça de deletar essas colunas nas tabelas .csv na hora de subir para o BigQuery. +# Isso poupará muito tempo e dinheiro às pessoas utilizando essa tabela. +# Se não houver partições, não modifique abaixo. +partitions: + +# Quais são as colunas? Certifique-se de escrever uma boa descrição, as pessoas vão gostar +# para saber sobre o que é a coluna. +# Adicionar todas as colunas manualmente pode ser bastante cansativo, por isso, quando +# inicializando este arquivo de configuração, você pode apontar a função para uma amostra de dados que +# preencherá automaticamente as colunas. +# Algumas colunas existirão apenas na tabela final, você as construirá em `publish.sql`. +# Para esses, defina is_in_staging como False. +# Além disso, você deve adicionar as colunas de partição aqui e definir is_partition como True. +columns: + - name: dataset_id + bigquery_type: string + description: Dataset ID + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: id + bigquery_type: string + description: ID + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: name + bigquery_type: string + description: Name + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_created + bigquery_type: date + description: Date Created + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: date_last_modified + bigquery_type: date + description: Last Modified Date + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: date + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: spatial_coverage + bigquery_type: string + description: Spatial Coverage + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: temporal_coverage + bigquery_type: string + description: Temporal Coverage + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: update_frequency + bigquery_type: string + description: Update Frequency + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: observation_level + bigquery_type: string + description: Observation Level + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: number_rows + bigquery_type: int64 + description: Number Rows + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: number_columns + bigquery_type: int64 + description: Number Columns + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + - name: outdated + bigquery_type: int64 + description: Outdated + temporal_coverage: + - (1) + covered_by_dictionary: no + directory_column: + dataset_id: + table_id: + column_name: + measurement_unit: + has_sensitive_data: no + observations: + is_in_staging: true + is_partition: false + +number_rows: 435 + +metadata_modified: diff --git a/bases/br_bd_metadados/tables/table_description.txt b/bases/br_bd_metadados/tables/table_description.txt index 8c823ccfb..93d38c5cf 100644 --- a/bases/br_bd_metadados/tables/table_description.txt +++ b/bases/br_bd_metadados/tables/table_description.txt @@ -1,41 +1,41 @@ -None - -Para saber mais acesse: -Website: -Github: - -Ajude a manter o projeto :) -Apoia-se: https://apoia.se/basedosdados - -Publicado por -------------- -Nome: None -Código: -Tratado por ------------ -Nome: None -Código: - - - - - - -Cobertura Temporal ------------------- - - - - -Cobertura Espacial ------------------- - - - - - - - -Frequencia de Atualização -------------------------- -day +None + +Para saber mais acesse: +Website: +Github: + +Ajude a manter o projeto :) +Apoia-se: https://apoia.se/basedosdados + +Publicado por +------------- +Nome: None +Código: +Tratado por +----------- +Nome: None +Código: + + + + + + +Cobertura Temporal +------------------ + + + + +Cobertura Espacial +------------------ + + + + + + + +Frequencia de Atualização +------------------------- +day