Skip to content

Glossaire de la data et de l'opendata

mathieu rajerison edited this page Mar 11, 2022 · 21 revisions

Une proposition de glossaire de la data et de l'opendata.

Si vous avez idées de nouveaux termes ou bien de définitions (si possible concises), n'hésitez pas à contribuer

Il y a aussi le glossaire amusant de la data et de l'opendata

Voir l'article sur teamopendata à l'occasion de l'OpenDataDay2022

A

Administrateur de données

Personne chargée d'administrer le patrimoine* de données d'une structure, ou du serveur de bases de données de celle-ci.

Agile

Mode de gestion et de conduite de projet fondé sur l'incrémentation, l'itération et la prise en compte rapide du retour utilisateurs.

Agréger

Action de calculer des indicateurs par groupe : sommes, médianes, moyennes, comptages,...

Algorithme

Séquence ordonnée d'opérations visant à résoudre un problème

Alpha-numérique

ANCT

Anonymisation

Action visant à enlever toute mention d'information à caractère personnel dans des fichiers : prénom, nom, par exemple. Voir Pseudonymisation*

API

[appéi]

ARAFER

Array

Attribut

Se dit d'une colonne d'un fichier de type tabulaire. Synonyme : colonne, variable

AWS

Azure

B

Back-Office

BAN

[bane] Base Adresse Nationale. Base ouverte d'adresses.

BANO

Base de données

Betagouv

Big Data

Brutes

Qualifie des données non synthétiques, proches de l'origine, conformes dans leur structure et leur contenu à ce qu'elles étaient au départ, au plus près de leur recueil.

C

CADA

Calc

camelCase

Façon d'écrire des noms de colonnes ou des variables dans un code informatique en écrivant la première lettre de chaque élément en majuscules, et le reste en minuscules, sauf pour le premier élément.

Ex. : nomCommune au lieu de 'nom de la commune'

Relié : snake_case, PascalCase

Cadastre

Creative Commons

CSV

Comma Separated Value. Il s'agit d'un fichier texte où chaque colonne est séparée par une virgule. Il très utilisé dans le milieu de la Data, et aussi très apprécié pour son haut niveau d'interopérabilité.

CDO

Chief Data Officer

Cellule

Cellule d'un tableau : contient une valeur numérique, littérale ou alpha-numérique* ou une date ou une heure. A la croisée d'une ligne et d'une colonne d'un tableau.

Chaude

Se dit d'une donnée mise à jour fréquemment, par exemple issue de capteurs

Clé/valeur

Mécanisme d'association d'une variable (clé) avec une valeur. Par exemple utilisé dans JSON. Exemple : {'age' : 39}

Clé primaire

Identifiant d'une table* de données

Clé étrangère

Close-Data

Code INSEE

Colonne

Commun

Coordonnées

Position dans l'espace d'un objet (en X et Y, ou en longitude, latitude)

Voir : long lat

Croiser

Crowd-Sourcing

CRPA

CSW

D

Dashboard

Data

Données. Peut englober les données ouvertes (OpenData), personnelles (SelfData), des villes intelligentes (Smart Data)

Data-Analytics

Data-Driven

Terme utilisé pour signifier des décisions ou des politiques publiques pilotées par l'analyse de données.

Data-Engineer

Datagramme

Data-Literacy

Littératie à la donnée. Se dit de l'acculturation au monde du numérique, notamment celui de la donnée : savoir lire un fichier de données, accéder et trouver des statistiques par soi-même.

Data-Ops

Data-Scientist

Spécialiste de l'intelligence artificielle, chargé d'analyser des données grâce à aux statistiques et aux techniques d'apprentissage machine (Machine Learning).

Data-Washing

Action de promotion ou d'auto-promotion de la transparence consistant à communiquer en grande pompe sur un ou plusieurs jeux de données qui s'avèreront au final de faible impact et faible valeur, soit du fait de leur trop faible précision, soit du fait de leur faible qualité ou niveau de réutilisabilité.

Datagouv

data.gouv.fr : portail national des données ouvertes

Dataset

Jeu de données. Ensemble de fichiers de données pour un sujet ou une thématique donnés.

Dataviz

Datavisualisation. Représentations visuelles des données sous la forme de graphiques, de cartes, d'applications interactives.

DDL

Data Definition Language

Langage de programmation pour manipuler les structures de données d'une base de données (noms des colonnes, types), et non les données elles-mêmes (non le contenu).

Déclaration des Droits de l'Homme et du Citoyen

Design Thinking

Pensée Design.

Mode de création de produit (application, solution) fondé sur le prototypage, le retour utilisateurs et l'itération.

DINUM

Direction Interministérielle du Numérique

DITP

Direction Interministérielle de la Transformation Publique

DL

Deep Learning. Techniques d'intelligence artificielle basées sur des réseaux de neurones.

Documenter

Action de contextualiser ou de faire connaître le contenu d'un jeu de données, soit de produire des méta-données*

Données de référence

Données pivots

DPO

Délégué Général à la Protection des Données, en charge de la bonne mise en oeuvre du RGPD dans son organisation.

E

Editer

EIG

Entrepreneurs d'Intérêt Général

Enclosure

Encodage

Entité

Entrepôt de données

EPSG

European Petroleum Survey Group.

Groupe créé en 1985 ayant attribué des codes aux systèmes de projection

Voir aussi : système de projection

Ex. : EPSG:4326 (WGS84, en général pour les GPS), EPSG:2154 (Lambert 93, adapté au territoire métropolitain, voire européen)

Etalab

Etalab est une Mission de la DINUM* chargée, entre autres, d'alimenter et faire évoluer le portail data.gouv.fr

ETL

Logiciel Extract-Transform-Load permettant d'extraire de la donnée de différents entrepôts de données, de la transformer pour l'intégrer sous une autre forme dans ces mêmes entrepôts*, ou la migrer sous d'autres entrepôts.

Excel

Logiciel permettant de produire des tableaux de données et de faire des graphiques. Equivalent libre : OpenOffice ou LibreOffice

Explicable

Se dit d'un algorithme dont le code a été rendu public et en même temps expliqué soit par des termes simples, soit par un procédé de facilitation graphique visant à mieux en comprendre la logique ainsi que la finalité.

Expression régulière

Technique d'extraction et de validation de chaîne de caractères selon certains formats, par exemple des numéros de téléphone, des mails, des dates.

F

FCD

Floating Car Data.

Fichier plat

Fichier ayant une présence physique dans le répertoire d'un ordinateur, que l'on peut en général déplacer d'un dossier à un autre.

Ex. : fichier Excel, ods

Fichiers fonciers

Aussi appelée matrice cadastrale, les fichiers fonciers sont les informations associées aux parcelles cadastrales du territoire.

Flux

Folksonomie

Processus collaboratif d'indexation, voire de structuration et de description de base de données basé sur un système de tags, à savoir un ensemble clé/valeur (tag/key en anglais), utilisé dans certains projets de bases de données collaboratives comme OpenStreetMap.

Ex. : dans OpenStreetMap, la clé (ou key) amenity peut avoir plusieurs valeurs (value) telles que cafe, biergarten, fast_food. L'ensemble clé/valeur portant le nom de tag peut ainsi être amenity=cafe

Format

Type d'un fichier, par exemple Excel, plat, JSON, ODS. L'extension* d'un fichier définit souvent son format.

Fraîche

Se dit d'une donnée récente

Voir aussi : froide, chaude

Froide

Se dit d'une donnée mise à jour peu fréquemment, telle des données de recensement général de population mises à jour de façon pluri-anuelle.

Front-Office

Full-Stack

G

GAFAM

Google Apple Facebook Amazon Microsoft

Géo-commun

Géocodage

Process visant à attribuer des coordonnées* géodésiques à des entités, par exemple en fonction de leur adresse.

Voir aussi : BAN, BANO

GeoData

Donnée géographique

GeoJSON

Extension du format JSON pour la géographie.

Géomatique

Géométrie

Qualifie la composante spatiale d'une donnée géographique.

Géoportail

Git

Système de versionnement* et de traçage du code

Github

Gitlab

GPKG

Format de données spatial libre, proche de Spatialite.

GPU

Géoportail de l'Urbanisme

Granularié

Grain, précision ou échelle d'appréciation d'une donnée. Plus une donnée est granulaire et plus elle est précise. Les opérations d'agrégation* réduisent la granularité d'une donnée.

Ex. : donnée à l'adresse plutôt qu'à l'IRIS*

Graphe

Se réfère en général à des données relationnelles, sous forme de réseaux, à savoir des noeuds (nodes) connectés par arêtes (edges).

Ex. : données généalogiques, qui-suit-qui de twitter, transactions financières.

Peut aussi qualifier un graphique

Relié : théorie des graphes

Green-IT

GTFS

General Transit Feed Specification. Format de données, créé par Google, visant à décrire un réseau de bus dans son ensemble : points d'arrêts, horaires et lignes.

H

Harmoniser

I

IA

ID

[aïedi] Identifiant unique attribué à une ligne de base de données.

IGN

Imputation

Action visant à prédire une valeur là où elle était absente.

Ex. : imputation de données de trafic routier, suite à la défaillance d'un compteur

Incrémental

Inférence

Action visant à prédire une valeur.

Infographie

Informations

Input

INSEE

Institut national de la statistique et des études économique. Organisme public administrant et produisant des statistiques publiques en particulier sur la société, la démographie.

Insight

Inspire

Interopérabilité

IoT

Internet of Things

Internet des Objets

Domaine associé à la domotique ou à l'interaction d'objets du quotidien (montres, réfrigérateurs, télévision) avec le web.

IRIS

Subdivision du territoire inférieure à la commune (infracommunale), proche des quartiers d'une ville, contenant autour de 2000 habitants.

ISO-8601

Itération

J

Jeu de données

Joindre

Jointure

JSON

[jizon (ou djeillezonne, chacun son école)]Format de donnée hiérarchique couramment utilisé dans le web, et les API

K

kebab-case

Façon d'écrire des noms de colonnes ou des variables dans un code information en séparant les éléments par un tiret -. Exemple : nom-commune au lieu de 'nom de la commune'. A noter qu'il est peu utilisé dans les données ou les codes informatiques pour éviter la confusion avec l'opération de soustraction. On le trouve davantage dans des noms de dossiers : mon-dossier

Relié : snake_case, camelCase, PascalCase

KML

L

Lean

LibreOffice

Licences

Conditions spécifiques d'utilisation et de partage des données. Parmi celles-ci, on peut citer la Licence Ouverte ou la licence ODbL.

LidarHD

Données de levé Lidar réalisés par l'IGN pour reconstituer le relief en France de façon très précise.

Ligne

Entité d'un tableau de données, à laquelle sont associées certaines caractéristiques ou variables. Par exemple, une commune à laquelle sont associées la population, la superficie.

Lisible

Liste

LO

[hello] Licence Ouverte

Loi Lemaire

Aussi appelée Loi Pour une République Numérique. Datant de 2016, elle promulgue l'opendata par défaut pour les données, sauf certaines exceptions telles que des données dont la connaissance pourrait porter atteinte à la sécurité intérieure, ou de données médicales et personnelles.

LOM

Loi d'Orientation des Mobilités

Long lat

Qualifie les coordonnées longitude, latitude GPS d'un point dans l'espace.

LPRN

Loi Pour une République Numérique. Aussi appelée Loi Lemaire.

M

Machine Learning

Machine Learning. Techniques statistiques visant à prédire, classer les entités d'un tableau ou d'une base de données, sur la base d'un apprentissage supervisé ou non par un humain.

MAJIC

Mise A Jour de l'Information Cadastrale. Base de données appelée aussi matrice cadastrale ou fichiers fonciers*

Markdown

Mapillary

Massification

Matrice cadastrale

MCD

Modèle Conceptuel de Données : modélisation d'une base de données sous la forme de tables* liées par des relations d'appartenance de plusieurs types de cardinalités (une entité appartient à une entité, ou à plusieurs, ou plusieurs entités peuvent appartenir aux mêmes entités).

Ex : une table commune et une table département. Une commune appartient à un seul département. Un département contient plusieurs communes.

MERISE

Metadata

Méta-données*

Méta-données

Données sur les données. Il s'agit principalement de l'identité du producteur de la donnée, de sa date de création, de son mode de fabrication (généalogie), de son emprise géographique, du contexte et de l'objectif poursuivi par la production de la donnée.

Millésime

Date (en général, l'année) de production d'une donnée.

ML

Machine Learning*

MPD

Modèle Physique de données. Déclinaison opérationnelle et pratique dérivée d'un Modèle Conceptuel de Doonnées (MCD*)

Modèle

Modèle de données

MongoDB

MTE

N

NA

[énna] Valeur associée à l'absence de donnée dans un tableau.

N/C

Valeur associée à la non-connaissance de donnée dans un tableau.

Netex

NLP

No-SQL

Normalisation

Notebook

O

Objet

ODbL

OpendatArchives

Site internet compilant et archivant un (grand) ensemble de données ouvertes, créé et maintenu par Christian Quest.

OpenOffice

Ontologie

OpenData

Données ouvertes, sans limite de réutilisation, hormis celle de mentionner la source (paternité) et le millésime (date de la donnée). Dans certains cas, nécessite également de repartager à l'identique, soit en opendata. Voir le terme licences pour plus de détails.

OpenFoodFacts

OSM

Output

P

PascalCase

Façon d'écrire des noms de colonnes ou des variables dans un code information en distinguant les éléments en initiant la première lettre en majuscules. Exemple : NomCommune au lieu de 'nom de la commune'

Relié : snake_case, camelCase

Paternité

Citer la paternité d'un logiciel : action consistant à citer le producteur d'une base de données, le producteur pouvant être un individu, une structure (par ex. Ministère de l'Ecologie), un service (par ex. le service OpenData de la Métropole de Montpellier), ou une organisation (par ex. OpenStreetMap). En général, on associe à la paternité la licence* du jeu de données décidée par le producteur.

Patrimoine de données

Ensemble des données d'une structure.

PG

Pipeline

Plateforme

Portail

Postgre

PR

Pull Request

Il s'agit, sous github* ou gitlab* d'une contribution d'un utilisateur à un projet, attendant la validation de son administrateur. Cette contribution peut être de nature corrective (corriger un bug) ou évolutive (ajouter une fonctionnalité).

Producteur

C'est l'instance ayant initié un jeu de données et l'a produit pour le diffuser sous un certain format.

Programme informatique

Voir aussi : script

Privacy by Design

Mode de conception de sites web, de portails et de plateformes visant à intégrer par défaut le respect des données personnelles de ses utilisateurs.

Pseudonymisation

Procédé d'anonymisation visant à sustituer dans un fichier de données, toute mention d'un individu identifiable par exemple par un prénom et un nom, par un pseudonyme

Python

Logiciel de programmation très populaire, créé par Guido Van Rossum, avec des contraintes d'indentation.

R

R

Logiciel de statistiques libre et ouvert permettant aussi de créer des applications type dataviz.

Raffiner

Action visant à augmenter la valeur ajoutée d'une donnée en la rendant de meilleure qualité ou en l'enrichissant de variables à forte valeur ajoutée.

Rapport Bothorel

Raster

Image géoréférencée dans l'espace

Voir aussi : TIF

Redresser

Référence cadastrale

Identifiant d'une parcelle composé du code commune ou code INSEE*, de l'identifiant de section, de feuille cadastrale et du numéro parcellaire.

Référentiel

Relations

Reproductible

Se dit d'un code ou d'un algorithme dont l'ouverture et la facilité d'exécution assurent la réplicabilité par tout utilisateur.

RDF

Requête

Se dit en général d'un calcul exécuté dans un système de gestion de bases de données relationnelles pour extraire certaines informations d'une ou de plusieurs tables*.

Voir aussi : SQL

Réutilisable

Se dit d'une donnée pouvant être ouverte et exploitée facilement. Dépend en général de l'interopérabilité format choisi, de la complexité structurelle et du niveau de documentation associé (richesse des méta-données)

Réutiliser

Action d'exploiter une donnée, par exemple pour en faire un article, un graphique, une carte, une API.

RGPD

Réglement Général pour la Protection des Données. Règlement européen protégeant les données personnelles des citoyens européens, notamment leur recueil sur les sites et plateformes internet.

RPG

Îlots agricoles avec le type de culture, supports pour définir le montant des aides aux agriculteurs, dans le cadre de la PAC (Politique Agricole Commune)

S

Schéma

Document listant les variables d'un fichier de données, et leur signification. Synonyme : standard

Scraping

Technique d'extraction de données et d'informations structurées depuis des pages web.

Script

Code informatique, visant par exemple à produire des indicateurs, ou à enrichir des données à partir de données initiales.

Voir aussi : programme

Self Data

Données à caractère personnel.

Sémantique

Sérendipidité

Faire un usage insoupçonné, par ex. d'une donnée.

Serveur

Service Public de la Donnée

Ensemble des données pivots et de référence à format impact économique et sociétal.

SGD

Superviseur.e Général.e de la Donnée. Personne chargée d'animer la communauté des producteurs de données, d'alimenter le catalogue de données ouvertes, d'accroître la qualité des données de son organisation, et d'augmenter leur niveau de réutilisation par des tiers. Voir CDO*

Shapefile

Format propriétaire d'ESRI, assez courant dans le monde du SIG*.

SHP

Extension du format propriétaire ESRI Shapefile

SIG

Système d'Information Géographique. Infrastructure, logiciels et bases de données visant à stocker, administrer et analyser des données à composante spatiale.

SIREN

SIRENE

Smart City

"Ville intelligente". Ville pilotée grâce à une série d'opérations automatisées, issues par exemple du recueil et de l'exploitation de données dans l'espace public. Ex. : éclairage intelligent activé au passage de personnes, prédiction des embouteillages et passage des camions-bennes, vidéo-surveillance.

Smart-Data

Données issues des smart cities, ou villes intelligentes. Il peut s'agir de données chaudes*, issues de capteurs de trafic automobile, de qualité de l'air.

snake_case

Façon d'écrire des noms de colonnes ou des variables dans un code information en séparant les éléments, non par des espaces, mais des underscores. Exemple : nom_commune au lieu de 'nom de la commune'.

Relié : camelCase*, PascalCase*

Source

Souveraines

SQL

Search Query Language. Langage permettant d'interroger des bases de données de type relationnelles.

Standard

Document listant les variables d'un fichier de données, et leur signification. Synonyme : schéma

Statistiques

Initialement, il s'agit de techniques mathématiques dédiées à analyser des données et en révéler certains motifs : corrélations, classifications. Terme également attribué aux données.

Système de projection

Grille de référence selon laquelle positionner des objets dans l'espace. Peut être de forme sphérique, conique, cylindrique,...

Ex. : WGS84, Pseudo-Mercator, RGF93

T

Table

Ou table de données. Peut identifier un tableau de données. Se dit généralement d'une table de données stockée dans une base de données relationnelle.

Voir MCD*

TableSchema

Format selon lequel décrire des données et établir des schémas ou standards de données.

Tableau

Fichier de données tabulaire constitué de lignes et de colonnes contenant des valeurs.

Tabulaire

Caractérise une forme ligne x colonne typique d'un tableau

Tag

Ensemble de clé/valeur utilisé par exemple dans OpenStreetMap.

Ex. : highway=residential, maxspeed=50

Text mining

Procédé d'extraction de données et d'informations dans des documents textuels.

TIF

Format d'image raster*

Trace

Qualifie les traces de consultation d'un internaute sur le web, ou bien le trajet d'un utilisateur de GPS.

Traitable

Trier

Action visant à ordonner une donnée, par exemple par ordre alphabétique, ou bien par une variable numérique telle que la population (de façon ascendante ou descendante).

V

Valider

Action consistant à valider un fichier de données, notamment sa qualité et son respect de certaines spécifications (sur sa structure, son contenu, son format).

Variable

Qualifie la colonne d'un tableau, contenant les caractéristiques associées aux entités ou lignes du tableau.

Versionnement

Sauvegarde d'un état bien précis et retrouvable du code, permettant de le tracer et de revenir à des versions antérieures de ce dernier.

Voir aussi : git

W

WKT

Well-Know Text

Formalisation d'une géométrie sous la forme d'une chaîne de caractères.

Ex. pour une ligne : LINESTRING(3 4,10 50,20 25)

Wikidata

Wikipedia

X

XLS

Extension des fichiers du logiciel de tableur Excel de la suite Office.

XML

Format de fichier contenant des données ou des informations encerclées par des balises. HTML, pour les pages web, en est dérivé.

Ex.

   <person id="mrajerison">
      <lastName>Rajerison, Matthew</lastName>
      <firstName>Mathieu</firstName>
   </person>

Contributeurs

  • Mathieu Rajerison
  • qui veut ?

Licence

CC-BY-SA

Clone this wiki locally