-
Notifications
You must be signed in to change notification settings - Fork 3
Glossaire de la data et de l'opendata
Une proposition de glossaire de la data et de l'opendata.
Si vous avez idées de nouveaux termes ou bien de définitions (si possible concises), n'hésitez pas à contribuer
Il y a aussi le glossaire amusant de la data et de l'opendata
Voir l'article sur teamopendata à l'occasion de l'OpenDataDay2022
Personne chargée d'administrer le patrimoine* de données d'une structure, ou du serveur de bases de données de celle-ci.
Mode de gestion et de conduite de projet fondé sur l'incrémentation, l'itération et la prise en compte rapide du retour utilisateurs.
Action de calculer des indicateurs par groupe : sommes, médianes, moyennes, comptages,...
Séquence ordonnée d'opérations visant à résoudre un problème
Action visant à enlever toute mention d'information à caractère personnel dans des fichiers : prénom, nom, par exemple. Voir Pseudonymisation*
[appéi]
Se dit d'une colonne d'un fichier de type tabulaire. Synonyme : colonne, variable
[bane] Base Adresse Nationale. Base ouverte d'adresses.
Qualifie des données non synthétiques, proches de l'origine, conformes dans leur structure et leur contenu à ce qu'elles étaient au départ, au plus près de leur recueil.
Façon d'écrire des noms de colonnes ou des variables dans un code informatique en écrivant la première lettre de chaque élément en majuscules, et le reste en minuscules, sauf pour le premier élément.
Ex. : nomCommune au lieu de 'nom de la commune'
Relié : snake_case, PascalCase
Comma Separated Value. Il s'agit d'un fichier texte où chaque colonne est séparée par une virgule. Il très utilisé dans le milieu de la Data, et aussi très apprécié pour son haut niveau d'interopérabilité.
Chief Data Officer
Cellule d'un tableau : contient une valeur numérique, littérale ou alpha-numérique* ou une date ou une heure. A la croisée d'une ligne et d'une colonne d'un tableau.
Se dit d'une donnée mise à jour fréquemment, par exemple issue de capteurs
Mécanisme d'association d'une variable (clé) avec une valeur. Par exemple utilisé dans JSON. Exemple : {'age' : 39}
Identifiant d'une table* de données
Position dans l'espace d'un objet (en X et Y, ou en longitude, latitude)
Voir : long lat
Données. Peut englober les données ouvertes (OpenData), personnelles (SelfData), des villes intelligentes (Smart Data)
Terme utilisé pour signifier des décisions ou des politiques publiques pilotées par l'analyse de données.
Littératie à la donnée. Se dit de l'acculturation au monde du numérique, notamment celui de la donnée : savoir lire un fichier de données, accéder et trouver des statistiques par soi-même.
Spécialiste de l'intelligence artificielle, chargé d'analyser des données grâce à aux statistiques et aux techniques d'apprentissage machine (Machine Learning).
Action de promotion ou d'auto-promotion de la transparence consistant à communiquer en grande pompe sur un ou plusieurs jeux de données qui s'avèreront au final de faible impact et faible valeur, soit du fait de leur trop faible précision, soit du fait de leur faible qualité ou niveau de réutilisabilité.
data.gouv.fr : portail national des données ouvertes
Jeu de données. Ensemble de fichiers de données pour un sujet ou une thématique donnés.
Datavisualisation. Représentations visuelles des données sous la forme de graphiques, de cartes, d'applications interactives.
Data Definition Language
Langage de programmation pour manipuler les structures de données d'une base de données (noms des colonnes, types), et non les données elles-mêmes (non le contenu).
Pensée Design.
Mode de création de produit (application, solution) fondé sur le prototypage, le retour utilisateurs et l'itération.
Direction Interministérielle du Numérique
Direction Interministérielle de la Transformation Publique
Deep Learning. Techniques d'intelligence artificielle basées sur des réseaux de neurones.
Action de contextualiser ou de faire connaître le contenu d'un jeu de données, soit de produire des méta-données*
Délégué Général à la Protection des Données, en charge de la bonne mise en oeuvre du RGPD dans son organisation.
Entrepreneurs d'Intérêt Général
European Petroleum Survey Group.
Groupe créé en 1985 ayant attribué des codes aux systèmes de projection
Voir aussi : système de projection
Ex. : EPSG:4326 (WGS84, en général pour les GPS), EPSG:2154 (Lambert 93, adapté au territoire métropolitain, voire européen)
Etalab est une Mission de la DINUM* chargée, entre autres, d'alimenter et faire évoluer le portail data.gouv.fr
Logiciel Extract-Transform-Load permettant d'extraire de la donnée de différents entrepôts de données, de la transformer pour l'intégrer sous une autre forme dans ces mêmes entrepôts*, ou la migrer sous d'autres entrepôts.
Logiciel permettant de produire des tableaux de données et de faire des graphiques. Equivalent libre : OpenOffice ou LibreOffice
Se dit d'un algorithme dont le code a été rendu public et en même temps expliqué soit par des termes simples, soit par un procédé de facilitation graphique visant à mieux en comprendre la logique ainsi que la finalité.
Technique d'extraction et de validation de chaîne de caractères selon certains formats, par exemple des numéros de téléphone, des mails, des dates.
Floating Car Data.
Fichier ayant une présence physique dans le répertoire d'un ordinateur, que l'on peut en général déplacer d'un dossier à un autre.
Ex. : fichier Excel, ods
Aussi appelée matrice cadastrale, les fichiers fonciers sont les informations associées aux parcelles cadastrales du territoire.
Processus collaboratif d'indexation, voire de structuration et de description de base de données basé sur un système de tags, à savoir un ensemble clé/valeur (tag/key en anglais), utilisé dans certains projets de bases de données collaboratives comme OpenStreetMap.
Ex. : dans OpenStreetMap, la clé (ou key) amenity
peut avoir plusieurs valeurs (value) telles que cafe
, biergarten
, fast_food
. L'ensemble clé/valeur portant le nom de tag peut ainsi être amenity=cafe
Type d'un fichier, par exemple Excel, plat, JSON, ODS. L'extension* d'un fichier définit souvent son format.
Se dit d'une donnée récente
Voir aussi : froide, chaude
Se dit d'une donnée mise à jour peu fréquemment, telle des données de recensement général de population mises à jour de façon pluri-anuelle.
Google Apple Facebook Amazon Microsoft
Process visant à attribuer des coordonnées* géodésiques à des entités, par exemple en fonction de leur adresse.
Voir aussi : BAN, BANO
Donnée géographique
Extension du format JSON pour la géographie.
Qualifie la composante spatiale d'une donnée géographique.
Système de versionnement* et de traçage du code
Format de données spatial libre, proche de Spatialite.
Géoportail de l'Urbanisme
Grain, précision ou échelle d'appréciation d'une donnée. Plus une donnée est granulaire et plus elle est précise. Les opérations d'agrégation* réduisent la granularité d'une donnée.
Ex. : donnée à l'adresse plutôt qu'à l'IRIS*
Se réfère en général à des données relationnelles, sous forme de réseaux, à savoir des noeuds (nodes) connectés par arêtes (edges).
Ex. : données généalogiques, qui-suit-qui de twitter, transactions financières.
Peut aussi qualifier un graphique
Relié : théorie des graphes
General Transit Feed Specification. Format de données, créé par Google, visant à décrire un réseau de bus dans son ensemble : points d'arrêts, horaires et lignes.
[aïedi] Identifiant unique attribué à une ligne de base de données.
Action visant à prédire une valeur là où elle était absente.
Ex. : imputation de données de trafic routier, suite à la défaillance d'un compteur
Action visant à prédire une valeur.
Institut national de la statistique et des études économique. Organisme public administrant et produisant des statistiques publiques en particulier sur la société, la démographie.
Internet of Things
Internet des Objets
Domaine associé à la domotique ou à l'interaction d'objets du quotidien (montres, réfrigérateurs, télévision) avec le web.
Subdivision du territoire inférieure à la commune (infracommunale), proche des quartiers d'une ville, contenant autour de 2000 habitants.
[jizon (ou djeillezonne, chacun son école)]Format de donnée hiérarchique couramment utilisé dans le web, et les API
Façon d'écrire des noms de colonnes ou des variables dans un code information en séparant les éléments par un tiret -
. Exemple : nom-commune au lieu de 'nom de la commune'. A noter qu'il est peu utilisé dans les données ou les codes informatiques pour éviter la confusion avec l'opération de soustraction. On le trouve davantage dans des noms de dossiers : mon-dossier
Relié : snake_case, camelCase, PascalCase
Conditions spécifiques d'utilisation et de partage des données. Parmi celles-ci, on peut citer la Licence Ouverte ou la licence ODbL.
Données de levé Lidar réalisés par l'IGN pour reconstituer le relief en France de façon très précise.
Entité d'un tableau de données, à laquelle sont associées certaines caractéristiques ou variables. Par exemple, une commune à laquelle sont associées la population, la superficie.
[hello] Licence Ouverte
Aussi appelée Loi Pour une République Numérique. Datant de 2016, elle promulgue l'opendata par défaut pour les données, sauf certaines exceptions telles que des données dont la connaissance pourrait porter atteinte à la sécurité intérieure, ou de données médicales et personnelles.
Loi d'Orientation des Mobilités
Qualifie les coordonnées longitude, latitude GPS d'un point dans l'espace.
Loi Pour une République Numérique. Aussi appelée Loi Lemaire.
Machine Learning. Techniques statistiques visant à prédire, classer les entités d'un tableau ou d'une base de données, sur la base d'un apprentissage supervisé ou non par un humain.
Mise A Jour de l'Information Cadastrale. Base de données appelée aussi matrice cadastrale ou fichiers fonciers*
Modèle Conceptuel de Données : modélisation d'une base de données sous la forme de tables* liées par des relations d'appartenance de plusieurs types de cardinalités (une entité appartient à une entité, ou à plusieurs, ou plusieurs entités peuvent appartenir aux mêmes entités).
Ex : une table commune et une table département. Une commune appartient à un seul département. Un département contient plusieurs communes.
Méta-données*
Données sur les données. Il s'agit principalement de l'identité du producteur de la donnée, de sa date de création, de son mode de fabrication (généalogie), de son emprise géographique, du contexte et de l'objectif poursuivi par la production de la donnée.
Date (en général, l'année) de production d'une donnée.
Machine Learning*
Modèle Physique de données. Déclinaison opérationnelle et pratique dérivée d'un Modèle Conceptuel de Doonnées (MCD*)
[énna] Valeur associée à l'absence de donnée dans un tableau.
Valeur associée à la non-connaissance de donnée dans un tableau.
Site internet compilant et archivant un (grand) ensemble de données ouvertes, créé et maintenu par Christian Quest.
Données ouvertes, sans limite de réutilisation, hormis celle de mentionner la source (paternité) et le millésime (date de la donnée). Dans certains cas, nécessite également de repartager à l'identique, soit en opendata. Voir le terme licences pour plus de détails.
Façon d'écrire des noms de colonnes ou des variables dans un code information en distinguant les éléments en initiant la première lettre en majuscules. Exemple : NomCommune au lieu de 'nom de la commune'
Relié : snake_case, camelCase
Citer la paternité d'un logiciel : action consistant à citer le producteur d'une base de données, le producteur pouvant être un individu, une structure (par ex. Ministère de l'Ecologie), un service (par ex. le service OpenData de la Métropole de Montpellier), ou une organisation (par ex. OpenStreetMap). En général, on associe à la paternité la licence* du jeu de données décidée par le producteur.
Ensemble des données d'une structure.
Pull Request
Il s'agit, sous github* ou gitlab* d'une contribution d'un utilisateur à un projet, attendant la validation de son administrateur. Cette contribution peut être de nature corrective (corriger un bug) ou évolutive (ajouter une fonctionnalité).
C'est l'instance ayant initié un jeu de données et l'a produit pour le diffuser sous un certain format.
Voir aussi : script
Mode de conception de sites web, de portails et de plateformes visant à intégrer par défaut le respect des données personnelles de ses utilisateurs.
Procédé d'anonymisation visant à sustituer dans un fichier de données, toute mention d'un individu identifiable par exemple par un prénom et un nom, par un pseudonyme
Logiciel de programmation très populaire, créé par Guido Van Rossum, avec des contraintes d'indentation.
Logiciel de statistiques libre et ouvert permettant aussi de créer des applications type dataviz.
Action visant à augmenter la valeur ajoutée d'une donnée en la rendant de meilleure qualité ou en l'enrichissant de variables à forte valeur ajoutée.
Image géoréférencée dans l'espace
Voir aussi : TIF
Identifiant d'une parcelle composé du code commune ou code INSEE*, de l'identifiant de section, de feuille cadastrale et du numéro parcellaire.
Se dit d'un code ou d'un algorithme dont l'ouverture et la facilité d'exécution assurent la réplicabilité par tout utilisateur.
Se dit en général d'un calcul exécuté dans un système de gestion de bases de données relationnelles pour extraire certaines informations d'une ou de plusieurs tables*.
Voir aussi : SQL
Se dit d'une donnée pouvant être ouverte et exploitée facilement. Dépend en général de l'interopérabilité format choisi, de la complexité structurelle et du niveau de documentation associé (richesse des méta-données)
Action d'exploiter une donnée, par exemple pour en faire un article, un graphique, une carte, une API.
Réglement Général pour la Protection des Données. Règlement européen protégeant les données personnelles des citoyens européens, notamment leur recueil sur les sites et plateformes internet.
Îlots agricoles avec le type de culture, supports pour définir le montant des aides aux agriculteurs, dans le cadre de la PAC (Politique Agricole Commune)
Document listant les variables d'un fichier de données, et leur signification. Synonyme : standard
Technique d'extraction de données et d'informations structurées depuis des pages web.
Code informatique, visant par exemple à produire des indicateurs, ou à enrichir des données à partir de données initiales.
Voir aussi : programme
Données à caractère personnel.
Faire un usage insoupçonné, par ex. d'une donnée.
Ensemble des données pivots et de référence à format impact économique et sociétal.
Superviseur.e Général.e de la Donnée. Personne chargée d'animer la communauté des producteurs de données, d'alimenter le catalogue de données ouvertes, d'accroître la qualité des données de son organisation, et d'augmenter leur niveau de réutilisation par des tiers. Voir CDO*
Format propriétaire d'ESRI, assez courant dans le monde du SIG*.
Extension du format propriétaire ESRI Shapefile
Système d'Information Géographique. Infrastructure, logiciels et bases de données visant à stocker, administrer et analyser des données à composante spatiale.
"Ville intelligente". Ville pilotée grâce à une série d'opérations automatisées, issues par exemple du recueil et de l'exploitation de données dans l'espace public. Ex. : éclairage intelligent activé au passage de personnes, prédiction des embouteillages et passage des camions-bennes, vidéo-surveillance.
Données issues des smart cities, ou villes intelligentes. Il peut s'agir de données chaudes*, issues de capteurs de trafic automobile, de qualité de l'air.
Façon d'écrire des noms de colonnes ou des variables dans un code information en séparant les éléments, non par des espaces, mais des underscores. Exemple : nom_commune au lieu de 'nom de la commune'.
Relié : camelCase*, PascalCase*
Search Query Language. Langage permettant d'interroger des bases de données de type relationnelles.
Document listant les variables d'un fichier de données, et leur signification. Synonyme : schéma
Initialement, il s'agit de techniques mathématiques dédiées à analyser des données et en révéler certains motifs : corrélations, classifications. Terme également attribué aux données.
Grille de référence selon laquelle positionner des objets dans l'espace. Peut être de forme sphérique, conique, cylindrique,...
Ex. : WGS84, Pseudo-Mercator, RGF93
Ou table de données. Peut identifier un tableau de données. Se dit généralement d'une table de données stockée dans une base de données relationnelle.
Voir MCD*
Format selon lequel décrire des données et établir des schémas ou standards de données.
Fichier de données tabulaire constitué de lignes et de colonnes contenant des valeurs.
Caractérise une forme ligne x colonne typique d'un tableau
Ensemble de clé/valeur utilisé par exemple dans OpenStreetMap.
Ex. : highway=residential
, maxspeed=50
Procédé d'extraction de données et d'informations dans des documents textuels.
Format d'image raster*
Qualifie les traces de consultation d'un internaute sur le web, ou bien le trajet d'un utilisateur de GPS.
Action visant à ordonner une donnée, par exemple par ordre alphabétique, ou bien par une variable numérique telle que la population (de façon ascendante ou descendante).
Action consistant à valider un fichier de données, notamment sa qualité et son respect de certaines spécifications (sur sa structure, son contenu, son format).
Qualifie la colonne d'un tableau, contenant les caractéristiques associées aux entités ou lignes du tableau.
Sauvegarde d'un état bien précis et retrouvable du code, permettant de le tracer et de revenir à des versions antérieures de ce dernier.
Voir aussi : git
Well-Know Text
Formalisation d'une géométrie sous la forme d'une chaîne de caractères.
Ex. pour une ligne : LINESTRING(3 4,10 50,20 25)
Extension des fichiers du logiciel de tableur Excel de la suite Office.
Format de fichier contenant des données ou des informations encerclées par des balises. HTML, pour les pages web, en est dérivé.
Ex.
<person id="mrajerison">
<lastName>Rajerison, Matthew</lastName>
<firstName>Mathieu</firstName>
</person>
- Mathieu Rajerison
- qui veut ?
CC-BY-SA