Ingestion des données

Modélisation des données

Modélisation de données

La modélisation des données est l’art de définir la bonne représentation et la bonne structure des données pour les différentes couches de l’architecture d’une solution analytique.

LES AVANTAGES

Les professionnels de Faction A possèdent les compétences et qualifications, autant fonctionnelles que techniques, pour bien définir la modélisation des données spécifiques aux différentes couches de l’architecture retenue de la solution analytique.

Les spécialistes de Faction A connaissent et ont l’expérience des différentes techniques de modélisation des données des solutions analytiques. Faction A possède le savoir-faire pour livrer de la qualité rapidement selon les règles de l’art.

Le processus

Dépendamment des choix d’architecture établis, on peut y retrouver différents modèles comme par exemple celui de la zone de réception, de l’entrepôt de données, des comptoirs des données, des cubes.

Il faut établir des bons choix parmi les techniques de modélisation des données. Dépendamment des couches d’architecture et des façons de stocker les données, plusieurs techniques peuvent être envisagées pour structurer les données et les rendre facilement et rapidement accessibles.

Les choix à faire sur les différentes techniques :

  • troisième forme normale(3NF);
  • modélisation multidimensionnelle-schéma en étoile;
  • ou Data Vault 2.0.


Plusieurs facteurs sont à considérer pour établir les choix les plus appropriés comme par exemple :

  • l’historique de données;
  • le volume de données et la performance;
  • les besoins en versionnement des données;
  • la capacité d’évolution;
  • le décommissionnement de système opérationnel, etc.

L’utilisation de la technique de modélisation « Data Vault » est de plus en plus répandue et permet d’assurer la flexibilité et de rendre la solution optimale. Cette façon de faire permet également de minimiser les impacts et les efforts lors de changements aux règles d’affaires ou au niveau de granularité requis.

Pour établir les bonnes structures de données, il faut comprendre :

  • les besoins informationnels;
  • les règles d’affaires et les données sous-jacentes;
  • les niveaux de granularité;
  • les niveaux d’agrégations ainsi que les différentes couches de l’architecture de la solution analytique.


Il faut saisir et définir :

  • les bons concepts d’affaires;
  • les faits;
  • les dimensions.


Standardiser :

  • les attributs;
  • les données maîtres;
  • et les relations.

L’application des éléments spécifiques au chargement de données, à la gestion des erreurs, à l’intégrité des données, à l’identification unique des enregistrements, à la gestion des clés ainsi qu’au versionnement et au référentiel de temps doit être introduite à la modélisation des données. De plus, c’est à ce moment que la définition sémantique des éléments est établie.

Des ateliers et révisions en continu des modèles avec les différents architectes sont tenus afin de réaliser les activités requises et ce dans un contexte de livraison itérative et incrémentielle ou la modélisation est détaillée et implémentée dans un modèle de données physique pour les besoins prioritaires.

Les biens livrables

1- Un ou des modèles de données selon les couches de l’architecture de la solution analytique.

Modèles données analytique Normalisé
Modèles données analytique Modèle multi
Modèles données analytique Data-vault

2- Implémentation du ou des modèles dans les technologies ciblées.

Outils et technologies utilisées

  • Implémentation du ou des modèles dans les engins de stockage de Microsoft comme Azure SQL Database, Azure SQL Datawarehouse, Azure Data Lake Store, SQL Server.
  • Représentation graphique dans des outils comme Visio, Visual Studio Team Service (VSTS-Azure DEVOPS)
  • Outils de bureautique et de collaboration ex. Word, Excel, Microsoft Teams, Skype