36
1 Vue d’ensemble Vue d’ensemble du Data warehousing et du Data warehousing et de la technologie OLAP de la technologie OLAP D’après l’article écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit Chaudhuri et Umeshwar Dayal Li Wanjing Rastoix Sylvia

1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

Embed Size (px)

Citation preview

Page 1: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

1

Vue d’ensemble Vue d’ensemble du Data warehousing et de du Data warehousing et de

la technologie OLAPla technologie OLAP

D’après l’article écrit en 1996 :An Overview of Data Warehousing and OLAP Technology de Surajit Chaudhuri et Umeshwar Dayal

Li Wanjing

Rastoix Sylvia

Page 2: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

2

Sommaire

1- Introduction 2- Architecture 3- Outils back end et utilitaires 4- Modèle conceptuel et outils front end 5- Méthodologie de Conception d’une BD 6- Meta-données et gestion de DW 7- Conclusion

Page 3: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

3

1- Introduction

a- Définition d’un data warehouse b- Exemples d’utilisateurs c- Modèle multidimensionnel d- Séparation nécessaire OLAP/OLTP e- Serveurs ROLAP et MOLAP f- Architecture d’un data warehouse

Page 4: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

4

1.a- Définition d’un data warehouse

Un Data warehouse est un entrepôt de données

Caractéristiques principales de ces données :intégrées non volatiles datées ou historiséesLa base est orientée sujet

But : permettre aux entreprises de prendre des décisions meilleures et de façon plus rapides.

Page 5: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

5

Rappel de vocabulaire

OLAP (On-Line Analytical Processing)

OLTP (On-Line Transaction Processing)

Différence entre les deux

Page 6: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

6

Rappel de vocabulaire (suite 1)

Data Mining

Le pincipe général du Data Mining est de creuser une mine (=Data Warehouse) pour rechercher un filon (=information).

Les principaux objectifs du Data Mining

Page 7: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

7

Rappel de vocabulaire (suite 2)

L’architecture OLAP consiste en trois services principaux :

Bases de données Serveur OLAP Module client

Page 8: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

8

1.b- Exemples d’utilisateurs

Croissance explosive ces dernières années. Beaucoup d’entreprises sont intéressées.

les entreprises de fabrication les services financiers les transports les télécommunications les services de santé

Page 9: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

9

1.c- Modèle multidimensionnel

Le modèle multidimensionnel facilite les analyses

Exemple de dimensions intéressantes en vente :le jour de la vente, le lieu de la vente, le vendeur, le produit vendu

Souvent, ces dimensions sont hiérarchisées : la date de vente peut être organisée en une hiérarchie (année, mois, jour).

Page 10: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

10

1.c- Modèle multidimensionnel (suite 1)

Représentation d’un modèle multidimensionnel

Lieu

Date

Produit

Page 11: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

11

1.c- Modèle multidimensionnel (suite 2)

La norme OLAP incluent des opérations sur les données multidimensionnelles  :

le drill-down.le roll-up.le slice_and_dice.le rotate ou pivoting.

Page 12: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

12

1.d- Séparation nécessaire OLAP/OLTP

Les BD opérationnelles sont faites pour supporter les opérations d'OLTP.

Dans un DW, on a besoin de données : parfois absentes dans les BD opérationnelles.  venant de beaucoup de sources hétérogènes.

Conclusion : Besoin d’une organisation spéciale Les DW sont implémentés séparément des BD

opérationnelles.

Page 13: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

13

1.e- Serveurs ROLAP et MOLAP

ROLAP Les data warehouses peuvent être implémentés sur

des SGBD relationnels appelé serveurs relationnels OLAP (ROLAP).

MOLAP Les serveurs multidimensionnels OLAP (MOLAP)

sont des serveurs qui stockent direstement des données multi-dimensionnelles dans des structures spéciales de données.

Page 14: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

14

1.f- Architecture d’un datawarehouse

Pour la construction et la maintenance d’un data warehouse :sélectionner un serveur OLAPdéfinir un schéma définir quelques requêtes complexes définir une architecture.

Plusieurs architectures possibles

Page 15: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

15

1.f- Architecture d’un datawarehouse (suite)

Data mart (magasin de données) : Un data mart est une vue partielle et orientée métier sur les données du Data warehouse

Data Mart du service marketing

Data Marts

Data Mart du service production

Page 16: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

16

Rappel de vocabulaire

Front end, avant-plan : interface avec l'utilisateur

Back end, arrière-plan : deux définitions possibles

Méta-données : Données sur les données. Ensemble des informations qui permettent de qualifier une donnée, par sa provenance, sa qualité, sa date de création ...

Page 17: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

17

2- Architecture

Architecture d’un data warehouse

Page 18: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

18

3- Outils back end et utilitaires

a- Nettoyage des données

b- Chargement

c- Rafraîchissement

Les DW emploient une variété d’outils pour les données des entrepôts.

Page 19: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

19

3.a- Nettoyage des données(data cleaning)

Problème : grands volumes de données augmentations de la probabilité d’anomalies dans les données.

Exemple d’anomalies

Page 20: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

20

3.b- Chargement (load)

Après leur extraction, leur nettoyage et leur transformation, chargement des données dans le data warehouse

Grand volumes de données mise à jour dans une petite période temps (souvent la nuit).

Intérêt du parallélisme

Page 21: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

21

3.c- Rafraîchissement(Refresh)

Rafraîchissement : propagation des changements sur les données sources pour la mise à jour.

Deux questions : quand rafraîchir, et comment rafraîchir ?

Définir une politique de rafraîchissement

Page 22: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

22

4- Modèle conceptuel et outils front end

a- Modèle multidimensionnel

b- Outils front end

Page 23: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

23

4.a- Modèle multidimensionnel

modèle conceptuel = modèle multidimensionnelle

Dimensions : Produit, Ville, Date

Hiérarchies de dimension :

Date

Produit

Ville

Secteur industriel

Catégorie

Produit

Pays

Région

Ville

Année

Mois

Jour

Page 24: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

24

4.b- Les outils front end

Les analystes utilisent beaucoup les tableurs. Problème : Comment supporter les opérations d’un

tableur sur d’énormes bases de données ?

Le tableur est l’application front end la plus contraignante d'OLAP

Nous allons voir une description brève des opérations principales qui sont supportées par les applications multidimensionnelles

Page 25: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

25

4.b- Les outils front end (suite 1)

Pivoting ou rotating

pivotement ou rotation, ré-oriente la vue de des données multidimensionnelles.

Page 26: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

26

4.b- Les outils front end (suite 2)

Drill-down  " plonger" dans une information afin de connaître le

détail des données qui ont initialement servi à la constituer.

Roll-up : c’est l’opération contraire du drill-down.

Page 27: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

27

Slice_and_dice : sélection et projection.

4.b- Les outils front end (suite 3)

Conclusion : Variété d'outils de data mining utilisés comme des outils front_end sur les data warehouses.

Page 28: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

28

5- Méthodologie de Conception d’une Base de données

a- Nécessité de nouveaux diagrammes

b- Schéma en étoile

c- Schéma en flocons de neige

Page 29: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

29

MOLAP pas besoin de concevoir des schémas

ROLAP concevoir des schémas de BD relationnelles qui tiennent compte des dimensions

Les diagrammes objets classiques sont inadéquates car ils ne prennent pas les dimensions en compte.

5.a- Nécessité de nouveaux diagrammes

Page 30: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

30

La plupart des DW emploient un schéma en étoile Problème : pas de hiérarchies d'attributs.

5.b- Schéma en étoile

Page 31: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

31

Schémas en flocons de neige = amélioration des schémas en étoile car normalisés

5.c- Schéma en flocons de neige

Les schémas en étoile bien que non normalisé reste pratiques pour passer les dimensions en revue.

Page 32: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

32

6- Meta-données et gestion de data warehouse a- Les méta-données administratives

b- Les méta-données d’affaires

c- Les méta-données opérationnelles

Page 33: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

33

6.a- Les méta-données administratives

Elles incluent toutes les informations nécessaires pour l'établissement et l’utilisation d'un DW

Page 34: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

34

6.b- Les méta-données d’affaires(business metadata)

Elles incluent :

des termes et des définitions d'affaires, La propriété (l’appartenance) des données, des politiques de remplissage du DW.

Page 35: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

35

6.c- Les méta-données opérationnelles Elles incluent les informations qui sont rassemblées

pendant l'opération de stockage :

le suivi des données qui ont migrées et qui ont été transformées

l’état des données dans l'entrepôt des informations de contrôle

Page 36: 1 Vue densemble du Data warehousing et de la technologie OLAP Daprès larticle écrit en 1996 : An Overview of Data Warehousing and OLAP Technology de Surajit

36

7- Conclusion

Beaucoup de produits commerciaux et de services

Mais plusieurs problèmes subsistent : le nettoyage des données l'optimisation des requêtesl’évaluation des coûtsl’utilisation du parallélisme, le partitionnementproblèmes de contrôle et de gestion des

ressources dans les DW