61
MTI820 Entrepôtsde données et intelligence d’affaires Architecture des entrepôts de données Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 1

Architecture des entrepôts de données

  • Upload
    phamtu

  • View
    234

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Architecture des entrepôts de données

MTI820 −Entrepôtsdedonnéesetintelligenced’affaires

Architecturedesentrepôtsdedonnées

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 1

Page 2: Architecture des entrepôts de données

Lecycledevied’unprojetenBI• Diagrammedefluxdetravail:

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 2

Planificationdeprojet/programme

Définitiondes

besoinsd’affaires

Conception del’architecturetechnique

Modélisationdesdonnées

Conception desapplicationde

BI

Sélectionetinstallationdes

produits

Conceptionphysique

Conception etdéveloppementdusystèmeETL

Développementdesapplications

deBI

Déploiement

Croissance

Maintenance

Gestiondeprojet/programme

Page 3: Architecture des entrepôts de données

Questions• Àquoisertleplanarchitectureld’unesolutiondeBI?

• Quelssontlesfacteurspouvantavoirunimpactsurl’architecturedelasolution?

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 3

Page 4: Architecture des entrepôts de données

Architecturetechnique

• Besoinsd’affaires:– « Quedoit-onfaire? »

• Architecture:– « Commentallons-nouslefaire ?»

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 4

Page 5: Architecture des entrepôts de données

Lavaleurdel’architecture• Encouragelasatisfactiondesbesoins:– Lesbesoinstechniquesdériventdesbesoinsd’affaires;– Documentsd’architecture.

• Facilite lacommunication:– Illustrelesdifférentsrôlesauseindusystème;– Communiquelacomplexitéduprojetauxcadressupérieurs.

• Aideàlaplanification:– Regroupetouslesdétailstechniques;– Identifiedesdépendancesetdenouveauxdebesoins.

• Flexibilité,productivitéetmaintenance:– Métadonnées,sélectiond’outils,etc.

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 5

Page 6: Architecture des entrepôts de données

Facteursàconsidérer• L’interdépendanceinformationnelleentrelesunitésde

l’entreprise– Ex:bonneintégration(ex:MDM)VSsilosdedonnées

• Lessourcesdedonnées– Ex:1sourceVS10sources,ERPVSlegacy,etc.

• Laquantitédesdonnées– Ex:gigaoctets VSteraoctets

• Lalatencedesdonnées– Ex:mise-à-jourhebdomadaireVStemps-réel

• L’urgenced’obtenirunesolutionfonctionnelle– Ex:entrepôtd'entreprise(EDW)VSmagasindedonnées

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 6

Page 7: Architecture des entrepôts de données

Facteursàconsidérer• Lenombred'utilisateurs

– Ex:10-50utilisateursvs50-200utilisateurs

• Lanaturedestâchesdesutilisateursfinaux– Ex:rapportssimplesVSfouillededonnées

• Lescontraintessurlesressources– Ex:financières,maind'œuvre,biaistechnologique,etc.

• Lesobjectifsduprojet– Ex:stratégiqueVSopérationnel

• Autresfacteurs– Ex:politiques,habilitésdupersonnelTI,etc.

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 7

Page 8: Architecture des entrepôts de données

Questions• Quelleestladifférenceentreunmagasindedonnéesetun

entrepôtdedonnées?

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 8

Page 9: Architecture des entrepôts de données

Lesmagasins dedonnées(datamart)

• Caractéristiques:– Contientuneportion ducontenudel’entrepôtdedonnées;

– Seconcentresur1sujetd’analyse• Ex:lesventesOUleslivraisons,maispaslesdeux;

– Sertàfairedesanalysessimplesetspécialisées• Ex:lesfluctuationsdesventesparcatégoriedeproduits;

– Nombredesourceslimitées,provenantlaplupartdutempsd’unmêmedépartement;

– ProcessusETLrelativementsimple– Mêmeprocessusdeconceptionquelesentrepôtsdedonnées,maisdemandemoinsderessources.

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 9

Page 10: Architecture des entrepôts de données

Magasins dedonnéesvsEDWCaractéristique Magasin dedonnées Entrepôtdedonnées(EDW)

Portée Undomained’analyse Plusieursdomainesd’analyse

Tempsdedéveloppement Mois Années

Coûtsdedéveloppement $10,000à$100,000 + $1,000,000+

Complexité dedéveloppement Faibleàmoyenne Grande

Tailledesdonnées MbàplusieursGb Gbjusqu’àplusieursPb

Horizondesdonnées Courantesethistoriques La plupartdutempshistoriques

Transformation desdonnées Faibleàmoyenne Importante

Fréquencedesmises-à-jour Horaire, journalier ouhebdomadaire

Peut aller jusqu’àmensuel

Nombre d’utilisateurssimultanés Dizaines Centainesàmilliers

Typesd’utilisateur Analystesdansledomainespécifique etgestionnaires

Analysted’entreprise etcadresseniors

Objectifs d’affaires Optimisationdesactivités dansledomainespécifique

Optimisation inter-fonctionnelle etsupportàladécision

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 10

Source:E.Turban,R.Sharda,D.Delen etD.King(2010).« Businessintelligence: Amanegerial approach »,Pearson.

Page 11: Architecture des entrepôts de données

Questions

• Quellessontlesdifférentesarchitecturesd’entrepôtsdedonnées?

• Quellessontlescritèrespermettantdecomparerdifférentesarchitectures?

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 11

Page 12: Architecture des entrepôts de données

Lesarchitecturesd’entrepôtsdedonnées

1. Magasinsdedonnéesindépendants

2. Architectureenbusdemagasinsdedonnées

3. ArchitectureHub-and-spoke

4. Entrepôtdedonnéescentralisé

5. Architecturefédérée

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 12

Page 13: Architecture des entrepôts de données

Magasins dedonnéesindépendants

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 13

StagingAreaSource1 Datamart 1

Systèmessource

Source2

Source3

ETL

Datamart 2

Datamart 3

silosdedonnées

Datamartsindépendants Utilisateurs

StagingArea

StagingArea

App1

Reporting

App2

App3

Page 14: Architecture des entrepôts de données

Magasins dedonnéesindépendants

• Caractéristiques:– Lesdatamarts sontdéveloppésetopèrentdemanièreindépendante;

– Lesdonnéessontdisposéesen« silosfonctionnels»;– Pasdedimensionsconformes.

• Avantages/inconvénients:(+) Architecturelaplussimpleetlamoinscoûteuseàdévelopper;(−) Incohérencesetredondancesentrelesdatamarts(−) Iln’yapasuneseule versiondelavérité;(−) Analyseinter-fonctionnelledifficileouimpossible;(−) Visionlimitée,pasextensible.

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 14

Page 15: Architecture des entrepôts de données

Busdemagasinsdedonnées

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 15

StagingArea

Source1 Datamart 1

Systèmessource

Source2

Source3

ETL

Datamart 2

Datamart 3

Datamarts liéspardimensionsconformes Utilisateurs

Infrastructure

dere

porting

Reporting

Entrepôtdedonnéesconceptuel

Page 16: Architecture des entrepôts de données

Busdemagasinsdedonnées• Caractéristiques:

– Approchebottom-up,proposéeparR.Kimball;– Datamartsdéveloppésparsujet/processusd’affaires,ensebasant

surdesdimensionsconformes;– Modélisationdimensionnelle(schémaenétoile),aulieudumodèle

entité-relation(ex:3FN);– Entrepôtdedonnéesconceptuel,formédemagasinsdedonnées

inter-reliésàl’aided’unecouched’intergiciels (middleware).

• Avantages/inconvénients:(+) Intégrationdesdonnéesassuréeparlesdimensionsconformes;(+) Approcheincrémentale(processuslesplusimportantsd’abord);(+) Donnedesrésultatsrapidement;(−) Itérationsfuturesplusdifficilesàplanifier;(−) Performancesous-optimaledesanalysesimpliquantplusieurs

datamarts.Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 16

Page 17: Architecture des entrepôts de données

ArchitectureHub-and-spoke(Corporate InformationFactory)

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 17

StagingArea

Source1 Datamart 1

Systèmessource

Source2

Source3

ETL

Datamart 2

Datamart 3

Entrepôtdedonnéesd’entreprise

Utilisateurs

Infrastructure

dere

porting

Reporting

EDW

Datamartsdépendants

Concentrateur(hub)

Rayons(spokes)

Page 18: Architecture des entrepôts de données

ArchitectureHub-and-spoke• Caractéristiques:

– Approchetop-down,proposéeparB.Inmon etal.– Entrepôt(hub)contientlesdonnéesatomiques(c.-à-d.leniveaude

détailleplusfin)etnormalisées (3FN);– Lesdatamarts (spokes)reçoiventlesdonnéesdel’entrepôt;– Lesdonnéesdesdatamarts suiventlemodèledimensionneletsont

principalementrésumées(pasatomique);– Laplupartdesrequêtesanalytiquessontfaitessurlesdatamarts.

• Avantages/inconvénients:(+) Intégrationetconsolidationcomplèteetdesdonnéesde

l’entreprise;(+) Approcheitérativeetpotentiellementextensible(spokes);(−) Peutavoirdelaredondancededonnéesentrelesdatamarts;(−) Performancesous-optimaledesanalysesimpliquantplusieurs

datamarts.Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 18

Page 19: Architecture des entrepôts de données

Entrepôtdedonnéescentralisé

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 19

StagingArea

Source1

Systèmessource

Source2

Source3

ETL

Entrepôtdedonnéesd’entreprise

Utilisateurs

Infrastructure

dere

porting

Reporting

EDW

Page 20: Architecture des entrepôts de données

Entrepôtdedonnéescentralisé• Caractéristiques:

– SimilaireàHub-and-spoke,maissanslesdatamarts dépendants;– Gigantesqueentrepôtdedonnéesservantl’entrepriseentière;– Lesdonnéespeuventêtreatomiquesourésumées.

• Avantages/inconvénients:(+) Lesutilisateursontaccèsàtouteslesdonnéesdel’entreprise;(+) Intégration(ETL)etmaintenancefacilecarlesdonnéessontà

unseulendroit;(+) Performanceoptimale(ex:Appliancewarehouse,Teradata).(−)Longetcoûteuxàdévelopper;(−)Pasincrémental;(−) Extensibilitélimitéeoutrèscoûteuse.

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 20

Page 21: Architecture des entrepôts de données

Architecturefédérée

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 21

StagingArea

Source1

Systèmessource

Source2

Source3

ETL

Entrepôtsdedonnéesautonomes Utilisateurs

Infrastructure

dere

porting

Reporting

EDW1

EDW2

EDW3

(EDW)

Entrepôtdedonnées

virtuel

Metadonnées

Intégrationvirtuelle

Page 22: Architecture des entrepôts de données

Architecturefédérée• Caractéristiques:

– Entrepôtdedonnéesdistribuésurplusieurssystèmeshétérogènes;– Opèredemanièretransparente(l’utilisateurnevoitpasqueles

donnéessontréparties);– Donnéesintégréeslogiquementouphysiquementàl’aidedeméta-

données (ex:XML);– Complémenteplutôtqueremplace(selonlesexperts).

• Avantages/inconvénients:(+) Utilelorsqu’ilyadéjàunentrepôtenplace(ex:acquisitionsou

fusionsdecompagnies);(+) Demandepeuderessourcesmatériellesadditionnelles.(−) Trèscomplexe:synchronisation,parallélisme,concurrence,etc.(−) Peudecontrôlesurlessourcesetlaqualitédesdonnées;(−) Faibleperformance(maislatechnologies’améliore).

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 22

Page 23: Architecture des entrepôts de données

Comparaisonentrelesarchitectures• Popularité:

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 23

Architecture Fréquence

Hub-and-spoke 39%

Busdedatamarts 26%

Entrepôt centralisé 17%

Datamarts indépendants 12%

Entrepôts fédérés 4%

Source:T.AriyachandraetH.Watson(2005).« Keyfactors inselecting adatawarehouse architecture »,BusinessIntelligenceJournal,vol.10,no.2.

Page 24: Architecture des entrepôts de données

Comparaisonentrelesarchitectures• Critères:

– Qualitédel’information(précise,complète,cohérente);– Qualitédusystème(flexible,extensible,intégration);– Impactsurlesindividus(productivité,décisions,etc.);– Impactsurl’entreprise(satisfactiondesrequis,ROI,etc.).

• Résultats:

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 24

Source:T.AriyachandraetH.Watson(2005).« Keyfactors inselecting adatawarehouse architecture »,BusinessIntelligenceJournal,vol.10,no.2.

Architecture Qualitédel’information

Qualitédusystème

Impactsurlesindividus

Impactsurl’entreprise

Hub-and-spoke 5.35 5.56 5.62 5.24

Busdedatamarts 5.16 5.60 5.80 5.34

Entrepôtcentralisé 5.23 5.41 5.64 5.30

Datamarts indépendants 4.42 4.59 5.08 4.66

Entrepôts fédérés 4.73 4.69 5.15 4.77

Page 25: Architecture des entrepôts de données

Lemodèle DataVault• ProposéparDanLinstedt àlafindesannées90• Objectifs:

– Permettrederetracerfacilementl’informationauxsourcesdedonnées(ex:auditdedonnées);

– Êtrerobusteauxchangementsdumodèled’affaires(ex:relation1-N devenantN-N);

– Réduirelescontraintesreliéesauxrèglesd’affairesendifférantcelles-ci(ex:datamarts enaval);

– Permettreunchargementefficacedesdonnées

• Principedebase:– Séparerl’informationstructurelle(Hub+Link)desattributsdescriptifs(Satellites).

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 25

Page 26: Architecture des entrepôts de données

Lemodèle DataVault• Hub:

– Représentelesconceptscentrauxdel’entreprise(ex:Client,Vendeur,Produit,etc.);

– Modéliseuniquementlacléd’affairesduconcept(aucunattributdescriptif).

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 26

Clé primaire artificielle

Clé d’affaires

Dernier chargement (timestamp)

Sourcedel’enregistrement

HubProduitID

CodeProduit

ChargementTS

EnregistrementSrc

Structuregénérale Exemple:HubProduit

Note:stabilité assuréeparlaclé d’affairesquichangerelativementpeu souvent

Page 27: Architecture des entrepôts de données

Lemodèle DataVault• Link:

– Représentelesrelationsnaturellesentrelesclésd’affaires(ex:lienentreClientetProduit=Vente);

– Necontientaucunattributdescriptif.

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 27

Clé primaire artificielle

Clé artificielle Hub1

...

Clé artificielle HubN

Dernier chargement (timestamp)

Sourcedel’enregistrement

LinkTransactionID

HubClientID

HubProduitID

HubVendeurID

ChargementTS

EnregistrementSrc

Structuregénérale Exemple:LinkTransaction

Note:utilisé mêmepourlesrelations1-Net1-1

Page 28: Architecture des entrepôts de données

Lemodèle DataVault• Satellite:

– Contientl’informationdescriptivereliéeàunecléd’affaires(HubouLink);

– L’informationd’unmêmeHubouLinkpeutêtreséparéeenplusieursSatellites(selonlasource,fréquencedemiseàjour,etc.)

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 28

Clé primaire artificielle Hub

Dernier chargement (timestamp)

Attribut 1

...

Attribut N

Sourcedel’enregistrement

Structuregénérale Ex:SatelliteClient1

HubClientID

ChargementTS

Nom

Prénom

Adresse

EnregistrementSrc

SatelliteClient2

HubClientID

ChargementTS

DateNaissance

DatePremierAchat

...

EnregistrementSrc

Page 29: Architecture des entrepôts de données

13 DATA VAULT MODELING GUIDE | 5/15/2012

Sam

ple Data Vault M

odel

Fig. 15 Full D

ata Vault M

odel

Source:HansHultgren. IntroductoryGuidetoDataVaultModeling,2012.

Page 30: Architecture des entrepôts de données

Lemodèle DataVault• Chargementdesdonnées:– PuisquelesHubssontdécouplés(aucunecléétrangèred’unHubàunautre),onpeutleschargerenparallèle;

– MêmechosepourlesLinksetSatellites.

• Lienaveclamodélisationdimensionnelle:– LesHubsetleurSatellitescorrespondentauxtablededimension;

– LesLinksetleurSatellitescorrespondentauxtablesdefaits;– Ilfautappliquerlesrèglesd’affaireslorsqu’onchargelesdatamart (schémaenétoile)àpartirduDataVault.

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 30

Page 31: Architecture des entrepôts de données

Questions• Lesmagasins/entrepôtsdedonnéess’emploient-ilsdansun

contexteopérationnel(pasanalytique)?

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 31

Page 32: Architecture des entrepôts de données

Comptoirsdedonnéesopérationnelles(Operational datastore– ODS)

• Caractéristiques:– Intègrentetconsolidentdesdonnéesdesourceshétérogènesdanslebutdefacilitercertainesopérationsdel’entreprise;

– Peuventservirdesourceàdessystèmesopérationnelsouunentrepôtdedonnées;

– Contiennentrarementdesdonnéeshistoriques;

– Mettentàjourlesdonnéesaulieudelesajouter;

– Effectuentleschangementspresqueinstantanémentaulieudelesfaireenlot;

– Neremplacentpaslesentrepôtsdedonnées.

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 32

Page 33: Architecture des entrepôts de données

Comptoirsdedonnéesopérationnelles(Operational datastore– ODS)

• Utilisations:– Validerdesrèglesd’affairescomplexesimpliquantdesdonnéesdeplusieurssources;

– Analyserdesdonnéesconsolidéesen(quasi)temps-réel;

– SimplifierleprocessusETLd’unentrepôtdedonnées

• Exemplesd’applications:– Bancaire:validerentemps-réellasolvabilitéd’unclientappliquantpourunprêt,lorsquelescomptes,placements,etdossiersderisquedesclientssontgéréspardesapplicationsdifférentes;

– Télécom:suggérerunnouveauforfaitàunclientensebasantsursesstatistiquesrécentesd’utilisation.

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 33

Page 34: Architecture des entrepôts de données

Questions• Quefairelorsquel’entreprisen’apaslesmoyensd’acquérir

et/oumaintenirl’infrastructurenécessaireàl’entrepôtdedonnées?

• Quefairelorsquel’entreprisen’apasl’expertisepourinstalleretconfigurerlesressourcesmatérielles/logiciellesnécessairesàl’entrepôtdedonnées?

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 34

Page 35: Architecture des entrepôts de données

Entrepôtsdedonnéeshébergés(cloud)• Caractéristiques:– L’infrastructurematérielleetinformatiquerésidesurlesited’unfournisseur;

– L’entrepriselouel’infrastructure.– Deuxtypes:plate-formeentantqueservice(PaaS)oulogicielentantqueservice (SaaS)

• Avantages/inconvénients:(+) Minimisentl’investissementdansl’infrastructure;(+) Libèrentlesressourcesmatériellesethumainesde

l’entreprise;(+) Évitentlestâchesdemise-à-jouretdemaintenance;(−)Moinsrentableàlongterme;(−) Sécuritéetdomaineprivédesdonnées.

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 35

Page 36: Architecture des entrepôts de données

Entrepôtsdedonnéeshébergés(cloud)

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 36

Source:WayneEckerson,« CloudBIAdoption:Gauging Market Demand »,BeyeNetwork, 2011

Page 37: Architecture des entrepôts de données

Entrepôtsdedonnéeshébergés(cloud)

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 37

Source:TATAConsultancy Services, BusinessIntelligence ontheCloud:Overview andUseCases, 2012

Page 38: Architecture des entrepôts de données

Solutionscléenmain• DataWarehouse Appliance (DWA):

– Ensembleintégrédeserveurs,dispositifsdestockage,DBMS,systèmesd’exploitationetdelogicielspré-installésetpré-optimiséspourl’entreposagededonnées;

– Utilisentunearchitecturedetraitementmassivementparallèle;

– Solutionallantduterabyte aupetabyte.

• Avantages/inconvénients:(+) Faiblescoûtsdemise-en-placeetdemaintenance;(+) Bonnesperformanceetextensibilitédueàl’architecture

parallèle;(+) Permetd’obtenirrapidementdesbénéfices;(−) Achattrèsdispendieux($100K- $1M).

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 38

Page 39: Architecture des entrepôts de données

Solutionscléenmain

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 39

Page 40: Architecture des entrepôts de données

Solutionscléenmain

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 40

Source:www.teradata.com, 2014

Page 41: Architecture des entrepôts de données

Architecturesorientéesservice• Serviceoriented architectures (SOA):

– Méthoded’intégrationdesystèmesoffrantdesfonctionnalitéssouslaformedeservicesinteropérables;

– Permetlacommunicationentredessystèmesquin’ontpasétéconçusdanscetteoptique,etleurparticipationconjointedansdesprocessusd’affaires.

• Danslecontextedesentrepôtsdedonnées:– Facilitelacommunicationentrelessourcesetlesapplications– Utilisédansl’architectureEntrepriseApplicationIntegration(EAI)pourl’intégrationdesdonnées

– Réduitlesdépendancestechniquespermettantuneapproche« best-of-breed ».

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 41

Page 42: Architecture des entrepôts de données

Questions• Quellessontlesprincipalescomposantesd’unentrepôtde

données?

• Commentfait-onpourrendrecescomposantesleplusmodulairepossible?

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 42

Page 43: Architecture des entrepôts de données

Métadonnées• Définition:– Informationdéfinissantetdécrivantlesstructures,opérationsetlecontenudusystèmedeBI;

– Troistypes:technique,d’affairesetdeprocessus.

• Métadonnéestechniques:– ETL:sourcesetciblespourlestransfertsdedonnées,transformations,règlesd’affaires,etc.

– Stockage:tables,champs,types,indexes,partitions,dimensions,etc.

– Présentation:modèlededonnées,rapports,cédules,privilègesd’accès,etc.

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 43

Page 44: Architecture des entrepôts de données

Métadonnées• Métadonnéesd’affaires:– Décritlecontenudel’entrepôtentermescompréhensiblesparlesutilisateursd’affaires;

– Ex:descripteursdetablesetchamps.

• Métadonnéesdeprocessus:– DécritlerésultatdediversesopérationsdusystèmedeBI;– Ex:logsETL(début,fin,écrituresdisque,…),statistiquessurlesrequêtes,etc.

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 44

Page 45: Architecture des entrepôts de données

Métadonnées• Bénéfices:– Découpleladépendanceentrelatechnologieetsonutilisation(ex:reconfigurerdynamiquementlesystèmeETLpourmodifierouajouterunesource)

– Permetdemonitorer l'étatetlaperformancedelasolutionBI

– Sertdedocumentationausystème– Permetdedéterminerl'impactd'unchangement

• Idéal:– AvoirunseulrépertoiredemétadonnéespartagépartouteslescomposantesdelasolutionBI

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 45

Page 46: Architecture des entrepôts de données

Couchedepréparationdedonnées(back-room)

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 46

Systèmessources

MétadonnéesETLMétadonnéesprocessus:• StatistiquesETL• Résultatsd’audits• Résultatsdefiltrages

Métadonnéestechniques:• Inventairesystèmeetversion• Descriptionsdessources• Schémas relationnels,scriptsLDD• LogiquedestâchesETL• Paramètressauvegarde,sécurité

Métadonnéesd’affaires:• Dictionnairededonnées• Cartelogiquedesdonnées• Logiquedesrèglesd’affaires

Extraction• Profilagededonnées• Capturedes

changements• Extraction

Consolidation• Correctiond’erreurs• Déduplicationdes

données• Conformationdes

dimensions

Livraison• Clésartificielles• SCD• Hiérarchies• Tablesdedimension• Tablesdefaits

ServicesdegestionETL• Lignageetdépendances• Parallélisation• Sécuritéetconformité• Gestiondesdimensions

• Programmationetmonitoringdestâches• Sauvegardeetrestauration• Contrôledeversion/migration• Qualitédesdonnées

ComptoirdedonnéesETL• Historiquedeprocessus• Donnéespréparées• Copiesderéférencedesdimensions• Répertoiredemétadonnées

• Tablesdeconsultation/décodage• Copiesderéférencedeshiérarchies• Donnéesd’audit

• Opérationnels,ODS• ERP,CRM• MDM• Externes

• RDMBS• Fichiersplats,XML• Queuesdemessages• Fichierslog&redo• Formatspropriétaires

SystèmeETL

Page 47: Architecture des entrepôts de données

Couchedepréparationdedonnées(back-room)

• Besoinsgénéraux:– Supportàlaproductivité(ex:environnementdedéveloppement)– Convivialité(ex:interfacegraphiquesimple)– Flexibilité(ex:métadonnées)

• FonctionnalitésETL:– Extraction:

• Ex:profilagedesdonnées,capturedeschangements,copiedesdonnées

– Consolidation:• Ex:règlesdetransformation,résolutiond'incohérences,intégration

– Livraison:• Ex:insertiondanslestablesdefaits/dimensions,gestiondeschangements(SCD)

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 47

Page 48: Architecture des entrepôts de données

Couchedepréparationdedonnées(back-room)

• ServicesdegestionETL:– Planificationdetâches(jobscheduler)– Sauvegarde/restauration– Sécurité– etc.

• ComptoirdedonnéesETL (datastore):– Donnéestemporairesd'extraction(staging area)– HistoriqueduprocessusETL(métadonnéesprocessus,QA)– SauvegardedesréférencesETL(métadonnéestechniques)– etc.

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 48

Page 49: Architecture des entrepôts de données

Couchedestockagededonnées(presentation)

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 49

SystèmeETL

MétadonnéesprésentationMétadonnéesprocessus:• MonitoringdelaBD• Statistiquesd’utilisation

d’agrégats/OLAP

Métadonnéestechniques:• TablessystèmedelaBD• Paramètresdespartitions• Procéduresstockées/scripts

Métadonnéesd’affaires:• Descripteursdetables/champs• Définitionsd’agrégats/OLAP

Architecturedebusd’entreprise(Kimball):

• RDBMSpourleniveaudedétailatomique• Dimensions dénormalisées avecclésartificielles• Dimensions changeantes(SCD)type1,2ou3• Dimensions hiérarchiques• Dimensions etfaitsconformes• Agrégations/OLAP, indexes d’étoile etbitmap• …

Serveurdeprésentation

−Extraction−Consolidation−Livraison

Services degestionETL

Magasinsdedonnées ETL

Back-room Front-room

Page 50: Architecture des entrepôts de données

Couchedestockagededonnées(presentation)

• Objectif:– Fournirunaccèssimplifiéetrapideauxdonnées,pourlesutilisateurs(ex:requêtesadhoc)etapplicationsdeBI.

• Caractéristiquessouhaitées:– Donnéesprovenantdesprincipauxprocessusd'affaires– DonnéesatomiquesETagrégées– Sourceunique dedonnéesàtouslesutilisateurs(peuimportel'emplacementphysiquedesdonnées)

– Analysesvariéesaveclesmêmesdonnées

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 50

Page 51: Architecture des entrepôts de données

Couchedestockagededonnées(presentation)

• Considérations:– Tablesdedimensionsdénormalisées (schémaenétoile)– Clésartificielles– Dimensionsàévolutionlente(SCD1,2,3)– Dimensionsconformesbaséessurlamatriceenbusdedonnées– Donnéesatomiquesauniveaudestransactions– Stratégiesd'agrégation(ex:OLAP,ROLAP,etc.)– Stratégiesdeperformance(ex:index,partitionnement,etc.)– etc.

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 51

Page 52: Architecture des entrepôts de données

Couchederestitutiondedonnées(front-room)

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 52

Serveurdeprésentation

MétadonnéesderestitutionMétadonnéesprocessus:• Statistiquesd’exécutionde

rapports,requêtes,etc.• Statistiquesd’utilisation

delasécurité réseau

Métadonnéestechniques:• Couchesémantique BI• Définitiondesrapports/

requêtesstandards• Logiqueapplicative• ParamètresduportailBI

Métadonnéesd’affaires:• Listedesattributsconformes• PolitiquedesSCD• Politiquesdegestiondes

valeursnulles/erreurs• Documentationutilisateur

ServicesdegestionBI• Reporting d’entreprise• Reformulationderequêtes• ServicesduportailWeb

• Monitoringd’utilisation• Applicationdelasécurité• Applicationdelaconformité• Gestiondesrequêtes

ComptoirsdedonnéesBI• Rapportsstockés• Cachesdesserveursd’application• BDusager,tableurs,documentsetprésentations• Donnéesd’authentificationetd’autorisation

ApplicationBITypesd’application

• BIopérationnel• InterfaceduportailBI• Applicationspersonnalisées• Interfacespourplateforme

mobile

• Requêtesàaccès direct• Rapportstandards• Applicationsanalytiques• Tableauxdebord/scorecards• Modèlesdeforagededonnées

• Modèlesdimensionnels

• Donnéesatomiquesdesprocessusd’affaires

• Dimensions/faitsconformes

Page 53: Architecture des entrepôts de données

Couchederestitutiondedonnées(front-room)• Objectifs:

– Supporterlesbesoinsanalytiquesdesutilisateurs• Ex:rapports,analyseOLAP,fouillededonnées,etc.

– Offrirdesinterfacesd'accèssimplifiéesauxdonnées• Ex:portailWeb,serviceSOA

– Offriruneperformanceadéquate

• ServicesdegestionBI:– Gestiondesrequêtes

• Reformulation/optimisation• Redirectionverslabonneressourceinformationnelle• Navigationd'agrégation• Gestiondepriorité

– Gestiondelasécurité/accès– Monitoringdel'utilisation/performance

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 53

Page 54: Architecture des entrepôts de données

Couchederestitutiondedonnées(front-room)

• ComptoirsdedonnéesBI:– Modèlesderapports– Cacheduserveurd'application(performance)– Magasindedonnéeslocaux(attentionauxsilosdedonnées)– etc.

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 54

Page 55: Architecture des entrepôts de données

Questions

• Quellessontlesprincipalesétapesdansledéveloppementdel’architecture?

• Comments’assure-t-onquel’architecturerépondbienauxbesoinsd’affairesinitiaux?

• Commentfait-t-onpourchoisirlesproduitslesmieuxadaptésauxbesoinstechniques?

Département degénielogicieletdesTI MTI820Hiver2011– C.Desrosiers 55

Page 56: Architecture des entrepôts de données

Processusdedéveloppementd’architecture

• Questionsselonleniveaudedétail:

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 56

Niveaudedétail Back-room Front-room

Besoins d’affaires etauditdedonnées

• Comment obtenirlesdonnées nécessairesauxbesoins d’affaires?

• Commentmesurer,suivre, analyser etfaciliterlesopportunités d’affaires ?

Implicationsarchitecturellesetmodèles

• Quelles sont lesfonctions etcomposantesnécessaires pour obtenirlesdonnées danslaforme, l’endroit etlemoment désirés.

• Quels sontlesprincipales sources dedonnées etoùsont-elles situées ?

• Quelestlastratégiedemétadonnées ?

• Querequièrentlesutilisateurs pouravoirl’informationdans uneformeutilisable ?

• Quelle estlastratégiedeportailBI?

Modèles détailléesetspécifications

• Quelestlecontenu spécifique dechaquesourcededonnées ?

• Quelsont lescapacitésspécifiques dechaqueservice ?

• Àquoi ressemblent lesrapportsstandards?

• Comment ceux-ciseront-ils présentés?• Quelestledesign duportailBI?

Sélection deproduitetimplémentation

• Quels produits fournissent lescapacitésrequises ?

• Comment ceux-ciseront-ils assemblés ?

• Quels produits fournissent lescapacitésrequises ?

• Comment ceux-ciseront-ils assemblés ?

Page 57: Architecture des entrepôts de données

Documentd’implicationsarchitecturelles• Exemple:

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 57

Besoinsd’affaires Implicationarchitecturelle Sous-système Valeur/priorité

Améliorer letauxderéponse àl’aide d’unestratégiedeventecroisée

Outils d’intégrationpermettantdecoupler lesclientsaveclesproduits ETL Haute/8

Créationdelistesdeventecroiséeetmonitoring debaseàl’aided’outils BI

App.BI Moyenne /7

Traitementdesoffres etsuivi desréponses parle systèmeCRM AppBI N/A

Améliorer letauxderéponse àlacampagneparcourrielenfournissant auxanalystes desoutilspourgénérerleslistes declientsciblés

Application analytique App.BI Moyenne /7

Augmenterlaprécision desprédictions deventeàl’aided’unemeilleure historiquededonnées etdemeilleursmodèles analytiques

Application analytique avecprédiction deséries temporelles

App.BI/foragededonnées N/A

Extrairedel’information dessystèmesexternes pourlesuivi desventes ETL Haute/8

Page 58: Architecture des entrepôts de données

Documentdeplanarchitecturel• Contenu:

1. Descriptionsommaireduprojetetsesobjectifs;2. Méthodologie;3. Besoinsetimplicationsarchitecturelles;4. Survoldel’architecture• Ex:modèlehaut-niveau,métadonnées,couchesdeservice,

etc.5. Composantesarchitecturellesprincipales• Ex:ETL,applicationsBI,sourcesdedonnées,répertoirede

métadonnées,infrastructure,etc.6. Processusdedéveloppementdel’architecture• Ex:phases,preuvedeconcept,standardsetsélectionde

produits,etc.7. Modèlearchitecturel.

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 58

Page 59: Architecture des entrepôts de données

Modèlearchitecturel (exemple)

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 59

Projetcentrésurlesdonnéesd’unclubdepointsd’unechaîne de

supermarchés

Page 60: Architecture des entrepôts de données

Sélectiondesproduits• Guidéeparlesbesoinsd’affaires;• Étapes:

1. Comprendreleprocessusd’achatdel’entreprise;2. Faireuneétudedemarché:

• Sources: internet,coursetséminaires,publicationsdudomaine,consultantsexternes,etc.;

• Critères:fonctionnalité,performance,productivité,support(technique,documentation,formation),etc.

3. Évaluerlessolutionslesplusprometteuses• Ex:rencontresaveclesvendeurs,versiond’essai,comparaisonde

prototypes,etc.4. Rédigerunrapportderecommandationdeproduit;5. Testerleproduitretenudurantunepérioded’essai(ex:90jours);6. Négocierlecontrat(licences,support,formation,etc.).

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 60

Page 61: Architecture des entrepôts de données

Matriced’évaluationdeproduits

• Exemple:

Département degénielogicieletdesTI MTI820Hiver2011– ©S.Chafki,C.Desrosiers 61