25
This article was downloaded by: [Tufts University] On: 28 October 2014, At: 13:52 Publisher: Taylor & Francis Informa Ltd Registered in England and Wales Registered Number: 1072954 Registered office: Mortimer House, 37-41 Mortimer Street, London W1T 3JH, UK Journal of Decision Systems Publication details, including instructions for authors and subscription information: http://www.tandfonline.com/loi/tjds20 Des entrepôts de données, l’analyse en ligne et l’information géographique Sandro Bimonte a a Laboratoire d'informatique en images et systèmes d'information, UMR CNRS 5205 , 7, avenue Capelle, F-69621 , Villeurbanne Cedex Published online: 18 Apr 2012. To cite this article: Sandro Bimonte (2008) Des entrepôts de données, l’analyse en ligne et l’information géographique, Journal of Decision Systems, 17:4, 463-486, DOI: 10.3166/jds.17.463-486 To link to this article: http://dx.doi.org/10.3166/jds.17.463-486 PLEASE SCROLL DOWN FOR ARTICLE Taylor & Francis makes every effort to ensure the accuracy of all the information (the “Content”) contained in the publications on our platform. However, Taylor & Francis, our agents, and our licensors make no representations or warranties whatsoever as to the accuracy, completeness, or suitability for any purpose of the Content. Any opinions and views expressed in this publication are the opinions and views of the authors, and are not the views of or endorsed by Taylor & Francis. The accuracy of the Content should not be relied upon and should be independently verified with primary sources of information. Taylor and Francis shall not be liable for any losses, actions, claims, proceedings, demands, costs, expenses, damages, and other liabilities whatsoever or howsoever caused arising directly or indirectly in connection with, in relation to or arising out of the use of the Content. This article may be used for research, teaching, and private study purposes. Any substantial or systematic reproduction, redistribution, reselling, loan, sub-licensing, systematic supply, or distribution in any form to anyone is expressly forbidden. Terms & Conditions of access and use can be found at http:// www.tandfonline.com/page/terms-and-conditions

Des entrepôts de données, l’analyse en ligne et l’information géographique

  • Upload
    sandro

  • View
    213

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Des entrepôts de données, l’analyse en ligne et l’information géographique

This article was downloaded by: [Tufts University]On: 28 October 2014, At: 13:52Publisher: Taylor & FrancisInforma Ltd Registered in England and Wales Registered Number: 1072954 Registered office: MortimerHouse, 37-41 Mortimer Street, London W1T 3JH, UK

Journal of Decision SystemsPublication details, including instructions for authors and subscription information:http://www.tandfonline.com/loi/tjds20

Des entrepôts de données, l’analyse en ligne etl’information géographiqueSandro Bimonte aa Laboratoire d'informatique en images et systèmes d'information, UMR CNRS 5205 , 7,avenue Capelle, F-69621 , Villeurbanne CedexPublished online: 18 Apr 2012.

To cite this article: Sandro Bimonte (2008) Des entrepôts de données, l’analyse en ligne et l’information géographique,Journal of Decision Systems, 17:4, 463-486, DOI: 10.3166/jds.17.463-486

To link to this article: http://dx.doi.org/10.3166/jds.17.463-486

PLEASE SCROLL DOWN FOR ARTICLE

Taylor & Francis makes every effort to ensure the accuracy of all the information (the “Content”) containedin the publications on our platform. However, Taylor & Francis, our agents, and our licensors make norepresentations or warranties whatsoever as to the accuracy, completeness, or suitability for any purpose ofthe Content. Any opinions and views expressed in this publication are the opinions and views of the authors,and are not the views of or endorsed by Taylor & Francis. The accuracy of the Content should not be reliedupon and should be independently verified with primary sources of information. Taylor and Francis shallnot be liable for any losses, actions, claims, proceedings, demands, costs, expenses, damages, and otherliabilities whatsoever or howsoever caused arising directly or indirectly in connection with, in relation to orarising out of the use of the Content.

This article may be used for research, teaching, and private study purposes. Any substantial or systematicreproduction, redistribution, reselling, loan, sub-licensing, systematic supply, or distribution in anyform to anyone is expressly forbidden. Terms & Conditions of access and use can be found at http://www.tandfonline.com/page/terms-and-conditions

Page 2: Des entrepôts de données, l’analyse en ligne et l’information géographique

Journal of Decision Systems. Volume 17 – No. 4/2008, pages 463 à 486

Des entrepôts de données, l’analyse en ligneet l’information géographique

Sandro Bimonte

Laboratoire d’informatique en images et systèmes d’informationUMR CNRS 52057, avenue CapelleF-69621 Villeurbanne Cedexsandro.bimonte@ insa-lyon.fr

RÉSUMÉ. Les entrepôts de données associés à des outils d’analyse On Line AnalyticalProcessing (OLAP) représentent une solution effective pour l’informatique décisionnelle. Cessystèmes reposent sur le paradigme multidimensionnel qui, grâce aux concepts de dimension,fait, mesure et opérateurs OLAP, permet une analyse multidimensionnelle de grandesquantités de données. OLAP spatial (SOLAP) intègre l’information spatiale dans les systèmesd’entrepôt de données et l’OLAP. Dans ce papier, nous détaillons toutes les différentesdéfinitions de dimension spatiale, mesure spatiale et opérateurs spatiomultidimensionnels. Unpanorama des différents modèles conceptuels pour SOLAP est aussi présenté. Ces solutionsne prennent pas complètement en compte la composante sémantique de l’informationgéographique et la flexibilité de l’analyse spatiale. Nous introduisons alors pour l’analysemultidimensionnelle de l’information géographique un nouveau paradigme : l’OLAPgéographique.ABSTRACT. Data warehouses in association with On Line Analytical Processing (OLAP) canenable effective Decision Support Systems. These solutions are based on the multidimensionalparadigm, which allows a multidimensional analysis of huge datasets thanks to the conceptsof dimension, fact, measure and OLAP operators. Spatial OLAP (SOLAP) integrates spatialinformation in data warehousing and OLAP systems. In this paper, we detail all differentdefinitions of spatial dimension, spatial measure and spatio-multidimensional operators. Apanorama of conceptual SOLAP models is provided. These solutions do not completelyintegrate the semantic component of geographic information and the flexibility of spatialanalysis. The contribution of this paper is to introduce a new paradigm for themultidimensional analysis of the geographic information: the Geographic OLAP.MOTS-CLÉS: OLAP spatial, entrepôt de données spatiales, système d’aide à la décisionspatiale.

KEYWORDS: Spatial OLAP, Spatial Data warehouse, Spatial Decision Support Systems.

DOI:10.3166/JDS.17.463-486 © 2008 Lavoisier, Paris

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 3: Des entrepôts de données, l’analyse en ligne et l’information géographique

464 Journal of Decision Systems. Volume 17 – No. 4/2008

1. Introduction

L’informatique décisionnelle apporte des solutions nouvelles pour lamodélisation, l’interrogation et la visualisation de données dans un objectif d’aide àla décision. Les entrepôts de données associés à des outils d’analyse On LineAnalytical Processing (OLAP), représentent une solution effective pourl’informatique décisionnelle (Immon, 1996).

Les systèmes d’aide à la décision et les systèmes OLAP en particulier, neprésentent aucun instrument pour la gestion des données spatiales. Des solutions,connues sur le terme d’OLAP spatial, qui visent à intégrer la donnée spatiale dansl’OLAP, ont donc été développées. Le terme OLAP spatial (SOLAP) identifie untype de système d’aide à la décision qui intègre les techniques d’analyse de l’OLAPet des systèmes d’information géographique (SIG). Le SOLAP augmente lescapacités d’analyse des systèmes OLAP classiques et il implique une reformulationdes concepts des entrepôts de données et de l’OLAP d’un point de vue formel etd’implémentation.

Dans cet article, nous introduisons tout d’abord les concepts principaux desentrepôts de données et l’OLAP (section 2). Nous décrivons les caractéristiquesfondamentales des systèmes d’aide à la décision spatiale, et ensuite nous présentonsles concepts principaux des entrepôts de données spatiales et du SOLAP. Nous nousfocalisons sur les définitions de dimension spatiale, de mesure spatiale et desopérateurs spatiomultidimensionnels (section 3). Les solutions SOLAP existantesréduisent l’information géographique à la seule composante spatiale. Dans la section4, nous définissons alors un nouveau paradigme pour l’analyse multidimensionnellequi prend en compte la composante sémantique de l’information géographique et laflexibilité de l’analyse spatiale. Nous présentons aussi un panorama des modèlesformels pour les bases de données spatiomultidimensionnelles (section 5).

2. Les entrepôts de données et l’analyse OLAP

Un entrepôt de données est « une collection de données, intégrées, non volatileset historiées pour la prise de décisions » (Kimball, 1996). Dans un entrepôt dedonnées, les données sont organisées en fonction des exigences analytiques desutilisateurs. Les entrepôts de données sont peuplés en utilisant différentes sources dedonnées hétérogènes pour lesquelles ils fournissent une vision unifiée et homogène.Contrairement aux données opérationnelles qui ont une durée de vie limitée, lesentrepôts de données doivent permettre une analyse historique. Les requêtes desbases de données opérationnelles s’effectuent sous forme de transactions qui lisentet écrivent un nombre réduit de lignes dans différentes tables liées par des liensréférentiels. Ce type de requêtes est dit « On line Analytical TransactionalProcessing » (OLTP). Au contraire, le type de requêtes effectuées sur un entrepôt dedonnées est appelé « On line Analytical Processing » (OLAP). Les requêtes OLAP

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 4: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 465

nécessitent la lecture d’une énorme quantité de données pour produire un ensemblede valeurs numériques. Les systèmes d’entrepôts de données reposent sur leparadigme multidimensionnel qui, grâce aux concepts de dimension, fait, mesure,hypercube et opérateurs OLAP, permet une analyse multidimensionnelle de grandesquantités de données. Les dimensions représentent les axes de l’analysemultidimensionnelle. Elles sont organisées en schémas hiérarchiques. Un schéma dehiérarchie, composé par plusieurs niveaux, représente différentes granularités oudegrés de précision de l’information. Un exemple peut être une dimensionreprésentant une classification de produits décrite par une hiérarchie avec lesniveaux « Produit » et « Type » (figure 1a). L’instance d’une dimension est unensemble de membres. Ces membres sont connectés par des liens hiérarchiques enaccord avec le schéma hiérarchique. Un exemple d’une instance de la hiérarchie desproduits est montré en figure 1b. Chaque niveau de la dimension peut présenter desattributs (Hüsemann et al., 2000) qui ne sont pas utilisés pour la définition duschéma hiérarchique, mais peuvent être utilisés dans l’analyse multidimensionnelle.

Produit

Type

Téléphone Ordinateur

Tous les produits

Asp 321 St 73Alc 23 Alc 54

(a) (b)

Figure 1. Hiérarchie des produits a) Schéma b) Instance

Un fait est un concept relevant du processus décisionnel. Un fait est décrit parplusieurs mesures. Les mesures représentent usuellement des valeurs numériques quifournissent une description quantitative du fait. Un fait est associé à une ou plusieurscombinaisons de membres des dimensions. Certaines mesures peuvent être calculéesà partir d’autres mesures ou propriétés de membres. Elles sont appelées mesuresdérivées (Blaschka et al., 1998).

Ainsi, une analyse multidimensionnelle portant sur un fait « ventes » d’unensemble de magasins pourra être réalisée en définissant comme mesures « levolume des produits vendus » , « le montant de la vente » , et la mesure dérivée« profit » , et comme dimensions « le temps » , « les magasins » , et « les produits » vendus. La figure 2a représente le schéma de cette application grâce au modèleconceptuel multidimensionnel présenté dans (Malinowski et al., 2004). Ce modèlepermet d’examiner le volume et le montant totaux des produits vendus pour chaquemois et chaque année dans chaque magasin et dans chaque ville.

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 5: Des entrepôts de données, l’analyse en ligne et l’information géographique

466 Journal of Decision Systems. Volume 17 – No. 4/2008

Ventes

Item

CodeNomCoût

Produits

Magasin

NomCode

Address

Localisation

Ville

NomPopulation

Client

NomPrénom

Age

Clients

Volume : SUMMontant : SUM

/Profit

Mois

Code_moisLibellé

Temps

Type

CodeLibellé

Marque

CodeNom

Année

Code_annéeLibellé

55

22

4 7 14 7 1

mar 04

Localisation

Temps

Produits

Micros

GS

Standa

Carebim

Alc54

Alc23

Asp 32

1

St 73

fev 04jan 04

12 5 212 5 2Upim

50400

67135

54468

23200

50400

67135

54468

23200 …

750

15150

25140

745

1448

129012

90

20210

11120

750

15150

25140

745

1448

129012

90

20210

11120

28200

35150

8120

1280

Lyon

Paris

2004

Téléph

one

Ordina

teur

« Combien de Alc 54 ont étévendus par Standa en Mars 2004 ? »

« Combien de produits ont étévendus en Février 2004 ? »

« Combien de produits ont étévendus au total ? »

(a) (b)

Figure 2. Application multidimensionnelle a) Schéma b) Hypercube

A chaque combinaison des niveaux des dimensions correspond un niveaudifférent de détail des mesures. Dans les niveaux moins détaillés des dimensions lesmesures sont agrégées en utilisant les fonctions d’agrégations SQL (COUNT, SUM,MIN, MAX et AVG).

L’instance d’un modèle conceptuel multidimensionnel est un hypercube. Unhypercube contient dans les cellules les valeurs des mesures détaillées et les axessont faits par les membres des niveaux les plus détaillés de différentes dimensions.Ensuite, ce cube de base est décoré avec des cellules qui contiennent l’agrégationdes valeurs de mesures pour chaque combinaison de membres des niveaux moinsdétaillés. Un exemple d’hypercube pour l’application de la figure 2a est montré enfigure 2b. Sur les axes du cube de base on trouve les membres des niveaux desdimensions et dans les cellules les valeurs des deux mesures.

Le processus décisionnel multidimensionnel consiste en l’exploration del’hypercube grâce aux opérateurs OLAP. Un panorama des opérateurs OLAPproposés dans la littérature est présenté par Rafanelli (Rafanelli, 2003). Les pluscommuns sont les opérateurs de forage (Roll-Up et Drill-Down) qui permettent denaviguer dans les hiérarchies des dimensions et d’agréger les mesures, et lesopérateurs de coupe (Slice et Dice) qui coupent une partie de l’hypercube. Unexemple de requête multidimensionnelle portant sur l’application de figure 2a est :« Quels sont le volume et le montant de chaque produit vendu par le magasinCarebim pour chaque année ? ». Cette requête utilise à la fois l’opérateur de slice etcelui de roll-up.

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 6: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 467

3. L’OLAP spatial

Les systèmes d’aide à la décision (SAD), et les systèmes OLAP en particulier, neprésentent aucun instrument pour la gestion des données spatiales. Par conséquent,les outils OLAP, en prenant peu en compte la composante spatiale et son pouvoird’expression et d’analyse (MacEachren et al., 2001), manquent d’un instrumentfondamental d’analyse et d’exploration qui peut aider l’utilisateur dans le processusdécisionnel (Caron, 1998). A la base des SIG existe une technologie OLTP,contrairement aux systèmes d’entrepôts de données qui s’appuient sur unetechnologie OLAP. Les SIG ne peuvent pas être considérés comme de véritablesSAD, car même s’ils incluent des fonctionnalités avancées d’analyse, ils manquentd’une interface simple et intuitive pour visualiser et faire les requêtes des données,les temps d’analyse sont longs et ils ne sont pas conçus pour fournir une visionagrégée des données (Keenan, 1996). Un nouveau type de SAD a alors été conçu :les systèmes d’aide à la décision spatiale (SADS). Un SADS étend lesfonctionnalités des systèmes d’information géographique (gestion de la donnéespatiale, affichage cartographique et graphique, outils d’analyse spatiale), enfournissant des modèles d’analyse, des interfaces simples et flexibles, et gérant desstructures complexes de données spatiales (Armstrong et al., 1990). Différents typesde SADS ont été développés (Andrienko et al., 2003), (Compieta et al., 2007).Chacun s’adresse à des problématiques décisionnelles spatiales particulières. Parmices solutions, on trouve aussi le SOLAP qui vise à intégrer la donnée spatiale dansl’OLAP.

3.1. Les avantages de l’OLAP spatial

Le SOLAP a été défini par Yvan Bédard comme « Une plate-forme visuellespécialement conçue pour supporter l’analyse et l’exploration spatiotemporellesrapides et faciles des données multidimensionnelles composées de plusieurs niveauxd’agrégation à l’aide d’affichages cartographiques aussi bien qu’à l’aide de tableauxet diagrammes statistiques. » (Bédard, 1997).

La visualisation des mesures sur une carte permet de comprendre la distributiongéographique d’un phénomène qui, souvent, peut être différente de l’espacegéographique identifié par la structure hiérarchique définie par la dimensiongéographique. La visualisation cartographique dans un contexte multidimensionnelpermet aussi de mettre en relation les différents phénomènes spatiaux par rapportaux axes d’analyse alphanumériques et de comparer ces phénomènes à diversesgranularités géographiques. La composante cartographique dans l’OLAP représenteun instrument de visualisation et surtout d’analyse, qui permet à l’utilisateur de voiret comprendre les données spatiomultidimensionnelles, et elle constitue uneinterface vers l’entrepôt de données spatiales (Bédard et al., 2005). Utiliser unereprésentation cartographique des membres pour accéder aux opérations denavigation multidimensionnelle permet à l’utilisateur de se concentrer sur les aspectspurement géographiques pendant le processus d’exploration et d’analyse sans qu’il

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 7: Des entrepôts de données, l’analyse en ligne et l’information géographique

468 Journal of Decision Systems. Volume 17 – No. 4/2008

ait besoin d’un modèle mental qui trace dans l’espace géographique les membres desdimensions.

3.2. Concepts principaux de l’OLAP spatial

Stefanovic et al. (2000) définissent un entrepôt de données spatiales comme unecollection de données spatiales et thématiques, intégrées, non volatiles et historiéespour la prise de décisions spatiales. Un entrepôt de données spatiales est unereformulation d’un entrepôt conventionnel. Il contient en même temps des donnéesspatiales et alphanumériques et il reformule les concepts classiques de dimension etde mesure pour prendre en compte la composante spatiale de l’informationgéographique en définissant les dimensions et les mesures spatiales.

3.2.1. Dimension spatiale

Le terme de dimension spatiale désigne l’introduction de l’information spatialedans une application décisionnelle en tant qu’axe d’analyse. Diverses définitions dedimension spatiale existent dans la littérature. Bédard et al. définissent unedimension spatiale comme « non géométrique » si les membres sont localisésseulement par un label textuel, « géométrique » si tous les membres présentent unecomposante spatiale (point, ligne, polygone, etc.), et « mixte » s’il y a des niveauxavec la composante spatiale et des niveaux purement textuels (Bédard et al., 2001 ;Rivest et al., 2003). Un exemple de dimension spatiale géométrique représentant lasubdivision administrative de France est montrée en figure 3.

Département

Région

Pays

France

Provence-Alpes Côt

Alpes Maritim

Bouches-du-Rhône

Aquitaine

LancesDordogne

Pyrénées Atlantiques

(a) (b)

Figure 3. Dimension spatiale géométrique a) Schéma b) Représentationcartographique des membres

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 8: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 469

Malinowski et al. (2005). introduisent le concept de dimension spatiale commeun ensemble de hiérarchies spatiales. Une hiérarchie est spatiale s’il y a au moins unniveau qui contient la composante spatiale. Celui-ci est dit niveau spatial. De plus,entre les membres de deux niveaux spatiaux doit exister une relation topologiqued’inclusion ou d’intersection.

De leur côte, Fidalgo et al. (2004) définissent deux types de dimensions:géographique et hybride. Une dimension géographique contient seulement desniveaux spatiaux. Une dimension est hybride si elle présente à la fois des niveauxspatiaux et alphanumériques. De plus, en se concentrant sur la présence ou non desattributs descriptifs dans un même niveau, ils introduisent une sous-classification deces dimensions : primitive si seuls les attributs spatiaux sont présents, et composée sides attributs alphanumériques sont aussi inclus.

Ces définitions de dimension spatiale se concentrent toutes sur la composantespatiale de l’information géographique. Celle-ci permet d’associer aux niveaux desdimensions une composante cartographique et donc d’exploiter le pouvoir expressifet d’analyse des cartes dans l’analyse multidimensionnelle. De plus, la composantespatiale autorise l’utilisation des prédicats spatiaux dans les opérations de coupe etde prendre en compte les relations topologiques pendant les processus d’agrégation(Jensen et al., 2004 ; Malinowsky et al., 2005 ; Pedersen et al., 2001).

3.2.2. Mesure spatiale

Parmi les travaux relatifs aux concepts du SOLAP, de nombreux auteurs se sontintéressés au concept de mesure spatiale. On trouve dans la littérature denombreuses définitions : la mesure spatiale y est parfois vue comme une collectionde pointeurs vers des objets spatiaux (Stefanovic et al., 2000 ; Rivest et al., 2001 ;Malinowski et al., 2004 ; Sampaio et al., 2006), et/ou comme les résultatsd’opérateurs métriques ou topologiques spatiaux, par exemple la distance entre deuxrégions (Rivest et al., 2001 ; Malinowski et al., 2004 ; Marchand et al., 2003). Lessystèmes SOLAP proposent d’utiliser des fonctions d’agrégation spatiales commel’union, l’intersection ou le barycentre (Shekar et al., 2001).

3.2.2.1. La mesure spatiale vue comme une liste d’objets spatiaux

Nous présentons l’exemple décrit par Stefanovic et al. car il est représentatif deces types de travaux (Stefanovic et al., 2000). En utilisant le schéma de la figure 4,les auteurs se proposent d’étudier les précipitations sur une zone géographiquedonnée. Pour chaque relevé de précipitation sur une région (dimension avec unecomposante géométrique « Localisation » ), la température, la date et le niveau deprécipitation sont enregistrés. Les mesures « Superficie » et « Nombre de régions » sont de type numérique et représentent respectivement la superficie totale et lenombre des régions examinées. La dernière mesure « Région-map » est la mesurespatiale qui représente un pointeur sur une zone d’une province (« Station » ) où lerelevé de précipitation a été effectué. « Station » dans la dimension

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 9: Des entrepôts de données, l’analyse en ligne et l’information géographique

470 Journal of Decision Systems. Volume 17 – No. 4/2008

Méteo

TémperatureTempérature

IntervalleDescr_temp

Témperature Région

StationQuartier

VilleRégion

Province

Localisation

Day

Code_day

Temps

Month

Code_month Région-mapSuperficie

Nombre de régions

Saison

Nome_saison

« Localisation » , et « Region_map » contiennent des pointeurs vers des objetsspatiaux désignant des régions de la même carte. Les auteurs définissent la fonctiond’agrégation sur la mesure spatiale de cette façon : si les régions à agréger sontcontiguës alors on applique l’opérateur topologique d’union, sinon on maintient uneliste de l’ensemble des régions. Ce modèle multidimensionnel permet d’analyser lalocalisation des phénomènes météorologiques en fonction du temps, des régions etde la température.

Figure 4. Schéma de l’entrepôt « Météo » (Stefanovic et al., 2000)

Dans cette proposition, la mesure est un objet spatial réduit à sa partgéométrique, et à des attributs numériques qui en sont directement dérivés comme lasuperficie et le nombre régions. Pour intégrer aux mesures spatiales leurscaractéristiques alphanumériques, le nom de la région à laquelle la stationappartient, etc., les auteurs répliquent la mesure spatiale dans le niveau le plusdétaillé de la dimension spatiale. Les attributs de la dimension représentent alors lesinformations alphanumériques des mesures spatiales (détaillées ou agrées).

Une autre approche pour intégrer les caractéristiques alphanumériques à un faitspatial consiste à éliminer la composante spatiale du fait et à la reporter dans unedimension comme présenté dans Fidalgo et al. (2004). La table de faits contientalors un pointeur vers les membres de la dimension spatiale. Les auteurs n’utilisentpas explicitement une mesure spatiale afin d’éliminer la redondance de l’informationgéométrique présente dans la mesure et dans la dimension spatiale, et surtout pourpermettre l’implémentation des applications spatiomultidimensionnelles à travers lesserveurs OLAP classiques. De la même façon Marchand et al. définissent unemesure spatiale comme un membre d’une dimension spatiale (Marchand et al.,2003).

Une mesure spatiale est définie aussi comme un objet géométrique qui est unattribut spatial du fait (Rivest et al., 2001 ; Malinowski et al., 2004 et Sampaio et al.,2006), et qui, contrairement aux modèles de Fidalgo et al. (2004) ; Stefanovic et al.(2000) et Marchand et al. (2003), peut ne pas être répliqué dans une dimension

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 10: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 471

Accidents

Insurance

NumberValidity period

Insurance TypeTime

Date_day

Calendar Month

Name

Amount paidLocation /GU

ClientFirst nameLast name

AgePosition

Age Category

Age Group

Group nameMin valueMax value

Insurance Category

NameWeek

Week number

Quarter

Number

Year

Year

HighwayManteinance

Coating

NameType

Durability

Road Coating

City

NamePopulation

Geo Location

StateName

PopulationArea

Highway Segment

Segment numberRoad Condition

Highway Structure

HighwaySection

Section number Length(S)No. Cars

Repair Cost

Highway

Name

Date

DateEvent

Season

Time

spatiale. Un exemple est montré en figure 5. L’application spatio-multidimensionnelle permet d’analyser la localisation des accidents en fonction dutemps, du type d’assurance et des clients. La mesure spatiale « Location » , agrégéeavec l’agrégation spatiale d’union topologique, représente le lieu de l’accident. Unerequête possible est : « Pour chaque jour où ont eu lieu les accidents de chaqueclient ? » .

Figure 5. Application spatiomultidimensionnelle avec de dimensionsalphanumériques et une mesure spatiale (Malinowski et al., 2004)

3.2.2.2. La mesure spatiale vue comme le résultat des opérateurs spatiaux

Rivest et al. (2001) et Malinowski et al. (2004) définissent aussi la mesurespatiale comme le résultat d’opérations spatiales appliquées aux membres desdimensions spatiales, par exemple la distance entre deux objets spatiaux. Cettedéfinition n’exclut pas la définition de mesure spatiale comme définie au paragrapheprécédent.

Un exemple d’application SOLAP basée sur ce concept, qui concerne les coûtsde réparation des autoroutes est montré en figure 6.

Figure 6. Schéma conceptuel d’un entrepôt de données avec une mesure résultatd’une opération spatiale (Malinowski et al., 2004)

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 11: Des entrepôts de données, l’analyse en ligne et l’information géographique

472 Journal of Decision Systems. Volume 17 – No. 4/2008

Cette application présente trois mesures : le coût de réparation, la longueur de laportion d’autoroute qui appartient à une ville « Length(S) » (mesure spatiale), et lenombre de voitures. Ces mesures sont agrégées en utilisant la somme. Lesdimensions qui représentent la composante géométrique sont la localisation « GeoLocation » et les autoroutes « Highways stucture » . Les deux autres dimensionsclassiques sont le temps et le type de revêtement des autoroutes. Cette applicationmultidimensionnelle permet d’analyser les coûts de réparation des partiesd’autoroutes en fonction du temps, des autoroutes et des villes. Deux requêtespossibles sont alors : « Quelle est la longueur (mesure spatiale) des parties desautoroutes qui passent par des villes ? » et « Quel est le coût de réparation de toutesles autoroutes (mesure numérique) pour le chaque année ? » .

Dans ce type d’application spatiomultidimensionnelle, la table de faits définitune jointure spatiale entre les dimensions spatiales. Cette table de faits permetd’avoir une vision multidimensionnelle des relations spatiales. Elle autorise le calculdes mesures spatiales pour les membres de tous les niveaux des hiérarchies desdimensions, comme par exemple les parties des autoroutes qui passent par des villesou les parties des autoroutes qui passent par des pays.

3.2.3. Opérateurs de navigation spatiomultidimensionnelle

L’introduction des données spatiales dans les dimensions d’entrepôts de donnéesspatiales amène différents auteurs à la définition d’opérateurs d’analysespatiomultidimensionnelles.

Différents auteurs appellent « spatial-drill down » et « spatial roll-up » lesopérateurs de forage sur une dimension qui présente des niveaux avec unecomposante spatiale (Rivest et al., 2005 ; Sampaio et al., 2006 ; Matias et al., 2007 ;Scotch et al., 2006 ; Hernandez et al., 2005). Rivest et al. définissent une opérationde « spatial drill-accross » comme une opération de coupe sur un ensemble demembres de la dimension spatiale, sélectionnés directement par l’utilisateur à traversl’interface visuelle du système SOLAP (Rivest et al., 2005). Le terme « spatial » indique simplement le fait que l’opération de navigation multidimensionnelle(forage ou coupe) s’applique à une dimension avec des attributs géométriques.

En plus des opérateurs multidimensionnels « classiques », quelques auteurs ontdéfini des opérateurs multidimensionnels qui utilisent explicitement les relationsspatiales. Matias et al. (2007) appellent « spatial slice » une opération de coupe surun hypercube spatial. Cette opération peut porter sur une dimension classiquecomme la dimension temporelle, ou sur la dimension qui contient l’informationspatiale (dimension spatiale). Dans le deuxième cas, un prédicat spatial oualphanumérique portant sur objets géographiques de la dimension peut être appliqué.Scotch et al. introduisent respectivement deux nouveaux opérateurs de coupe : le« buffer » et le « spatial drill-out » (Scotch et al., 2006). Le « buffer » utilisel’opérateur d’analyse spatiale de buffer, qui crée une zone tampon autours d’unmembre, pour sélectionner des membres de la dimension spatiale. Le « spatial drill-

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 12: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 473

out » sélectionne tous les membres adjacents au membre sur lequel cet opérateur estappliqué. Sampaio et al. (2006) et Colonnese et al. (2005) appellent « spatial slice »une opération de coupe qui utilise un prédicat.

4. De l’OLAP spatial à l’OLAP géographique

Dans cette section, nous présentons les limites du SOLAP et les conceptsprincipaux d’un nouveau paradigme pour l’analyse multidimensionnelle del’information géographique : l’OLAP géographique.

4.1. Les limites de l’OLAP spatial

L’information géographique est la représentation d’objets ou de phénomènesréels, localisés dans l’espace. Cette information est caractérisée par sa localisationdans l’espace, par sa forme et par ses aspects sémantiques (Degrene et al., 1997),c’est-à-dire les attributs descriptifs alphanumériques et les relations spatiales,thématiques et de généralisation cartographique avec d’autres objets (Weibel et al.,2001). Par exemple un département est décrit par son nom (Rhône), sa population(1 508 966), etc. et il appartient à une région.

Les modèles SOLAP existants se concentrent généralement sur la composantespatiale de l’information géographique. Ils définissent une mesure spatiale commeune collection d’objets spatiaux, et une dimension spatiale comme une dimensiondont les membres contiennent un attribut spatial. Ces modèles de données présententune importante limite liée à la prise en compte de la composante sémantique del’information géographique dans les mesures et dans les dimensions. D’un point devue mesure, nous pensons que les attributs descriptifs des objets géographiquespeuvent être utiles au processus décisionnel, pour expliquer un phénomène oucaractériser un ensemble de faits. Lorsque l’information spatiale est utilisée commeaxe d’analyse, les modèles SOLAP existants utilisent les dimensions spatiales. Unedimension spatiale est décrite par des hiérarchies dont les membres sont des objetsgéographiques liés par relations topologiques d’inclusion ou d’intersection. Cettedéfinition ne reflète pas la sémantique sous-jacente aux liens hiérarchiques. En effet,les objets géographiques peuvent être en relation avec d’autres objets à travers desrelations spatiales, des relations de généralisation cartographique et des relations nonspatiales. La prise en compte de ces types de relations est selon nous fondamentaldans l’analyse multidimensionnelle car à chaque type de hiérarchie correspond uneanalyse différente, qui peut se traduire en différentes politiques d’agrégation et denavigation.

Un deuxième point faible des solutions SOLAP existantes concerne lesopérateurs d’analyse spatiomultidimensionnels. Nous pensons que ces opérateursdevraient pouvoir modifier les dimensions géographiques selon l’exigence de

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 13: Des entrepôts de données, l’analyse en ligne et l’information géographique

474 Journal of Decision Systems. Volume 17 – No. 4/2008

l’utilisateur. En effet, au contraire de l’approche utilisée dans le processusdécisionnel OLAP, l’analyse spatiale est flexible et itérative (Mitchell, 2005). Lesdonnées géographiques, grâce aux méthodes de transformations d’analyse spatialepeuvent être modifiées ou remplacées tout au long du processus d’analyse (Longleyet al., 2001). Or les opérateurs SIG fournis par les différents systèmes SOLAP sontdes opérateurs orthogonaux aux opérateurs multidimensionnels, autrement dit, ils nesont pas utilisés dans la navigation OLAP. Nous pensons donc que l’introduction etl’adaptation des opérateurs d’analyse spatiale dans un contexte OLAP afin d’intégrerla flexibilité de l’analyse spatiale au modèle multidimensionnel, est fondamentalepour une analyse spatiomultidimensionnelle satisfaisante. De plus, les modèlesSOLAP existants utilisent des modèles de données différents pour la représentationdes membres et des mesures spatiales. En termes d’analyse multidimensionnelle,cela se traduit par une asymétrie entre la mesure et la dimension spatiale, ce quioblige l’utilisateur à concevoir des hypercubes différents pour changer le point devue de l’analyse. Ce manque de symétrie et de flexibilité représente une limiteimportante des solutions SOLAP existantes, car l’information géographique doitpouvoir être aussi bien utilisée en dimension qu’en mesure. Enfin, une mesure enétant un objet géographique peut appartenir à des schémas hiérarchiques.L’utilisation de cette information pour analyser les mesures à différentes granularitésreste un défi important.

4.2. Les concepts principaux de l’OLAP géographique

Dans ce travail nous faisons référence par le terme objet complexe, à une entitédu monde réel (un patient, etc.) décrite par un ensemble d’attributs descriptifsalphanumériques (âge, etc.) et nous utilisons le terme objet géographique pourreprésenter un objet complexe (une ville, etc.) qui présente un attribut spatial (unegéométrie). Un exemple d’objet géographique peut être la ville de Lyon qui estdécrite par un nom (Lyon), par une population (1 452 952) et par une géométriereprésentée par un point

L’analyse précédente révèle que les modèles SOLAP existants prennent peu oupas en compte l’aspect sémantique de l’information géographique et la flexibilité del’analyse spatiale dans l’analyse multidimensionnelle. Nous proposons dereformuler les principaux concepts du SOLAP, pour définir le nouveau conceptd’OLAP géographique. L’OLAP géographique définit les dimensions et les mesuresgéographiques et de nouveaux opérateurs spatiomultidimensionnels. Pour illustrernos contributions, nous utilisons les données concernant les maladies infectieuses enFrance.

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 14: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 475

4.2.1. Dimension géographique

Définition 1. Dimension géographiqueUne dimension est dite « géographique » si les membres d’au moins un niveau

sont des objets géographiques.

Les membres d’une dimension géographique peuvent être liés par des relationsspatiales, de généralisation cartographique, et descriptives (Bimonte et al., 2007).

Définition 2. Hiérarchie descriptiveUne « hiérarchie descriptive » d’une dimension géographique est une

hiérarchie OLAP de classification ou de spécialisation : elle est définie en utilisantles attributs descriptifs des objets.

Un exemple de hiérarchie descriptive pour la France groupe les départements(« Department » ) par rapport au type de département (commercial, industriel, etc.)(« TypeDept » ) (figure 7). Une possible requête multidimensionnelle qu’utilise lemodèle de la figure 7 est « Quel est le nombre de morts pour chaque année, chaquetype de département et maladie ? »

Figure 7. Application multidimensionnelle avec une hiérarchie descriptive

Définition 3. Hiérarchie spatialeUne « hiérarchie spatiale » d’une dimension géographique est une hiérarchie

où les membres de différents niveaux sont liés par des relations topologiquesd’inclusion et/ou d’intersection.

Une hiérarchie spatiale organise l’espace géographique dans une structurehiérarchique où chaque niveau représente une information géographique différente.Si les mesures peuvent être redistribuées sur la surface des membres, les relationstopologiques qui caractérisent cette hiérarchie peuvent permettre de quantifierl’apport d’un membre, par rapport à son ancêtre, dans le calcul de l’agrégation(Jensen et al., 2004). Un exemple de schéma et d’instance d’une hiérarchie spatialeest représenté par la hiérarchie administrative : départements < régions (figure 8). Lagéométrie d’une région est l’union topologique des géométries de ses départements.

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 15: Des entrepôts de données, l’analyse en ligne et l’information géographique

476 Journal of Decision Systems. Volume 17 – No. 4/2008

Une possible requête multidimensionnelle est « Quel est le nombre de morts pourchaque année, chaque région et maladie ? » .

Figure 8. Application multidimensionnelle avec une hiérarchie spatiale

Définition 4. Hiérarchie de généralisation cartographiqueUne « hiérarchie de généralisation cartographique » d’une dimension

géographique est une hiérarchie où les membres des niveaux représentent la mêmeinformation géographique à différentes échelles et dont les membres d’un niveausont les résultats de la généralisation des membres du niveau directement inférieur.

Une hiérarchie de généralisation cartographique représente un ensemble decouches qui décrivent la même information géographique à différentes échelles. Unereprésentation des mesures à travers des cartes à différentes échelles permet àl’utilisateur d’avoir un aperçu visuel global et simplifié du phénomène, en excluantles informations n’étant pas primordiales pour la compréhension de sescaractéristiques générales. Par voie de conséquence, une hiérarchie de généralisationautorise l’utilisateur à employer au mieux ses capacités de perception visuelle.

La modélisation de ces hiérarchies soulève de nombreuses problématiques. Dansune hiérarchie spatiale, le calcul de l’agrégation doit prendre en compte les relationstopologiques d’inclusion ou d’intersection entre les membres. L’informationgéographique peut être organisée à différentes échelles grâce à des hiérarchiescomplexes où les membres à différents niveaux ne sont pas liés forcément par desimples relations topologiques d’inclusion ou d’intersection. Par conséquent, est-ilpossible d’utiliser les fonctions d’agrégation classiques (i.e. SUM, AVG, etc.) sansprendre en compte les aspects topologiques, comme dans le cas des hiérarchiesspatiales ? Quelles méthodes d’agrégation doit-on utiliser pour représenterl’information représentée par les mesures lors du changement d’échelle ? Ladéfinition des agrégations possibles sur ces hiérarchies reste un défi majeur. De plus,ces hiérarchies sont très complexes et les membres de différents niveaux peuventêtre liés par une relation de multi-association (Spaccapietra et al., 2007), qui établitun lien entre deux groupes d’objets géographiques. Ces relations impliquent quepour ce type d’applications multidimensionnelles, un degré d’imprécision doit être

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 16: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 477

permis lors d’une opération d’agrégation, car un membre à une échelle plus détailléepeut ne pas être inclus dans son père, il participe à la composition de plusieursmembres à l’échelle mois détaillée et cette participation ne peut pas être quantifiée.

4.2.2. Mesure géographique

Une mesure géographique introduit l’information géographique en tant que sujetd’analyse dans une application multidimensionnelle (Bimonte et al., 2006).

Définition 5. Mesure géographiqueUne mesure est dite géographique si elle est un objet géographique qui, comme

un niveau d’une dimension géographique, peut appartenir à un ou plusieursschémas hiérarchiques.

Une mesure géographique est un objet géographique du monde réel comme unmembre d’une dimension géographique. Une mesure peut donc appartenir à unestructure hiérarchique. Par exemple, un département peut appartenir à la hiérarchiespatiale avec les niveaux « Department » et « Region » (figure 9). Par conséquent,l’information géographique qui représente le sujet de l’analyse peut être analysée àdifférentes granularités qui correspondent aux niveaux des hiérarchies. A chaquegranularité de la mesure correspond une requête multidimensionnelle différente. Unepossible requête multidimensionnelle si l’on utilise le modèle de figure 9 est « Quelssont les départements et les régions touchés par le Sida pour chaque année ? »

Figure 9. Application multidimensionnelle avec une mesure géographique

4.2.3. Algèbre spatiomultidimensionnelle

Les opérateurs d’analyse spatiomultidimensionnelle de forage et de coupepermettent respectivement de monter ou descendre dans les hiérarchies de

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 17: Des entrepôts de données, l’analyse en ligne et l’information géographique

478 Journal of Decision Systems. Volume 17 – No. 4/2008

dimensions, et de couper l’hypercube en utilisant l’information spatiale. Par la seuleaction de ces opérateurs, le paradigme d’analyse spatiomultidimensionnel classiquen’est pas suffisamment flexible en termes de données utilisées dans le processusdécisionnel, pour exploiter les aspects sémantiques de l’information géographique,et pour permettre d’introduire dans un contexte multidimensionnel les méthodesd’analyse spatiale. Or, la possibilité d’introduire dynamiquement de nouveauxmembres de dimensions, d’intervertir sujet et axe d’analyse et de changer lagranularité de la mesure, augmente et complète les capacités d’analyse des modèlesSOLAP classiques. Par conséquent, en plus des opérateurs de forage et coupe, nousidentifions trois nouveaux types d’opérateurs d’analyse spatiomultidimensionnelle(Bimonte et al., 2007) : les opérateurs qui modifient dynamiquement la structure del’hypercube, l’opérateur qui permet d’intervertir mesures et dimensions, et lesopérateurs de navigation dans la hiérarchie de la mesure.

Les opérateurs qui modifient la structure de l’hypercube comme des opérateursqui permettent à l’utilisateur de créer de nouveaux membres à la volée grâce auxopérateurs d’analyse spatiale. Un exemple de ce type d’opérateur peut êtrereprésenté par l’adaptation de l’overlay au paradigme multidimensionnel. L’overlayest un opérateur d’analyse spatiale de transformation qui permet de mettre enrelation des informations de nature différente (réseau routier, bâtiments, etc.). Ilprend en entrée deux cartes et il génère une carte dont les géométries des objetsgéographiques sont recalculées grâce à l’opération topologique d’intersection. Dansun contexte spatiomultidimensionnel, il est envisageable d’appliquer l’overlay entrela carte qui représente un niveau d’une dimension géographique et une autre couchechoisie par l’utilisateur. Le résultat de cette opération crée de nouveaux membres dela dimension géographique. Pour ces nouveaux membres, les mesures doivent êtrerecalculées en utilisant les parties de membres issues de l’opération d’overlay,les membres originaux des deux couches et les valeurs des mesures dans la table defaits associés. Contrairement aux opérateurs de forage et de coupe, ces opérateursreprésentent une approche toute nouvelle dans l’analyse spatiomultidimensionnelle.En effet, les opérateurs d’analyse spatiale SIG utilisés dans les solutions SOLAPexistantes permettent uniquement de naviguer dans l’hypercube à partir de lacomposante spatiale où ils représentent des fonctionnalités « orientée » SIGorthogonales aux fonctionnalités SOLAP. A travers les opérateurs qui modifient lastructure de l’hypercube, le paradigme multidimensionnel gagne en flexibilité et encapacités d’analyse.

Dans notre approche, l’information géographique peut être présente en mesurecomme en dimension. Elle est modélisée dans les deux cas comme un ensembled’objets géographiques. L’utilisation d’une mesure géographique ou d’unedimension géographique donne lieu à des modèles applicatifs différents comme nousl’avons montré dans les sections précédentes. D’où, l’intérêt de pouvoir intervertirdimension et mesure, dynamiquement, pendant les processus d’analysemultidimensionnelle. Transformer une mesure géographique en dimension, impliquequ’un objet géographique ou complexe devient la nouvelle mesure. Dans notre

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 18: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 479

approche, une mesure est définie comme un objet géographique et par conséquent,comme un objet complexe représenté par un ensemble d’attributs ayant unesignification comme un tout, de la même façon qu’un niveau de dimension. Celaimplique que dans l’OLAP géographique, une mesure peut être un objetgéographique aussi bien qu’un objet complexe. De plus, puisqu’une mesure peutappartenir à une ou plusieurs hiérarchies, alors dans l’OLAP géographique, lesconcepts de dimension et mesure sont complètement symétriques. En utilisant cettemodélisation symétrique des mesures et de dimensions, nous envisageons alors unopérateur qui change la mesure avec un niveau d’une dimension et qui introduit leshiérarchies associées à l’ancienne mesure comme dimension d’analyse. En fait, sil’on reprend l’exemple de la figure 9, grâce à cet opérateur, il serait possible dechanger la mesure géographique avec les maladies et donc de transformer la mesuregéographique en dimension géographique. L’application résultant présentera unemesure qui est l’objet complexe représentant les maladies et une dimensiongéographique « France » (figure 10). Une possible requête multidimensionnelle estalors « Quelles sont les maladies qui touchent les départements de France chaqueannée ? »

Figure 10. Application multidimensionnelle avec une mesure complexe

Dans notre approche une mesure géographique ou complexe est liée à d’autresobjets géographiques et/ou complexes à travers des hiérarchies. Par conséquent, onpeut penser utiliser ces liens pour changer la granularité de la mesure, pendant leprocessus de navigation multidimensionnel. Nous envisageons alors des opérateursqui remplacent les mesures avec les objets géographiques/complexes d’un niveaumoins détaillé des hiérarchies des mesures, par exemple pour changer lesdépartements avec les régions ou les maladies avec les types de maladies.

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 19: Des entrepôts de données, l’analyse en ligne et l’information géographique

480 Journal of Decision Systems. Volume 17 – No. 4/2008

5. Un panorama des modèles conceptuels pour les entrepôts de donnéesspatiales

Dans cette section nous présentons les différents modèles formels pour les basesde données spatiomultidimensionnelles proposés en littérature.

5.1. Pourrabas

Un modèle formel qui intègre une base de données spatiales à objets et une basede données multidimensionnelles est présenté dans Pourrabas (2003). Cette solutionpermet de répondre aux requêtes qui portent sur des données stockées dans une basede données multidimensionnelle et une base de données spatiales, de façontransparente à l’utilisateur. Pour effectuer ce lien, l’auteur utilise la dimensionspatiale, et il étend les structures de données géographiques avec des attributsparticuliers appelés attributs fonctionnels. Les membres de la dimension spatialesont contraints par une relation d’inclusion complète où les géométries des membresdes niveaux moins détaillés sont les résultats de la fusion des géométries de leursdescendants.

5.2. Malinowsky et Zimányi

Le modèle multidimensionnel présenté dans Malinowsky et al. (2004, 2005) estdéfini comme un ensemble fini de dimensions et un « fact relationship » quireprésente le sujet de l’analyse. Ce dernier représente une relation « plusieurs àplusieurs » entre les différents niveaux les plus détaillés des dimensions. Chaque faitest décrit par un ensemble de mesures auxquelles sont associées des fonctionsd’agrégation. Une dimension est composée par une ou plusieurs hiérarchies. Unehiérarchie est dite spatiale si au moins un niveau contient un attribut géométrique.Les membres de deux niveaux spatiaux sont liés par une relation topologiqued’inclusion ou d’intersection. Pour ce qui concerne les mesures, on distingue lesmesures numériques de mesures spatiales. Une mesure spatiale est représentée parune géométrie ou par le résultat d’une fonction spatiale. A chaque élément dumodèle est associé une représentation graphique et/ou iconique. Le modèle nepermet pas de représenter les mesures dérivées et les relations plusieurs à plusieursentre faits et dimensions (Abello et al., 2006).

5.3. Damiani et Spaccapietra

Le modèle MuSD enrichit les concepts des entrepôts de données classiques avecla représentation de la mesure spatiale à plusieurs granularités géométriques(Damiani et al., 2006). Le modèle définit une hiérarchie comme un treillis de

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 20: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 481

niveaux représenté par un ordre partiel. En accord avec le standard OGC, un niveauest dit spatial s’il représente un ensemble d’objets avec des attributsalphanumériques et un attribut spatial. Une mesure spatiale est définie comme unehiérarchie où tous les niveaux sont spatiaux. Les auteurs introduisent le concept de« Multigranular spatial schema ». Il s’agit d’un ensemble de dimensions, de mesuresclassiques et d’une mesure spatiale. Le « Multigranular spatial schema » représenteun ensemble d’hypercubes. Un hypercube est défini pour chaque niveau de lamesure spatiale. Pour exploiter l’appartenance de la mesure spatiale à unehiérarchie, l’algèbre fournit l’opérateur « Measure Climbing » qui permet de monterdans la hiérarchie de la mesure spatiale, et donc de naviguer entre les différentshypercubes.

5.4. Jense et al.

Un modèle et une algèbre pour les applications multidimensionnelles pour lesservices basés sur la localisation sont décrits dans Jensen et al. (2004). Laparticularité de cette approche est l’introduction du concept d’imprécision dans leshiérarchies des dimensions pour la prise en compte des relations topologiquesd’inclusion partielle ou totale entre les membres de dimensions. Le modèle définitune dimension comme un ensemble de niveaux, et deux relations d’ordre partiel.Ces deux relations sont utilisées pour modéliser respectivement les inclusions totaleset partielles. Une instance d’une dimension est un ordre total sur les membres desniveaux. De plus, pour tous les membres, il existe une fonction qui associe à chaquecouple des membres une valeur numérique entre 0 et 1 qui représente le degréd’inclusion. Le modèle fournit aussi une algèbre avec des opérateurs de sélection,union, et agrégation qui prennent en compte la relation d’inclusion partielle.

5.5. Ahmed et Miquel

Contrairement à tous les modèles SOLAP qui utilisent le modèle vectoriel pourla représentation de l’information géographique, le travail d’Ahmed et Miquel(2005), introduit une vision continue de l’espace géographique dans les entrepôts dedonnes spatiales et permet de gérer les données manquantes et erronées. Le modèleest basé sur les notions de « cube de base discret » représentant un hypercubespatial classique, et de « cube de base continu » qui contient des valeurs estimées etdérivées du cube de base discret grâce à des fonctions d’interpolation.

5.6. Bimonte et al.

Nous proposons un modèle formel (GeoCube) (Bimonte et al., 2006 ; Bimonte,2007) et une algèbre associée qui prend en compte les concepts principaux de

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 21: Des entrepôts de données, l’analyse en ligne et l’information géographique

482 Journal of Decision Systems. Volume 17 – No. 4/2008

l’OLAP géographique. L’originalité de GeoCube est la modélisation de toutes lesdonnées de l’univers d’analyse à travers les concepts d’objet complexe et/ougéographique. Les mesures, comme les membres de dimension, sont des objetsgéographiques décrits par un ensemble d’attributs descriptifs et un attribut spatial.La symétrie entre mesure et dimension se traduit notamment par l’appartenance desmesures à des schémas hiérarchiques. GeoCube, en s’appuyant sur cettemodélisation des données particulière, propose une algèbre spatio-multidimensionnelle qui reformule et étend les opérateurs spatiomultidimensionnelsclassiques. L’algèbre fournit des opérateurs de forage et de coupe. L’opérateur deforage permet l’agrégation des objets géographiques ou complexes, contrairementaux approches classiques où l’agrégation porte sur des mesures qui sont de simplesvaleurs quantitatives. L’opérateur de coupe permet de couper l’hypercube enutilisant des prédicats alphanumériques et aussi des prédicats spatiaux. Pourexploiter la symétrie entre mesures et dimensions, GeoCube introduit deuxnouveaux opérateurs multidimensionnels qui permettent de naviguer dans lahiérarchie de la mesure et un opérateur qui permet d’intervertir mesure et dimension.Enfin, une autre innovation apportée par GeoCube est un opérateur qui permet dechanger dynamiquement la structure de l’hypercube, en ajoutant dans les donnéesdécisionnelles les résultats obtenus par un opérateur d’analyse spatiale.

6. Conclusions

L’introduction de l’information spatiale dans l’analyse multidimensionnelleimplique une reformulation des concepts des entrepôts de données et de l’analyse enligne. L’intégration de la composante spatiale de l’information géographique en tantqu’axe ou sujet de l’analyse a mené différents auteurs à la définition respectivementde dimension spatiale et mesure spatiale. Dans ce papier, nous détaillons cesdifférentes définitions et décrivons les modèles conceptuels pour les bases dedonnées spatiomultidimensionnelles proposés dans la littérature.

La majorité des modèles SOLAP proposés en littérature réduisent l’informationgéographique à la seule composante spatiale et ils ne prennent pas en compte laflexibilité de l’analyse spatiale, limitant ainsi les capacités d’analyse du paradigmespatiomultidimensionnel. Nous proposons un nouveau paradigme pour l’analyse del’information géographique : OLAP géographique, qui étend les capacités d’analysede l’OLAP spatial. En utilisant un cas d’étude concernant la pollution des eaux de lalagune de Venise, nous présentons les concepts de l’OLAP géographique mesures etdimensions géographiques et opérateurs multidimensionnels. La mesuregéographique étend le concept de mesure spatiale aux attributs alphanumériquesd’un objet géographique. De plus, une mesure peut appartenir à une ou plusieurshiérarchies. Une dimension géographique est décrite par trois différents types dehiérarchies : descriptive, spatiale et de généralisation cartographique. Ces trois typesde hiérarchies reflètent la sémantique des relations entre les membres de niveauxdifférents. Notre approche se focalise sur la sémantique de la hiérarchie,

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 22: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 483

contrairement aux solutions SOLAP existantes, car à chaque type de hiérarchiecorrespond une analyse multidimensionnelle différente, qui se traduit en différentespolitiques d’agrégation et de navigation. Ensuite, nous montrons comment dans lesmodèles spatiomultidimensionnels classiques la rigidité des schémas et des instancesdes hiérarchies empêche l’utilisation des méthodes d’analyse spatiale, et commentl’asymétrie entre dimension et mesure spatiale limite les capacités d’analyse. Nousproposons alors, de nouveaux opérateurs spatiomultidimensionnels : les opérateursqui modifient dynamiquement la structure de l’hypercube, l’opérateur qui permetd’intervertir mesures et dimensions, et les opérateurs de navigation dans lahiérarchie de la mesure.

7. Bibliographie

Abelló A., Samos J., Saltor F., “YAM²: A Multidimensional Conceptual Model ExtendingUML”, Information Systems, Vol. 3, No. 6, 2006, p. 541-567.

Ahmed T., Miquel M., “Multidimensional Structures Dedicated to ContinuousSpatiotemporal Phenomena”, Actes de 22th British National Conference on Databases,Sunderland, UK, 5-7 juillet 2005, Berlin Heidelberg, Springer, 2005, p. 29-40.

Andrienko N., Andrienko G., Gatalsky P., “Exploratory spatio-temporal visualization: ananalytical review”, Journal of Visual Languanges and Computing, Vol. 14, No. 6, 2003,p. 503-541.

Armstrong M., Densham P., “Database organization strategies for spatial decision supportsystems”, International Journal of Geographical Information Systems, Vol. 4, No. 1,1990, p. 3-20.

Bédard Y., Spatial OLAP, 2nd Forum annuel sur la R-D, Géomatique VI: Un mondeaccessible, Montréal, 13-14 Novembre 1997.

Bédard Y., Merrett T. H., Han J., “Fundaments of Spatial Data Warehousing for GeographicKnowledge Discovery”, Geographic Data Mining and Knowledge Discovery, Londres,Taylor & Francis, 2001, p. 53-73.

Bédard Y., Proulx M., Rivest S., “Enrichissement du OLAP pour l’analyse géographique:exemples de réalisation et différentes possibilités technologiques”, Revue des NouvellesTechnologies de l’Information - Entrepôts de données et l’Analyse en ligne, France,Cépaduès-Éditions, 2005, p. 1-20.

Bimonte S., Tchounikine A., Miquel M., “GeoCube, a Multidimensional Model andNavigation Operators Handling Complex Measures: Application in Spatial OLAP”, Actesdes 4th International Conference Advances in Information Systems, Izmir, Turquie, 18-20octobre 2006, Berlin-Heidelberg, Springer, 2006, p. 100-109.

Bimonte S., Tchounikine A., Miquel M., Laurini R., “Vers l’intégration de l’analyse spatialeet multidimensionnelle”, Actes de Colloque International de GEOmatique et d’AnalyseSpatiale, Clermont-Ferrand, France, 18-20 juin 2007.

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 23: Des entrepôts de données, l’analyse en ligne et l’information géographique

484 Journal of Decision Systems. Volume 17 – No. 4/2008

Bimonte, S., Vers l’intégration de l’information géographique dans les entrepots de donnéeset l’analyse en ligne : de la modelisation à la visualization, PhD thesis, INSA Lyon, 2007.

Blaschka M., Sapia C., Höfling G., Dinter B., “Finding your way through multidimensionaldata models”, Actes de 9th International Workshop on Database and Expert SystemsApplications, Vienne, Autriche, 24-28 août 1998, Washington, DC, USA, IEEE ComptuerSociety, 1998, p. 198-203.

Caron P., Étude du potentiel de OLAP pour supporter l’analyse spatio-temporelle, Rapport deDEA Informatique. 1998, Laval, Université Laval, Canada.

Compieta P., Di Martino S., Bertolotto M., Ferrucci F., Kechadi T., “Exploratory spatio-temporal data mining and visualization”, Journal of Visual Languages and Computing,Vol. 18, No. 3, 2007.

Colonese G., Manhães R., Montenegro S., Carvalho R., Tanaka A., “PostGeoOlap: an Open-Source Tool for Decision Support”, Actes de 2nd Simpósio Brasileiro de Sistemas deInformação, Florianópolis, Brésil, 26-30 septembre 2005.

Damiani M., Spaccapietra S., “Spatial Data Warehouse Modeling”, Processing and ManagingComplex Data for Decision Support, Hershey, PA, USA, IDEA Group Publishing, 2006,p. 1-27.

Denegre J., Salge F., Les systèmes d’information géographique, 2nd Ed., PressesUniversitaires de France, Paris, 2004.

Fidalgo R., Times V., Silva J., Souza F., “GeoDWFrame: A Framework for Guiding theDesign of Geographical Dimensional Schemas”, Actes de 6th International Conference onData Warehousing and Knowledge Discovery, Saragosse, Espagne, 1-3 septembre 2004,Berlin Heidelberg, Springer, 2004, p. 26-37.

Hernandez V., Voss A., Göhring W., Hopmann C., “Sustainable decision support by the useof multi-level and multi-criteria spatial analysis on the Nicaragua DevelopmentGateway”, Actes de From pharaohs to geoinformatics Proceedings of FIG Working Week2005 and 8th International Conference on the Global Spatial Data Infrastructure, LeCaire, Egypte, 16-21 avril 2005.

Hüsemann B., Lechtenbörger J., Vossen G., “Conceptual data warehouse modeling”, Actes deWorkshop on Design and Management of Data Warehouses, Stockholm, Suède, June 5-6,2000, CEUR-WS.org, Vol. 28, No. 6, 2000

Inmon W.H., Building the Data Warehouse, 2nd Ed. Wiley, 1996.

Jensen C., Kligys A., Pedersen T., Timko I., “Multidimensional data modeling for location-based services”, International Journal on Very Large Data Bases, Vol. 13, No. 1, 2004, p.1-21.

Kimball R., The Data Warehouse Toolkit: Practical Techniques for Building DimensionalData Warehouses, John Wiley & Sons, 1996

Keenan P., “Using a GIS as a DSS Generator”, Perspectives on Decision Support System,Gréece, University of the Aegean, 1996, p. 33-40.

Longley P., Goodchild M., Maguire D., Rhind D., Geographic Information Systems andScience, New York, John Wiley & Sons, 2001.

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 24: Des entrepôts de données, l’analyse en ligne et l’information géographique

De l’information géographique et l’OLAP spatial 485

Maceachren A., Kraak M., “Research challenges in geovisualization”, Cartography andGeographic Information Systems, Vol 6, No. 1, 2001, p. 3-12.

Malinowski E., Zimányi E., “Representing spatiality in a conceptual multidimensionalmodel”, Actes de 12th ACM International Workshop on Geographic Information Systems,Washington, DC, USA, 12-13 novembre 2004, New York, USA, ACM Press, 2004,p. 12-22.

Malinowski E., Zimányi E., “Spatial Hierarchies and Topological Relationships inSpatialMultiDimER model”, Actes de 22th British National Conference on Databases,Sunderland, UK, 5-7 juillet 2005, Berlin Heidelberg, Springer, 2005, p. 17-28.

Marchand P., Brisebois A., Bédard Y., Edwards G., “Implementation and evaluation of ahypercube-based method for spatio-temporal exploration and analysis”, Journal of theInternational Society of Photogrammetry and Remote Sensing, Vol. 59, No. 1, 2003, p. 6-20.

Matias R., Moura-Pires J., “Revisiting the OLAP Interaction to Cope with Spatial Data andSpatial Analysis”, Actes de 9th International Conference on Enterprise InformationSystems, Funchal, Madeira, Portugal, 12-16 Juin, 2007, Portugal, INSTICC, 2007.

Mitchell A., The ESRI Guide to GIS Analysis: Volume 2: Spatial Measurements andStatistics, Redlands, Californie, ESRI Press, 2005.

Pedersen T., Tryfona N., “Pre-aggregation in Spatial DataWarehouses”, Actes de 7th

International Symposium on Spatial and Temporal Databases, Redondo Beach, CA,USA, 12-15 juillet, 2001, Springer, 2001, p. 460-478.

Pourabbas E., “Cooperation with Geographic Databases”, Multidimensional databases:problems and solutions, Hershey, PA, USA, IGI Publishing, 2003, p. 393-432.

Rafanelli M., “Operators for Multidimensional Aggregate Data”, Multidimensionaldatabases: problems and solutions, Hershey, PA, USA, IGI Publishing, 2003, p. 116-165.

Rivest S., Bédard Y., Marchand P., “Towards better support for spatial decision-making:defining the characteristics of Spatial On-Line Analytical Processing”, Geomatica,Journal of the Canadian Institute of Geomatics, Vol. 55, No. 4, 2001, p. 539-555.

Rivest S., Bédard Y., Proulx M., Nadeaum M., “SOLAP: a new type of user interface tosupport spatio-temporal multidimensional data exploration and analysis”, Actes deInternational Society for Photogrammetry and Remote Sensing joint Workshop on Spatial,Temporal and Multi-Dimensional Data Modelling and Analysis, 2-3 octobre, 2003,Quebec, Canada.

Rivest S., Bédard Y., Proulx M., Nadeaum M., Hubert F., Pastor J., “SOLAP: MergingBusiness Intelligence with Geospatial Technology for Interactive Spatio-TemporalExploration and Analysis of Data”, Journal of International Society for Photogrammetryand Remote Sensing, Vol. 60, No. 1, 2005, p. 17-33.

Sampaio M., Sousa A., Baptista C., “Towards a logical multidimensional model for spatialdata warehousing and OLAP”, Actes de 9th ACM International Workshop on DataWarehousing and OLAP, Arlington, Virginia, USA, 10 novembre, 2006, New York,USA, ACM Press, 2006, p. 83-90.

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014

Page 25: Des entrepôts de données, l’analyse en ligne et l’information géographique

486 Journal of Decision Systems. Volume 17 – No. 4/2008

Scotch M., Parmanto B., “Development of SOVAT: a numerical-spatial decision supportsystem for community health assessment research”, International Journal of MedicalInformatics, Vol. 34, No. 10, 2006, p. 771-784.

Shekar S., Tan X., Chawla S., Vatsavai R., “Map Cube: A Visualization Tool for Spatial DataWarehouses”, Geographic Data Mining and Knowledge Discovery, Taylor & Francis,Londres, 2001, p. 74-109.

Spaccapietra S., Parent C., Zimanyi E., “Spatio-Temporal and Multi-RepresentationModeling: A Contribution to Active Conceptual Modeling”, Active Conceptual Modelingfor Learning, Berlin Heidelberg, Springer, 2007.

Stefanovic N., Han J., Koperski K., “Object-Based Selective Materialization for EfficientImplementation of Spatial Data Cubes”, IEEE Transactions on Knowledge and DataEngineering, VOL. 12, No. 6, 2000, p. 938-958.

Weibel R., Dutton G., “Generalizing Spatial Data and Dealing with MultipleRepresentations”, Geographic Information Systems and Science, New York, John Wiley& Sons, 2001, p. 125-155.

Dow

nloa

ded

by [

Tuf

ts U

nive

rsity

] at

13:

52 2

8 O

ctob

er 2

014