RECHERCHE ET FOUILLE DANS DES BASES DE … · Exploration d’information et visualisation Fouille de données, Analyse exploratoire de ... 3.1. Taxonomie des modèles : Adhoc Vs

MASTER Recherche Informatique et Télécommunications

Parcours : RI-BD

RECHERCHE ET FOUILLE DANS DES BASES DE DONNEES ET D’INFORMATIONS

Contact : M. Boughanem Objectifs scientifiques, objectifs professionnels Les récents progrès réalisés en matière de communication (réseaux hauts débits, normalisation des protocoles et des architectures à objets répartis, explosion de l'internet) permettent aujourd'hui d'envisager la construction de systèmes d'information de grande envergure au cœur desquels se trouvent de gros volumes d'information multiforme : on passe des giga-octets et téra-octets aux yotta-octets. Le changement d'échelle dans la taille des collections et la complexité des objets et des types nous amènent à reconsidérer les outils et techniques d'organisation et d'accès à l'information. Le parcours vise à former des informaticiens de haut niveau, spécialisés dans la gestion et le traitement de l’information. Il aborde les différentes thématiques émergeantes liées à l’organisation et l’accès à l’information à travers des enseignements dans les domaines de la Recherche d’Information, de la fouille de données, des bases de données multidimensionnelles, mobiles et du Traitement automatique des langues. L'objectif est de former à la recherche et par la recherche des spécialistes de ces domaines.

Semestre

/ UE

Matières et

Contenu des enseignements

Mots-clés et Objectifs

9ème semestre

UE1

Recherche d’Information : modèles et concepts

Concepts de base de la RI, Indexation, Modèle théoriques de RI (booléen, vectoriel, probabiliste, inférentiel ), évaluation en RI

9ème semestre

UE2

Médiation de sources de données hétérogènes et distribuées

Documents semi structurés, langages de requêtes (XSLT, Xquery)

9ème semestre

UE3

Modèles et requêtes multimédia

Segmentation et indexation sémantique, Interrogation multimédia : Interrogation par métadonnées, Interrogation par image-exemple, Bouclage de pertinence

9ème semestre

UE4

Exploration d’information et visualisation

Fouille de données, Analyse exploratoire de l’information multidimensionnelle (acp, afc, afm, classifications, règles d’association, arbres de décision, …) et ses visualisations (graphiques interactifs, cartographies, graphes, tableaux de bord, …)

9ème semestre

UE5

Base de Données Multidimensionnelles

Modélisations multidimensionnelles conceptuelle, logiques (ROLAP : étoile, flocon, constellation), physique (vue matérialisée, treillis de vues), opérateurs algébriques et langages OLAP (forages, rotations, imbrications, etc.)

9ème semestre

UE6

Accès à l’information sur le Web

Caractéristiques web, robots indexeurs, modèle de ranking, Profil utilisateur, contexte, filtrage, recommandation, accès personnalisé à l’information, annotation, Web Social

9ème semestre

UE7

Bases de données réparties et mobiles

Bases de données, répartition à grande échelle, hétérogénéité, optimisation, agents mobiles, modèles de coûts, et évaluation de performances.

9ème semestre

UE8

Approches linguistiques pour la RI. Traitement automatique des langues, Système

questions réponses, ontologies, mise en forme des documents

PLAN DES COURS

UE1 : RECHERCHE D’INFORMATION INTERVENANTS : M. Boughanem, J. Mothe

Objectifs :

La recherche d’information constitue aujourd’hui la base de tout processus de gestion et d’exploitation de documents de tous types (textes et multimédia, structurés et semi structurés), et en particulier de tout système de gestion électronique de document. L’objectif de ce cours est de dresser un panorama et un bilan des recherches en Recherche d’Informations (RI). Il s’agit de décrire les techniques, les algorithmes et les modèles développés dans cette thématique, en insistant particulièrement sur leurs fondements théoriques. PLAN 1. Introduction à la RI

1.1. Objectifs de la RI 1.2. Types d'information 1.3. Tâches (RI, FI, CLIR, QA, etc .) 1.4. Le concept de document

2. Indexation pour la RI 2.1. Introduction: Analyse de textes 2.2. Étapes du processus d'indexation 2.3. Algorithmes de radicalisation 2.4. Techniques de pondération des termes

3. Modèles de RI 3.1. Taxonomie des modèles : Adhoc Vs Filtrage 3.2. Modèles ensemblistes 3.3. Modèles algébriques 3.4. Modèles probabilistes 3.5. Modèle possibiliste

4. Techniques d’évaluation 4.1. Critères d'évaluation 4.2. Collections de tests 4.3. Bilan des campagnes d'évaluation

5. Mécanismes de reformulation de requêtes 5.1. Expansion de requêtes 5.2. Ré-injection de pertinence 5.3. Méthodes de sélection de termes

Références bibliographiques :

1- BAEZA-YATES R., RIBEIRO-NETO B., " Modern information retrieval ", ACM Press, Addison Wesley ed., ISBN 0-201-39829-X, 1999.

2- GROSSMAN D. A., FIEDER O. “Information retrieval: Algorithm and Heuristics. Kluwer Academic Publishers, 1998.

3- LOSEE R. M., “TEXT RETRIEVAL AND FILTERING Analytic Models of Performance”. Kluwer Academic Publishers, 1998.

UE2 : MEDIATION DE SOURCES DE DONNEES HETEROGENES ET DISTRIBUEES INTERVENANTS : C. Chrisment, F. Sedes

OBJECTIFS : Les données, de natures diverses - structurées (n-uplets, ensemble, listes, arbres, etc.) ou non (XML, HTML), multimédia - sont stockées dans des bases relationnelles ou objets, des ensembles de documents multimédia ou des fichiers semi structurés, etc. Les recherches dans les "grandes" bases ainsi constituées ne peuvent plus être basées sur l'appariement exact d'objets. Elles reposent sur des notions de similarités associées à des mécanismes plus ou moins adaptatifs de navigation. Afin de garantir les performances, les systèmes de recherche par le contenu doivent mettre en oeuvre des techniques d'indexation multidimensionnelles. De ces besoins nouveaux découle la nécessité de proposer des systèmes permettant d'accéder à de multiples sources de données préexistantes, autonomes et potentiellement hétérogènes, ou "systèmes multi-sources". PLAN

1. Introduction: Systèmes de médiation et données semi structurées 2. Balisage Principes fondamentaux Concepts génériques Identification d'objets et espaces nominaux 3. Structuration

Modèles hiérarchiques, en graphe. Elicitation de structures

4. Hyperbases: Formalisations

Mécanismes de référencement 5. Métadonnées

Représentation et normes multimédia Patterns Extensibilité 6. Typage et approche 'Base de données'

Types simples, complexes Dérivation de modèles Vues Interopérabilité 7. Manipulation et langages de requêtes

Expressions de chemins Métriques, distances et similarité Moteurs de requêtes Flexibilité 8. Transformation de structures/Réécriture

Références bibliographiques :

1. Data on the Web : From Relations to Semi-structured Data and Xml, by Serge Abiteboul, Peter Buneman, Dan Suciu - Morgan Kauffmann eds., 2000, ISBN 1-55860-622-X

2. Neil Bradley : The XML Companion Addison Wesley ISBN : 0-201-77059-8 3. Katz et all.: Xquery from the experts ISBN : 0-321-18060-7 4. Neil Bradley: The XSL Companion ISBN : 0-201-77083-0

UE3 : MODELES ET REQUETES MULTI-MEDIA

INTERVENANTS : C. Chrisment, F. Sedes

Objectifs L’objectif de ce module est de présenter un état de l’art et des techniques en vue de la construction d’un système d’accès à une collection de documents multimédia. Il s’agit ici d’identifier l’état des connaissances et des ressources disponibles afin de modéliser la structure, le contenu et la manipulation des (méta)données issues de l’indexation de contenus visuels (images, textes), des technologies associées et des standards (en particulier du point de vue des codages et des méta-données). En complément des approches « amont » destinées à analyser, structurer et décrire le contenu visuel d’une image ou d’une vidéo, il s’agira d’illustrer comment associer de la sémantique aux images ou aux vidéos, quelles méta-données choisir pour concrétiser ces représentations visuelles et sémantiques des contenus, comment interroger une base d’images grâce à ces méta-données, aux langages d’interrogation et aux interactions des utilisateurs.

Plan général

1 - Introduction 1.1- Spécificité des média 1.2- Le « gap sémantique » ou le chemin à parcourir du descripteur visuel au concept-cible de la requête

2- Segmentation et indexation sémantique 3- Annotations et descripteurs 4- Normes et métadonnées 5- Problématique de l'interrogation multimédia

5.1- Illustration à travers quelques outils et prototypes 5.2- application des mesures de similarité à la similitude « visuelle ».

6- Interrogation multimédia 6.1- Interrogation par métadonnées 6.2- Interrogation par image-exemple 6.3- Bouclage de pertinence 7- Normes et langages de requêtes : extensions des opérateurs. 8- Conclusion Références bibliographiques: 1. Multimedia Database Management Systems, B. Prabhakaran, Springer. 2. Multimedia and Imaging Databases, Setrag Khoshafian, Brad Baker, Morgan Kaufmann. 3. Multimedia Databases: An Object-Relational Approach, Dunckley, Lynne, ISBN: 0201788993.

UE 4 : BASE DE DONNEES MULTIDIMENSIONNELLES

INTERVENANTS : O. Teste, G. Zurfluh

Objectifs L’informatique décisionnelle a pour objectif d’élaborer des systèmes d'analyse de données dédiés au soutien et à l'amélioration des processus décisionnels des organisations. Ces systèmes sont généralement constitués de bases de données multidimensionnelles, communément appelées entrepôts (data warehouses). Ces dernières connaissent un important essor en raison de leur adéquation dans la manipulation et l'exploitation rapide, efficace et performante des données à des fins décisionnelles. En effet, les bases multidimensionnelles sont l’un des nouveaux développements remarquables de la conception des bases de données qui étend de façon considérable les possibilités d’analyse de grands ensembles de données multidimensionnels. L’objectif de ce cours est de présenter les principes, l’architecture et l’utilisation des bases multidimensionnelles. Nous étudions les schémas multidimensionnels (étoile, flocon, constellation) organisés en faits à analyser selon différents axes d’analyses appelés dimensions. Les faits sont composés de mesures d'activité et les dimensions comportent des paramètres. Ces derniers sont organisés en hiérarchies représentant différents niveaux de granularité. Ces modèles sont étudiés en suivant les niveaux d'abstractions traditionnels en base de données : conceptuel, logique et physique. Nous introduisons également l’algèbre de manipulation multidimensionnelle sur laquelle sont basés les principaux langages et outils actuels. Cette algèbre expose l’ensemble des opérateurs liés à l’approche OLAP (drilldown, rollup, rotate, fold, unfold, push, pull, switch,…). PLAN 1. Systèmes décisionnels 1.1. Entrepôt de données (“data Warehouses”) vs Magasins de données (“data marts”) 1.2. Architecture (médiateurs, adaptateurs) 2. Modélisations dimensionnelles 2.1. Modèles conceptuels 2.2. Modèles logiques 2.3. Modèles physiques : extensions d'ORACLE et de SQL Server 2.4. Méta-Modélisation : CWM et autres propositions de recherches 2.5. Méthodologie de conception de systèmes multidimensionnels 3. Manipulations multidimensionnelles 3.1. Structures de visualisation 3.2. Algèbre: 3.3. Propositions de langages de la communauté scientifique et commerciale Références bibliographiques : 1. C. Chrisment, G. Pujolle, F. Ravat, O. Teste, G. Zurfluh, "Les entrepôts de données", Traités des Techniques

de l'Ingénieur - H 3870, Février 2005. 2. Inmon W.H., “Building the Data Warehouse“, John Wiley&Sons, 1994, ISBN 0471-14161-5 3. Kimball R., “Entrepôts de données - Guide pratique du concepteur de data warehouse“ Traduction de

Claude Raimond, John Wiley and Sons, 1996, ISBN: 2-7117-8668-7

UE 5 : EXPLORATION D’INFORMATION ET VISUALISATION

INTERVENANTS : B. Dousset, J. Mothe

Objectifs : L’exploration de données a été définie comme l'extraction de l’information implicite, non connue a priori, mais utile. De façon similaire, l’exploration d'informations a pour objectif d'extraire, à partir d'informations textuelles, des informations cachées ou des modèles. Parmi les problématiques de recherche sous-jacentes on peut citer : les modèles de représentation de l'information en vue de son analyse, les méthodes d'analyse exploratoire des données, les interfaces de visualisation, l'adaptation aux besoins des utilisateurs. L’objectif de ce cours est de dresser un panorama des méthodes d’analyse exploratoire de l’information multidimensionnelle et ses visualisations afin de pouvoir mettre les étudiants en situation de réaliser une analyse stratégique depuis des données collectées en externe, en s’appuyant sur des outils dédiés interactifs et coopérants. Nous présenterons, tout d’abord, les techniques de description et de mise en relation des données hétérogènes. Nous aborderons, ensuite, les méthodes d’analyse de données, de théorie des graphes, d’analyse relationnelle et de classification et les représentations graphiques qui leur sont associées, le tout dans un contexte de travail collaboratif (analyste, expert, décideur). Enfin, nous étudierons les applications de l’analyse textuelle dans le contexte de la recherche d'information, de l’intelligence économique et de la veille stratégique. PLAN 1. Introduction à l’analyse des données

1.1. La notion de variable 1.2. Tableaux disjonctifs 1.3. Tableaux de contingence 1.4. Co-occurrences

2. Les méthodes de l’analyse multidimensionnelle 2.1. Analyse en composantes principales 2.2. Analyse factorielle des correspondances 2.3. Analyse factorielle multiple 2.4. Analyse procustéenne

3. Les méthodes de classification 3.1. Analyse connexe 3.2. Classification ascendante hiérarchique 3.3. Classification par partition 3.4. Markov clustering

4. Les visualisations graphiques 4.1. Cartes factorielles 4.2. Arbres de classification 4.3. Dessin de graphes 4.4. Cartes géostratégiques

5. L’apport de l’interactivité et du travail coopératif 5.1. Serveur d’applications 5.2. Portail

6. Application de l’analyse textuelle à l’intelligence économiquE 6.1. Qu’est-ce que l’intelligence économique ? 6.2. La veille stratégique 6.3. Le cycle de décision

Références bibliographiques : 1. J.-P. Benzecri. L’analyse de données. Tome 1 La taxinomie, Tome 2 l’analyse des correspondances, Tome 3

linguistique et lexicologie, Dunod Edition, 1973. 2. G. Colletis. Intelligence économique: vers un nouveau concept en analyse économique. Revue d’intelligence

économique, n°1, mars 1997. 3. B. Escofier, J. Pagès. Analyses factorielles simples et multiples, objectifs, méthodes et interprétation.

Dunod, 1998. 4. Y. Kodratoff, M. Moulet. Découverte de connaissances dans les bases de données: présentation du problème

et état de l’art. Teknea, pp 283-296, Toulouse, 1995.

UE 6 : ACCES A L’INFORMATION SUR WEB

INTERVENANTS : L. Lechani, C. Soulé-Dupuy Objectifs : Le Web est un énorme gisement d’information diversifiée et les moteurs de recherche constituent des outils fondamentaux pour y accéder. L'objectif de ce cours est de présenter les différentes approches permettant la mise en ouvre de ces moteurs. Un accent particulier sera mis sur les techniques de collecte de pages visibles et invisibles, les modèles permettant la prise en compte des liens, de la structure dans les pages Web et le contexte (utilisateur, logs,…) de la recherche. PLAN 1. La RI sur le Web

1.1. Caractéristiques du Web (statistiques, évolution, graphes …) 1.2. Les robots d’indexation

1.2.1. modèles de crawling 1.2.2. pages dynamiques 1.2.3. Web invisible

1.3. Analyse des “pages“ Web (analyse de liens, analyse structure, analyse de contenu) 1.4. Modèles de recherche spécifiques 1.5. Modèles de restitution et ranking 1.6. Détection de copies, détection de spams et qualité d’un corpus

2. Accès personnalisé à l’information 2.1. Modélisation des utilisateurs du Web (Modèles probabiliste pour la navigation dans le web, Notions

profil utilisateur en contexte) 2.2. Modèles de filtrage (par contenu, collaboratif) et de recommandation 2.3. Modèles d’accès personnalisé à l’information

3. Le Web sémantique 3.1. Enjeux, approches, standards, apport de la formalisation 3.2. Annotation

4. Web d’entreprise, Web Social (Social bookmarking/Folksonomies) Références bibliographiques : 1. Managing Gigabytes: Compressing and Indexing Documents and Images (2nd edition) by Ian H. Witten,

Alistair Moffat, and Timothy C. Bell. Morgan-Kaufmann Publishers; April 1999; ISBN 1558605703, $54.95

2. Cognitive Strategies in Web Searching Proceedings of the Human Factors & the Web conference, June 3, 1999 by Raquel Navarro-Prieto, Mike Scaife, and Yvonne Rogers.

3. Weaving the Web: The original design and ultimate destiny of the World Wide Web, by its inventor, Tim Berners-Lee with Mark Fischetti, 1999.

4. The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture , John Battelle, 2005.

5. Brin, Sergei and Page, Laurence. 1998. The anatomy of a search engine. WWW7 conference. Available at http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm

UE7 : BASES DE DONNEES REPARTIES ET MOBILES

INTERVENANTS : A. Hameurlain, F. Morvan

Objectif Ce cours a pour objectif d’introduire les principaux problèmes posés et les méthodes proposées dans la conception et le développement des systèmes de bases de données répartis, hétérogènes et mobiles. PLAN 1. Introduction aux bases de données réparties à grande échelle 2. Modèles d'allocation et de localisation des données réparties 3. Optimisation dynamique de requêtes réparties 4. Opérateurs relationnels mobiles 5. Evaluation et optimisation de requêtes mobiles 6. Politiques de migration proactive 7. Modèles de coûts pour des requêtes mobiles 8. Evaluation de performances et impact de la mobilité. Références bibliographiques 1. Principles of Distributed Database Systems; M. T. Ozsu and P. Valduriez, Prentice Hall, 2nd Ed. 1999,

ISBN: 0 13 607938 5 2. Data Management for Mobile Computing, P. Evaggelia and G. Samaras, Kluwer Academic Publishers,

1998, ISBN: 0 7923 8053 3 3. Mobile Database Systems, V. Kumar, J. Wiley & Sons, July 2006, ISBN: 0 471 46792 8. 4. Handbook of Research in Mobile Business: Technical, Methodological and Social Perspectives, Eds. B.

Unhelkar, Idea Group, USA, April 2006, ISBN: 1 59140 817 2 5. Mobile Databases; Special Issue, In: : International Journal of Computer Systems Science & Engineering,

CRL Publishing Ltd, 9 De Montfort Mews Leicester LE1 7FW UK, Vol. 20, N. 2, March 2005, ISSN: 0267 6192

6. Mobilité dans les systèmes d'information et de bases de données ; Numéro Thématique, F. Morvan, A. Hameurlain ; Dans : Revue Ingénierie des Systèmes d'information, Hermès Science Publications,Vol. 10, No. 5, 2005, ISBN : 2 7462 1273 0

7. Traitement parallèle dans les bases de données relationnelles ; A. Hameurlain, P. Bazex, F. Morvan ; Ed. Cépaduès –Editions, 1996, ISBN : 2 85428 414 3

UE 8 : APPROCHES LINGUISTIQUES POUR LA RECHERCHE D'INFORMATION

INTERVENANTS : N. Aussenac-Gilles , F. Benamara , M. Mojahid .

Objectif Ce cours dressera un panorama de techniques de traitement automatique du langage et de ressources sémantiques (lexiques, terminologies, textes et ontologies) utiles à la recherche d'information. Ces techniques et ressources permettent de prendre en compte en partie la sémantique des documents recherchés et des requêtes posées, à partir d'éléments syntaxiques, lexicaux ou de structuration et de mise en forme matérielle. On présentera leur fonctionnement et utilisation pour définir des systèmes questions-réponses, pour l'analyse et la génération de textes, pour l'indexation sémantique ou la reformulation de requêtes ainsi que pour modéliser les connaissances d'un domaine.

Plan 1) LES TECHNIQUES D’ANALYSE SEMANTIQUE du LN

1.1 Notions de ressources sémantiques - Textes, ressources lexicales, terminologies - Ontologies (définition, représentation, contenu)

1.2 Techniques de TAL pour l'extraction de connaissances à partir de textes - principes : niveaux de traitement, grammaires et automates, règles et patrons de fouille - logiciels d’extraction de connaissances à partir de textes - construction d’ontologies à partir de textes : méthodes

1.3 Etude des structures textuelles - étude des textes au niveau macroscopique : enjeux - architecture textuelle, mise en forme matérielle et objets textuels - modèle d'Architecture Textuelle et couplage avec la théorie des Structures Rhétoriques.

2) LES APPLICATIONS RI 2.1 Systèmes Questions-Réponses ou recherche d’information précise

- Architecture fonctionnelle : analyse de la question et typologies de questions en LN, recherche de documents et de passages pertinents, extraction de réponses, présentation des réponses

- Utilisation de ressources linguistiques et de sens commun - Techniques et campagnes d’évaluations - Principaux axes de recherche futures et systèmes question réponse avancé : représentations

sémantiques et mécanismes inférentiels, réponses coopératives, fusion de données, génération d’explications via des techniques de génération du LN, etc.

2.1 Ontologies pour la recherche d'information - Place des ontologies dans le processus de RI, cas du web sémantique - place du TAL : des balises sémantiques (méta-données) à l'analyse conceptuelle des contenus - reformulation de requêtes ; - indexation et annotation sémantique

Références MAEDCHE A. , Ontology learning for the Semantic Web. Kluwer Academic Publisher. 2002. D.BOURIGAULT, N. AUSSENAC-GILLES, Construction d’ontologies à partir de textes. TALN 2003, Batz, Juin 2003. M. MAYBURY. New Directions in Question Answering. AAAI/MIT Press. M.Maybury Edition. 2004. LUC, C., Représentation et composition des structures rhétoriques et visuelles du texte. Approche pour la génération de textes formatés. Thèse de doctorat, Université Paul Sabatier. 2000.