24
URFIST-Rennes / 2 octobre 2009 Franck Ghitalla, mai 2009, systèmes d’information et analyse de données (INIST). Cartographie(s) de l’Information

formation URFIST Rennes 2009

Embed Size (px)

DESCRIPTION

formation / initiation aux préocédés de cartographie de l'information

Citation preview

Page 1: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Franck Ghitalla, mai 2009, systèmes d’information et analyse de données (INIST).

Cartographie(s) de l’Information

Page 2: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Objectifs des procédés cartographiques

La cartographie et sciences des réseaux (NetworkSciences) : détection de patterns statistiques et

visuels des corpus

Avant la cartographie : la phase d’exploration des corpus

1) Cadre scientifique des procédés cartographiques de l’information

Page 3: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Ingénierie scientifique et recherche sur la Ingénierie scientifique et recherche sur la cartographie de l’information pour…cartographie de l’information pour…

L’OBSERVATION Propriétés statistiques de corpus numérisés

Identification de patterns relationnelsConstruction d’indicateurs liés aux contenus, aux

formes techniques ou aux traces sociales

LA MODELISATIONDe structures informationnellesd’architectures documentaires

de phénomènes de flux et/ou d’évolution temporelle

L’INTERVENTIONDans le cadre d’une politique d’édition ou de

publicationAménagement des territoires numériques (visibilité,

organisation de thématiques)Connexion, accompagnement de communautés

d’acteurs

Conception et développement de systèmes d’information Conception et développement de systèmes d’information multi-sources intégrant des procédés cartographiques à multi-sources intégrant des procédés cartographiques à partir…partir…

SOURCES TECHNIQUESBDD scientifiquesCorpus de revues (Hermès, Le Temps des Médias…)Web (sources propres crawlées, bases search engines EXALEAD, RTGI…)Bases brevetsBases termes/concepts (TermSciences)Bases de connaissances personnelles ou collectives (bookmarks, documents numériques de travail, personnels, listes d’objets…)Traces d’usages (statistiques, logs, signatures…)

CHAMPS THEMATIQUESActeurs et organisations de la société civileFigures contemporaines de la science (émergence de problématiques transversales, éthique, institutions et communautés d’acteurs…)Espace(s) public(s) en réseau, opinion publiqueProjets politiques d’intervention sur les territoires numériques

Objectifs des procédés cartographiques

Page 4: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Les systèmes d’information, les masses de données, les systèmes complexes vivants, techniques ou sociaux constituent aujourd’hui l’espace d’investigation privilégié des NetWork Sciences (cf.bibliographie). Le web et tous ces systèmes peuvent être explorés comme des « E-cosystems » réglés par une évolution et des régularités fortes (strong regularities). Distribution des contenus, structure hyperliée, traces d’usage, interactions entre composants s’y mêlent à titre de dimensions constitutives, sans oublier les « lois d’expansion » qui les gouvernent (network dynamics).

La visualisation de graphes relationnels et la manipulation de leurs dimensions permettent de produire des « vues » originales sur les données. En particulier, il s’agit d’identifier des patterns statistiques ou des saillances visuelles associées aux corpus explorés. C’est le principe d’une géographie de l’information nourrie de problématiques théoriques en Network Sciences et qu’il s’agit en même temps de rendre tangible à des usagers (knowledge mapping tools).

Distances, Densité, diamètreModèles topologiques, power-law, random/regular graphs

Hubs/Authorities, structure d’agrégat

Clusters, hiérarchies et rankingVoisinage, centralité/périphérie, inclusion

Communautés compétitives

Corrélation contenu/structureTopical localitiesfocus crawling

Dynamics/evolution of networksTopic Detection and Tracking (TDT)Time Series vizualisation/graphical tracking of information flow

La cartographie et sciences des réseaux (NetworkSciences) : détection de patterns statistiques et visuels des corpus

Page 5: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

INTERFACE, DONNEES, EXPLORATION DE CORPUS

L'Atelier vise à développer le cadre méthodologique et les outils techniques d'un processus d'exploration de grande

masses de données (systèmes ouverts, dynamiques et diversement structurés). A ce titre, les interfaces numériques

à base de graphes ou cartographiques constituent des espaces puissants de synthèse de l'information mais aussi,

parallèlement, d'exploration dynamiques des données.

Au delà, l'Atelier intègre à l'activité de production d'interfaces cartographiques l'ensemble de la chaîne qui constituent les

systèmes d'information : outils et méthodes d'extraction des données (crawlers, A.P.I., recueil manuel et semi-

automatique...), archivage et indexation des données, algorithmes et filtres de traitement.

Les interfaces cartographiques produites seront donc le résultat d'un processus supervisé d'exploration et de

transformations successives de données où alterneront phases de synthèse et de phases de manipulation

orientées vers la recherche de patterns robustes.

Avant la cartographie : la phase d’exploration des corpus

Page 6: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Le cycle de production

Types de données / Extraction

Types de méthodes

Classes de cartographies de l’information

2) Cycle de production des cartographies

Page 7: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Processing / Cycle de productionProcessing / Cycle de production

La production d’interfaces cartographiques relève d’un processus décomposable schématiquement en trois phases principales : l’extraction des données (BDD et fonds propres INIST, sources externes via des API, sources qualifiées

manuellement, web crawling…issus de différents domaines comme les réseaux sociaux, les programmes informatiques, gènes, liens hypertextes, distributions statistiques sur des mots-clef, données d’usage…) et enfin la

construction cartographique qui comprend à la fois la sélection de « vues » sur les données et le travail sémiologique de mise en forme.

3) Classes de cartographies de l’informationInterfaces, spatialisation et production de vues sur les données

1) Types de donnéesExtraction, sources expérimentales, domaines scientifiques

2) Types de MéthodesTraitement, filtrage et enrichissement des données

Retours de cycles d’exploration/conception

Page 8: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Données webDonnées web Réseaux sociauxRéseaux sociaux Gènes, pathologiesGènes, pathologies BDD scientifiquesBDD scientifiques

1) Types de donnéesSources expérimentales, domaines scientifiques

Page 9: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

1) (bis) Types de donnéesSources expérimentales, domaines scientifiques

Les A.P.I. permettent d’interroger de grandes bases de données structurées, processus indispensable pour produire des cartographies sur de grandes masses d’informations. C’est le cas, notamment, des API dédiées aux search engines comme EXALEAD (partenaire de l’Atelier) qui compte plus de 16 milliards de références en base web.

Dans le cadre d’un partenariat comme avec EXALEAD, on peut aussi développer une série d’API complémentaires entre elles et mobilisables sur différents sujets ou à différentes occasions. Sur les sujets de controverses « science-société », les API Exalead sont indispensables pour produire des « photographies de l’opinion » à grande échelle en prenant en compte, parmi les données web, aussi bien les contenus des pages que les liens hypertextes ou les entités nommées. Cette série spécifique d’API développées par WebAtlas a donné lieu à un projet de système intégré et monitoré d’API-Exalead, EXA-Miner.

Page 10: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

2) Types de MéthodesTraitement, filtrage et enrichissement des données

REDUIRE LES MASSES ET LES REDUIRE LES MASSES ET LES DIMENSIONSDIMENSIONS

Produire des indicateurs de masses, de densité, de clustering, de voisinage et de

centration

Concevoir des filtres

Décomposer les dimensions (topologie hypertexte, texte et contenu, indicateurs

d’usage…)

Modèle(s) de distribution des propriétés des corpus

FAIRE EMERGER DES PATTERNSFAIRE EMERGER DES PATTERNS

Méthodes de projection spatiale, visualisation des données

Identification de saillances logico-graphiques

Capitaliser/archiver les phases de transformation des corpus

Ingénierie de l’exploration des corpus par :

Fusion des données de données hétérogènesNiveaux de navigation/zoomRéduction (algorithmes de hiérarchisation/clustering…)

Projection (fonds géoréférencés, schémas fonctionnels, organigrammes…)

CONSTRUIRE DES FIGURESCONSTRUIRE DES FIGURES

Principes d’agrégation

Organisation, architecture et sous-ensembles

Couches et profondeurs des corpus

Temporalités et événements

Page 11: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Cartographies statiquesCartographies statiquesposters papier

Cartographies statiquesCartographies statiquesexplorables en ligne

Générateur de graphesGénérateur de graphesGEPHI

Cartographies dynamiquesCartographies dynamiquesexplorables en ligne

Communication scientifique Analyse de l’information

3) Classes de cartographies de l’informationInterfaces, spatialisation et production de vues sur les données

Page 12: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

3) Exemples

radicaux libresprincipes actifscosmetiques naturelsproduits cosmetiquesproduits de soinspeaux sechesproduits de beauteproduits de soinsoins du visageproduits naturelsanti-ridessoin du visagehuiles vegetalescomplements alimentairesanti-ageinstitut de beautesoins du corpstype de peausoins beautecosmetiques bio

Page 13: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Classes de cartographies de l’informationInterfaces, spatialisation et production de vues sur les données

Communication Communication scientifique - « Place des scientifique - « Place des

Controverses »Controverses »Stand commun

Sciences-Po/WebAtlas/Microsoft – Ville Européenne des Sciences, novembre 2008, Grand-Palais. La

conception de dispositifs d’exposition conduit à mettre en

scène la science dans sa dimension expérimentale. En proposant à des spectateurs d’arpenter physiquement un graphe géant posé au sol, le

principe des grands graphes de mots-clefs (souvent assez

abstraits) épouse la physique d’un parcours corporel de

découverte d’une succession de 8 controverses sociétales, reliées

entre elles par des mots clefs communs.

L’un des objectifs de l’Atelier est ainsi de tester d’autres modes

d’interaction avec les masses de données que l’écran numérique. Les dispositifs scénographiques, immersifs ou mobiles font partie du champ d’expérimentation de

l’Atelier.

Page 14: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Le projet « The Human Disease Network »Le projet « The Human Disease Network »Données empruntées à Kwang-Il Goh, Michael E. Cusick, David Valle, Barton Childs, Marc Vidal & Albert-László Barabási

Exemple d’un travail pluri-Exemple d’un travail pluri-disciplinaire en ingénierie des disciplinaire en ingénierie des

connaissances au sein de l’USR connaissances au sein de l’USR “Ingénierie des Connaissances”“Ingénierie des Connaissances”

(Magali Roux, Franck Ghitalla, Sébastien Heymann et Mathieu Bastian).

The Map the of disease gene-disorder a pour objectif de vérifier pour la première fois à grande échelle cette…« ….strong evidence that at least

one mutation in the particular gene is causative to the disorder.”

En association avec Magali Roux, l’équipe GEPHI a repris les données et produit de nouvelles

visualisations de près de 2.000 maladies classées et de près d’autant de gènes impliqués

sous forme de liens relationnels. Ce travail démontre la possibilité de mobiliser des

compétences et des technologies issues du web-mining vers d’autres domaines scientifiques, l’une des pierres angulaires de la démarche de l’atelier.

La version explorable accessible en ligne :

http://diseasome.eu

Page 15: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Le système d’exploration en ligne associé au projet « The Human Disease Network » - Le système d’exploration en ligne associé au projet « The Human Disease Network » - http://gephi.org/diseasome

Une cartographie en ligne a été associée au projet, Diseasome. Basé sur une interface RTGI, elle donne accès à une cartographie dynamique où l’on peut sélectionner un nœuds, l’explorer, zoomer, sélectionner des rubriques, rechercher par mot-clefs…Les nœuds cliquables renvoient chacun vers une article de wikipedia mais pourront aussi être associés à Cat-inist ou à

Termsciences. De la page d’accueil de Diseasome, on peut aussi télécharger la cartographie imprimable en grand format ou accéder à l’ouvrage associé de Magali Roux, La biologie, l’ère numérique.

Page 16: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Système géoréférencé pour la la région Picardie et Réseaux Numériques de Picardie Système géoréférencé pour la la région Picardie et Réseaux Numériques de Picardie (RENUPI)(RENUPI)

Géoréférencement des ressources web en Picardie (2005). A partir de plusieurs milliers de sites web crawlés et traitant de différents aspects de la Picardie en termes de contenus, plusieurs cartes géographiques de la région et de ses départements ont été produites, en fonction notamment des catégories classant les sites. Ainsi, à l’échelle de l’Aisne, on peut comprendre sur quels lieux ou thématiques sont concentrés les sites francophones traitant du tourisme dans le département (mesure de visibilité sur le web du

patrimoine touristique). On peut aussi comprendre, à l’échelle de l’Oise, de quoi traitent les sites web consacrés au département et à quelles catégories d’acteurs ils se rattachent.

Page 17: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Cartographie de thématiques scientifiques transversalesCartographie de thématiques scientifiques transversalesLa question de l’Arctique sur le webLa question de l’Arctique sur le web

1715 mots-clés reliés par 6676 liens. Ce graphe a été construit à partir des données du moteur web Exalead. Plus de 21000 sites ont été indexés pour obtenir ce corpus. Deux expressions sont liées si elles sont présentes en même temps dans de nombreuses pages. Les noeuds sont

plus gros quand ils ont beaucoup de liens entrants.

Page 18: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Cartographie de thématiques scientifiques transversalesCartographie de thématiques scientifiques transversalesCartographie des grands domaines scientifiques constituant le champ des « Arctic Sciences ». Le graphe a été construit à partir des 8772 publications scientifiques issues de

Web of Science. L’Arctique constitue aujourd’hui une question importante en termes géo-politiques, économiques et de protection de l’environnement. Un travail de mapping des publications sur le sujet permet de comprendre quelles thématiques sont privilégiées (environnement, glaciologie, biologie, anthropologie…ou ingénierie des forages, industries

pétrolières, navigation), par quels pays, quels types de laboratoires ou dans quel cadre de coopération internationale

100 pays reliés par 1362 liens. Ce graphe a été construit à partir des données de 8772 publications

scientifiques de 2007 et 2008.

Page 19: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

CAC40 – Entreprises et mandats au C.A.CAC40 – Entreprises et mandats au C.A.

CAC 40 - Avril 2009 / Administrateurs membres d’un CA ou d’un CS avec 2 mandats minimum / Le graphe des administrateurs des entreprises du CAC40 exerçant au moins deux mandats différents laisse entrevoir un « petit monde » dont le diamètre (distance moyenne entre chaque paire de nœuds de la matrice de graphe) est proche de 2 et structuré autour de

quelques nœuds centraux comme Jean-Martin FOLZ, Michel PEBEREAU ou Louis SCHWEITZER.

Page 20: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Cpan Explorer : An interactive exploration of the PERL ecosystemCpan Explorer : An interactive exploration of the PERL ecosystem

http://labs.rtgi.eu/fpw09/ Le projet Cpan Explorer s’accompagne d’une cartographique dynamique en ligne où ont été indexées les URL associées à la communauté PERL. Cette interface dynamique développée

par RTGI permet de visualiser synthétiquement une grande masse d’information mais aussi de produire des focus sur une URL particulière et son environnement.

Page 21: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Dispositifs/développement technologique

Le Navicrawlerlogiciel libre sous license GPL 3. Version 1.53 : http://webatlas.fr/index.php?option=com_content&view=article&id=56:navicrawler&catid=46:presentations&Itemid=74

GEPHIThe Gephi team will present a demo paper at the ICWSM 2009, 3rd Int’l AAAI Conference on Weblogs and Social Media conference (San Francisco, May 2009).The Gephi project has been selected by Google to be part of the Summer of Code 2009 (GSoC).Paper: Gephi : An Open Source Software for Exploring and Manipulating Networks.Gephi 0.6 Beta2 released : http://gephi.org/

MAGELLAN Web Searchhttp://www.magellan-project.com/

RTGI Innovative Web Technologieshttp://www.wahlradar.de/map/http://linkfluence.net/?lang=frhttp://rtgi.fr/

EXALEAD Laboratories – Innovatives Web Technologieshttp://constellations.labs.exalead.com/?q=gephi&nhits=50&lang=enhttp://labs.exalead.com/

MEDIA-LAB – Sciences-Pohttp://medialab.sciences-po.fr/

Cartographie(s) de l’InformationCartographie(s) de l’InformationTechnologies/Expérimentations/Systèmes d’informationTechnologies/Expérimentations/Systèmes d’information

Page 22: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Cartographie(s) de l’InformationCartographie(s) de l’InformationOuvrages de référence en Ouvrages de référence en Network SciencesNetwork Sciences

Cadres conceptuelsA.-L. BARABASI linked - the new science of networks, new ed. 2005.M. BUCHANAN -Nexus, Small Worlds and the groundbreaking Theory of Networks 2003.

Théorie des graphesD. WATTS six degrees - the science of a connected age, 2004.S. STROGATZ - sync: the emerging science of spontaneous order, 2004.M. NEWMAN - the structure and dynamics of networks, 2003.

Web-MiningS. CHAKRABARTI mining the web, 2002.J. KLEINBERG - algorithm design, 2006.

InfoVizB. SHNEIDERMAN - readings in information visualization: using vision to think, 1999.

Page 23: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Cartographie(s) de l’InformationCartographie(s) de l’InformationArticles/publications/contributions scientifiquesArticles/publications/contributions scientifiques

Ouvrages collectifsLa Navigation, F. Ghitalla (sous la dir.), Les Cahiers du Numérique, Hermès Editions, Paris, 2003L’Outre Lecture, Manipuler, s'approprier, interpréter le web, F. Ghitalla, D. Boullier, A. Neau, L. Le Douarin, P. Guoskhou, Coll. Etudes et Recherches, Bibliothèque Publique d'Information - Centre Georges Pompidou, Paris, 2004.

Articles publiés (Computer Sciences)« Automated Metadata Hierarchy Derivation », Amjad Abou Assali, Hugo Zanghi, Proceedings of IEEE ICTTA06, Damascus, Syria, 2006.« Extracting and Exploring Aggregates of Web documents with Experimental Visualisation Tools », Franck Ghitalla, Fabien Pfaender, Camille Maussang, Conférence EUROPIA-10, 12-14 september 2005, Damascus, Syria« TARENTe: an Experimental Tool for Extracting and Exploring Web Aggregates », Franck Ghitalla, Eustache Diemert, Camille Maussang, Fabien Pfaender, Conférence ICTTA-04, IEEE International Conference on Information & Communication Technologies : From Theory to Applications, Damascus, Syria, march 2004.« Des documents, des liens et des acteurs », Franck Ghitalla, Alain Le Berre, Matthieu Renault, Conférence H2PTM, 2005.« La naissance d'une géographie du web ? », F. Ghitalla, sous la rédaction en chef de Jean-Marc Darrigol – YAHOO !-France, AAE Ensimag – N°42 – Janvier 2009.« Two Visions of the Web, from globality to localities », Fabien Pfaender, Mathieu Jacomy, Guilhem Fouetillou, Proceedings of IEEE ICTTA06, Damascus, Syria, 2006.« Explorer et appréhender le web », Fabien Pfaender, Mathieu Jacomy, 13e journées de Rochebrune : Rencontres interdisciplinaires sur les systèmes complexes naturels et artificiels, ENST 2006 S001, 2006.

Articles publiés (SHS)« Questions autour de l’archivage du Web », Franck Ghitalla, Les Nouveaux Cahiers de l’Audiovisuel, n°5 juin-juillet 2005, Institut National de l’Audiovisuel.« Le Web ou l'utopie d'un espace documentaire », Franck Ghitalla, Dominique Boullier, revue 3I, 2004.« Les Territoires de l'Information : navigation et construction des espaces de compréhension sur le web, Franck Ghitalla, Charles Lenay, présenté au Congrès de l'ARCO (Association pour la Recherche en sciences COgnitives) à Lyon en dec. 2001 et publié dans « La Navigation », Les Cahiers du Numérique, Hermès Editions, Paris, 2003.« L'Age des Cartes Electroniques : outils graphiques de navigation sur le web », Franck Ghitalla, Communication et Langages n°131, Armand Colin, Paris, 2002.« Arpenter le web : liens, indices, cartes », Franck Ghitalla, Terminal n°86, Hiver 2001-2002, L'Harmattan, Paris.« L'espace du document numérique », Franck Ghitalla, Communication et Langages, n°126, Armand Colin, dec. 2000.« Ecriture et NTIC », Franck Ghitalla, Communication et Langages, n°119, Editions Retz, 1999.

White Papers« Cartographie Web du domaine de la coopération Nord-Sud autour des TICE », Alain Le Berre, Mathieu Jacomy, Franck Ghitalla, 2004« Du nuage aux abymes, Dimensions heuristique et expérimentale des modèles web », F. Ghitalla, 2009.« L'atelier de cartographie », F. Ghitalla, 2008.« Détection et visualisation d’agrégats de documents web : L’exemple du domaine thématique de la Culture Scientifique, Technique et Industrielle », F. Ghitalla, M. Jacomy, F. Pfaender, 2006.« Panorama de la Culture Scientifique et Technique sur le Web », M. Jacomy, Extrait du rapport de l'étude WebCSTI - LUTIN, 2005.« La géographie des agrégats de documents sur le web », Franck Ghitalla, 2004. « Du web à l’idée du Web », Sébastien Heymann, 2008 (web-mining.fr)« Moteur de recherche et Compétition », Sébastien Heymann, 2009 (web-mining.fr)

Page 24: formation URFIST Rennes 2009

URFIST-Rennes / 2 octobre 2009

Franck Ghitalla, mai 2009, systèmes d’information et analyse de données (INIST).

Cartographie(s) de l’Information