154
Université Lumière L yon 2 Laboratoire ERIC Année 2015 Mémoire présenté par Julien V elcin Maître de Conférences - 27 ème section en vue de l’obtention du diplôme d’ Habilitation à Diriger des Recherches Spécialité : Informatique Contributions à la science des données :Fouille de données textuelles appliquée à l analyse des médias sociaux Soutenue le 29 mai 2015 devant le jury composé de : M. Eric Gaussier Pr. à l’Université Joseph Fournier (Rapporteur) M. Stan Matwin Pr. à l’Univ. Dalhousie, Halifax (Canada) (Rapporteur) M me Christel Vrain Pr. à l’Université d’Orléans (Rapporteur) M. P atrice Bellot Pr. à Aix-Marseille Université (Examinateur) M. Jérôme Darmont Pr. à l’Université Lumière Lyon 2 (Examinateur) M. Jean-Gabriel Ganascia Pr. à l’Université Pierre et Marie Curie (Examinateur) M. Djamel A. Zighed Pr. à l’Université Lumière Lyon 2 (Examinateur)

Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Embed Size (px)

Citation preview

Page 1: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Université Lumière Lyon 2

Laboratoire ERIC

Année 2015

Mémoire

présenté par

Julien Velcin

Maître de Conférences - 27ème section

en vue de l’obtention du diplôme d’

Habilitation à Diriger des

Recherches

Spécialité : Informatique

Contributions à la science des

données : Fouille de données

textuelles appliquée à l’analyse

des médias sociaux

Soutenue le 29 mai 2015

devant le jury composé de :

M. Eric Gaussier Pr. à l’Université Joseph Fournier (Rapporteur)M. Stan Matwin Pr. à l’Univ. Dalhousie, Halifax (Canada) (Rapporteur)Mme Christel Vrain Pr. à l’Université d’Orléans (Rapporteur)M. Patrice Bellot Pr. à Aix-Marseille Université (Examinateur)M. Jérôme Darmont Pr. à l’Université Lumière Lyon 2 (Examinateur)M. Jean-Gabriel Ganascia Pr. à l’Université Pierre et Marie Curie (Examinateur)M. Djamel A. Zighed Pr. à l’Université Lumière Lyon 2 (Examinateur)

Page 2: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 3: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

à Romain

Page 4: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 5: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Remerciements

En premier lieu, je souhaite remercier chaleureusement Jérôme Darmontqui m’a accompagné tout au long de cette démarche en qualité de

coordinateur, affichant une confiance remarquable par sa constance. J’ex-prime également tous mes remerciements envers Monsieur Stan Matwin,Monsieur Eric Gaussier et Madame Christel Vrain qui m’ont fait l’honneurd’accepter d’être les rapporteurs de ce mémoire d’HDR, ainsi qu’à Mes-sieurs Patrice Bellot, Jean-Gabriel Ganascia et Djamel A. Zighed pour celuid’examiner mon travail en intégrant le jury de soutenance. Je tiens à re-mercier en particulier Jean-Gabriel Ganascia pour les discussions passion-nantes que nous avons eues sur ces sujets situés entre science et société.Sans lui, une dimension importante aurait fait défaut à ce mémoire.

Je remercie en second lieu tous les collègues du laboratoire ERIC, qu’ils’agisse des enseignants-chercheurs, enseignants, personnels administra-tifs et doctorants. Mes pensées vont particulièrement vers ces derniers quim’ont fait confiance pour participer à la supervision de leur travail dethèse : Anna Stavrianou, Mathilde Forestier, Marian-Andréi Rizoiu, Mo-hamed Dermouche, Alberto Lumbreras. Je sais tout le crédit que je leurdois, ainsi qu’à toutes les petites mains (étudiants, stagiaires, chercheursinvités), dans la poursuite de mes recherches. Je dois aussi beaucoup auxnombreuses et enrichissantes discussions partagées avec des collègues del’Université Lyon 2 et plus largement avec des membres de la communautéuniversitaire. Sans ces moments d’échange, qui nous élèvent au-dessus desquestions administratives terre-à-terre et parfois bien rébarbatives, le mé-tier d’enseignant-chercheur ne serait pas le même.

Pour terminer, je remercie ma famille qui m’a toujours soutenu dansles moments difficiles. Je pense notamment à ma belle-mère Etiennette età ma sœur Claire qui ont accepté la tâche ingrate mais indispensable derelire l’intégralité de mon mémoire. Je pense surtout à mon épouse Margotet à mon fils Romain qui donnent un sens à tout ça. C’est à ce dernier queje dédie ce mémoire.

Lyon, le 25 mars 2015.

v

Page 6: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 7: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Table des matières

Préface 1

1 Introduction 31.1 Motivations et problématique . . . . . . . . . . . . . . . . 5

1.2 Contexte local . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Contributions et plan du mémoire . . . . . . . . . . . . . 7

2 Apport de la science des données aux SHS 112.1 Science des Données et SHS . . . . . . . . . . . . . . . . . . 13

2.2 Fouille de données complexes . . . . . . . . . . . . . . . . 17

2.3 Question de représentation(s) . . . . . . . . . . . . . . . . 23

2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . 32

3 Analyse des thématiques et des opinions 333.1 Extraction, nommage, évaluation des thématiques . . . 35

3.2 Détection des thématiques et des opinions . . . . . . . . 42

3.3 Détection et suivi des images d’opinion . . . . . . . . . . 53

Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . 62

4 Recommandation de messages et analyse des rôles

dans les communautés en ligne 654.1 Recommandation dans les communautés en ligne . . . . 67

4.2 Détection de rôles dans les communautés en ligne . . 73

Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . 82

5 Construction semi-supervisée du vocabulaire 855.1 Construction du vocabulaire visuel . . . . . . . . . . . . 87

5.2 Reconstruction du vocabulaire sémantique . . . . . . . 94

Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . 102

6 Implication dans des projets de recherche 1056.1 Analyse des conversations en ligne . . . . . . . . . . . . 107

6.2 Projet Imagiweb . . . . . . . . . . . . . . . . . . . . . . . . . 110

Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . 113

7 Conclusion sur l’activité de recherche et perspectives 1157.1 Bilan général . . . . . . . . . . . . . . . . . . . . . . . . . . 117

7.2 Perspectives de recherche . . . . . . . . . . . . . . . . . . 117

Bibliographie 121

Webographie 141

vii

Page 8: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 9: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Préface

Ce document présente des travaux de recherche que j’ai menés aprèsl’obtention de mon Doctorat en 2005 et mon recrutement à l’Univer-

sité de Lyon 2 en 2007. J’ai choisi de rassembler ces travaux autour duthème de la science des données, en soulignant les applications qui en sontfaites dans la fouille des données complexes (notamment textuelles) issuesdes nouveaux médias sociaux. J’ai omis délibérément certains travaux quin’entrent pas correctement dans ce cadre afin d’éviter de produire unecohérence artificielle.

Ces activités se sont déroulées dans le laboratoire Entreposage, Repré-sentation et Ingénierie des Connaissances (ERIC, E.A. 3083) de novembre2007 à juin 2014. Elles doivent beaucoup à des collaborations fructueusesavec des collègues du laboratoire, aux travaux réalisés par des stagiairesde niveau Master, mais surtout au dur labeur de doctorants auxquels jedois beaucoup. Tout au long de ce document, j’essaie de mettre en évi-dence tout le crédit que je dois à ces personnes qui m’ont accompagné cessept dernières années.

Ma principale contribution consiste à proposer de nouveaux modèleset algorithmes de fouille des données qui relèvent principalement de l’ap-prentissage automatique non ou peu supervisé. Plus précisément :

Le premier chapitre est une introduction générale dans laquelle je mo-tive et j’énonce la problématique abordée tout au long de mes recherches.Je liste également les contributions qui structurent les chapitres de ce mé-moire.

Le deuxième chapitre détaille les motivations de mes travaux de re-cherche. L’objectif est alors d’expliquer en quoi la science des données peutapporter des outils majeurs dans les bouleversements que connaissent lesSciences de l’Homme et de la Société.

Le troisième chapitre est consacré à mes travaux en lien avec l’analysedes thématiques et des opinions. L’approche privilégiée consiste à auto-matiser le processus d’analyse à l’aide de techniques issues de l’appren-tissage automatique. Ces travaux trouvent une application directe dansdes projets de recherche présentés dans le sixième chapitre.

Le quatrième chapitre présente pour l’essentiel les travaux sur la détec-tion de rôles dans les discussions en ligne. Deux approches ont été utili-sées pour cela. La première approche, orientée recherche d’information,consiste à détecter des rôles déjà établis. La deuxième approche consiste àrechercher des rôles de manière non (ou peu) supervisée, en particulier àl’aide d’algorithmes d’apprentissage automatique.

Le cinquième chapitre traite des travaux sur la construction d’un voca-bulaire réalisée de manière semi-supervisée. Une partie des travaux est

1

Page 10: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2 Préface

consacrée à la construction d’un vocabulaire visuel à partir d’images, etune autre à la redescription d’images à l’aide de descripteurs sémantiques.

Le sixième chapitre expose les différents projets dans lesquels je me suisinvesti ces dernières années et qui illustrent utilement les travaux théo-riques décrits dans les chapitres précédents. Je consacre une place parti-culière au projet ImagiWeb car il donne un point de vue éclairant sur unepartie des recherches entreprises.

Le septième chapitre est une conclusion sur mon activité de recherche deces dernières années. Je dresse quelques perspectives pour les années à ve-nir, en particulier sur le développement d’algorithmes adaptés à l’analysedes données du Web pour l’extraction automatique de représentations.

Cette activité de recherche a fait l’objet de diverses publications quisont détaillées au début de chacun des chapitres.

Je souhaite apporter quelques précisions préalables sur le vocabulaireemployé dans ce mémoire. J’ai cherché à traduire au maximum les termesanglais en les termes français correspondants lorsqu’ils n’étaient pas équi-voques. Dans le cas contraire (pour clustering par exemple), j’ai préféré soitopter pour la conservation du terme original qui est le plus souvent nonambigu au regard des spécialistes du domaine, soit utiliser un anglicismelorsque je le jugeais plus approprié (par exemple « évolutionnaire » pour« evolutionary »). Les termes étrangers sont alors, sauf oubli de ma part,affichés en italique. J’espère que le lecteur de ce mémoire ne m’en tiendrapas rigueur.

Page 11: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

1Introduction

Sommaire

1.1 Motivations et problématique . . . . . . . . . . . . . . . . . . 5

1.2 Contexte local . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Contributions et plan du mémoire . . . . . . . . . . . . . . . 7

Ce chapitre est une introduction générale à mon activité de recherchede ces dernières années. Tout d’abord, je précise les motivations qui

m’ont conduit à travailler sur l’analyse des représentations à l’aide de tech-niques issues de la fouille de données et de l’intelligence artificielle. Unefois cette problématique posée, je précise le contexte local qui permet demieux comprendre les raisons d’un travail à l’intersection entre la Sciencedes Données et les Sciences de l’Homme et de la Société (SHS). Enfin, jedonne un aperçu des contributions techniques qui seront détaillées dansles chapitres suivants.

3

Page 12: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 13: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

1.1. Motivations et problématique 5

1.1 Motivations et problématique

Il paraît difficile aujourd’hui d’imaginer qu’Internet, tel que nous leconnaissons, n’existait pas quelques décennies en arrière. L’accès aux

données était difficile et les modèles d’analyse de ces données adaptés àdes volumes restreints. L’avènement du Web a conduit à un accès plusfacile à l’information et aux données, que celles-ci soient fournies par lesacteurs traditionnels (par exemple les pouvoirs publics, les médias) ouqu’elles soient produites par des nouveaux acteurs, utilisateurs de ce nou-veau médium. Cette forme de démocratisation a conduit à une augmenta-tion considérable du volume des données disponibles, augmentation quitrouve les qualificatifs imagés les plus divers : surcharge, explosion, dé-luge, avalanche, tsunami. . . Ce nouveau mal fut qualifié d’infobésité (tra-duction d’information overload) et le remède au traitement des big data vintdes nouvelles technologies elles-mêmes par le développement des entre-pôts de données, des moteurs de recherche, des logiciels de fouille dedonnées, etc. Aujourd’hui, de nombreux champs de recherche attribuésau domaine des Sciences de l’Homme et de la Société (sociologie, histoire,communication, linguistique, etc.) ont besoin d’outils efficaces pour traiterces données complexes massives issues des bases de données et d’Inter-net. On peut ici citer les nombreux exemples de logiciels développés pouraider le spécialiste de la veille (AMI EI, Linkfluence), le sociologue spécia-liste des représentations sociales (Alceste de Reinert (1990), Prospero deChateauraynaud (2003)), mais également le citoyen (Qwant, Apopsis).

Sur la base des nombreux succès remportés par la science des donnéesdans le traitement des données complexes (Abiteboul, 2012), tel que celuidu moteur de recherche de Google, du système de recommandation deMeetic, de la traduction automatique opérée par SYSTRAN, je suis pleine-ment convaincu que les outils informatiques constituent un atout majeurque le spécialiste en SHS peut employer aujourd’hui pour traiter effica-cement les grands volumes de données à sa disposition. Ce dernier peutalors se recentrer sur son cœur de métier, qu’il s’agisse de résoudre desproblématiques historiques, linguistiques, sociologiques, littéraires, touten gardant un regard averti sur l’usage de ces outils, leurs forces, leurslimitations, les biais qu’ils induisent. Il ne s’agit bien sûr pas de remplacercomplètement une analyse qualitative humaine, mais bien de développerdes outils qui apportent un soutien déterminant à cette analyse.

Problématique – Les raisons brièvement exposées ci-dessus et qui serontdétaillées dans le prochain chapitre expliquent, au moins en partie, l’inté-rêt que je porte au développement de nouveaux modèles et algorithmesdont le but est d’analyser les données complexes. En particulier, je proposede travailler sur les représentations qui circulent sur les médias sociaux àl’aide d’outils issus de la science des données. Cette problématique géné-rale touche à deux problèmes complémentaires.

Le premier problème est la question de la fouille des données com-plexes, telle qu’elle a pu être introduite par Zighed et al. (2009). Plus pré-cisément, il s’agit ici de développer de nouveaux modèles et algorithmesde recherche d’information et d’apprentissage automatique en mesure

Page 14: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

6 Chapitre 1. Introduction

de traiter ces données un peu particulières. Développer de tels outils seheurte à plusieurs verrous car cela nécessite d’être en mesure de gérerplusieurs dimensions simultanément : la dimension textuelle (on associeun contenu textuel aux données), la dimension temporelle (les donnéesévoluent dans le temps et on cherche à capturer leur dynamique), la di-mension connaissance (on souhaite prendre en compte certaines connais-sances sur le problème traité). La majorité des données présentées dans cemémoire sont issues des nouveaux médias sociaux ; elles vérifient pleine-ment les propriétés de complexité que je viens d’évoquer.

Le deuxième problème est la question pluridisciplinaire des représen-tations. Cette question est centrale car c’est elle qui permet de faire le pontentre la description des objets centrée sur les individus ou sur les groupesd’individus (représentation cognitive, sociale), et la description des ob-jets manipulés par les modèles formels mathématiques et les systèmesinformatiques (représentation logique, informatique). Elle a été beaucoupétudiée, en particulier par les spécialistes en psychologie cognitive (Rosch1999) et en psychologie sociale (Moscovici 1961). Elle est centrale en infor-matique dans le développement d’algorithmes efficaces pour répondre auproblème de la fouille dans les données complexes.

L’application privilégiée dans mes travaux, à savoir l’analyse des mé-dias sociaux, est à la convergence des deux problèmes que je viens de dé-crire. Confronté à cette problématique, l’objectif principal de mon travailconsiste à développer de nouveaux modèles et algorithmes pour analyseret synthétiser les masses importantes d’information qui sont issues majo-ritairement du Web. Pour cela, j’ai privilégié des méthodes relatives à larecherche d’information et à l’apprentissage automatique. En particulier,l’apprentissage automatique a démontré son utilité dans de nombreux do-maines d’application : reconnaissance de formes, comme des visages oudes tumeurs cancéreuses (Cruz et Wishart 2006), filtrage de courriels in-désirables (Aberdeen et al. 2010), assistant téléphonique intelligent (pro-jet AMI EICALO à la base de l’agent Siri), détection des anomalies enphysique des particules (Whiteson et Whiteson 2009). Il est aujourd’huiconsidéré comme un outil majeur en fouille de données.

1.2 Contexte local

Ces travaux de recherche ont été réalisés au sein du laboratoire ERIC,dont l’une des principales thématiques abordées est la fouille de don-

nées complexes. Les données textuelles, en particulier, n’avaient été quepeu abordées jusqu’à mon arrivée en novembre 2007. Les travaux pré-cédents avaient été menés par Radwan Jalam sous la direction de Jean-Hugues Chauchat, de 1998 à 2003. L’un des thèmes abordés concernaitl’extraction de caractéristiques pertinentes dans un objectif de classifica-tion supervisée multilingue des données, en utilisant des techniques pro-venant de la statistique (Jalam 2003). La thèse de Zihua Wei, réalisée de2006 à 2010 en collaboration avec le laboratoire (séjour de décembre 2006

à novembre 2007), avait également comme objectif de classifier des textes.Il s’agissait alors de tirer profit des modèles de thématiques afin de redé-

Page 15: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

1.3. Contributions et plan du mémoire 7

crire les données dans un espace qualifié de sémantique, puis d’adapterla procédure au traitement de textes rédigés en chinois (Wei et al. 2008).Dans ce contexte, mon recrutement au sein du laboratoire en 2007 étaitun moyen de développer cette thématique autour de la fouille des don-nées textuelles. Depuis mon arrivée, huit thèses ont été menées dans monéquipe sur des sujets liés à la fouille de données dans les médias sociaux.J’ai co-encadré, ou co-encadre encore aujourd’hui, cinq de ces thèses donttrois ont été soutenues à ce jour.

1.3 Contributions et plan du mémoire

Les motivations et le positionnement de mes travaux de recherche n’ontété qu’esquissés dans ce qui précède. Je tâche dans le chapitre 2 de

prendre un peu de recul en précisant davantage en quoi les méthodesoriginales de fouille de données complexes s’avèrent incontournables dansla résolution de nombreux problèmes, en particulier dans les domainescouverts par les SHS. Les chapitres qui suivent détaillent de manière plustechnique les travaux réalisés ces dernières années au sein du laboratoireERIC. Ces travaux m’ont permis d’apporter des contributions scientifiquesthéoriques, en particulier dans le domaine de l’apprentissage automatiquenon ou peu supervisé, de les appliquer sur des données réelles issues desmédias sociaux et de concrétiser un certain nombre de projets en lien avecla fouille des données complexes.

Les questions qui ont été abordées peuvent être résumées de la manièresuivante. A partir d’une collection de textes accompagnés d’une structure(p. ex. les liens entre les textes ou entre les auteurs) et ordonnés dans letemps, est-il possible d’extraire :

1. de quoi on parle ? Il s’agit des travaux en lien avec l’extraction dethématiques à partir d’une collection de documents, mais égalementl’évaluation de la qualité de ces thématiques et leur étiquetage. Cettequestion habite le chapitre 3.

2. comment on en parle ? Il s’agit des travaux sur l’identification desopinions. Cette question est également abordée dans le chapitre 3 carles deux sujets de recherche sont étroitement liés, jusqu’à proposerun modèle joint d’extraction des thématiques et des opinions.

3. qui en parle ? Cette question concerne les producteurs d’opinion, parle biais du réseau social sous-jacent aux conversations en ligne et auxrôles joués par les internautes. Elle est abordée dans le chapitre 4.

4. quand on en parle ? Cette question concerne la temporalité de l’ana-lyse, en adoptant une approche essentiellement rétrospective. Elle estabordée à plusieurs endroits dans ce document, par exemple dans lechapitre 3 sur l’analyse jointe des opinions et des thématiques dansle temps et sur la dynamique des images de marque, mais aussi dansle chapitre 4 sur l’analyse des forums de discussion.

En complément, je présente dans le chapitre 5 des travaux entrepris sur larecherche d’un meilleur espace de description pour les objets sujets à unprocessus de classification. Pour terminer, le chapitre 6 permet de donnerun aperçu des différents projets de recherche appliquée dans lesquels j’ai

Page 16: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

8 Chapitre 1. Introduction

été impliqué ces dernières années. Je détaille ci-dessous les différentescontributions présentées dans la suite de ce mémoire.

Apport de la science des données aux SHS (chapitre 2)

Avant d’attaquer les contributions plus techniques de mon travail, je pro-fite de ce premier chapitre pour motiver plus en détail l’intérêt que je voisdans l’utilisation des techniques issues de la science des données dansle contexte des bouleversements majeurs que connaissent aujourd’hui lesSciences de l’Homme et de la Société. Plus spécifiquement, je détaille lesdeux problèmes complémentaires que sont la fouille des données com-plexes (telles que les données textuelles) et l’analyse des représentations.Je termine en donnant quelques précisions sur la démarche dans laquelleje m’inscris, laquelle n’est pas de mettre au point une automatisation tousazimuts mais bien de fournir des outils adaptés aux besoins des spécialistesen SHS. J’esquisse enfin quelques réflexions d’ordre éthique.

Analyse des thématiques et des opinions (chapitre 3)

Une manière d’analyser les données majoritairement textuelles issues duWeb consiste à employer des méthodes non supervisées d’analyse des thé-matiques et des opinions. Une littérature importante existe sur ces sujets,mais elle laisse ouvertes de nombreuses questions scientifiques : Commentnomme-t-on les thématiques issues de ces algorithmes ? Comment évalue-t-on leur pertinence les uns par rapport aux autres ? Comment analyse-t-on conjointement les thématiques et les opinions, en particulier dans uneperspective dynamique ? Après avoir passé en revue les travaux existants,je propose de décrire trois contributions :

1. Extraction, étiquetage, évaluation des thématiques (section 3.1) : jeprésente en particulier deux approches que nous avons proposéeset testées afin d’évaluer la qualité des thématiques extraites par desalgorithmes de nature différente.

2. Analyse des opinions (section 3.2) : je présente une approche de clas-sification hybride des opinions, suivant une démarche classique des-cendante (top down), puis un modèle pour suivre de manière nonsupervisée la dynamique des opinions et des thématiques.

3. Détection et suivi des images (section 3.3) : je présente deux ap-proches pour capturer de manière inductive la dynamique d’imagescorrespondant aux représentations attachées à des entités (p. ex. despays ou des hommes politiques). La différence vis-à-vis des deuxcontributions précédentes réside dans le fait que les objets manipu-lés n’ont pas de composante textuelle. A la place, nous utilisons unformalisme plus classique attributs-valeurs pour décrire les entitésétudiées.

Analyse des rôles dans les communautés en ligne (chapitre 4)

Un deuxième type d’analyse consiste à s’intéresser de plus près aux in-ternautes, au réseau social qu’ils tissent sur la toile et, plus précisément,aux rôles qu’ils peuvent jouer dans les conversations virtuelles. Là encore,

Page 17: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

1.3. Contributions et plan du mémoire 9

de nombreux travaux ont été entrepris sur l’étude des rôles, en particulierdans le domaine de la sociologie. Cependant, beaucoup de ces travauxpartent du principe que les rôles sont connus à l’avance, par exemplesuite à une étude anthropologique. Or, les rôles varient en fonction ducontexte et ils peuvent varier dans le temps. Partant d’une approche clas-sique qui consiste à utiliser des rôles définis à priori, je montre dans cechapitre comment nous avons commencé à prendre la dimension tempo-relle avec l’objectif à terme d’analyser la dynamique des rôles (sujet quisera plus particulièrement détaillé dans les perspectives en section 7.2).Plus précisément, je propose de décrire trois contributions :

1. Analyse des discussions en ligne (section 4.1) : je présente des tra-vaux préliminaires sur l’analyse des forums de discussion, notam-ment sur l’identification de messages-clefs pour une tâche de recom-mandation à froid.

2. Détection de rôles dans les réseaux sociaux (section 4.2.1) : je résumeune importante revue de la littérature que nous avons réalisée surles travaux traitant de l’identification automatique de rôles à l’aided’outils informatiques.

3. Détection de rôles dans les communautés en ligne (section 4.2) : jeprésente deux approches différentes pour trouver des rôles à par-tir de forums de discussion en ligne, une première approche quiconsiste à s’inspirer de travaux en sociologie pour extraire un rôleprédéterminé (celui de célébrité, approche top-down) puis une se-conde approche qui cherche des comportements récurrents émer-gents à partir des données (approche bottom-up).

Construction semi-supervisée du vocabulaire (chapitre 5)

Il s’agit ici d’un travail centré sur les représentations, en lien avec la ma-nipulation d’images (cette fois pris au sens propre de représentation gra-phique). Cette partie est plus classique dans l’analyse et la fouille desdonnées ; elle rentre pleinement dans la discussion entamée dans la sec-tion 2.3. Ce chapitre permet de montrer un travail réalisé sur des donnéesde nature différente de celles présentées jusqu’à présent tout en conser-vant une réflexion sur la question de représentation des données. Plusprécisément, je propose de décrire deux contributions :

1. Construction du vocabulaire visuel (section 5.1) : je présente uneapproche qui consiste à trouver la meilleure représentation d’unensemble d’images décrites par des descripteurs de bas niveaux(meilleure pour une tâche de classification automatique).

2. Reconstruction du vocabulaire sémantique (section 5.2) : la secondeidée consiste à redécrire un ensemble d’images étiquetées par desdescripteurs sémantiques (caractéristiques attribuées par des spécia-listes du domaine) afin de trouver une description plus adéquate deces images.

Implication dans des projets de recherche (chapitre 6)

Je décris dans ce chapitre les principaux projets de recherche dans lesquelsje me suis investi ces dernières années. Ces projets constituent souvent

Page 18: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

10 Chapitre 1. Introduction

un terrain d’application des modèles et des algorithmes développés parailleurs. Plus précisément, je propose de décrire deux projets :

1. Analyse des conversations en ligne (section 6.1) : sous cet intitulé, jeprésente plusieurs projets centrés autour des forums de discussion,et notamment la mise en place d’une plateforme intégrée d’acquisi-tion et d’analyse de ces conversations.

2. Projet ANR ImagiWeb (section 6.2) : je présente en détail ce projet quiconsiste à étudier les images (au sens des représentations) véhiculéespar les médias sociaux, et plus particulièrement les données issuesde Twitter et de blogs. Il illustre bien le type de problématique queje cherche à explorer, à la frontière entre SHS et science des données.

Page 19: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2Apport de la science des

données aux SHS

Sommaire

2.1 Science des Données et SHS . . . . . . . . . . . . . . . . . . . 13

2.1.1 Evolution des SHS et avènement de la Science des Données 13

2.1.2 Problématique et solution envisagée . . . . . . . . . . . . . 15

2.2 Fouille de données complexes . . . . . . . . . . . . . . . . . . 17

2.3 Question de représentation(s) . . . . . . . . . . . . . . . . . . 23

2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.4.1 Eclaircissements préalables et questions éthiques . . . . . 31

Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . 32

Dans ce chapitre, je cherche à expliquer le tournant épistémologiqueque connaissent aujourd’hui les Sciences de l’Homme et de la Société

et le rôle que peut y jouer la Science des Données. Cela me donne l’occa-sion de détailler les motivations à long terme de mes travaux de recherche,tout en apportant des repères qui permettront au lecteur de mieux aborderles contributions techniques des chapitres suivants.

11

Page 20: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 21: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2.1. Science des Données et SHS 13

2.1 Science des Données et SHS

Dans cette première partie, je motive l’utilisation des techniques infor-matiques de la Science des Données (Data Science) dans le contexte

des bouleversements majeurs que connaissent aujourd’hui les Sciences del’Homme et de la Société.

2.1.1 Evolution des SHS et avènement de la Science des Données

De manière générale, les Sciences de l’Homme et de la Société sedonnent comme objectif l’étude des différents aspects de la réalité

humaine et regroupent de nombreuses disciplines : anthropologie, socio-logie, linguistique, psychologie, histoire, etc. Elles s’opposent traditionnel-lement aux sciences de la nature (biologie, physique, chimie, mathéma-tiques. . . ), à la fois en terme d’objet étudié et de méthodologie, ce pour-quoi le philosophe Rickert (1921) introduira l’expression de sciences dela culture. Dans cette distinction, il explique que ces sciences emploientprincipalement des méthodes descriptives où le travail d’interprétationest prépondérant. Des cas particuliers exemplaires peuvent être utiliséspour en tirer des explications et des enseignements qui sauront éclairerd’autres cas à venir (Ganascia 2009). A l’inverse, les méthodes employéespar les sciences de la nature reposent principalement sur l’induction delois générales à partir de l’observation de cas particuliers. Or, force est deconstater que la frontière méthodologique traditionnelle entre ces deux fa-milles tend à s’atténuer. Je propose de donner un bref aperçu historique dela démarche scientifique généralement employée en SHS avant d’expliqueren quoi la révolution Internet constitue un véritable tournant épistémolo-gique qui justifie le recours aux techniques modernes de la sciences desdonnées.

Pendant longtemps, la démarche scientifique, héritée de l’époque an-tique, était de nature contemplative ; elle cherchait à expliquer des phéno-mènes sur la base d’observations particulières, utilisant les formules de larhétorique pour convaincre. A partir du XVème siècle, les grands voyagesd’exploration, cherchant à découvrir de nouvelles terres promesses derichesses, ont conduit à un tournant essentiel dans cette démarche. Cesvoyages et ces découvertes étaient rendus possibles par de nombreuses in-novations technologiques, telles que le compas pour la navigation ou le té-lescope pour l’observation des étoiles. Les premiers voyages d’explorationscientifique, tels que celui du capitaine Cook en 1768 à bord de l’Endea-vour, regroupaient des naturalistes, des astronomes, des géologues. . . afinde mieux étudier la géographie des lieux, la faune et la flore, les peupladesexotiques rencontrées 1. Ces savants avaient pour principale mission derecueillir des informations en étant sur place, effectuant des relevés topo-graphiques ou des prélèvements, observant les populations indigènes. Cesrecueils, accompagnés des récits de voyages ou d’autres sources commeles journaux de missionnaires, seront ensuite utilisés par des « anthropo-logues en chambre », selon l’expression de J. G. Frazer (Deliège et al. 2006),

1. Le lecteur pourra consulter sur Wikipedia la liste exhaustive des voyages d’explora-tion scientifique entre 1764 et 1910.

Page 22: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

14 Chapitre 2. Apport de la science des données aux SHS

pour analyser les informations rapportées. Après la première guerre mon-diale, un courant appelé méthode participante se développe. Cette nou-velle méthode consiste principalement en un travail de terrain impliquantun contact prolongé avec les tribus étudiées, une véritable immersion dansla population en participant aux activités du groupe (jeux, rituels, etc.) eten se faisant accepter par ses membres. Cette méthode ethnologique a étéintroduite par Malinowski et al. (1922) ; Malinowski s’est immergé dansla culture trobriandaise, population habitant des îles de l’archipel Mélané-sien, apprenant leur langue et parvenant à comprendre cette société danssa globalité. On peut également citer de nombreux autres travaux, tels queceux de Whyte (1943) qui est allé jusqu’à se fondre dans la population d’unquartier d’immigrants italiens de Boston, aux États-Unis, en participantaux activités des gangs mais également aux œuvres sociales du quartier,ou ceux de Levi Strauss (1949) sur l’étude ethnographique des peuplesMundé et Tupi Kawahib dans l’état du Rondônia au Brésil. Citons enfinles travaux de Jodelet et Moscovici (1989), pour lesquels D. Jodelet vécut àAinay-le-Château afin étudier de l’intérieur une communauté mélangeantdes gens normaux et anormaux, avec l’objectif de travailler sur les maladesmentaux et les représentations sociales de la folie. L’outil méthodologiqueessentiel est alors le questionnaire et l’entretien durant lequel l’enquêteurrencontre les individus sujets de son étude. Cet outil est largement partagépar la plupart des SHS, qu’il s’agisse de répondre à des questions d’ordresociologique, politique, marketing, etc.

Il paraît évident aujourd’hui que l’arrivée de l’informatique, et plus ré-cemment d’Internet, a permis d’amorcer un nouveau tournant épistémo-logique dans les SHS. Deux bouleversements majeurs semblent expliquerles mutations que nous observons dans la manière d’aborder ces sciences.Il s’agit tout d’abord du volume important de données disponibles, en-gendré par la chute des coûts de stockage 2 et la démocratisation d’Inter-net. L’émergence du Web 2.0, avec des contenus générés par les individuseux-mêmes (UGC pour User Generated Content), a conduit à une explo-sion des données disponibles. Imaginez donc : 4 milliards d’actions effec-tuées chaque jour sur Facebook, 350 000 tweets chaque minute sur Twitter,72 heures de vidéo ajoutées chaque minute sur YouTube, 40 millions denouvelles photos postées quotidiennement sur Instagram, 150 milliards decourriels environ échangés chaque jour, plus de 800 000 sites créés sur In-ternet (sources BradFrost et Planetoscope). A ces données s’ajoutent cellesproduites par les efforts importants de la part des pouvoirs publics, maiségalement par certains acteurs industriels, pour valoriser les masses dedonnées du patrimoine telles que les archives de l’INA ou de la BnF enFrance dans le contexte des données ouvertes (Open Data). Il s’agit ensuited’un changement au niveau de la puissance des outils disponibles quirésulte d’une convergence des travaux de recherche réalisés dans de nom-breux domaines (mathématiques, statistiques, linguistique, sociologie, in-formatique, etc.) et qui tire partie aujourd’hui d’une capacité de calculsjamais égalée. Les avancées en mathématiques, par exemple avec la théo-rie des graphes et l’analyse des systèmes complexes, ont permis de for-maliser les problèmes rencontrés en SHS de manière totalement nouvelle.

2. Un disque dur de moins de 100 euros peut contenir l’équivalent d’une bibliothèquenationale (Dowek 2013).

Page 23: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2.1. Science des Données et SHS 15

J. L. Moreno, éminent psychiatre et sociologue américain, est ainsi le pre-mier à avoir construit, dans le cadre de son « psychodrame humaniste »,une matrice décrivant les relations entre des individus pour en tirer desconclusions (Moreno et Jennings 1934). Ces travaux donneront naissance àla sociométrie ; on y retrouve notamment, en creux, les notions de centra-lité qui sont utilisées aujourd’hui de manière extensive dans l’analyse desgraphes et des réseaux. Ces travaux conduiront à la formalisation des mo-dèles par blocs mis au point par Lorrain et White (1971) afin d’étudier lespositions et les rôles sociaux de manière quantitative. Plus généralement,les avancées conceptuelles dans la manière dont on représente l’informa-tion et dont on la manipule permettent d’imaginer des moyens de re-cueillir les observations et de réaliser des traitements jusque là considéréscomme inaccessibles. L’arrivée de l’informatique et des Nouvelles Techno-logies de l’Information et de la Communication (NTIC) a bien sûr accé-léré ces mutations en autorisant la mise en place d’expériences jusqu’alorsconsidérées comme impossibles à réaliser faute de ressources suffisantes.

De la même façon que les grandes aventures scientifiques des XVIIIème

et XIXème siècles ont été rendues possibles grâce aux progrès de la scienceet des techniques, il paraît évident aujourd’hui que les immenses avancéestechnologiques, les instruments prodigieux que sont le microprocesseur,l’ordinateur personnel et Internet, mais également les outils de recueil etd’analyse de la science des données, permettent d’envisager l’explorationde nouveaux espaces pleins de richesses que sont les univers virtuels, ceque Balandier (2009) appelle les « nouveaux nouveaux mondes ». L’élabo-ration de nouveaux outils pour la fouille des données complexes issuesd’Internet, mais également des grands gisements d’information que sontles fonds d’archives de la BnF ou de l’INA, est l’un des défis majeurs denotre époque. Je décris dans ce mémoire quelques contributions qui s’ins-crivent précisément dans ce courant.

2.1.2 Problématique et solution envisagée

Parmi les nombreuses questions posées en SHS, l’une d’elles consisteà se demander comment les individus et les groupes d’individus qui

composent la société fabriquent des représentations relatives à des sujetsaussi divers que des objets (p. ex. un livre, un film, un appareil photo), despersonnes (p. ex. une célébrité ou un personnage politique), des groupes(p. ex. les malades mentaux, les retraités, les bobos), des événements (p.ex. une élection, un attentat, un tremblement de terre), des concepts (p.ex. la psychanalyse). Ces représentations sont essentielles dans la com-munication entre les individus et elles sont étudiées dans de nombreuxdomaines des SHS : psychologie, sociologie, marketing, etc. Dans montravail, je défends l’idée que l’étude de ces représentations peut, et mêmedoit bénéficier des outils modernes de la science des données. Le foison-nement actuel autour d’Internet, des réseaux sociaux et des nouveaux mé-dias, de l’analyse de grands volumes de données promis par la fouille desdonnées et le big data, mais aussi du courant des humanités numériques(digital humanities) avec le rapprochement entre les sciences de la natureet les sciences de la culture, toute cette effervescence est la preuve qu’unchangement radical dans la manière dont nous allons répondre à ces ques-

Page 24: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

16 Chapitre 2. Apport de la science des données aux SHS

tions est à l’œuvre. Zighed (2014) évoque même une « révolution majeurede l’être humain après l’écriture, il y a plus de 3500 ans, et l’imprimerie, ily a plus de 500 ans ».

L’idée principale consiste à supposer que les informations nécessairesà l’analyse de ces représentations sont déjà disponibles et que leur trai-tement nécessite les outils modernes fournis par la science des données.On peut conjecturer que ces informations se trouvent déjà dans les gise-ments de données et sur Internet, incluant les données générées par lesindividus eux-mêmes (UGC) mais aussi les données issues de l’Open Dataet du Web sémantique. D’une certaine manière, cela revient à imaginerque les carnets de voyage des explorateurs des siècles passés sont acces-sibles au vu et au su de tous, mais complétés par les textes rédigés parles indigènes eux-mêmes sans l’intermédiaire d’enquêtes ni de question-naires. Cette sorte de copie virtuelle du monde, grâce à laquelle toutes lesexpériences sont possibles et reproductibles sans même avoir à intervenir,intervention qui influence comme on le sait le processus, est à rapprocherde l’idée d’expérience in silico. Cette expression, apparue en 1989 dansle congrès américain “Cellular Automata : Theory and Applications”, dé-signe une expérience pouvant avoir lieu grâce à un ordinateur ou unesimulation informatique (Ganascia 2009). Non seulement cette manièrede procéder rend possible la multiplication et la reproduction des expé-riences, mais elle autorise un enrichissement continuel des informationscontenues dans cette copie du monde, sans que cela soit dommageable àpriori.

En d’autres termes, je postule que l’utilisation d’outils issus de lascience des données s’avère aujourd’hui indispensable aux spécialistesen SHS pour mener à bien leur travail d’interprétation et d’explication,suivant en cela le courant initié par les humanités numériques (Zighed2014). Ces outils rendent possible la mise en place d’expériences systé-matiques et reproductibles, inspirées des méthodologies employées dansles sciences de la nature (en biologie, en physique, etc.) mais sur un objetqui est l’humain et la société. En particulier, l’étude des représentationsne peut que tirer profit des nombreuses traces laissées par les individussur le Web, comme les données d’opinion qui transitent par les réseauxsociaux, les blogs et les micro-blogs, les forums de discussion, traces quireprésentent une formidable mine d’informations dans l’analyse de cesreprésentations. A partir de ces traces, il est en effet possible de répondreà des questions comme : « De quoi parlent les internautes ? » ou encore« Quelles sont leurs opinions ? ». Il n’est bien sûr pas question de pousserà une automatisation tous azimuts de la démarche d’analyse des représen-tations, mais plutôt d’envisager cette solution comme un outil précieux àla disposition des spécialistes en SHS pour les aider dans leur travail d’in-terprétation pour résoudre ces questions difficiles. Cette approche métho-dologique est à rapprocher de la recherche d’un « espace intermédiaire »(Chateauraynaud 2002) qui autorise une véritable recherche systématiquedans les données tout en mettant à l’épreuve les théories élaborées par leschercheurs.

Je vais maintenant détailler ces deux problèmes complémentaires quesont la fouille des données complexes et l’analyse des représentations.Ces problèmes n’ont été qu’esquissés dans le chapitre précédent et ils

Page 25: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2.2. Fouille de données complexes 17

constituent le fil directeur de mon travail de recherche. L’objectif est deprendre du recul sur les travaux réalisés ces dernières années pour mettreen évidence les questions clefs qui, parfois, dépassent largement les ques-tions techniques traitées dans les chapitres qui suivent. On peut voir celacomme un exercice de mise en perspective des recherches que j’ai menéesces dernières années. Il s’agit surtout de réfléchir à celles que je compteentreprendre dans les années à venir.

2.2 Fouille de données complexes

Généralités sur la fouille de données – La fouille de données (data mi-ning) se nourrit de multiples influences et elle est utilisée dans de nom-breux contextes, ce qui explique qu’il est parfois difficile de la définir toutà fait. Inspiré de travaux réalisés dans le laboratoire ERIC (Zighed et al.2009, Rizoiu 2013a), mais également de la nombreuse littérature sur lesujet (Pang-Ning et al. 2006, Han et al. 2006, Witten et al. 2011), je pro-pose de définir la fouille de données comme le processus de découvertede connaissances à partir d’un ensemble, en général volumineux, de don-nées. En anglais, on parle aussi de KDD (Knowledge Discovery from Data).Il s’agit d’un processus, situé au cœur de la science des données, qui suitune succession d’étapes :

1. on part d’un problème à résoudre et des données que l’on souhaiteutiliser, stockées dans une base ou un entrepôt de données, voiremême plus récemment dans le “nuage” (cloud) ;

2. ces données sont prétraitées afin de pouvoir être manipulées par lesalgorithmes d’analyse ultérieurs (compléter les valeurs manquantes,sélectionner des attributs, etc.) ;

3. les données sont analysées à l’aide de techniques issues, parexemple, de l’analyse de données, de l’intelligence artificielle, de lalinguistique computationnelle ;

4. les résultats de l’analyse sont interprétés comme de nouvelles infor-mations sur les données, candidates à devenir des connaissances, enayant souvent recours à des interfaces de visualisation ;

5. les connaissances sont finalement validées, si possible avec leconcours d’un expert métier.

Notons que l’étape de prétraitement (2) revient finalement à trouver unebonne représentation numérique des données, ce qui fait écho à la sec-tion 2.3 qui suit. Ce processus est parfois présenté comme un cycle où lesconnaissances extraites sont réinjectées dans la base de données initiale,avant de réitérer chacune des étapes. Le spécialiste en fouille de données(data miner ou plus récemment data scientist) occupe une place de choixquand il s’agit de décider des meilleurs traitements et algorithmes à ap-pliquer dans le contexte d’une étude ciblée. Il est bien sûr en étroite rela-tion avec l’expert du domaine car celui-ci possède la connaissance métiersouvent indispensable pour la résolution finale du problème. L’expert joueun rôle essentiel dans la validation des nouvelles connaissances extraitesqui devront s’avérer actionnables (dans une optique de prise de décision),

Page 26: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

18 Chapitre 2. Apport de la science des données aux SHS

utiles (pour mieux comprendre ses clients, ses produits, ses services. . . ),ou à tout le moins intéressantes.

Fouille des données complexes – Les premiers algorithmes d’analysede données traitaient un ensemble observations décrites par des paires(attribut, valeur). Il s’agit typiquement du format tabulaire manipulé parles techniques issues de la statistique depuis les années 60, si l’on pensepar exemple aux travaux sur l’analyse des données de Benzécri et Bellier(1976). Il s’agit également des données manipulées par les premiers arbresde décision (Quinlan 1986), algorithmes issus de la recherche en intelli-gence artificielle, ou des données transactionnelles de l’algorithme APrioriimaginé par Agrawal et al. (1994). Il s’est vite avéré que la plupart desdonnées issues de problèmes réels ne se conformaient pas bien à ce typede représentation. Les données sont qualifiées de complexes lorsqu’ellesrépondent à un certain nombre de critères, parmi lesquels :

1. elles sont volumineuses (p. ex. comment traiter des millions, voiredes milliards, de tweets ?),

2. elles proviennent de sources hétérogènes (p. ex. différents sites Web),

3. elles sont de natures variées (p. ex. contenu textuel, méta-données,images, sons),

4. elles sont interconnectées (voir à ce sujet le projet linked open data),

5. elles sont souvent imprécises ou imparfaites (p. ex. mise en doute dela qualité de la source d’une information, données contradictoires),

6. elles évoluent au cours du temps (p. ex. variation de l’opinion oufluctuation des hashtags employés sur Twitter).

Dans le domaine émergent du big data, on parle des 3 V que sont le Vo-lume, la Vitesse (ou Vélocité) et la Variété, mais d’aucuns se sont empres-sés d’en ajouter de nouveaux (p. ex. le V de Véracité).

Afin d’être en mesure de manipuler ces données complexes, les cher-cheurs de multiples disciplines ont du adapter les modèles et les algo-rithmes employés jusqu’à présent. Le traitement des données textuellesa donné naissance à la fouille de textes (text mining), convergence destravaux réalisés en traitement automatique de la langue, en statistiquestextuelles, en linguistique computationnelle (Stavrianou et al. 2007). Laprise en compte de l’interconnexion entre les informations a ouvert la voieau traitement des données relationnelles (voir par exemple les travaux deGetoor (2003) sur le link mining). Le développement d’algorithmes adap-tés à l’analyse de données très volumineuses a initié le mouvement surle big data (Agrawal et al. 2011). Enfin, il convient de citer les nombreuxtravaux s’inscrivant dans la dynamique des humanités numériques (di-gital humanities) qui constituent un terrain essentiel pour le développe-ment de nouvelles techniques adaptées aux données complexes : donnéeshistoriques, économiques, sociales, etc. Dans le milieux économique, denombreuses sociétés se sont fortement positionnées sur ces thématiques,telles que IBM ou SAS. Cette liste est loin d’être exhaustive, mais permetde mesurer l’importance que revêt aujourd’hui le traitement efficace desdonnées complexes.

Page 27: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2.2. Fouille de données complexes 19

En particulier, de nombreux efforts se sont conjugués pour traiter lesdonnées complexes issues des nouveaux médias qui jouent un si grandrôle aujourd’hui dans notre société. Boullier et al. (2012) donnent parexemple un panorama éclairant et critique sur l’analyse des sentiments etdes opinions à partir du Web. Ces efforts se sont concrétisés dans ce quel’on appelle l’analyse des médias sociaux (social media analysis). Je détailleà présent cette problématique.

Analyse des médias sociaux – A la fin des années 90, une centaine deBBS (Bulletin Board System) existaient en France pour offrir des plateformesd’échange de messages, de stockage et d’échange de fichiers, de jeux viades modems reliés à des lignes téléphoniques (source Wikipedia BBS).Les médias sociaux que nous connaissons aujourd’hui peuvent être vuscomme une version améliorée de ces bulletins, mais des auteurs commeKaplan et Haenlein (2010) pensent qu’ils vont bien au-delà. Ces derniersdéfinissent les médias sociaux comme un groupe d’applications qui s’ap-puient sur les nouvelles technologies du Web 2.0 et permettent à tout in-dividu ayant un accès à la toile de créer et d’échanger du contenu (cequ’on appelle les “données générées par les utilisateurs” ou User Genera-ted Content). Mis à part de lointains ancêtres tels que Usenet, les premiersmédias sociaux remontent à des sites comme Open Diary, créé en 1998,puis aux succès de MySpace et FaceBook. Ils ont ensuite été rejoints par lesmédias traditionnels, comme Le Monde ou L’Express, obligés de s’adap-ter à ce contexte numérique engendré par les nouvelles technologies. Ilest clair aujourd’hui que les médias sociaux ont définitivement bouleverséle monde dans lequel nous vivons. Qualman (2012) introduit le terme desocialnomics, correspondant à la valeur créée et échangée par ces nouveauxmédias et à son influence sur notre monde : politique, économique, so-ciale. . .

Le tableau de la figure 2.1 p. 20 est une adaptation de celui proposépar Gundecha et Liu (2012) qui donne un aperçu des principaux types demédias sociaux que l’on trouve sur Internet. Il faut cependant relativisercette possible typologie car la frontière n’est pas toujours très simple àtracer. Par exemple, un site comme IMDb, en plus d’être une base de don-nées de films, donne l’opportunité aux internautes de commenter les films(comme sur un forum) mais également d’écrire des évaluations (reviews)exprimant leur opinion de manière concise. Un site d’actualité comme leHuffington Post fait de l’actualité sociale mais il héberge également unnombre important de blogs, fédérant une communauté d’internautes enproposant des fonctionnalités assez proches de celles d’un réseau social.On pourrait donner de nombreux autres exemples, mais le message es-sentiel à retenir est que le Web est en constante évolution et qu’établirune typologie générale et immuable des médias sociaux est une missionquasiment impossible.

Le fait d’être capable de traiter automatiquement ces sources de don-nées très riches permet de résoudre de nombreux problèmes : aider àla gestion de crises humanitaires (voir le projet ASU Coordination Tra-cker), analyser l’activité des réseaux sociaux dans une perspective de veille(Guille et al. 2013), sécuriser l’accès et les échanges d’information et biend’autres choses encore. Récemment, Asur et Huberman (2010) ont mon-

Page 28: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

20 Chapitre 2. Apport de la science des données aux SHS

Type Description ExemplesWikis Permettent de produire du contenu (en

particulier textuel) de manière collabora-tive.

Wikipedia,Wikitravel,Wikihow

Réseauxsociaux

Permettent à des individus et des com-munautés de se connecter virtuelle-ment (relations d’amitié, de travail. . . )et d’échanger (messages, photos, ar-ticles. . . ).

Facebook,MySpace,Linked’in

Forums,Blogs

Permettent à des institutions ou des in-dividus de publier des articles sur dessujets divers : articles d’actualité, demode, recettes de cuisine, journal per-sonnel, etc. Assez souvent, les inter-nautes peuvent exprimer leur opinionsous la forme de commentaires (forumde discussion).

HuffingtonPost,Le Monde,Marmiton,Doctissimo

Marque-page social

Permettent de sélectionner, organiser,partager des marques-pages (sites Web).

Delicious,StumbleU-pon

Partage demédias

Permettent de partager de nombreux mé-dias, comme des vidéos, des photos, desmusiques, etc.

YouTube,Flickr, Ins-tagram,Spotify

Microblogs Servent à la fois à créer du contenu (avecune taille limitée), à permettre aux indi-vidus de relayer et commenter l’informa-tion, mais également à relier les indivi-dus comme dans le cas d’un réseau so-cial.

Twitter,Sina Weibo

Actualitésociale

Permettent de sélectionner, partager etde commenter des articles d’actualité.

Digg, Sla-shdot,Reddit

Revuesd’opinion

Permettent de partager ses opinions surdes produits, des films, des recettes decuisine, etc.

Epinions,Yelp, Cnet

Question-Réponses

Permettent d’obtenir des réponses en po-sant explicitant une question.

Yahoo !answers,WikiAns-wers

Mondesvirtuels

Permettent de plonger les internautesdans un univers virtuel très évolué.

SecondLife, Worldof Warcraft

Figure 2.1 – Typologie possible des médias sociaux inspirée par Gundecha et Liu (2012).

Page 29: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2.2. Fouille de données complexes 21

tré que l’analyse des médias sociaux permettait de prédire le résultat defilms au box-office américain, et Tumasjan et al. (2010) que le volume demessages échangés sur Twitter était un bon indicateur de réussite pour lessix partis en lice lors des élections fédérales allemandes en 2009, résultatscomparables aux techniques de sondage traditionnel. Ces résultats impres-sionnants ont été tempérés depuis par O’Connor et al. (2010) ou Mejovaet al. (2013). Il n’en demeure pas moins que la plupart des chercheurss’accordent à dire que les médias sociaux ont une influence importantesur le déroulement d’une campagne politique (voir les conclusions tiréessur la primaire américaine par Williams et Gulati (2008)). Développer desoutils d’analyse adaptés constituent dans ce contexte une piste pleine depromesses.

Algorithmes pour l’analyse des médias – L’analyse automatique, ousemi-automatique, des données issues des nouveaux médias sociaux né-cessite l’emploi de techniques modernes de la science des données. Cestechniques issues de l’informatique, des mathématiques, des statistiques,entre autres, sont essentielles pour traiter des problèmes très concretscomme la recherche d’information grâce à des moteurs de recherche deplus en plus sophistiqués, l’identification des sujets discutés par les in-ternautes, ainsi que leurs opinions, la compréhension des mécanismes dediffusion de l’information, l’analyse des communautés qui se forment surInternet et du rôle individuel joué par ses différents membres (avec parexemple la recherche d’acteurs influents), la recommandation sociale (deproduits, de services, etc.), la liste est longue. Présenter succinctement lesprincipaux algorithmes qui existent aujourd’hui pour analyser les donnéescomplexes relève de la gageure. En effet, ils sont à la fois très nombreux etdifficiles à classer, simplement par le fait qu’il existe de nombreuses ma-nières de les organiser. C’est pourquoi, dans ce mémoire, je choisis de nepas être exhaustif et je préfère insister sur les techniques qui permettrontau lecteur de situer celles que je développe par la suite.

Une première manière de distinguer les différentes techniques exis-tantes consiste à les classer suivant le fait qu’elles permettent de trouverune information assez bien définie au départ ou, au contraire, si elles sontd’ordre plus exploratoire. La première classe est généralement qualifiée dedescendante ou “haut vers le bas” (top down) ; elle regroupe des méthodesclassiques de recherche d’information, de base de données (requêtes),d’apprentissage automatique supervisé (classification, régression). Par op-position, la deuxième classe est qualifiée d’ascendante ou “bas vers lehaut” (bottom up) ; elle regroupe des méthodes associées généralementà l’apprentissage automatique non supervisé (clustering, certaines règlesd’association) ou à la découverte automatique (par exemple la découvertescientifique). Cette deuxième classe d’approches est souvent couplée à desinterfaces de visualisation et d’analyse afin d’aider à la découverte d’infor-mations utiles. Il s’agit par exemple du recours à l’analyse en ligne dansles entrepôts de données (OLAP pour OnLine Analysis Processing) ou del’analyse visuelle des données (visual analytics). Bien sûr, ces manières dif-férentes d’aborder la fouille des données interagissent constamment et iln’est pas question de tracer une frontière infranchissable entre les deux. Entémoignent les approches hybrides de plus en plus fréquentes d’appren-

Page 30: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

22 Chapitre 2. Apport de la science des données aux SHS

tissage dit semi-supervisé ou bien l’apprentissage actif qui favorise l’inter-action avec l’expert du domaine, approches qui sont à la recherche d’unbon compromis entre les deux. Je donne ci-dessous quelques exemplessoigneusement choisis pour faire le lien avec mes propres travaux.

Approche descendante (top-down) – Cette catégorie regroupe les mo-dèles et les algorithmes pour lesquels on a une connaissance assez pré-cise de l’information recherchée. Un exemple emblématique est celui dela requête dans une base de données ou de la requête exprimée dans unmoteur de recherche à l’aide de mots clefs écrits en langage naturel. L’al-gorithme utilisé par Google utilise ainsi une formule (secrète) basée surune combinaison de plusieurs facteurs : similarité entre la requête et lapage Web retournée, crédibilité de la page (notion de PageRank, voir Pageet al. (1999)), mise à jour récente de la page, etc.

Un autre exemple est celui présenté dans la section 4.2.2. L’objectif estde chercher quels internautes peuvent être considérés comme des célébri-tés dans une discussion en ligne de type forum. La technique employéeest, ici, de se baser sur une définition de la notion de célébrité issue de lalittérature en sociologie, puis de la traduire sous la forme d’une formulecomprenant des critères à optimiser. Cette méthode est finalement très si-milaire à celle employée dans le cas du moteur de recherche : on calculela valeur obtenue par chaque internaute à l’aide de cette formule puis onretourne la liste des internautes qui optimisent cette valeur.

Un dernier exemple est celui de la classification de textes dans desclasses prédéfinies, tels que les messages postés sur Twitter ou sur lesforums de discussion. L’une des contributions présentées dans la sec-tion 3.2.2 consiste à distinguer automatiquement la polarité d’opinion se-lon deux ou trois classes : textes au contenu plutôt positif, neutre ou né-gatif. Cette tâche d’analyse d’opinion peut être résolue en ayant recoursà un algorithme de classification automatique qui repose sur un étique-tage manuel réalisé par des êtres humains. Sur la base de ces exemples,l’algorithme trouve les motifs récurrents qui lui permettront de propagerl’annotation à d’autres textes. On constate là encore que ce qui distingueun texte positif d’un texte négatif est fourni au préalable par des êtreshumains dont la connaissance guide le processus d’apprentissage.

Approche ascendante (bottom-up) – Cette catégorie regroupe les mo-dèles et les algorithmes qui permettent de faire émerger une informationutile, intéressante, inattendue, actionnable. . . à partir des données, sansavoir une connaissance préalable très précise de ce que l’on recherche. Onpeut considérer ce type d’approche comme exploratoire ; elle est souventcomplétée par une analyse plus dirigée comme celle présentée dans le pa-ragraphe précédent. Il est bien sûr possible, voire souhaitable, de calculerdes statistiques descriptives simples sur les données traitées car celles-cidonnent des premiers éléments qui peuvent s’avérer déterminants pour lasuite. Mais ce genre d’analyse rencontre vite des limites. Une manière dedépasser ces limites consiste à avoir recours à des techniques d’apprentis-sage automatique non (ou peu) supervisé qui permettent de faire émer-ger des informations plus fines non nécessairement attendues, comme desmotifs ou des catégories signifiantes selon certains critères.

Page 31: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2.3. Question de représentation(s) 23

Un exemple emblématique lié à l’analyse des médias sociaux est ce-lui de l’identification automatique de communautés. Les techniques d’ap-prentissage non supervisé permettent ainsi d’extraire des groupes consi-dérés comme homogènes de chercheurs scientifiques en observant le ré-seau de collaborations induit à partir de DBLP (Muhlenbach et Lallich2010). Bien sûr, le qualificatif d’homogène recèle une ambiguité qui n’estpas sans rappeler celle liée à la distance en apprentissage supervisé : surquelle base compare-t-on deux observations ou davantage (articles scienti-fiques, chercheurs, messages de blogs, etc.) ? Elle est aussi indubitablementliée à la question de la représentation des objets manipulés, comme j’endiscuterai dans la section 2.3.

Un autre exemple est à la croisée des chemins entre apprentissage au-tomatique, fouille de textes et linguistique computationnelle : il s’agit del’extraction de thématiques à partir d’un corpus de textes. De nombreuxchercheurs ont ainsi développé des algorithmes pour extraire de “quoi”parle un corpus parfois très vaste (articles, messages, tweets, sites Web. . . ).Ces approches ont en commun de poser le moins d’hypothèses possiblesur la nature de ces thématiques qui émergent des co-occurrences obser-vées dans les termes composant le corpus. J’aborde largement cette ques-tion dans le chapitre 3 en proposant de nouveaux modèles et algorithmespour extraire les thématiques, mais également les opinions, à partir dedonnées issues des médias sociaux.

Mon dernier exemple est en miroir de celui donné dans la partie précé-dente sur l’identification des rôles. Contrairement à l’exemple précédent,une approche ascendante consiste à limiter les idées préconçues sur letype de rôles que l’on s’attend à rencontrer dans une communauté vir-tuelle donnée. Dans la section 4.2.3, je détaille ainsi une approche utilisantl’apprentissage non supervisé pour faire émerger des comportements ré-currents qui, peut-être, pourront être interprétés comme des rôles. Elleillustre bien la dualité qui est souvent faite entre les approches top down etles approches bottom up.

2.3 Question de représentation(s)

La notion de représentation est centrale en apprentissage automatiqueet en fouille de données. Effectivement, la manière dont les objets sont

décrits pour être traités par les machines conditionne souvent la réussiteou l’échec des algorithmes développés. Or, on sait qu’il n’existe jamais uneseule description, mais au contraire qu’elles sont nombreuses et qu’ellespeuvent correspondre à des points de vue différents portés sur les don-nées. Pour preuve de l’importance de la représentation en informatique,on peut citer ici tous les travaux sur la construction ou l’extraction de ca-ractéristiques (Liu et Motoda 1998), sur l’apprentissage de variétés topo-logiques ou manifold learning (Huo et al. 2007), sur la recherche d’espaceslatents (Hofmann 1999, Hoff et al. 2002). La construction d’une représenta-tion adéquate des données a d’ailleurs récemment concentré l’attention dela communauté scientifique, qui a organisé une conférence dédiée à cettequestion (conférence ICRL). Elle est centrale et transversale à la plupart

Page 32: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

24 Chapitre 2. Apport de la science des données aux SHS

des questions d’apprentissage automatique, que celui-ci soit supervisé,non supervisé ou semi-supervisé.

Cependant, la question des représentations est bien plus ancienne et,par sa nature même, pluridisciplinaire. Dans cette section, je cherche àélargir un peu l’horizon en discutant de la manière dont différents champsdisciplinaires se sont emparés de cette question. Cette discussion est im-portante car elle permet de comprendre la portée des recherches que j’aipu mener jusqu’à présent, mais plus que cela le projet de recherche danslequel je m’inscris pour les années à venir. Afin de proposer une grille delecture pour cette partie, je commence par parler des représentations ausens large en employant le vocabulaire de la sémiotique. Cela permet dedistinguer différentes formes de représentations avant de discuter com-ment l’informatique, et mes recherches en particulier, s’inscrivent dansune démarche plus générale d’extraction des représentations des objetsdu monde telles qu’elles sont véhiculées par les médias sociaux.

Représentation et sémiotique – Dans son précis de sémiotique générale,Klinkenberg (2000) définit la sémiotique comme la science des signes, et lesigne comme témoignant « d’une certaine structuration de l’univers (deschoses, des sensations, des valeurs. . . ), valide pour des personnes don-nées, dans des circonstances données ». Le signe est un substitut qui faitcorrespondre une partie de l’univers sensible (un objet ou référé) à une par-tie de l’univers logique, conceptuel (le référant). A ce titre, la logique, telleque développée dès l’époque hellénique par des philosophes comme Aris-tote, relève pleinement de cette acception. Le code de la logique est com-posé de la syntaxe qui permet de définir le vocabulaire de signes consti-tuant le langage formel, mais également les règles de manipulation de cessignes (ce qu’on appelle la grammaire), et de la sémantique qui précisele sens que l’on donne aux signes que l’on manipule. Ce langage logiquedonnera d’ailleurs naissance aux langages formels qui seront la clef desétudes sur la calculabilité et le développement des langages de program-mation modernes.

La sémiotique permet ainsi de mieux comprendre la relation existantentre le monde réel et l’univers conceptuel du langage de la logique, per-mettant d’opérer des inférences (comme la déduction) et de modifier sacompréhension du monde pour, par exemple, prendre les bonnes déci-sions. C’est d’ailleurs ce qui a permis la réussite des systèmes à base deconnaissances, puis du Web sémantique (voir à ce sujet les logiques dedescription (Baader 2003) et les moteurs automatiques d’inférence (Haars-lev et Möller 2003)). Cependant, utiliser la sémiotique comme point deréférence permet également de mieux appréhender les liens existant avecles représentations que se font les individus ou les groupes d’individus.Je tâche dans la section suivante d’éclaircir ce point, essentiel pour biencomprendre les tenants et aboutissants de mon travail.

Représentation cognitive et représentation sociale – L’image person-nelle que se fait un individu d’un certain objet (événement, personne, pro-blème, etc.) entretient d’étroites relations avec l’image sociale véhiculée ausujet du même objet dans une population. On nomme la première une

Page 33: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2.3. Question de représentation(s) 25

représentation cognitive et la seconde une représentation sociale. Un lien s’éta-blit clairement entre les deux, ne serait-ce que du fait qu’elles partagentun même référé dans le monde réel. Il n’est pas question ici de lister lesnombreux travaux qui ont été réalisés sur ces sujets dans des domainescomme la psychologie, la sociologie, les sciences cognitives et la linguis-tique, entre autres. L’objectif est plutôt de donner un aperçu de ces ques-tions, pour pouvoir ensuite les mettre en relation avec les représentationsplus formelles des mathématiques et de l’informatique, et donc avec lestravaux décrits dans la suite de ce mémoire.

Le sens ne peut être l’unique produit d’une société et de pratiquesculturelles héritées des générations passées, constat qui amène naturelle-ment à se poser la question de l’origine du sens. Or, cette origine ne peutêtre cherchée que dans l’expérience que vivent les individus, les stimulien provenance du monde réel. Une approche interactionniste indique alorsque le sens provient finalement d’une interaction continuelle entre les sti-muli et les modèles. Autrement dit, les modèles servent de base à notreinterprétation du monde mais ils peuvent être révisés lorsque les obser-vations commencent à trop s’en éloigner. La catégorisation est un thèmeancien qui remonte à l’antiquité et au modèle CNS (Conditions Néces-saires et Suffisantes) d’Aristote. Il a connu de nombreux développementsau siècle dernier avec les travaux de Rosch (1973; 1999) en psychologiecognitive et de Lakoff (1987) en linguistique. L’idée d’air de famille donnenotamment une manière commode d’expliquer la manière dont les indivi-dus organisent des catégories complexes, comme celle de “jeu” (Wittgen-stein et al. 1958).

D’un autre côté, l’individu est nécessairement influencé par les infor-mations émanant de son entourage (famille, proches, collègues), des ru-meurs (entendues chez le coiffeur ou dans un magasin), mais surtout desmédias (affiches, radio, télévision, presse). Cette influence serait à la basede la formation de l’opinion publique et expliquerait de nombreux phé-nomènes, comme le montre Lippmann (1922) sur la formation des stéréo-types. Elle prend donc racine dans les représentations véhiculées dans lasociété par ses acteurs : personnes, institutions, entreprises, etc. L’étudedes représentations, et en particulier de celles véhiculées par les médias,est un thème étudié par la psychologie sociale et l’analyse du discoursde presse. Un exemple fameux est celui de l’étude pharaonique menée ausujet de l’image de la psychanalyse par Moscovici (1961). D’autres travauxremarquables ont été entrepris par la suite, comme par exemple au sujetdes maladies mentales par Jodelet et Moscovici (1989).

Durkheim (1898) montre que les représentations personnelles, ratta-chées traditionnellement au domaine de la psychologie cognitive, sontparfaitement conciliables avec les représentations collectives de la psy-chologie sociale. En d’autres termes, il semble évident que ces deux uni-vers entretiennent des liens entre eux et qu’il est possible, par exemple, defaire des analogies entre les deux niveaux : certains phénomènes ayant lieuau niveau de l’individu (sur la perception, la classification, etc.) peuventêtre transposés, toutes proportions gardées, à l’échelle d’une population.Mais la lecture de Durkheim (1898) nous apprend également que les re-présentations sociales ne peuvent absolument pas se réduire à la sommedes représentations individuelles. Au niveau macroscopique, de nouveaux

Page 34: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

26 Chapitre 2. Apport de la science des données aux SHS

phénomènes entrent en jeu, influencés par des facteurs sociaux, culturels,économiques, etc. Malgré cela, on voit bien que les deux niveaux entre-tiennent des relations étroites car, de la même façon que les représenta-tions individuelles influencent les représentations de groupe, les travauxsur l’influence sociale (Beauvois et al. 1995), et bien sûr aussi ceux sur lapropagande (Doob 1948), nous apprennent que le monde social influenceaussi les représentations individuelles.

Dans un autre domaine, Qualman (2012) introduit le terme de world ofmouth qui, selon lui, remplace le word of mouth qui prévalait avant l’avène-ment des médias sociaux. En d’autres termes, on remplace un modèle an-cien, si ce n’est ancestral, de “bouche à oreilles” (représenté sous la formed’un arbre de diffusion) par un modèle de “bouches à oreilles” (notez le’s’) qui suppose une symétrie dans la diffusion. Ce modèle fait écho auxidées de Lippmann (1922) pour la formation des stéréotypes, évoquéesplus tôt dans ce document. Cependant, on notera que cette diffusion s’ef-fectue à présent par un nouveau canal qui est celui d’Internet et des mé-dias sociaux. Il semble alors possible de postuler que les représentationsvéhiculées par le Web, observables et potentiellement mesurables, ont unimpact sur les représentations personnelles que se forgent les usagers deces médias. Utiliser la science des données comme un outil pour l’ana-lyse des représentations qui circulent sur Internet sous-tend mon projetgénéral de recherche.

Des représentations informatiques – Le but de toute communicationest la résolution de l’ambiguïté (Klinkenberg 2000). Cette assertion est enlien direct avec la théorie de l’information qui joue un rôle prépondéranten informatique (Shannon 1948). Le message électronique, passant d’or-dinateur en ordinateur via Internet et les milliers de data centers répartisà travers le monde, est contraint par un code que les machines sont ca-pables de manipuler. Ce code est exprimé en bits, atomes d’information àvaleur binaire, qui contraignent le contenu de ces échanges. Faisant cela,ce nouveau médium devient une sorte de médiateur lorsqu’il se doubled’institutions créées pour mettre en place des normes, telles que le W3C.Il semble évident que les normes ainsi imposées, comme les protocolesHTML et TCP-IP, ou les triplets RDF du Web sémantique, orientent la ma-nière dont les communications peuvent avoir lieu. Mais laissons ce débatpour discuter plus en détail des représentations informatiques manipuléespar les algorithmes de fouille de données.

D’un point de vue informatique, l’analyse automatique des donnéesnécessite que nous soyons en mesure de décrire les données complexes. Ils’agit par exemple d’une collection de mammographies dans une tâche dedétection de tumeurs, ou d’un réseau de clients pour une banque ou unassureur. Nous pouvons nommer cet objet réel le référé si l’on s’en tient auvocabulaire de la sémiotique, comme vu précédemment. La projection decet objet sur un support numérique composé de 0 et de 1 constitue un ré-férent pour cet objet, une transformation qui nous permet de le manipuleraisément à l’aide d’algorithmes de traitement de l’information. Ainsi, le ta-bleau qui décrit les tumeurs à partir d’un vocabulaire de caractéristiques(motifs provenant de l’image) ou les clients à partir de variables socio-démographiques est bien une manière de représenter les objets que l’on

Page 35: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2.3. Question de représentation(s) 27

souhaite manipuler avec nos machines. Les données textuelles, qui consti-tuent une grande partie des données ciblées dans mes travaux, peuventégalement être décrites de multiples façons : représentation en “sac demots” (bag of words), vecteurs dans des espaces multidimensionnels, arbressyntaxiques, etc. Il est admis qu’il existe de nombreuses descriptions pos-sibles pour un même objet, comme autant de points de vue différents quiposeront bien sûr des difficultés aux algorithmes de fouille de données,comme nous le verrons par la suite.

Une fois les objets qui nous intéressent décrits en langage informa-tique, il est possible de leur appliquer des modèles d’analyse mathéma-tique et statistique en utilisant des algorithmes. Cependant, il est connuque la description de ces objets, souvent construite à priori, est rarementla plus pertinente pour la tâche visée. Résoudre ce problème revient àchercher le meilleur espace de description pour la tâche (classification, ré-gression, visualisation, etc.), problème qui a beaucoup sollicité l’attentiondes chercheurs en mathématique et en informatique, et ce depuis long-temps. On peut citer les nombreux travaux en construction ou extractionde caractéristiques, qui consistent par exemple à sélectionner un certainnombre de dimensions de l’espace de représentation afin d’améliorer lesperformances obtenues en classification (Liu et Motoda 1998). En analysede données, les premiers axes factoriels sont souvent utilisés pour redé-crire les données car ils résument la plus grande partie de la varianceobservée (Benzécri et Bellier 1976) bien qu’ils laissent de côté les signauxles plus faibles. Dans la même lignée, l’apprentissage de variétés topo-logiques (manifold learning) cherche la projection dans un espace non né-cessairement convexe qui préserve au maximum la topologie propre auxdonnées (Huo et al. 2007). Pour donner un dernier exemple, en lien di-rect avec certaines contributions présentées dans ce document, une idéesimilaire est développée lorsque l’on cherche des espaces latents avec destechniques de factorisation de matrices comme NMF (Paatero et Tapper1994) ou des modèles probabilistes comme pLSA et LDA (Hofmann 1999,Blei et al. 2003).

On peut constater que l’effort principal de la communauté s’est portésur la représentation des données en entrée des algorithmes. Or, la sortiedes algorithmes de fouille de données, autrement dit le type d’informationproposé à un utilisateur souvent via une interface graphique, joue égale-ment un rôle important bien que celle-ci soit parfois très pauvre. C’estparticulièrement flagrant en apprentissage non supervisé où le produit del’analyse se résume la plupart du temps à un ensemble de groupes (sou-vent disjoints) parfois organisés sous la forme d’une grille (Kohonen 1982)ou d’une hiérarchie (Fraiman et al. 2013). L’analyse fine des groupes (ca-ractérisation, nommage, relations inter-groupes) est réalisée à posteriori,souvent en concertation avec l’expert métier. Pour la tâche d’apprentis-sage de thématiques (topic learning), les documents sont étiquetés avec desthématiques qui se retrouvent souvent être des distributions sur un voca-bulaire fixe de mots. Les interfaces récentes de visualisation et de naviga-tion dans les thématiques (Wei et al. 2010, Gohr et al. 2013) rencontrentvite leurs limites car elles ne permettent pas réellement de caractériserles groupes et surtout leur dynamique dans le temps. Ce genre d’analyseavancée nécessite, bien sûr, des modèles de représentation adaptés quirestent à construire.

Page 36: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

28 Chapitre 2. Apport de la science des données aux SHS

Image, nouveaux médias et curation – J’ai plusieurs fois fait allusionaux images, ou représentations, véhiculées par les médias. En effet, ils sontsouvent des intermédiaires entre la réalité (des faits, des événements) et laconnaissance que les individus en ont. Ce concept d’image est central auxrecherches en analyse du discours, notamment du discours de presse, maiségalement aux travaux en communication. Il a été étudié par des cher-cheurs comme Lippmann (1922), avec l’idée de stéréotypes, ou l’équipede Moscovici, avec l’image de la psychanalyse (Moscovici 1961) et de lamaladie mentale (Jodelet et Moscovici 1989). Il rencontre un écho particu-lièrement important de nos jours avec l’apparition des nouveaux médiastels que les blogs et les réseaux sociaux. En effet, ces médias effectuent untravail éditorial qu’on qualifie de curation de contenu, concept qui n’estqu’une nouvelle manière de manipuler 3 l’information et ses représenta-tions. On ne peut évidemment s’empêcher de faire le lien avec la questionde l’influence des médias sur l’opinion publique et les représentations in-dividuelles. Comme je l’expliquerai brièvement plus tard (section 2.4.1),je préfère ne pas me hasarder à discuter de ces questions importantes etcomplexes d’influence dans le présent document car elles sont déjà étu-diées par ailleurs dans d’autres disciplines que l’informatique.

L’une des différences souvent mise en avant est que les “nouveaux”médias, par opposition aux “anciens” médias, laissent une plus grandeplace à l’information produite par les individus. Les individus qui parti-cipent à la création du contenu constituent la foule (crowd) qui n’est, pardéfinition, pas reconnue comme experte dans le sujet traité ni spécialiséedans la diffusion de l’information. Ce contexte explique la nécessité des’inscrire dans une démarche de curation. Comme l’explique bien Rosen-baum (2011), cette démarche n’est pas entièrement nouvelle car elle reposesur l’idée de l’éditorialisation du contenu. Le terme provient d’ailleursdu domaine de la muséologie où le curateur (curator) fait référence aucommissaire qui sélectionne, trie, contextualise, présente les œuvres d’artqui composent son exposition. Adoptant une démarche similaire, le cura-teur du média, qu’il dépende d’un organe traditionnel de presse ou qu’ils’agisse de l’auteur d’un blog au sujet de sa passion pour le scrabble, orga-nise son contenu de telle sorte que sa lecture apporte une réelle plus valueà ses auditeurs, un supplément d’âme. La place de l’humain, le curateur,est fondamentale en ce qu’il permet d’aller au-delà de simples agréga-teurs automatiques d’information tels que les agrégateurs de flux RSS oules compilateurs de news comme Google Actualité. C’est là que réside lavaleur ajoutée qui ne peut être apportée que par l’intelligence de l’être hu-main, comme le prône l’idée de curation défendue par Rosenbaum (2011).

Au fond, on peut avoir l’impression de voir se rejouer la pièce drama-tique qu’a connu l’Intelligence Artificielle depuis les années 60. Les dé-tracteurs de l’IA dite cognitiviste, comme Dreyfus (1992), soulignent quela connaissance et les comportements humains ne sont pas réductibles àun ensemble de propositions formelles comme celles de la logique mani-pulée par les ordinateurs. Ils s’opposent donc à l’idée que l’esprit puisseêtre modélisé sous la forme d’une machine symbolique. La conséquenceest que les systèmes dits intelligents nécessiteront toujours l’intervention

3. Manipuler ici n’est pas pris dans son acception péjorative, mais bien pour signifierque le curateur manipule l’information dès lors qu’il la traite à des fins éditoriales.

Page 37: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2.4. Discussion 29

humaine lorsqu’il s’agit d’accomplir des tâches de haut niveau tel qu’untravail éditorial. Autrement dit, l’automatisation totale de ces systèmesest une chimère. D’autres voix s’élèvent pour défendre l’intelligence arti-ficielle en levant l’ambiguité sur le projet réel qu’a été, et qu’est encore àce jour, celui de l’IA (Ganascia 2010a). Remettre l’humain dans le jeu de ladécouverte de connaissances à partir de gisements massifs provoqués parle déluge de données est précisément l’un des enjeux de la curation, maiségalement de ce que l’on appelle aujourd’hui la science des données. Ladémarche de curation nécessite une sélection appropriée des données per-tinentes, leur organisation et leur mise en forme en fonction d’un contexte,puis leur diffusion. La fouille de données, qui laisse une part importantede la décision au data miner ou data scientist, mais surtout à l’expert métier(le citoyen, le journaliste, le chercheur en sciences sociales, etc.), représentealors une piste particulièrement prometteuse, voire inévitable, pour mettreen œuvre ce type de démarche « intermédiaire ». Certains médias ne s’ytrompent d’ailleurs pas en proposant des outils de sélection des données,de modération des discussions, de visualisation dynamique, etc. A ce titre,le projet des humanités numériques ne semble pas bien différent (Zighed2014).

2.4 Discussion

La synthèse des deux parties qui précèdent revient à se demander ce quepeuvent apporter les modèles et les algorithmes de la science des don-

nées pour l’analyse des médias, ou plus précisément pour l’analyse des re-présentations qu’ils véhiculent. Pour tenter de répondre à cette question,il faut rappeler que la plupart des médias actuels (radio, presse, réseauxsociaux, etc.) ont aujourd’hui une existence partielle ou totale sur Inter-net et que ce support numérique est également le canal par lequel tran-site une grande quantité de l’information fournie aux individus. Il semblealors légitime de postuler qu’une analyse des traces numériques (articles,messages, commentaires, tweets, statuts. . . ) laissées sur ces médias nousdonnera des indices suffisants sur le type de représentation véhiculée surla toile et donc proposée aux individus. Or, une analyse systématique deces traces n’est envisageable qu’en ayant recours à des outils modernesde fouille des données, ne serait-ce que pour filtrer, synthétiser, visualiserles masses prodigieuses d’information disponible. Ce postulat me mènedonc à conclure que la fouille des données complexes et massives, quel’on classe aujourd’hui comme l’un des projets de la science des données,constitue un outil inévitable pour l’analyse des médias aujourd’hui. Biensûr, je m’inscris dans une tradition pragmatique qui, loin de tomber dansles travers quantitativistes un temps dénoncés (voir à ce sujet l’historiquetracé par Lemercier et Claire (2010)), donne toute sa place à l’humain dansle processus, qu’il s’agisse de l’expert en sciences des données ou de l’ana-lyste qui emploie ces outils dans sa démarche interprétative. Plus encore,il semble évident que la réussite du processus dans son ensemble nécessiteune forte coopération des deux parties.

Il convient à présent de discuter de la classification automatique, enparticulier non supervisée, car elle constitue le mode privilégié des tech-

Page 38: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

30 Chapitre 2. Apport de la science des données aux SHS

niques originales présentées dans ce mémoire. La catégorisation occupeune place de choix dans les techniques de la fouille des données, plusparticulièrement en apprentissage automatique inductif. La nécessité decatégoriser le monde réel sensible a mené à l’élaboration de nombreusesencyclopédies, systèmes de classement aussi divers que les taxonomies deLinnaeus et al. (1758), l’encyclopédie collaborative Wikipédia ou l’onto-logie OGMS dans le domaine de la médecine. Les chercheurs en mathé-matiques et en informatique ont réalisé qu’il était important de mettreau point des techniques pour automatiser la construction de ces catégo-ries. Certains ont été jusqu’à s’inspirer de théories sur la catégorisationhumaine, comme la théorie du prototype de Rosch (1999), pour élaborerleurs mesures (comme la Category Utility de Gluck et Corter (1985)) etleurs algorithmes (COBWEB de Fisher (1987)). De manière analogue, onpeut se demander aujourd’hui si les outils d’analyse des représentationsvéhiculées dans et par les médias ne devraient pas tirer enseignement destravaux réalisés depuis longtemps en sociologie et en psychologie sociale.Il s’agit de l’une des pistes que je souhaite continuer à explorer et qui seretrouve naturellement dans mes perspectives actuelles de recherche (cf.section 7.2).

Comme souligné par Klinkenberg (2000), les encyclopédies ont un ca-ractère « pluriel et provisoire ». Pluriel car il est vain de vouloir construireune unique encyclopédie de référence, valable pour tous les individus etpour tous les sujets. Provisoire car elles sont en constante évolution. Ceséléments plaident d’abord contre l’illusion de découvrir une unique struc-turation des données. C’est la raison pour laquelle je n’aborde pas, outrès peu, la question du bon nombre de catégories, question récurrentelorsqu’on évoque des algorithmes comme les k-means de MacQueen et al.(1967) ou les algorithmes d’extraction de thématiques comme LDA (Bleiet al. 2003). Ces éléments plaident également pour la nécessité de déve-lopper des modèles et des algorithmes d’analyse capables de prendre encompte la dimension temporelle. Cela ne veut pas dire qu’il soit nécessaireque les algorithmes donnent des réponses en temps réel (problématiqueonline ou anytime), mais plutôt qu’il convient de prendre convenablementcette dimension en compte, par exemple de manière rétrospective. C’estce type d’approche qui est justement privilégié dans mes travaux.

Pour terminer, je me dois d’insister sur un point : la place de l’humaindans cette démarche d’analyse. C’est un thème central en fouille de don-nées mais aussi en curation des contenus, voire plus généralement dansl’utilisation des outils informatiques dans le domaines des SHS. C’est ainsique des logiciels comme Prospero (Chateauraynaud 2003) et Alceste (Rei-nert 1990) sont quotidiennement utilisés par des chercheurs en sociologiepour analyser les discours. Prospero, issu des travaux du groupe de so-ciologie pragmatique et réflexive à l’EHESS porte, en lui-même, la néces-sité d’une utilisation éclairée impliquant le chercheur à toutes les étapesde l’analyse. Quant à Alceste, Kalampalikis et Moscovici (2005) montrentbien que l’utilisation de ce logiciel nécessite d’être revisitée en adoptant,là encore, une démarche pragmatique. On retrouve le même souci dansd’autres domaines tel que l’histoire où la communauté s’interroge surla place des outils quantitatifs (Lemercier et Claire 2010). Traiter de laquestion des interfaces homme-machine n’est pas l’objet de mes travaux

Page 39: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

2.4. Discussion 31

de recherche. Malgré tout, l’humain est bien présent à tous les niveauxdu processus : il sélectionne les données, il étiquète les cibles et polari-tés de l’opinion, il fournit de la connaissance qui sera prise en comptepar les algorithmes, il aide à valider la pertinence des algorithmes quenous développons. Plus généralement, il aide à remettre en question tousles niveaux du processus de fouille des données. C’est la raison pour la-quelle j’utilise parfois l’expression d’analyse semi-automatique. Il est dif-ficile d’envisager aujourd’hui un processus totalement automatique, de lasélection des données à la validation des connaissances extraites. Mais, quisait, ce vieux rêve de l’Intelligence Artificielle dite forte sera peut-être unjour atteignable.

2.4.1 Eclaircissements préalables et questions éthiques

La lecture de ce document nécessite quelques éclaircissements préa-lables. Tout d’abord, la question à laquelle je souhaite répondre, du

moins en partie, est bien de tester s’il est possible de capter des opinions,des images, des représentations, à partir de traces (messages de forum,commentaire de blog, tweet, etc.) laissées sur Internet. En d’autres termes :Quel est le type de représentation qui circule sur le Web, sans prétendred’ailleurs à l’exhaustivité, en particulier via les médias sociaux ? Il n’estpas question ici de faire des hypothèses hasardeuses sur la représenta-tion que se ferait un individu ou un groupe d’individus. Bien sûr, il n’estpas absurde de postuler que ces représentations émises par une sourceaient une certaine influence sur la manière dont les individus perçoiventtel événement ou tel homme politique. C’est d’ailleurs l’objet des travauxsur l’influence des médias, comme ceux de McCombs et Shaw (1972) surles élections en Caroline du Nord, de Robinson et al. (2007) sur le com-portement d’achat des enfants ou plus récemment de Lecomte (2012). Ce-pendant, je laisse ce type de réflexion à des recherches futures qui devrontêtre menées en étroite collaboration avec des spécialistes en psychologie,sociologie, sciences cognitives, communication, c’est-à-dire avec des spé-cialistes en SHS.

Ensuite, il convient de dire quelques mots sur les aspects éthiques liésà ce type de travaux, aspects que l’on ne peut ignorer. Ils sont de deuxordres. Tout d’abord, comprendre les mécanismes qui se cachent derrièrela diffusion et la circulation des représentations peut amener à croire qu’ilest possible d’agir sur ces médias pour influencer l’opinion publique, ac-tion prévue par le Social Media Monitoring. Un exemple consiste à posterdes messages ou à suivre des internautes (comme sur Twitter) dans un butqui n’est pas celui de transmettre ou de communiquer, mais bien de mani-puler le réseau pour gagner en visibilité et en influence (voir par exempleles études sur les “capitalistes sociaux” de Dugué et Perez (2013)). Unautre exemple consiste à envoyer de fausses informations, comme les fa-meux hoax envoyés sur nos boîtes aux lettres électroniques, afin de pous-ser les internautes à donner de l’argent ou à infecter leur ordinateur avecun virus. Il semble important aujourd’hui de mettre en place des mé-canismes pour se prémunir de ce type de comportement néfaste tout enévitant l’excès inverse qui ne garantirait plus la liberté d’expression des ci-toyens. La solution résiderait-elle dans l’idée de sousveillance, permettant

Page 40: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

32 Chapitre 2. Apport de la science des données aux SHS

un contrôle venant de la base et opposée à celle de surveillance (Ganascia2010b) ?

Le deuxième aspect éthique qu’il faut évoquer concerne les questionsde sécurité des données personnelles et de préservation de la vie privée.Que ce soit pour vendre un produit en utilisant la publicité ciblée, avec lanaissance du Social Media Marketing (Zarrella 2010), ou pour pousser lescitoyens à voter pour tel ou tel candidat (Graber 1997), les traces laisséesvolontairement ou involontairement par les internautes peuvent être uti-lisées à différentes fins, bien éloignées d’un idéal de partage universel dela connaissance. Les goûts et le profiling des internautes deviennent eux-mêmes l’objet de négoce et les informations passent d’entreprise en entre-prise. Cette question fait la une de l’actualité à l’occasion de scandales ré-currents, comme celui du système PRISM de la NSA (source Panoptinet).Tom’s Guide recense ainsi douze scandales impliquant le réseau phareFaceBook. Dans ce contexte, il semble important que les concepteurs desalgorithmes de fouille de données soient, d’une part, informés des dérivespossibles liées à l’utilisation de ces algorithmes, et, d’autre part, impliquésdans la diffusion à la fois des jeux de données constitués mais aussi desditsalgorithmes. Cela pose en particulier des problèmes techniques d’anony-misation des données, de telle sorte qu’il ne soit pas possible de revenir àla source de l’information, surtout lorsque des intérêts privés sont en jeu.Pour ce faire, une première démarche que peut entreprendre le data ana-lyst consiste à se mettre en relation étroite avec la CNIL en France, commecela a été fait dans le cadre du projet ImagiWeb (cf. section 6.2). Une autredémarche consiste à travailler en transparence avec les pouvoirs publics etles entreprises afin de contrôler la manière dont sont utilisés les outils defouille de données et, le cas échéant pouvoir donner l’alerte.

Conclusion du chapitre

Dans ce chapitre, j’ai détaillé deux problèmes qui semblent, à premièrevue, être traités par des disciplines bien distinctes mais qui se révèlent

au contraire complémentaires. En effet, les outils développés pour fouillerles données complexes constituent aujourd’hui un soutien indispensableà l’analyse des nouveaux médias d’information, en particulier des repré-sentations qu’ils véhiculent. J’ai également montré que les représentationssont partout : dans l’image émise par les entités et diffusée par les médias,dans la description des objets complexes et leur manipulation par desmachines, dans les sorties proposées par les algorithmes. Les chapitressuivants concrétisent ces réflexions préliminaires selon trois axes d’étude :l’analyse des thématiques et des opinions, l’analyse des discussions enligne et plus particulièrement la détection des rôles dans les communau-tés virtuelles, et enfin la construction du vocabulaire permettant de décrirecertains objets complexes dans un objectif de classification. Ces contribu-tions techniques se concrétisent ensuite dans des projets appliqués, tel quele projet ImagiWeb qui se situe parfaitement dans ce projet global d’ana-lyse des représentations qui circulent sur les médias sociaux. Le dernierchapitre est l’occasion de détailler plusieurs axes futurs de recherche pourdévelopper de nouveaux outils de fouille de donnés qui pourraient s’avé-rer déterminants dans l’étude des représentations, une fois bien sûr placésentre les mains averties de spécialistes en SHS.

Page 41: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3Analyse des thématiques et

des opinions

Sommaire

3.1 Extraction, nommage, évaluation des thématiques . . . 35

3.1.1 Eléments de bibliographie . . . . . . . . . . . . . . . . . . . 35

3.1.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.2 Détection des thématiques et des opinions . . . . . . . . . 42

3.2.1 Eléments de bibliographie . . . . . . . . . . . . . . . . . . . 42

3.2.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.3 Détection et suivi des images d’opinion . . . . . . . . . . . 53

3.3.1 Eléments de bibliographie . . . . . . . . . . . . . . . . . . . 53

3.3.2 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . 62

Dans ce chapitre, je présente les travaux réalisés sur l’analyse des thé-matiques et des opinions à travers plusieurs projets. La première

partie est consacrée aux problèmes d’extraction, d’évaluation et de nom-mage de thématiques extraites des textes de manière non supervisée. Ladeuxième partie traite de la détection jointe des thématiques et des opi-nions, prenant en compte la dimension temporelle. La troisième partie estconsacrée à l’agrégation des opinions et la formation des images “de mar-que”. Ces travaux ont mobilisé plusieurs personnes et ont donné lieu à uncertain nombre de publications :

Thèse de Marian-Andréi Rizoiu : Stéphane Lallich (directeur). Thèse deMohamed Dermouche : Sabine Loudcher (directrice), Leila Khouas (en-cadrante entreprise, AMI Software). Post-doctorat de Young-Min Kim :Stéphane Bonnevay (co-encadrant). Stage de Marian-Andréi Rizoiu :Jean-Hugues Chauchat (co-encadrant). Stage de Claudiu Musat : StefanTrausan-Matu (co-encadrant).

Publications : 1 revue int. (Rizoiu et al. 2014), 5 conférences int. (Musatet al. 2011a;b, Rizoiu et al. 2012, Dermouche et al. 2014, Kim et al. 2015),1 workshop int. (Dermouche et al. 2013a), 3 conférences nat. (Rizoiu et al.2010, Dermouche et al. 2013b; 2015), 1 chapitre d’ouvrage int. (Rizoiu etVelcin 2011).

33

Page 42: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 43: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.1. Extraction, nommage, évaluation des thématiques 35

3.1 Extraction, nommage, évaluation des thématiques

Cette première partie regroupe les travaux centrés, pour l’essentiel, au-tour des thématiques que l’on peut extraire de manière non super-

visée (approche ascendante) à partir d’un corpus de textes décrits dansle formalisme vectoriel classique de Salton et al. (1975). Le couplage avecles opinions et le traitement de leur dynamique seront étudiés dans lesparties suivantes.

3.1.1 Eléments de bibliographie

L’apprentissage de thématiques (topic learning) est une tâche à la croiséeentre l’apprentissage automatique et le traitement automatique des

langues. L’objectif principal consiste à extraire de “quoi” parle un texte, ouun extrait de texte, ce que l’on appelle la thématique. Définir la thématiquede manière précise n’est pas évident car elle peut être associée à un ouplusieurs mots-clefs (« apprentissage », « catégorisation », « centroïdes »pour une thématique autour du clustering), à des expressions (« intelli-gence artificielle », « fouille de données textuelles »), à des phrases, desvecteurs ou des distributions entières sur un vocabulaire (cas de la distri-bution multinomiale des topic models), etc. Il peut s’agir de voir émergerla thématique du sport à partir d’articles de presse ou la thématique dela cuisine au barbecue à partir de recettes de cuisine. Cette problématiqueregroupe également l’évaluation de la qualité des thématiques obtenues,leur caractérisation (par exemple trouver le titre le plus adéquat) et leurvisualisation dans le cadre de logiciels de fouille de données. Je donneci-dessous quelques éléments d’état de l’art, recueillis dans le cadre desthèses de M.A. Rizoiu et M. Dermouche.

Extraction des thématiques – L’extraction des thématiques à partir d’uncorpus de textes est, au départ, une tâche d’apprentissage automatiquenon supervisé qui s’apparente à du clustering. Cette tâche a été abordée àl’aide de différentes approches que l’on peut catégoriser en trois grandesfamilles. Je laisse volontairement de côté les approches plus linguistiques,telles que celles basées sur des graphes de termes (Lauf et al. 2012), pourprivilégier les approches statistiques que l’on trouve majoritairement dansla littérature. La première approche consiste à adapter un algorithme clas-sique basé sur des similarités ou dissimilarités entre textes afin de l’utilisersur des corpus représentés sous forme vectorielle. Il s’agit par exemple del’approche employée avec l’algorithme AGAPE, développé à la suite dema thèse (Velcin et Ganascia 2007), ou des travaux de Pons-Porrata et al.(2003). Bien que l’algorithme n’y soit pas dédié, il est envisageable d’uti-liser la variante floue des c-moyennes appelée FCM (pour Fuzzy C-Means)proposée par Dunn (1973). Dans ce cas, la thématique est déduite à pos-tériori des catégories de textes regroupés ensemble par ces techniques. Ilapparaît que cette famille d’approches ne semble pas réellement adaptéeà la tâche et que les deux qui suivent le sont bien d’avantage.

La deuxième approche consiste à avoir recours à des techniques defactorisation de matrices issues de l’algèbre linéaire. En quelques mots, il

Page 44: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

36 Chapitre 3. Analyse des thématiques et des opinions

s’agit de décomposer la matrice rectangulaire (documents, termes) en unproduit de deux matrices ou davantage. Il s’agit par exemple des tech-niques d’analyse factorielle consistant à trouver les axes qui expliquent aumieux la variance observée dans les données. C’est le cas de l’algorithmeLSA (pour Latent Semantic Analysis) proposé par Deerwester et al. (1990)qui se base sur une décomposition en vecteurs singuliers (SVD pour Sin-gular Value Decomposition). L’un des défauts de cette approche, à savoirextraire des axes difficilement interprétables car comportant des valeursnégatives, a donné naissance à des algorithmes comme la factorisationnon négative (NMF pour Non negative Matrix Factorization) de Paatero etTapper (1994). Une autre approche, appelée apprentissage de dictionnaire,adopte une idée similaire en travaillant sur la norme utilisée pour la régu-larisation de la fonction objectif comme dans Jenatton et al. (2010).

Enfin, la troisième approche, et probablement la plus populaire, estcelle basée sur des modèles graphiques probabilistes appelés topic models.Le premier modèle, appelé pLSA (pour probabilistic Latent Semantic Analy-sis), a été proposé par Hofmann (1999). Le modèle LDA (pour Latente Diri-chlet Allocation) proposé par Blei et al. (2003) permet de résoudre certaineslimitations de pLSA, en particulier proposer un modèle complètement gé-nératif capable de faire de l’inférence sur de nouveaux textes. Ils serontsuivis d’un nombre impressionnant de modèles adoptant la même philo-sophie, c’est-à-dire modélisant le processus génératif supposé à l’aide d’unmodèle graphique puis estimant ses paramètres à l’aide de techniquesd’optimisation comme les méthodes de Monte-Carlo ou les approches va-riationnelles. Ces nombreux modèles permettent, par exemple, d’extrairedes hiérarchies de thématiques (Blei et al. 2010), des corrélations de thé-matiques (Lafferty et Blei 2005), des thématiques dans le temps (Wang etMcCallum 2006), etc.

Il est intéressant de signaler que des chercheurs ont mis en évi-dence des équivalences selon certaines conditions entre ces différentesapproches, par exemple entre NMF et le clustering spectral (Ding et al.2005) ou entre NMF et pLSA (Gaussier et Goutte 2005).

Evaluation des thématiques – Bien que certains travaux tâchent de ré-concilier les approches totalement non supervisées survolées dans la sec-tion précédente avec des informations supervisées comme dans le cas del’algorithme sLDA par exemple (Blei et McAuliffe 2010), l’esprit généralcommun à ces approches est bien de faire émerger des thématiques de“bas en haut” (approche bottom-up) en se basant principalement sur la co-occurence des termes dans le corpus de textes. Se pose alors la questionrécurrente de l’évaluation de la qualité des thématiques extraites par lesalgorithmes, qu’ils suivent une approche basée sur la similarité, une facto-risation de matrices ou un modèle probabiliste. Une littérature extensiveexiste sur le sujet dans le cas général (voir par exemple le passage en re-vue réalisé par Halkidi et al. (2002)), mais elle est plus rare dans le casde l’extraction des thématiques, ce qui rend difficiles la validation et lacomparaison des algorithmes.

Grossièrement, il existe deux manières d’évaluer les algorithmes : lamanière qualitative, qui consiste à utiliser le jugement humain, évidem-ment subjectif, afin de valider la qualité des thématiques, et la manière

Page 45: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.1. Extraction, nommage, évaluation des thématiques 37

quantitative, qui consiste à employer des mesures statistiques. Le juge-ment humain, par exemple d’un expert du domaine étudié, peut se réa-liser de différentes façons. On peut par exemple employer une approchesystématique basée sur un système comme le turc mécanique d’Amazon,ce que font Chang et al. (2009). On peut plus prosaïquement présenterle résultat des algorithmes et demander leur validation par l’utilisateur.La caractérisation des thématiques, problème que j’évoque dans le para-graphe qui suit, constitue alors un véritable atout. La deuxième manièreconsiste à utiliser des mesures statistiques, comme par exemple la per-plexité qui évalue la vraisemblance du modèle sur des données qui n’ontpas été utilisées en apprentissage (ce qui est fait par Blei et al. (2003)), oules mesures issues de la recherche d’information (précision, rappel, infor-mation mutuelle) qui se basent sur une catégorisation thématique donnéeà priori du corpus. Ces schémas d’évaluation sont bien sûr critiquables.L’évaluation par le jugement humain est taxé de subjectivité et il est diffi-cile à réaliser à grande échelle. L’évaluation purement automatique n’estpas exempt de défauts : la vraisemblance permet surtout de comparer desmodèles d’une même famille entre eux, alors que l’objectivité supposéede la vérité terrain qui résulte d’une catégorisation humaine est très discu-table. Dans ce contexte, on comprend bien qu’il faut parfois avoir recours àplusieurs types d’évaluation et qu’une évaluation qualitative s’avère sou-vent nécessaire pour convaincre l’utilisateur.

Caractérisation des thématiques – La nature des thématiques n’est pasla même suivant que l’on utilise l’une ou l’autre des familles d’algorithmesprésentées plus haut. Par exemple, une approche à base de distance pourrareprésenter une thématique comme un centroïde, vecteur décrit par lepoids des mots qui se trouvent au centre d’inertie d’un nuage de textes,alors qu’une approche à base de modèles graphiques utilisera une distri-bution multinomiale sur le vocabulaire. On remarque qu’il existe bien uneanalogie, qui sera d’ailleurs utilisée dans une contribution présentée plusloin dans ce document, mais la nature même des objets est différente et ilconvient de faire attention au mélange de ces représentations. Par contre,il est à la fois autorisé et même important d’être en mesure de caractériserles thématiques extraites par les algorithmes. Une première caractérisa-tion, manuelle, est déjà réalisée dans une grande partie de la littérature oùla liste des mots-clefs les plus saillants pour une thématique est toujoursaccompagnée d’un titre donné par le chercheur qui propose sa (nouvelle)solution. Cette caractérisation peut consister en un ensemble de mots-clefséventuellement pondérés et triés par importance, en une expression, enune phrase entière, en un concept issu d’une ontologie précise ou du Websémantique, etc.

Différents travaux ont été menés afin d’automatiser le processus decaractérisation (on trouve également les termes étiquetage, nommage, ti-trage) des thématiques. Ont été utilisés des itemsets fréquents (Fung et al.2003), des groupes de mots-clefs (Wartena et Brussee 2008), des concepts(Hulpus et al. 2013). En particulier, Magatti et al. (2009) présentent untravail remarquable afin de définir ce qu’est un bon nom pour une théma-tique et de proposer un ensemble de critères à employer pour le trouver.Bien sûr, cette problématique devient d’autant plus utile qu’elle est un

Page 46: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

38 Chapitre 3. Analyse des thématiques et des opinions

élément clef de la conception d’interfaces permettant de visualiser les thé-matiques extraites à partir d’un corpus.

Visualisation des thématiques – Cette dernière problématique liée àl’apprentissage de thématiques est importante car elle entre pleinementà la fois dans la validation et dans l’utilisation des algorithmes dévelop-pés pour résumer de large corpus de textes. Elle est liée au mouvementdes visual analytics qui placent l’utilisateur au centre du système, ce qui faitécho à la discussion entamée à la fin de la section 2.3 sur la place de l’êtrehumain dans le processus d’analyse. Quant à la visualisation des théma-tiques, elle est parfois utilisée à des fins de validation comme dans Termite(Chuang et al. 2012), pour guider le processus de découverte des théma-tiques avec les Topicnets (Gretarsson et al. 2012) ou pour tracer l’évolutiondes thématiques avec TopicTable (Gohr et al. 2010) ou TIARA (Wei et al.2010). On peut noter des liens avec le clustering faiblement supervisé (voirà ce sujet les travaux de Basu et al. (2004)) lorsqu’il s’agit de prendre encompte des retours de la part de l’utilisateur. Je n’entre pas plus en détailsur cette partie qui n’est pas au cœur de mes travaux.

3.1.2 Contributions

Ces dernières années passées au laboratoire ERIC, j’ai eu l’occasion detravailler sur différents aspects de l’apprentissage de thématiques. Je

présente ci-dessous plusieurs contributions sur l’étiquetage automatiqueet sur l’évaluation des thématiques. Ces travaux m’ont permis de me fa-miliariser avec cette problématique mais également avec les fondementsthéoriques de certaines méthodes employées dans la littérature, en parti-culier les modèles graphiques probabilistes.

Etiquetage des thématiques – Ce travail a été réalisé principalement àl’occasion du stage de Master recherche de M.A. Rizoiu. Le système quenous avons proposé aborde le problème de l’extraction des thématiquesen utilisant un algorithme de classification non supervisée avec recouvre-ment (Cleuziou 2007). Cela signifie que, contrairement à des approches oùun objet (un texte, par exemple) est associé à des degrés d’appartenance àune catégorie (une thématique), ce qui est le cas pour la plupart des algo-rithmes cités dans la littérature (LDA, par exemple), un objet appartientexactement à une ou plusieurs catégories. Cette approche a l’avantage derésoudre le problème de l’affectation des objets aux catégories qui est posédans la plupart des modèles de thématiques. Une fois la catégorisation réa-lisée, notre système cherche à étiqueter les catégories ainsi extraites à l’aided’expressions fréquentes directement issues du corpus de textes, comme« data mining » ou « cocoa stock buffer ». La technique employée s’inspirede Osinski et al. (2004) et revient à associer à chaque thématique l’expres-sion qui possède la similarité la plus forte avec le centroïde de la catégorie,autrement dit le document moyen. Des expériences ont été menées sur unextrait du corpus Reuters avec deux types d’évaluation. D’une part, nousavons comparé les catégories obtenues en faisant varier différents typesde pondération (fréquence, TF-IDF. . . ) avec la vérité terrain constituée par

Page 47: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.1. Extraction, nommage, évaluation des thématiques 39

les catégories affectées manuellement par les humains. Les résultats sur ce(petit) jeu de données indiquent que la mesure basée sur la fréquence per-met d’obtenir les catégories les plus proches de celles manuelles. D’autrepart, cinq humains ont évalué les noms extraits de manière qualitativepour constater que ces derniers étaient souvent plus informatifs qu’uneliste de mots clefs. En particulier, la mesure de présence/absence de motsconduit à un taux de satisfaction compris entre 65% et 90%. Ces travauxont conduit à une publication dans la conférence EGC (Rizoiu et al. 2010).Ce système, nommé par la suite CKP (pour Cluster Key Phrases), a été inté-gré au logiciel d’analyse des forums CommentWatcher (voir section 6.1).

Evaluation des thématiques – Evaluer la qualité des thématiques ex-traites par les algorithmes automatiques est reconnu comme étant un pro-blème difficile, ce qui n’a rien d’étonnant puisqu’il s’agit de l’implémenta-tion du problème classique de classification non supervisée pour les don-nées textuelles. Il a été montré dans le cas des modèles graphiques queles mesures usuelles basées sur la vraisemblance calculée sur des donnéesde test (comme la mesure de perplexité) n’était pas toujours la meilleuresolution (Chang et al. 2009). Dans ce contexte, nous avons proposé deuxcontributions.

La première contribution est le fruit d’une collaboration avec l’Univer-sité Polytechnique de Bucarest (UPB), en particulier à l’occasion du séjourde C. Musat alors en thèse sous la direction de S. Trausan-Matu. L’idéeconsistait à utiliser une base de connaissances lexicales afin de tester la co-hérence interne des thématiques. Nous souhaitions vérifier si l’évaluationqualitative réalisée dans les travaux de Chang et al. (2009) pouvait êtreémulée par le passage à une base comme WordNet (Miller 1995) qui estelle-même le fruit d’un travail de conceptualisation réalisé par des êtreshumains. Autrement dit, nous cherchions à mettre au point une mesureautomatique qui donne une valeur de cohérence importante à la théma-tique lorsque l’humain gagne au jeu de l’intrus, qui consiste à trouverun mot qui n’appartient pas à une thématique parmi les mots clefs lesmieux notés, et qui donne une valeur faible lorsque celui-ci se trompe carla thématique n’est pas très homogène. Pour ce faire, nous avons construitdes sous-arbres thématiques issus de la hiérarchies des concepts de Word-Net, sous-arbres associés aux mots les mieux notés par la thématique.Chaque thématique est alors associée au concept qui maximise un com-promis entre la couverture du sous-arbre (sur les mots de la thématique)et la spécificité du concept (pour qu’il ne soit pas trop général). Le scorede pertinence est ensuite utilisé pour quantifier l’homogénéité de la thé-matique et donc sa qualité. La figure 3.1 p.40 illustre le type de sous-arbresélectionné pour une thématique qui est ici décrite par ses cinq mots clefsde poids le plus fort. On constate qu’on désambigüise correctement en sé-lectionnant au final l’acceptation « data mining » issue du domaine de lagestion des connaissances. L’évaluation a été réalisée en demandant à 37

humains de juger de la qualité des thématiques extraites à l’aide de l’al-gorithme LDA sur deux jeux de données en anglais : un corpus sur le dis-cours de l’union des présidents américains découpé en 6 427 paragrapheset un corpus de 23 986 nouvelles économiques issus de l’Associated Press.La tâche d’évaluation est la même que celle utilisée avec le turc mécanique

Page 48: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

40 Chapitre 3. Analyse des thématiques et des opinions

Figure 3.1 – Illustration du type de sous-arbre extrait à l’aide de l’algorithme mettanten correspondance une liste de mots-clefs et une hiérarchie de concepts (extrait de la thèsede M.A. Rizoiu (2013c)).

dans l’article de Chang et al. (2009). Les résultats montrent que le taux dedétection par les humains s’améliore systématiquement lorsque les thé-matiques sont jugées pertinentes par notre mesure, avec un gain relatifde 6,93% pour le corpus économique et 28,55% pour le corpus sur le dis-cours de l’union. Cela n’a rien d’étonnant lorsqu’on rappelle que la basede connaissance utilisée a elle-même été conçue manuellement pour cor-respondre à la manière dont les humains conçoivent les catégories. Il n’endemeure pas moins que les paramètres de la mesure (p. ex. : le compro-mis entre les deux critères) ont été fixés manuellement et que les résultatsdevront être plus amplement généralisés. Ces travaux ont conduit à unepublication aux conférences ISMIS (Musat et al. 2011a) et IJCAI (Musatet al. 2011b).

La deuxième contribution a été réalisée dans le cadre de la thèse deM. Dermouche, en collaboration avec S. Loudcher d’ERIC et L. Khouas del’entreprise AMI Software. Partant du constat que le format des théma-tiques extraites par différents types d’algorithme (LDA, NMF, etc.) pré-sente des similitudes, l’idée était de réfléchir à un cadre général afin decomparer leurs résultats de manière quantitative. La proposition se pré-sente en deux parties : a) projeter les thématiques dans un même espacevectoriel, que nous appelons l’espace latent, à l’aide de transformations,b) évaluer la qualité des thématiques sur la base d’une mesure dérivée dela log-vraisemblance. La projection est réalisée de manière très simple, parexemple en normalisant les vecteurs obtenus par l’algorithme NMF pourles rendre comparables. La mesure est alors calculée, non pas sur la basede probabilité comme dans le cas usuel, mais sur la moyenne géométriquedes scores individuels des vecteurs issus des données textuelles. Suivantl’hypothèse d’indépendance, le score individuel est calculé comme le pro-duit sur chaque mot du vocabulaire. La normalisation est calculée sur ladouble somme qui correspond au nombre total de termes dans la multipli-

Page 49: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.1. Extraction, nommage, évaluation des thématiques 41

Figure 3.2 – Variation de la mesure VG en fonction du nombre de thématiques sur lecorpus AP (gauche) et Elections (droite) (extrait de Dermouche et al. (2013b)).

cation. Au final, on obtient la formule 3.1 de Vraisemblance Généralisée.

VG(D) = exp

d∈Dlog score(d)

∑d∈D

∑w∈V

n(d, w)

(3.1)

Des expériences ont été réalisées sur un corpus en anglais de l’AssociatedPress (AP) comportant 2210 documents et un corpus de 2777 documentshétérogènes (blogs, sites, réseaux sociaux) en français sur les élections de2012 collectés par l’entreprise. Trois algorithmes, un de chaque familleidentifiée dans la section 3.1.1, ont été comparés et exécutés 5 fois pourextraire les thématiques : LDA, NMF et FCM.

Les résultats numériques obtenus sont présentés dans la figure 3.2.Celle-ci donne la valeur prise par la mesure pour un nombre k de thé-matiques qui varie entre 1 et 100. Les premières conclusions à tirer sontque les algorithmes LDA et NMF obtiennent des scores comparables quiaugmentent avec le nombre de catégories. On peut aisément expliquer cetype de comportement : un plus grand nombre de thématiques augmentemécaniquement la proximité entre celles-ci et les documents proches, cequi accroît la valeur de la mesure. Il est intéressant de constater que, surces données, LDA est systématiquement meilleur que NMF. Bien sûr, onpeut rappeler que NMF n’a pas, à proprement parler, été mis au pointpour réaliser cette seule tâche mais pour traiter tout type de données nu-mériques non nulles. Ce résultat est probablement du à un biais qui dérivedu fait que la mesure que nous proposons est une traduction de la mesurede vraisemblance optimisée par le modèle graphique. Ce point mériteraitd’être étudié plus en profondeur. D’un autre côté, FCM a un comporte-ment très différent qui montre clairement que cet algorithme n’est, à labase, pas prévu pour extraire des thématiques. La prise en compte du re-couvrement avec un paramètre capturant le caractère flou des frontièressemble empirer la situation au fur et à mesure que k augmente. On peutconjecturer que les documents sont associés à trop de catégories et que celapénalise fortement la mesure. Une étude plus approfondie des liens dela mesure avec ce paramètre pourrait confirmer cette intuition, mais cela

Page 50: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

42 Chapitre 3. Analyse des thématiques et des opinions

reste à faire. En complément, une étude qualitative de quelques-unes desthématiques extraites par les trois approches confirme les qualités compa-rables des deux premières et une qualité bien inférieure pour la troisième.Les résultats de ces travaux ont conduit à une publication à la conférenceEGC (Dermouche et al. 2013b).

3.2 Détection des thématiques et des opinions

Dans cette seconde partie, j’introduis la question de l’analyse des opi-nions exprimées dans les textes. En particulier, je montre comment

nous l’avons mise en relation avec la notion de thématique telle qu’elle aété traitée dans la partie précédente. Après un bref état de l’art, je pré-sente deux contributions réalisées au sein de la thèse de M. Dermouche,en collaboration avec l’entreprise AMI Software.

3.2.1 Eléments de bibliographie

Dans la section précédente, j’ai présenté les travaux qui n’abordaientque l’aspect thématique (le “quoi”) des textes rédigés en langue na-

turelle. Or, il est nécessaire d’aborder la question des opinions (le “com-ment”) si l’on souhaite capturer la manière dont les textes, par exempleissus des médias sociaux, traitent l’information. Dans la littérature, ontrouve au moins deux expressions utilisées de manière quasi synonyme,au moins dans le vocabulaire anglo-saxon : fouille d’opinion (opinion mi-ning) et analyse de sentiments (sentiment analysis). Je découpe ce survolde l’état de l’art en deux parties. La première partie décrit la tâche tellequ’elle est définie de façon assez classique aujourd’hui et qui revient à unproblème de classification automatique dans des catégories préétablies. Ladeuxième partie s’attache à détailler les approches cherchant à relier lesopinions à leurs cibles.

Analyse des opinions – L’opinion est une composante de la pensée hu-maine qui peut être définie comme un point de vue ou une prise de po-sition par rapport à un objet, un service, une idée, un événement, etc.Wiebe et al. (2005) la définissent comme un état privé qui ne peut pas êtredirectement observé et qui va au-delà de la définition précédente pour ex-primer des émotions, des spéculations, etc. Cet état peut se décliner selonde nombreux modes (jugement, avis, évaluation. . . voir à ce sujet Boullieret al. (2012)), voire englober la question des émotions (peur, joie, doute,etc.).

Je n’aborderai ici l’opinion qu’au sens d’une inclination positive (j’aimece film, je soutiens cet homme politique) ou négative (je suis déçu de lavitesse de cette imprimante, j’ai une vision négative des actions de cetteentreprise). Cela restreint considérablement le champ d’étude mais repré-sente déjà un défi important à relever pour l’analyse automatique. Au tra-vers d’Internet et des médias sociaux, les individus expriment donc leuropinion et ils contribuent ainsi à l’accumulation d’une masse importantede données hautement subjectives. Il existe un fort enjeu lié à l’analyseefficace de cette masse pour capturer l’humeur d’une partie de l’opinion

Page 51: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.2. Détection des thématiques et des opinions 43

publique, sujet qui a été abordé dans le chapitre 1. Des méthodes origi-nales ont été proposées dans la littérature pour résumer ainsi l’opinionau sujet de films, d’hôtels, de restaurants, de voyages, de produits (Panget al. 2002, Blitzer et al. 2007). Asur et Huberman (2010) ont eux essayé deprédire, grâce aux opinions, le résultat obtenu par les films au box office.Dans le domaine de la politique, des auteurs ont cherché à prédire le résul-tat d’élections, avec plus ou moins de succès (Kim et Hovy 2007). Boullieret al. (2012) donnent un bon aperçu des nombreux champs d’applicationrendus possibles par l’analyse des sentiments et des opinions.

Si l’on restreint l’analyse d’opinion à un problème de classification,c’est-à-dire prédire l’orientation d’un texte (objectif vs. subjectif, ou positifvs. négatif) à partir des mots qui sont employés, il existe trois grands typesde méthode (voir à ce sujet l’importante revue réalisée par Liu (2012)).

La première approche consiste à utiliser des algorithmes d’apprentis-sage automatique supervisé, tels que le classifieur bayésien naïf (NB pourNaive Bayes) ou les machines à vecteur support (SVM pour Support VectorMachines). La difficulté réside alors dans la bonne sélection ou constructiondes attributs (features) qui sont utilisés pour décrire les textes et les classi-fier. Pour la classification binaire positif vs. négatif, Pang et al. (2002) ontainsi obtenu des résultats de l’ordre de 82% de réussite avec un SVM uti-lisant une pondération binaire (présence/absence de mots) sur des textesjugeant la qualité des films (movie reviews). La prise en compte de la naturegrammaticale des mots (POS pour Part-Of-Speech), c’est-à-dire s’il s’agitd’un nom, d’un verbe, d’un adjectif. . . est clairement un atout dans laréussite de la tâche de classification. Certains comme Esuli et Sebastiani(2005) font appel à des bases de connaissances lexicales pour améliorerles résultats de la classification. Le désavantage de ce type de méthode estqu’elle requiert de vastes corpus de données annotées, tels que le Multi-Domain Sentiment dataset (Blitzer et al. 2007) ou plus récemment ceux four-nis dans le cadre de la compétition SemEval (Nakov et al. 2013).

La deuxième approche, parfois qualifiée de sémantique ou linguis-tique, est basée sur des ensembles de règles (Brun 2011). Les règles d’ana-lyse des phrases sont construites à la main pour prendre en compte toutesles subtilités de la langue concernée : négation, co-références, ironie, etc.Elles ont été utilisées pour capturer le sentiment exprimé au sujet de pro-duits et, plus récemment, sur les couples (produit, attribut). Kennedy etInkpen (2006), par exemple, ont réussi à améliorer les résultats obtenusavec un SVM pour atteindre une F-Mesure d’environ 85%, notamment enprenant en compte des phénomènes comme la négation ou certains mo-dificateurs (« very », « deeply », « rather »). Ces méthodes ont l’avantagede ne pas nécessiter de corpus annoté et de pouvoir prendre en comptedes notions subtiles liées au langage, mais elles sont très dépendantes ducontexte (domaine d’application, langue) et coûteuses à mettre en place.Ces dernières années, des approches hybrides sont développées afin, pré-cisément, de résoudre les inconvénients des approches purement linguis-tiques (Jin et al. 2009).

Enfin, la troisième approche consiste à estimer la polarité positive ounégative des mots, puis à utiliser ce lexique pour prédire la polarité destextes. La méthode employée consiste typiquement à partir d’un lexiquepréétabli de mots déjà classés dans les catégories ‘positif’ et ‘négatif’. Il

Page 52: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

44 Chapitre 3. Analyse des thématiques et des opinions

s’agit ensuite de lier les autres mots du vocabulaire entre eux et à celexique, avant d’utiliser une technique issue de l’apprentissage non su-pervisé pour distinguer les deux groupes d’opinion. Hatzivassiloglou etMcKeown (1997), par exemple, construisent un graphe de termes reliésen fonction de leur relation dans les textes et font appel à un algorithmede clustering de graphe pour faire émerger une catégorie étiquetée ‘positi-ve’ et une catégorie étiquetée ‘négative’. Turney et Littman (2003) partentd’une liste racine (seed list) de 14 mots positifs et négatifs à priori (comme« good », « nice ». . . et « bad », « nasty ». . . ) puis ils calculent des simi-larités entre les mots à l’aide de mesures comme l’information mutuelle(PMI pour Point-wise Mutual Information) et une mesure dérivée du modèleLSA (Latent Semantic Analysis, évoqué dans la section 3.1.1). Kamps et al.(2004), quant à eux, utilisent l’information sur les adjectifs dans WordNetpour calculer cette similarité. Le principal inconvénient de ce type d’ap-proche est que la polarité des mots est souvent contextuelle et nécessitedonc d’être adaptée au domaine de l’application visée. Cela ne résout biensûr pas des problèmes subtils comme celui de l’humour ou de l’ironie. Jeprésente justement dans la suite de ce document une contribution quenous avons réalisée sur une méthode hybride de classification superviséeutilisant des lexiques à priori de mots d’opinion.

Analyse jointe des opinions et des thématiques – L’analyse des thé-matiques et des opinions a longtemps été traitée de manière séparée. Ce-pendant, il semble naturel de ne pas se restreindre à une opinion générale,mais plutôt de trouver sur quoi porte l’opinion. Il peut s’agir de l’objet lui-même (mettons un film ou un événement) ou d’un attribut de cet objet (lescénario du film ou la vitesse d’une imprimante). On parle alors d’analysed’opinion orientée thématique ou aspect (topic-based ou aspect-based opi-nion mining). Ainsi, les premiers travaux de ce type ont concerné l’analysede messages où les internautes évaluent des produits (Hu et Liu 2004).L’analyse fine des revues permet de comprendre que l’opinion est plutôtpositive sur tel aspect du produit (par exemple la vitesse d’impressiond’une imprimante) mais négative sur tel autre aspect (par exemple sonprix). Il existe deux manières de procéder : sérier le processus (extraireles aspects ou thématiques, puis calculer les opinions afférentes) ou ex-traire les couples thématique-opinion de manière simultanée. Je découpema présentation de quelques-unes des méthodes de la littérature selon cesdeux approches.

Hu et Liu (2004) se placent parmi les travaux pionniers qui ont adoptél’approche qui consiste à évaluer l’opinion relative à un certain nombrede caractéristiques fixées à l’avance. Ils ont construit des résumés à par-tir d’expressions fréquemment utilisées par les internautes (par exemple,« battery life » ou « picture quality ») qu’ils ont étiquetées par une opinioncalculée à partir d’une liste racine (seed list) et d’une mesure de similaritésémantique issue de WordNet. On peut également citer le système PULSEproposé par Gamon et al. (2005). Ce système extrait les caractéristiques as-sociées à des voitures à partir d’une base de connaissances puis il adopteune approche de classification semi-supervisée afin d’estimer l’opinion at-tachée à ces caractéristiques. Le système OPINE proposé par Popescu et al.(2005), quant à lui, identifie des groupes nominaux à l’aide de techniques à

Page 53: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.2. Détection des thématiques et des opinions 45

base de règles issues du TAL et de WordNet, puis adoptent une approchesimilaire à celle de Hu et Liu (2004). De nombreux autres travaux ontcherché depuis à extraire des opinions orientées aspects ou thématiques(Popescu et Etzioni 2007, Kobayashi et al. 2007, Stoyanov et Cardie 2008).

Les approches citées précédemment ne tirent aucunement partie de larelation qui peut exister entre thématiques et opinions. Ainsi, les théma-tiques extraites peuvent justement profiter de la structure des opinions, enparticulier de ses contrastes. D’autre part, l’accumulation de techniquesde traitement automatique des textes peut ne pas s’avérer complètementsatisfaisante. Ainsi, la deuxième approche consiste-t-elle à développer desmodèles permettant d’extraire les deux simultanément. C’est le cas du mo-dèle probabiliste TSM (pour Topic Sentiment Mixture) qui étend le modèlepLSA en ajoutant une nouvelle couche afin de capturer l’opinion (Meiet al. 2007). En particulier, les auteurs ajoutent deux variables aléatoirespour générer les mots positifs et négatifs dans les textes. Ce modèle souffredes mêmes limitations que pLSA, en particulier le problème de l’inférencesur de nouveaux documents et le danger de sur-apprentissage. Le mo-dèle JST (pour Joint Sentiment Topic model) proposé par Lin et al. (2012) sebase plutôt sur LDA pour traiter les opinions en ajoutant une couche avantcelle thématique. Ainsi, lorsqu’un mot est généré par le modèle, l’étiquetted’opinion est d’abord tirée avant de générer le mot à partir de celle-ci. Lemodèle a été étendu par les mêmes auteurs avec Reverse-JST qui échangeles couches d’opinion et de thématiques, puis avec Dynamic-JST par Heet al. (2013) afin de prendre en compte la dimension temporelle. Plusieursautres modèles ont été proposés dans la littérature (Li et al. 2010; 2013),mais la plupart ne prennent pas en compte la dimension temporelle. Enparticulier, le modèle ASUM de Jo et Oh (2011) est remarquable car ilcherche à distinguer les opinions au niveau de la phrase. Il sera utilisédans nos expériences, comme le modèle JST, pour comparer les perfor-mances de notre modèle.

3.2.2 Contributions

Je décris ci-dessous deux contributions que nous avons pu réaliser dansle cadre de la thèse de M. Dermouche sur la problématique de l’analyse

d’opinion. L’analyse jointe des thématiques et des opinions fait le lien avecla section précédente, et la prise en compte de la dimension temporelleavec la section qui suit.

Approche hybride pour la classification d’opinion – La première contri-bution consiste à étendre le classifieur bayésien naïf (NB pour Naive Bayes)en prenant une connaissance à priori sur les mots. Le choix de ce classi-fieur, alors que d’autres obtiennent déjà de bons résultats pour cette tâche(par exemple le SVM), a été dicté par des considérations pragmatiques(simplicité et rapidité d’implémentation, intégration dans la solution del’entreprise) mais également par le fait qu’il s’agit d’une méthode large-ment utilisée dans la littérature qui a prouvé ses bonnes performancesà de nombreuses reprises. Pour une étude théorique des raisons qui ex-pliquent ces « superbes » performances, j’invite le lecteur à aller voir letravail de Zhang (2004). L’idée principale consiste ici à rééquilibrer le score

Page 54: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

46 Chapitre 3. Analyse des thématiques et des opinions

p(w/c) attribué au mot w pour la classe c (par exemple positif, neutre ounégatif). Pour ce faire, nous avons proposé deux heuristiques basées surl’intégration d’une liste racine (seed list). Je fais remarquer que l’heuris-tique que nous envisageons pour fixer automatiquement le paramètre γ(cf. section 7.2) suit la même logique.

La première heuristique, intitulée “add and remove” consiste à rajouterartificiellement des occurrences du mot w dans la classe indiquée dans laliste racine, et à en supprimer dans les autres classes. Ainsi, si le mot« excellent » est considéré comme positif à priori, on augmente le scorebasé sur p(w/c+) et on diminue les autres. Cela revient à calculer le scorede w pour la classe c de la manière suivante :

s(w, c) =1

nb(c)× [nb(w, c) + αc.scorec(w).nb(w, c)− βc.scorec(w).nb(w, c)]

(3.2)où nb(c) compte le nombre de textes attribués à la classe c, nb(w, c) (resp.nb(w, c)) compte le nombre d’occurrence de w (resp. l’absence de w) dansles documents de la classe c, scorec(w) (resp. scorec(w)) le score attribuépar la liste racine (1 si le mot appartient à la classe c, resp. c, 0 sinon) etαc, βc deux paramètres réels positifs compris entre 0 et 1.

La deuxième heuristique, intitulée “transfer”, consiste cette fois àtransférer des occurrences d’un mot w d’une classe vers une autre. Cettedeuxième approche garantit que le nombre d’occurrences transférées nepourra pas être plus grand que l’effectif total de ce mot dans la classe d’ori-gine et que le score est borné par 1. Le nombre maximum d’occurrencesà transférer max(w, c) étant égal à min{nb(w, c), nb(w, c)}, on définit lescore s(w, c) de la manière suivante :

s(w, c) =1

nb(c)× [nb(w, c)+ αc.scorec(w).max(w, c)− αc.scorec(w).max(w, c)]

(3.3)On constate que, contrairement à la méthode précédente, le nombre d’oc-currences ajoutées à la classe indiquée par le lexique est égale au nombresupprimé de l’autre classe.

La classification se fait de la même manière que pour NB en attribuantfinalement la classe qui maximise le score. La liste racine d’opinion enanglais est celle de Ding et al. (2008) enrichie avec des mots du langageinformel (smileys, abréviations, etc.) collectés sur Urban Dictionary, ce quiconduit à un lexique composé de 7720 mots (2475 positifs pour 5245 néga-tifs). La liste racine d’opinion en français a été réalisée manuellement enannotant 3927 mots (2697 positifs pour 1230 négatifs). Les performancesde ces deux heuristiques ont été testées sur plusieurs corpus : Motive Re-views (MR) composé de 2000 critiques de film en anglais (Pang et Lee2004), SemEval composé de 14 217 tweets en anglais et Critiques composéde 5034 critiques de films, livres et hôtels en français (Vincent et Winter-stein 2013). Le prétraitement a consisté à supprimer les mots outils et à seramener à la racine des mots (stemming). Les deux heuristiques que nousproposons ont été comparées à NB et à un SVM avec un noyau linéaire(SVM-L) et polynomial (SVM-P).

Le résultat de réussite dans le cas binaire (positif vs. négatif) est donnédans la figure 3.3 p.47. Les (méta-)paramètres de nos deux approches, αc et

Page 55: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.2. Détection des thématiques et des opinions 47

Approche MR TW CritiquesNB 73,06% 74,07% 75,88%

SVM-L 74,56% 49,79% 79,89%SVM-P 84,64% 49,74% 86,67%

Add & Remove 80,57% 76,05% 86,58%Transfer 75,53% 76,00% 80,01%

Figure 3.3 – Scores de succès pour la classification des opinions (positif vs. négatif).

βc, ont été optimisés manuellement afin d’obtenir les meilleurs résultats.Bien que ceux-ci influencent nécessairement le résultat et dépendent dujeu de données, une étude plus approfondie semble indiquer que cette in-fluence reste minime. Trouver automatiquement les paramètres les plus in-diqués est une perspective de nos travaux. Il faut noter que le deuxième jeude données a été acquis à l’occasion de la campagne SemEval 2013, com-pétition où notre algorithme s’est classé 6

ème sur 35 participants pour latâche 2B, alors que les étiquettes réelles nous étaient inconnues. Ces résul-tats ont donné lieu à une publication dans l’atelier international consacréà cette campagne d’évaluation (Dermouche et al. 2013a). L’article donnedes résultats sur le jeu de données SMS, sur le cas à trois classes (incluantla polarité neutre) et étudie l’influence des paramètres. Le système a étéamélioré depuis (notamment sur la sélection des attributs et la prise encompte de la négation), et il a participé à la nouvelle campagne SemEvalde 2014. Cela a permis d’atteindre une performance de 70,09% de bonneclassification pour trois polarités sur le même jeu de tweets qu’en 2013

et un score de 66,55% pour le nouveau jeu de données fourni en 2014 ;notre système s’est classé 12

ème sur 46 participants. Pour information, lamoyenne obtenue par l’ensemble des participants est de 60,57% et le ga-gnant a atteint 70,96% de bonne classification.

Extraction jointe des thématiques et des opinions dans le temps – Danscette contribution, nous cherchons à construire un modèle génératif quiprend en compte à la fois les thématiques et les opinions, tout en cherchantà estimer l’évolution de ces couples dans le temps. Dans la littérature, laplupart des modèles existants ne prennent pas en compte cette dimen-sion temporelle. Vis-à-vis des rares approches existantes, nous adoptonsune démarche différente dans le sens où nous cherchons à estimer demanière rétrospective comment le volume des couples (thématique, opi-nion) évolue. Cette manière de traiter la dimension temporelle est similaireà un modèle d’évolution des thématiques comme TOT (pour Topic OverTime) proposé par Wang et McCallum (2006). L’objectif est d’extraire pourchaque thématique un versant positif et un versant négatif, puis de pou-voir observer leur évolution relative dans le temps, en terme du volumede documents concernés. A notre connaissance, cette manière de procédern’a pas d’équivalent dans les autres travaux existants.

Nous proposons de décrire un modèle probabiliste génératif appeléTTS pour Time-aware Topic-Sentiment model. Les notations nécessaires pourcomprendre les explications qui vont suivre ont été regroupées dans le ta-bleau de la figure 3.4 p.48. Le modèle probabiliste TTS est donné à droite

Page 56: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

48 Chapitre 3. Analyse des thématiques et des opinions

Figure 3.4 – Notations pour le modèle Time-aware Topic-Sentiment (extrait de Der-mouche et al. (2014)).

Page 57: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.2. Détection des thématiques et des opinions 49

Figure 3.5 – Modèles graphiques : LDA (a) et TTS (b) (extrait de Dermouche et al.(2014)).

de la figure 3.5 à côté du modèle LDA de Blei et al. (2003) dont il s’inspire.Les caractéristiques du modèle TTS se résument en quatre points. Premiè-rement, le temps est modélisé conjointement pour les thématiques et lesopinions, avec l’objectif de fournir une analyse quantitative de leur évolu-tion. Deuxièmement, les opinions sont extraites pour tout le corpus à lafois et non pour chaque document pris séparément. Cela permet une vi-sualisation globale des associations thématiques-opinions. Troisièmement,aucun post-traitement n’est nécessaire pour faire correspondre les théma-tiques similaires aux différentes polarités de l’opinion. Quatrièmement,il faut rappeler que, contrairement aux approches supervisées présentéesdans la section précédente, les étiquettes correspondant à des polaritésd’opinion ne sont pas connues. Ainsi, seules les co-occurrences statistiquesavec des mots positifs et négatifs provenant d’un lexique donné à priorisont utilisées (principe de l’amorçage ou bootstrap).

Le processus génératif du modèle TTS est le suivant :

1. Tirer T × S multinomiales φz,s ∼ Dir(β).

2. Tirer T × S multinomiales ψz,s ∼ Dir(µ).

3. Tirer T multinomiales πz ∼ Dir(γ).

4. Pour chaque document d, tirer une multinomiale θd ∼ Dir(α), puispour chaque mot wi dans d :

(a) Tirer une thématique zi ∼ θd.

(b) Tirer une polarité d’opinion si ∼ πzi .

(c) Tirer un mot wi ∼ φzi ,si .

(d) Tirer une étiquette de temps ti ∼ ψzi ,si .

où Dir est la distribution de Dirichlet, généralisation de la Béta apparte-nant à la famille des distributions exponentielles. Soulignons que la pola-rité d’opinion s est bien dépendante de la thématique, et non le contrairecomme c’est le cas pour certains modèles. Autre fait qui peut paraître cu-rieux à première vue : une étiquette temporelle est générée pour chaquemot et, ainsi, un texte pourrait comporter des mots aux étiquettes diffé-rentes. Dans la pratique cette difficulté est gommée puisque, le processusgénératif étant une vue de l’esprit, on considère que l’on observe bien unemême étiquette temporelle pour un même document avant d’inférer nosvariables latentes que sont les thématiques et les opinions. Une démarche

Page 58: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

50 Chapitre 3. Analyse des thématiques et des opinions

similaire a d’ailleurs été adoptée par Wang et McCallum (2006) pour lemodèle TOT qui a servi d’inspiration à TTS. Enfin, nous avons remarquéqu’il était nécessaire de corriger l’influence de la variable temporelle enutilisant une stratégie utilisée dans le domaine de la reconnaissance vo-cale : un hyperparamètre est introduit sous la forme d’un coefficient 1

ndpour pondérer les contributions issues des deux modalités (le temps et lesmots). Ce paramètre est introduit dans le calcul des probabilités à posté-riori de l’équation 3.7.

Une fois le modèle établi, la principale difficulté consiste à estimerles paramètres du modèle TTS à partir des observations réalisées sur uncorpus de documents. Pour cela, nous adoptons une méthode de Monte-Carlo appelée Gibb’s sampling (échantillonnage de Gibb’s) qui est large-ment utilisée dans la littérature pour estimer les paramètres des modèlesprobabilistes. L’un des défauts de cette méthode est un temps de calculqui peut s’avérer long, mais cela n’est pas un vrai problème dans notrecas puisque nous travaillons de manière rétrospective et non en tempsréel. Je ne présente ci-dessous que les principales formules et j’invite lelecteur à se référer à Dermouche et al. (2014) s’il souhaite trouver le détaildes calculs.

Tout d’abord, en utilisant les règles de simplification permises grâceaux probabilités conditionnelles, on peut factoriser la probabilité jointe dela manière suivante :

p(w, t, s, z/α, β, γ, µ) = p(w/s, z, β).p(t/s, z, µ).p(s/z, γ).p(z/α) (3.4)

Le premier facteur est calculé en intégrant par rapport à φ et en utilisantle fait que la distribution de Dirichlet est conjuguée à la multinomiale, cequi conduit à la formule suivante :

p(w/s, z, β) =

(Γ(V.β)Γ(β)V

)T.S

∏j

∏k

∏i Γ(ni,j,k + β)

Γ(nj,k + V.β)(3.5)

où Γ est la fonction Gamma. Les indices i, j, k et h sont utilisés pouritérer sur les mots, les thématiques, les opinions et les étiquettes de temps.Les autres facteurs de l’équation 3.4 sont calculés de manière similaire.La distribution à postériori recherchée est estimée en échantillonnant lesvariables z et s en considérant que l’on connaît toutes les autres variables.Si l’on pose −p comme désignant toutes les données à l’exclusion du motsitué à la position p du document courant d, celle-ci peut être estimée àpartir de la distribution jointe comme suit :

p(zp = j, sp = k/w, t, s−p, z−p, α, β, γ, µ)

∝n−p

d,j + αj

n−pd,j + ∑j′ αj′

×n−p

wp,j,k + β

n−pj,k + V.β

×n−p

j,k + γk

n−pj + ∑k′ γk′

×n−p

j,k,tp+ µ

n−pj,k + I.µ

(3.6)

L’introduction de l’hyperparamètre de pondération 1nd

sur le dernier fac-teur conduit à l’équation suivante :

p(zp = j, sp = k/w, t, s−p, z−p, α, β, γ, µ)

∝n−p

d,j + αj

n−pd,j + ∑j′ αj′

×n−p

wp,j,k + β

n−pj,k + V.β

×n−p

j,k + γk

n−pj + ∑k′ γk′

×

n−pj,k,tp

+ µ

n−pj,k + I.µ

1nd (3.7)

Page 59: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.2. Détection des thématiques et des opinions 51

Les échantillons obtenus sont ensuite utilisés pour estimer les distribu-tions φ, θ et ψ comme suit :

φj,k,i =ni,j,k + β

nj,k + V.βθd,j

nd,j + αj

nd + ∑j′ αj′

πj,k =nj,k + γk

nj + ∑k′ γk′ψj,k,h

nj,k,h + µ

nj,k + I.µ

(3.8)

Comme nous nous plaçons dans un cadre d’apprentissage automa-tique peu supervisé, puisque l’on ne prend en compte que l’étiquette tem-porelle et un lexique à priori d’opinions, l’évaluation de notre modèle estrendue plus difficile que dans la contribution précédente sur la classifica-tion supervisée d’opinion. Suivant une démarche largement adoptée dansla littérature, nous avons choisi de procéder en deux étapes.

La première étape consiste à réaliser une analyse comparative de notremodèle avec deux autres modèles de la littérature sur la base de critèresquantitatifs. Les modèles choisis ont été brièvement présentés plus tôtdans le document ; il s’agit des modèles JST (Lin et al. 2012) et ASUM(Jo et Oh 2011). Pour calculer nos critères, nous avons choisi un jeu dedonnées issu de la littérature appelé MDS (pour Multi-Domain Sentimentdataset, voir Blitzer et al. (2007)). Ce jeu de données consiste en une col-lection de revues sur des produits vendus sur Amazon de 1996 à 2007, delaquelle nous avons extrait 29 379 messages décrits par un total de 43 834

mots. L’avantage est qu’il nous permet d’avoir une forme de vérité ter-rain puisqu’il fournit, en plus des textes et des étiquettes temporelles, uneclassification thématique (des produits, comme les books ou les toys andgames) et une classification suivant deux polarités d’opinion (négatif etpositif). L’association entre les thématiques et les opinions, ainsi que leurvariation dans le temps, peut ainsi être extraite à postériori, avant d’êtrecomparée aux sorties calculées sur la base des trois modèles. Il s’agit d’unecomparaison entre distributions qui peut se baser sur la calcul d’une dis-tance de Kullback-Leibner (Kullback 1987). Deux critères à minimiser sontproposés : Qs calcule la pertinence statique de l’association thématiques-sentiments, alors que Qt est dédiée à la pertinence prenant en comptel’évolution temporelle de cette association.

La figure 3.6 p.52 montre le résultat obtenu sur ces deux mesures après500 itérations de l’algorithme d’échantillonnage de Gibb’s. Les scores sontindiqués en fonction du ratio γneg.

γpos.qui représente la proportion comparée

d’à priori sur la quantité de textes étiquetés négativement et positivement.Nos expériences ont montré que les résultats étaient peu sensibles auxautres hyper-paramètres, tels que α, β ou µ, ici fixés respectivement à 50

T ,0,07 et 0,01 en suivant la littérature. On constate sur ces résultats quele modèle TTS n’est pas aussi efficace que d’autres modèles pour extrairel’association entre les thématiques et les opinions, mais qu’il permet en gé-néral de mieux capturer l’évolution temporelle, ce pourquoi nous l’avonsconçu. Dans cette optique, il est important de donner un poids à prioriplus important à la polarité négative que positive grâce à γ. Une étudeplus poussée de l’influence de ce paramètre nous a permis de proposer ré-cemment une heuristique pour calculer automatiquement sa valeur pourdifférents jeux de données. Il faut préciser de plus que le modèle TTS ex-trait explicitement la relation de chaque thématique avec les deux polarités

Page 60: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

52 Chapitre 3. Analyse des thématiques et des opinions

Figure 3.6 – Résultats comparatifs avec les mesures Qs et Qt sur le corpus MDS (extraitde Dermouche et al. (2014)).

qui peuvent être interprétées comme deux manières opposées de perce-voir la thématique. Il s’agit à nos yeux d’un avantage supplémentaire deTTS sur les autres modèles de la littérature.

La deuxième étape du processus d’évaluation consiste à réaliser uneanalyse qualitative des résultats obtenus sur un autre cas d’étude. Il s’agità présent de tester notre modèle sur un jeu de données constitué d’articlesde presse relatifs à l’affaire D. Strauss-Kahn durant le mois de mai 2011.Une chronologie de l’affaire est disponible sur le site de NBC New York etle jeu de données, provenant de différentes agences de presse en anglais(Reuters, Forbes, Sify, etc.), a été mis en ligne sur le site de l’UCI. Le jeude données est constitué de 10 421 titres décrits avec un vocabulaire de51 188 mots, récupérés par le système d’AMI Software du 17 au 26 mai2011. Les hyper-paramètres ont été fixés avec les mêmes valeurs que dansle cas précédent. Pour faciliter l’analyse des résultats, nous avons estiméle nombre de documents attribués à chaque couple (thématique, opinion)afin de pouvoir mieux visualiser l’évolution du volume dans le temps, ceque l’on peut interpréter comme l’intérêt porté à chaque aspect de l’affaire.

La figure 3.7 p.53 présente l’évolution de quatre des vingt thématiquesextraites par l’algorithme. Par exemple, la thématique z7 fait référence àl’enquête qui a été réalisée pour juger de la crédibilité des accusationsportées contre D. Strauss-Kahn. On constate une augmentation de l’intérêtportée à cette thématique au moment du début des investigations (19 mai)puis au moment où les résultats du test ADN ont été communiquées etdiffusées par la presse (24 mai). Pour une discussion plus poussée, j’invitele lecteur à lire l’article publié sur le modèle TTS (Dermouche et al. 2014).

Page 61: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.3. Détection et suivi des images d’opinion 53

Figure 3.7 – Résultats obtenus pour 4 thématiques extraites par le modèle TTS surl’affaire D. Strauss-Kahn.

3.3 Détection et suivi des images d’opinion

Dans cette dernière partie, je mets un peu de côté la nature textuelledes données d’opinion afin de me concentrer sur le suivi de l’image

d’entités (par exemple des pays ou des hommes politiques) dans le temps.L’image est vue ici comme une description typique d’une somme d’ob-jets particuliers, calculée avec un algorithme de classification automa-tique peu supervisé. Ces travaux ont été initiés dans le contexte du projetANR ImagiWeb qui sera présenté plus en détail dans le chapitre 6. Aprèsavoir donné quelques éléments de bibliographie, je présente une premièrecontribution qui consiste à réaliser une classification d’entités dont la des-cription évolue dans le temps. Ces travaux ont ensuite été étendus afin detraiter les données lacunaires issues des données du projet ImagiWeb. Jetermine le chapitre en donnant les tout premiers résultats de cette secondeapproche qui permet d’extraire des catégories homogènes que l’on peutqualifier d’images de marque ou d’images d’opinion.

3.3.1 Eléments de bibliographie

Les travaux présentés dans la suite de ce document font référence à laproblématique de l’apprentissage de modèles non ou peu supervisés

capables de prendre en compte la dimension temporelle. Les approches lesplus anciennes sont certainement celles basées sur des mesures de com-paraison (distance, similarité) et inspirées d’algorithmes comme celui desK-Moyennes. Il s’agit par exemple de CluStream de Aggarwal et al. (2003)qui traite d’un flux de données avec un système en deux passes : une passeen ligne résume les données au fur et à mesure à l’aide de micro-clusterset une passe hors ligne applique la catégorisation sur ces nouveaux ob-jets. Plus récemment, Labroche (2014) adopte une approche floue afin demieux traiter le recouvrement des clusters et les données aberrantes (out-liers) dans le cadre d’une classification en ligne. A contrario, les approchesclassées sous l’appellation de clustering évolutionnaire (evolutionary clus-tering) ne cherchent pas à traiter les données en ligne mais à prendre encompte le temps de manière rétrospective. Des modèles conçus dans lalignée des modèles de thématiques (cf. section 3.1) peuvent être ainsi re-

Page 62: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

54 Chapitre 3. Analyse des thématiques et des opinions

cyclés tel que le modèle DTM (Dynamic Topic Model) proposé par Blei etLafferty (2006). Cependant, ce type d’approche a été initiée par Chakra-barti et al. (2006) avec un certain point de vue, à savoir que les catégoriesne doivent pas changer trop brutalement dans le temps. Ainsi, les modèlesproposés par Chi et al. (2007) avec une approche de clustering spectral oupar Xu et al. (2012) avec des modèles graphiques suivent la même philoso-phie dont je discuterai dans la dernière partie de ce chapitre. Remarquonsque l’écrasante majorité des modèles et algorithmes présentés nécessitentde découper la chronologie en fenêtres temporelles de longueurs équi-valentes, stratégie que je remets (au moins en partie) en cause dans mestravaux.

Un deuxième aspect important est le fait que nous cherchons à intégrerde la connaissance supplémentaire au processus de catégorisation. Nousnous plaçons ainsi dans un cadre de clustering semi-supervisé, à ne pasconfondre avec l’apprentissage semi-supervisé. Dans cette lignée, il nousfaut citer les travaux de Basu et al. (2002) qui ajoute des contraintes detype must-link et cannot-link aux objets ciblés par le processus de catégori-sation. Concrètement, la fonction objectif se voit augmentée d’un terme depénalité lorsque les objets qui doivent se trouver dans la même catégoriesont placés séparément, et réciproquement. D’autres approches adaptentla mesure de comparaison afin de prendre les informations supplémen-taires en compte (Klein et al. 2002). Des algorithmes temporels ont suivi lamême philosophie, comme dans les travaux de Lin et Hauptmann (2006).De la Torre et Agell (2007), par exemple, ajoutent des contraintes afin depénaliser des changements trop brutaux dans l’affectation des catégoriesaux objets. En général, ces techniques traitent d’une unique entité dont ladescription évolue dans le temps. Dans la contribution présentée dans laprochaine section, nous souhaitons traiter de l’évolution simultanée de ladescription de plusieurs entités aux trajectoires similaires.

3.3.2 Contribution

Je détaille à présent les deux contributions réalisées sur la catégorisationd’entités dont la description évolue dans le temps. La première s’inspire

des modèles de clustering contraint, tel que celui proposé par Basu et al.(2002), alors que la seconde est une extension du modèle de mélange aucas des données temporelles.

Modèle temporel de catégorisation – Nous nous plaçons dans un cadred’apprentissage automatique peu supervisé (weakly supervised), dans le-quel nous cherchons à catégoriser la description d’entités qui évoluent aucours du temps. Il s’agit par exemple de pays dont la description en termede population, de régime, de différents indicateurs financiers comme lePIB, est enregistrée chaque année pour une période donnée. Mais il peutégalement s’agir d’internautes dont l’activité varie dans le temps ou depages Web dont la structure évolue. L’idée générale est ici de détecter desdescriptions typiques, comme dans le cas d’une technique de clustering ha-bituelle, mais surtout d’organiser ces descriptions en trajectoires car nousaccordons à la dimension temporelle une importance particulière.

Page 63: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.3. Détection et suivi des images d’opinion 55

Plus formellement, si l’on considère un ensemble d’observations X ={xi = (φl , tm, xd

i )}, où la description xdi s’en réfère à l’entité φl prise au

moment tm, l’objectif final consiste à construire un graphe orienté dontles noeuds sont des regroupements d’observations (clusters) et les arcsindiquent une transition temporelle entre les clusters. Or, cette structura-tion temporelle doit répondre à un certain nombre de contraintes, ce quiexplique pourquoi nous faisons appel à des techniques de clustering semi-supervisé : a) les descriptions d’un même cluster doivent être similairesau regard d’une certaine métrique, b) les étiquettes temporelles des ob-servations regroupées dans un même cluster doivent être suffisammentcompactes, c) une même entité (p. ex. un même pays) ne doit pas chan-ger trop souvent de cluster dans le temps. Pour résoudre ce problème,nous avons procédé en deux étapes. La première consiste à optimiser unefonction objectif similaire à celle des K-Moyennes, partant d’une forma-lisation standard mais en prenant en compte la variable temporelle dansla métrique et en intégrant une contrainte de contiguïté. Le graphe detransition temporelle est alors construit à postériori. La deuxième étapeconsiste à introduire la construction du graphe directement dans la fonc-tion à optimiser, en adoptant une démarche inspirée de l’algorithme desK-Moyennes floues de Dunn (1973). Seule la première étape est présentéeci-dessous, la seconde faisant encore l’objet d’une validation expérimen-tale.

Nous proposons l’algorithme TDCK-Means (pour Temporal-DrivenConstraint K-Means) qui consiste à optimiser la fonction suivante :

I = ∑µj∈M

∑xi∈Cj

||xi − µj||TA + ∑xk /∈Cj

xφk =xφ

i

w(xi, xk)

(3.9)

où µj est le centroïde du cluster Cj dans l’ensembleM, ||.||TA est une me-sure de la distance à la fois temporelle et descriptive définie ci-dessouset w(., .) est la fonction de pénalité qui gère la notion de contiguïté tem-porelle. La mesure de dissimilarité combine une distance euclidienne surl’espace de description multidimensionnel et sur l’espace temporel :

||xi − xj||TA = 1−(

1− γd||xd

i − xdj ||2

∆x2max

)(1− γt

||xti − xt

j ||2

∆t2max

)(3.10)

où xdi et xt

i sont les descriptions respectivement multidimensionnelle ettemporelle de xi, ∆x et ∆t représentent les étendues maximales, respec-tivement descriptive et temporelle, observées sur les données, et γd et γtsont les poids accordés aux deux critères. ||.||TA n’est pas une distance àproprement parler, mais elle est normalisée entre 0 et 1 et vérifie les pro-priétés de séparation (0 si à la fois xd

i = xdj et xt

i = xtj) et de maximalité (1

si ||xdi − xd

j || = ∆xmax et ||xti − xt

j || = ∆tmax). La fonction de pénalité, quantà elle, est régie par l’équation suivante :

w(xi, xj) = β× e− 1

2

(||xt

i−xtk ||

δ

)2

1[xφi = xφ

k ] (3.11)

Page 64: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

56 Chapitre 3. Analyse des thématiques et des opinions

où β est un paramètre d’échelle, δ contrôle l’étendue de la fonction depénalité et 1 retourne 1 si le test en argument est vérifié, 0 dans le cascontraire. Cette fonction a une forme qui permet d’attribuer une pénalitéimportante lorsqu’une contrainte est violée et que la différence tempo-relle est faible, mais qui descend ensuite assez rapidement. L’un des avan-tage de notre approche est qu’elle ne nécessite pas de discrétiser le temps,comme dans une grande majorité des travaux de la littérature, puisqu’elletravaille de manière rétrospective et non en ligne (online). Une descriptionplus précise, accompagnée d’une discussion et des expériences supplé-mentaires en faisant varier les différentes paramètres (γd, γt, β, γ), estfournie dans Rizoiu et al. (2014).

L’algorithme TDCK-Means suit la même heuristique que l’algorithmedes K-Moyennes dont il s’inspire afin d’optimiser localement l’équa-tion 3.9, à savoir alterner une étape d’allocation des observations aux cen-troïdes, en minimisant la somme de la mesure ||.||TA et de la fonction depénalité, et une étape de recentrage des centroïdes. Pour le calcul des cen-troïdes, une descente du gradient nous permet de trouver l’optimum localgrâce aux formules suivantes :

µdj =

∑xi∈Cjxd

i ×(

1− γt||xt

i−µtj ||2

∆t2max

)∑xi∈Cj

(1− γt

||xti−µt

j ||2

∆t2max

) µtj =

∑xi∈Cjxt

i ×(

1− γd||xd

i −µdj ||2

∆x2max

)∑xi∈Cj

(1− γd

||xdi −µd

j ||2

∆x2max

)(3.12)

Le point important est de noter que la mise à jour est une moyenne pon-dérée par la dissimilarité de l’autre composante (temporelle ou descrip-tive, suivant le cas). Autrement dit, les observations plus éloignées dans letemps contribuent moins à la mise à jour de la description du centroïde, etréciproquement. La complexité de l’algorithme est en O(pq2m), où p est lenombre d’entités, q le nombre d’observations par entité et m le nombre declusters, à laquelle il faut éventuellement ajouter un facteur qui compte lenombre d’itérations jusqu’à la convergence. La structure de graphe entreclusters est construite à postériori : les centroïdes forment les nœud dugraphe et un arc est créé entre deux nœuds si les centroïdes concernésse suivent dans le temps et leurs clusters partagent la description d’unnombre suffisant d’entités.

L’algorithme TDCK-Means a été testé sur un jeu de données ensciences politiques ; il décrit 23 pays pour la période de 1960 à 2009 à l’aidede 207 variables politiques, démographiques, sociales et économiques.Après quelques efforts de normalisation sur les valeurs des variables afinde rendre comparables des pays de différentes tailles de population, nousavons appliqué l’algorithme afin de voir s’il existait une structuration despays en clusters et des trajectoires typiques. Nous avons fait varier les dif-férents paramètres, et en particulier le nombre de clusters ; je ne présenteici qu’un échantillon choisi pour son caractère illustratif. La figure 3.8 p.57

présente trois visualisation des résultats obtenus pour huit clusters. La fi-gure (a) permet de visualiser l’étendue temporelle des huit clusters et deconstater que l’algorithme a permis de construire des regroupement tem-porellement cohérents. La figure (b) donne plus d’information sur la tailledes clusters en terme du nombre de pays dont la description se trouvedans un cluster à une date donnée. Enfin, la figure (c) permet de montrer

Page 65: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.3. Détection et suivi des images d’opinion 57

Figure 3.8 – Résultats obtenus par TDCK-Means pour huit clusters à partir du jeu dedonnées en sciences politiques (extrait de la thèse de M.A. Rizoiu (2013c)).

Figure 3.9 – Graphe de transitions construit à postériori à partir du résultat de TDCK-Means (extrait de la thèse de M.A. Rizoiu (2013c)).

les trajectoires suivies par chaque pays au sein des clusters. Là encore, onconstate une certaine cohérence dans les transitions, rendue possible grâceà l’utilisation de la contrainte de contiguïté.

Si on regarde de plus près les descriptions des centroïdes et les tra-jectoires des pays, les résultats semblent raisonnables car ils confirmentl’intuition. Ainsi, par exemple, le cluster attaché au centroïde µ2 regroupeles observations relatives à l’Espagne, au Portugal et à la Grèce entre 1960

et 1975. Cela coïncide avec des régimes autoritaires, tel que celui de Francoou le régime des Colonels. Les transitions sont mieux visibles sur le graphequi a été construit à postériori et qui est affiché dans la figure 3.9. Parexemple, la trajectoire µ4 → µ5 → µ6 correspond au modèle économiqueet social suédois alors que la trajectoire µ1 → µ5 → µ7 regroupe despays aux économies similaires comme les USA, l’Allemagne, l’Italie et laFrance. Au-delà de cette évaluation purement qualitative, nous avons misau point des indicateurs de qualité et nous présentons des résultats com-paratifs l’article publié à la conférence ICTAI (Rizoiu et al. 2012) qui aensuite été étendu pour la revue IJAIT (Rizoiu et al. 2014).

A la suite de ces travaux, nous avons plus récemment travaillé surune extension de cette approche pour construire directement le graphe detransitions. Nous avons constaté qu’il est possible de dériver une fonctionobjectif et d’estimer conjointement la matrice d’adjacence des clusters. Cestravaux sont encore en cours d’évaluation sur deux jeux de données.

Modèle de détection et de suivi des images – L’algorithme présentédans le paragraphe précédent nécessite que l’on connaisse la descriptioncomplète et unique des entités à chaque tranche temporelle. Or, ces deuxcontraintes ne répondent pas aux exigences du projet ImagiWeb (cf. sec-tion 6.2). Tout d’abord, l’image (au sens de la représentation) d’une en-tité, tel qu’un homme politique ou une entreprise, n’est pas unique : elle

Page 66: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

58 Chapitre 3. Analyse des thématiques et des opinions

Symbole DescriptionT nombre de périodesdt Instance de d à la période tDt ensemble des instances à la période t|Dt| nombre d’instances à la période tV nombre de composantes uniquesNt

d nombre de composantes de l’instance d à la période tK nombre de clusters

wtd,n n-ième composante de l’instance d à la période t

ztd cluster assigné à l’instance d à la période t

Zt ensemble des assignements de cluster pour les instances de Dt

D séquence des ensembles d’instances, D = (D1, D2 . . . DT)Z séquence des assignements aux clusters, Z = (Z1, Z2 . . . ZT)φt

k distribution multinomiale du cluster k sur les composantes à lapériode t

πtk probabilité à priori du cluster k à la période t

α poids du cluster précédent pour la génération du cluster à la pé-riode suivante, 0 < α < 1

Figure 3.10 – Notations pour le modèle Temporal Mixture Model (TMM).

peut se décomposer en plusieurs images en fonction du groupe d’indivi-dus concernés par telle ou telle manière de percevoir l’entité. Ensuite, ladescription de cette image n’est jamais complète, en particulier dans lesmessages courts postés sur les blogs et les microblogs. Au contraire, elleest lacunaire au sens que chaque message ne comporte qu’une fraction dela description de l’entité. Ce caractère lacunaire est exactement le mêmeque celui qui se trouve au cœur de mes travaux précédents (Velcin 2005)et il concourrait à la construction des stéréotypes. L’algorithme construitsur le modèle TMM, que je présente brièvement ci-dessous, n’est pas trèséloigné de l’algorithme de clustering par défaut développé alors (voir à cesujet Velcin et Ganascia (2005)).

Le modèle que nous proposons pour résoudre ce problème est uneextension du modèle de mélange pour traiter le cas de données tempo-relles. Il s’inspire du modèle DTM (Blei et Lafferty 2006), mais en affec-tant chaque objet à une seule catégorie et sans recourir à un lissage entreles fenêtres temporelles, ce qui revient à chaîner des modèles de mélangesimples (mixture models ou MM). Nous pensons en effet que la philosophiesous-jacente aux derniers modèles développées dans le cadre du clusteringévolutionnaire n’est pas pleinement satisfaisante dans le contexte qui nousoccupe. En effet, trop vouloir généraliser par un lissage excessif amènemécaniquement à réduire la compacité des clusters, ce qui peut porterpréjudice aux résultats, en particulier lorsqu’on ne traite pas de donnéestextuelles et que la dimension de l’espace n’est pas nécessairement élevée.

L’idée que nous suivons ici concernant la dimension temporelle estplus classique que dans la section précédente puisque nous avons choiside découper le temps en périodes homogènes sans recouvrement. Les pa-ramètres du modèle à une période t sont estimés en prenant en compteles paramètres (donc les catégories) estimés à l’étape précédente t− 1. Lesnotations sont présentées dans le tableau de la figure 3.10 et le modèle gra-phique correspondant se trouve dans la figure 3.11 p.59. La composante w

Page 67: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.3. Détection et suivi des images d’opinion 59

Figure 3.11 – Modèle graphique de mélange temporel (TMM).

est un trait qui compose la description de l’entité et qui peut être associéà un poids (comme le nombre d’occurrences), de la même façon qu’unmot peut l’être pour un texte. Dans le cadre du projet ImagiWeb, il s’agitdes couples (cible, polarité) de l’opinion exprimée envers l’entité, commepar exemple (‘bilan’, ‘positif’) ou (‘éthique’, ‘très négatif’). L’ensemble desmessages d’une catégorie z est associé à une distribution sur ces compo-santes, de la même manière que les textes sont associés à une distributionsur les mots dans le cadre d’un modèle de thématiques (voir la section 3.1à ce sujet). Pour les hommes politiques, cela permet d’obtenir une sorte deprofil qui correspond à l’opinion émise par un cluster d’auteurs de tweets,comme celui illustré par la figure 3.12 p.60. J’invite le lecteur à lire l’articlequi détaille le cas d’étude et les cibles d’opinion utilisées pour décrire unhomme politique (Velcin et al. 2014a).

Le processus génératif du modèle TMM est simple car il suit celui dumodèle de mélange. Pour chaque instance i de la période t (t>1) :

1. Tirer un cluster zt−1i avec la probabilité à priori πt−1

i .

2. Tirer un cluster zti avec la probabilité à priori πt

i .

3. Tirer Ntdi

composantes (c’est-à-dire une association trait-poids) à par-tir de p(w/zt−1

i , zti).

On soulignera une fois de plus l’analogie avec les modèles de thématiqueprésentés dans les sections précédentes. En effet, le “mot” généré par unalgorithme de type LDA est ici appelé une “composante”, d’où l’utilisationde la même notation w (pour word) souvent employée dans la littérature.

Le processus de génération pour t = 1 est encore plus simple car on n’apas besoin de la première étape. Toute la difficulté réside dans l’estimationdes probabilités à postériori, en particulier p(zt−1, zt/w) car il faut prendreen compte la dépendance entre le trait w observé au temps t et zt−1. L’opti-misation directe de la fonction paraît difficile et l’on adopte classiquementdans la littérature une démarche de type Expectation-Maximization (EM),comme dans le cas du modèle MM. Dans ce cas, si l’on pose une ins-tantiation courante des paramètres à Θold, l’estimation revient à résoudrele problème d’optimisation local posé dans l’équation 3.13 (voir Bishop(2006)) :

arg maxΘ

E(L) = ∑Z

p(Z|D, Θold) · log p(D, Z|Θ) (3.13)

La procédure EM alterne alors deux étapes. La première étape (E-step)calcule l’espérance des probabilités à postériori p(zt

i = k/dt = i) pour

Page 68: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

60 Chapitre 3. Analyse des thématiques et des opinions

Figure 3.12 – Exemple de l’opinion émise par une catégorie d’individus (extrait de (Vel-cin et al. 2014a)).

t=1 et p(zti = k, zt−1

i = l/dt = i) pour t > 1 en considérant Θold commefixe. La deuxième étape (M-step) estime les valeurs des paramètres Θ quimaximisent l’espérance de la log-vraisemblance (équation 3.13). Sans en-trer dans le détail, cette estimation sous contraintes (les φ et les π doiventsommer à 1) se fait en utilisant la méthode des multiplicateurs de La-grange et en dérivant la formule afin de trouver l’optimum local. Cetteétape nécessite de faire une approximation qui, même si elle semble me-ner vers des résultats intéressants dans la pratique, n’est pas totalementsatisfaisante. Ce point sera évoqué dans la discussion sur les limites dumodèle menée dans la conclusion du chapitre. Les formules de mise àjour des paramètres avec le détail des calculs peuvent être consultées dansl’article qui présente le modèle TMM (Kim et al. 2015).

Les expériences ont été menées sur deux corpus. Le premier corpusa été produit dans le projet ImagiWeb (voir section 6.2) et consiste en unensemble de plus de 11 000 tweets publiés lors des dernières électionsprésidentielles en France, entre le 1er mars 2012 et le 31 janvier 2013.Les messages concernent F. Hollande et N. Sarkozy ; ils ont été annotésmanuellement par les participants du projet en terme de cible (9 ciblesspécifiques ont été sélectionnées plus 2 cibles génériques) et de polarité (6polarités, de très négatif à très positif en ajoutant une modalité ‘ambigu’).Comme ces messages sont très courts, ils ne comportent généralementqu’une seule annotation et ne concernent donc qu’une cible de l’image.Afin de rendre ce corpus utilisable par l’algorithme de clustering qui né-cessite des co-occurrences, nous avons choisi de regrouper les messagesémis par le même individu durant la même période de temps.

Pour évaluer notre approche, nous avons comparé le modèle TMMavec trois autres modèles génératifs. Nous avons d’abord choisi deux mo-dèles statiques classiques : pLSA et MM, sur lequel repose notre propo-

Page 69: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.3. Détection et suivi des images d’opinion 61

TMM DTM MM pLSAmoy. écart moy. écart moy. écart moy. écart

homog. 0.86 ± 0.02 0.70 ± 0.06 0.86 ± 0.02 0.67 ± 0.05

co-occ. 123 ± 1.98 113 ± 1.02 122 ± 0.88 111 ± 1.48

non lisse 2.27 ± 0.23 1.57 ± 0.10 3.16 ± 0.33 3.61 ± 0.21

auteurs 38 ± 4.90 29 ± 2.8 32 ± 3.06 29 ± 3.07

Figure 3.13 – Résultats comparés sur le jeu de données ImagiWeb. Tous les critèresdoivent être maximisés, à l’exception de “non lisse” qui doit être minimisé (les meilleursrésultats sont en gras souligné).

sition. Les paramètres de ces modèles ont été estimés indépendammentsur chaque période avant de relier à postériori les clusters les plus simi-laires au sens de leur distribution (similarité calculée via la divergencede Kullback-Leibler). Nous avons également choisi le modèle DTM quiprend cette fois le temps en compte d’une manière similaire à la nôtre,avec deux différences importantes : les objets peuvent appartenir à plusd’une catégorie, à l’instar d’un modèle LDA, et l’évolution des catégories(thématiques ici) est guidée par un bruit gaussien, ce qui a pour effet delisser l’évolution des clusters. Comme nous n’avons pas de vérité terrain,nous avons proposé quatre critères pour mesurer la qualité des résultatsobtenus en sortie :

1. l’homogénéité des polarités d’opinion, qui calcule la différence entrele nombre de traits positifs et celui de traits négatifs dans la catégo-rie,

2. le niveau de co-occurrence réel constaté entre les instances d’unecatégorie et la distribution estimée par le modèle (valeur qui s’ap-proche d’un score de compacité dans la littérature de l’évaluationdu clustering, voir Halkidi et al. (2002)),

3. le caractère non lisse des transitions temporelles entre les clusters,calculé par une divergence de Kullback-Leibler,

4. la constance des auteurs, qui compte le nombre d’auteurs communsentre deux clusters reliés de t à t + 1. Les expériences ont été effec-tuées avec un nombre de catégories constant (ici k = 9) et 10 relancespour capturer la variabilité des résultats en fonction de l’initialisationqui est aléatoire pour chacun des modèles employés.

Les résultats quantitatifs sont présentés dans le tableau 3.13. Onconstate que le degré de co-occurrences de l’algorithme TMM est com-parable à celui de MM pour chaque tranche temporelle et qu’il est su-périeur à celui de DTM. A l’inverse, les résultats obtenus par DTM sontdavantage lissés, ce qui était attendu. Cela confirme ce pour quoi TMM aété construit : obtenir un modèle plus fidèle aux données à chaque étapede temps, mais en améliorant les transitions temporelles sans pour au-tant trop les forcer. Des résultats comparables ont été obtenus sur un se-cond jeu de données issu du projet RepLab sur la réputation web (Amigóet al. 2013). Sur les deux autres critères, on observe que TMM et MMconstruisent des catégories homogènes au regard de la polarité (posi-tive ou négative) de l’opinion et que TMM permet des transitions quiconservent davantage les groupes d’auteurs dans le temps. Il serait inté-

Page 70: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

62 Chapitre 3. Analyse des thématiques et des opinions

Figure 3.14 – Exemple de visualisation des résultats de TMM (ici avec k = 3) sous laforme de diagramme de Sankey. A chaque étape temporelle, le cluster est d’abord visualiséen utilisant la couleur de polarité dominante, avant de permettre à l’utilisateur de zoomersur une catégorie afin de prendre connaissance de la distribution sur les cibles.

ressant de mieux étudier les raisons pour lesquelles TMM obtient de telsrésultats pour des critères qui ne sont pas directement optimisés. En pa-rallèle, l’algorithme a été couplé à un outil de visualisation inspiré desdiagrammes de Sankey (Schmidt 2006). Un exemple est donné dans lafigure 3.14. Cet outil doit être intégré au prototype développé dans le pro-jet ImagiWeb. Il est prévu qu’il soit utilisé pour réaliser une évaluationqualitative des résultats par des experts avec qui nous collaborons.

Conclusion du chapitre

Dans ce chapitre, j’ai présenté mes travaux relatifs à l’analyse des thé-matiques et des opinions exprimées dans les textes, avec un accent

spécial sur la prise en compte de la dynamique temporelle des catégories.Ils s’inscrivent naturellement dans le projet général d’analyse des repré-sentations induites à partir de grands volumes de textes. Cependant, iln’est pas difficile d’en percevoir les limites et donc de dresser quelquesperspectives. Les perspectives données ci-dessous ne sont que des es-quisses ; elles seront détaillées davantage dans la section 7.2 qui clôt cemémoire.

Pour commencer, les différents travaux réalisés sur l’analyse des thé-matiques nous ont permis de faire plusieurs observations : a) il n’est pastrès simple aujourd’hui de comparer les résultats obtenus par différents al-gorithmes, surtout s’ils s’inscrivent dans des cadres théoriques différents ;b) plusieurs catégorisations thématiques peuvent coexister, comme dansle cas d’une hiérarchie (Blei et al. 2010, Jenatton et al. 2010) ; c) le passagede la thématique (souvent un ensemble de mots pondérés) au concept estimportant et peut être réalisé via la problématique d’étiquetage. L’évalua-tion est plus simple dans un cadre de recherche d’information, pour lequelles thématiques peuvent être employées pour améliorer les performanceset l’intérêt de leur apport peut être quantifié (par exemple en terme de

Page 71: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

3.3. Détection et suivi des images d’opinion 63

précision et de rappel). Cependant, il ne peut s’agir de la seule manièred’évaluer les thématiques car celle-ci est biaisée et les thématiques qui ai-deront le veilleur ou le spécialiste du domaine ne sont pas forcément lesmêmes. Il existe donc plusieurs jeux de thématiques possibles pour unmême corpus, ce qui n’est guère étonnant et relève du caractère plurieldes encyclopédies comme pointé par Klinkenberg (2000). Une perspec-tive de mon travail est alors de continuer l’effort consistant à découvrirdes catégories signifiantes (c’est-à-dire inscrites dans un réseau de signes,telle qu’une ontologie) orientées vers l’exploration des corpus. Cela a pourconséquence que, loin de ne proposer que des thématiques évidentes (ca-tégories majoritaires et attendues), l’idée serait de permettre la découvertede thématiques abordant le corpus sous un angle original. Il peut s’agirprécisément de catégories mettant en valeur des contrastes dans les opi-nions, ce qui motive l’importance de l’extraction jointe débutée avec lemodèle TTS. Il peut aussi s’agir de catégories associées à des dynamiquestemporelles, comme dans le cas des modèles TDCK-Means et TMM.

Bien que le temps soit toujours traité de manière rétrospective, on peutdistinguer les modèles qui découpent la chronologie en segments de tailleidentique (modèles TTS et TMM) de l’algorithme TDCK-Means qui s’enprémunit en intégrant une distance temporelle. Le découpage peut sem-bler arbitraire et une autre perspective à ce travail consiste à chercherune manière plus intéressante de découper le temps. Certains auteursont proposé des modèles multi-échelles comme Iwata et al. (2010). Uneautre stratégie consiste à partir à la recherche de points d’inflexion (changepoints), c’est-à-dire les moments dans la chronologie où les paramètres desmodèles changent de manière significative (Horváth et Hušková 2012).On peut considérer cette approche comme le pendant non supervisé desnombreux travaux réalisés en apprentissage supervisé sur la dérive desconcepts (concept drift). Cette piste a commencé à être explorée dans lecadre du regroupement conceptuel (Fanizzi et al. 2008). Sur ce sujet, laprincipale difficulté consiste à trouver le bon compromis entre la variationcontinue (smooth) des catégories, contrainte affichée par les modèles declustering évolutionnaire, et la possibilité de capturer des phénomènes dechangement inattendu, tels que les apparitions ou des disparitions de ca-tégories. Les premiers travaux réalisés sur le modèle TMM présenté dansce chapitre nous ont ainsi permis de réaliser cette difficulté et une partiede nos efforts actuels sont orientés vers cette problématique. Les travauxrécents de la communauté sur les modèles non paramétriques et, en par-ticulier, ceux capables de capturer des évolutions (Ahmed et Xing 2010)sont à ce titre des pistes que j’envisage sérieusement d’explorer à l’avenir.

Page 72: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 73: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

4Recommandation de messages

et analyse des rôles dans les

communautés en ligne

Sommaire

4.1 Recommandation dans les communautés en ligne . . . . 67

4.1.1 Eléments d’état de l’art . . . . . . . . . . . . . . . . . . . . . 67

4.1.2 Détection de messages-clefs . . . . . . . . . . . . . . . . . . 68

4.2 Détection de rôles dans les communautés en ligne . . . 73

4.2.1 Eléments d’état de l’art . . . . . . . . . . . . . . . . . . . . . 73

4.2.2 Détection des célébrités . . . . . . . . . . . . . . . . . . . . 76

4.2.3 Détection de rôles émergents . . . . . . . . . . . . . . . . . 79

Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . 82

Dans ce chapitre, je présente les travaux réalisés en analyse de com-munautés en ligne. La première partie traite de la recommandation à

froid de messages-clefs, sujet de la thèse d’Anna Stavrianou. La deuxièmepartie est centrée sur la détection de rôles dans les discussions en ligneet regroupe plusieurs travaux. Dans le cadre de la thèse de Mathilde Fo-restier, je présente essentiellement les travaux sur la détection d’un rôleétabli à priori. La suite du chapitre présente des travaux plus prospectifssur la recherche de rôles de manière non (ou peu) supervisée, dans les-quels s’inscrivent la collaboration avec l’entreprise Technicolor et la thèseen cours d’Alberto Lumbreras. Ces travaux ont mobilisé plusieurs per-sonnes et ont donné lieu à un certain nombre de publications :

Thèse d’Anna Stavrianou : Jean-Hugues Chauchat (directeur). Thèsede Mathilde Forestier : Djamel A. Zighed (directeur). Thèse d’AlbertoLumbreras : Bertrand Jouve (directeur), M. Guégan (encadrante entre-prise, Technicolor). Stage de Nikolai Anokhin : James Lanagan (co-encadrant, Technicolor).

Publications : 1 revues int. (Forestier et al. 2012a), 5 conférences int. (Sta-vrianou et al. 2009c, Forestier et al. 2011a;b; 2012c;b), 2 workshop int. (Sta-vrianou et al. 2009a, Anokhin et al. 2012), 1 conférence nationale (Lumbre-ras et al. 2013), 1 revue nationale (Stavrianou et al. 2009b), 1 chapitre delivre (Lanagan et al. 2014).

65

Page 74: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 75: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

4.1. Recommandation dans les communautés en ligne 67

4.1 Recommandation dans les communautés en ligne

Internet est un lieu privilégié de discussions et d’échanges, qu’il s’agissede commenter l’actualité, de donner son avis sur le dernier smartphone

ou de disserter sur la meilleure recette d’andouillette. Ces conversationsont lieu dans des communautés virtuelles qui se forment parfois exclusi-vement en ligne, sur les sites d’actualité, dans le contexte des jeux massi-vement multi-joueurs, sur les blogs de passionnés en cinéma ou d’entraideen programmation (voir à ce sujet la typologie des médias sociaux donnéedans la figure 2.1 p.20). Depuis longtemps, les sociologues s’intéressent àces communautés virtuelles afin d’en comprendre le fonctionnement, lesrègles, la dynamique (voir par exemple les travaux de Donath et al. (1999)sur les forums Usenet ou de Schoberth et al. (2003) sur l’analyse d’inter-nautes participant à une plateforme de discussion sur la finance). Dansle domaine de l’informatique, beaucoup d’efforts se sont portés sur l’ana-lyse des réseaux sociaux et de quelques médias sociaux phares, tels queTwitter ou les sites d’actualité. Par contre, les forums de discussion quiaccompagnent les articles d’actualité, de cuisine, de mode, de cinéma, desport, de santé, et j’en passe, ont drainé beaucoup moins d’attention dela part de la communauté des chercheurs. Je vais montrer comment nousavons utilisé des techniques de fouille de données pour analyser automa-tiquement ces discussions. L’analyse repose sur une vision duale du pro-blème où cohabitent deux structures : le graphe des messages postés parles internautes et le graphe sous-jacent des relations entre ces internautes,que l’on pourrait qualifier de réseau social bien que ces relations ne soientpas toujours aussi explicites que dans un réseau comme FaceBook.

Dans cette première partie, je vais me concentrer sur les travaux quiont été entrepris dans le cadre du projet Conversession (voir à ce sujetla section 6.1) et dans la thèse d’Anna Stavrianou, en collaboration avecJean-Hugues Chauchat. L’objectif consiste à trouver automatiquement lesmessages jugés comme étant les plus intéressants, selon un certain nombrede critères exploitant à la fois le contenu des messages (par exemple la pré-sence d’opinions) et la structure de la discussion (par exemple le nombrede réactions provoquées par le message). Ces messages sont ensuite pro-posés à de nouveaux utilisateurs du forum dans un contexte de recom-mandation “à froid” (cold start). Je donne quelques éléments d’état de l’artsur la recommandation avant de préciser la nature de nos contributions.

4.1.1 Eléments d’état de l’art

L’objectif des systèmes de recommandation est de recommander à l’uti-lisateur des objets (items) dont la nature peut varier suivant l’applica-

tion visée. Quel film devrait-il aimer regarder ? Quelle page Web pourraitbien répondre à son intérêt du moment ? Quel tweet ou quel commen-taire sur un forum d’information devrait-il lire en premier pour se faireune idée de la conversation en cours ? A quel expert devrait-il poser laquestion qui lui pose problème ? Un tel système peut se baser sur les ca-ractéristiques intrinsèques ou relatives de ces objets (la qualité du scriptd’un film ou le prix plus faible d’une imprimante), sur des votes précé-

Page 76: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

68 Chapitre 4. Recommandation de messages et analyse des rôles

dents exprimés par les internautes (par exemple avec un système de notescomme un nombre d’étoiles) et, assez souvent, sur une représentation despréférences de l’utilisateur (par exemple des préférences thématiques). Ondistingue généralement trois types de systèmes (Adomavicius et Tuzhilin2005) :

1. les systèmes basés sur le contenu calculant une similarité de l’objetavec les objets précédemment bien notés par l’utilisateur,

2. les systèmes de filtrage collaboratif rapprochant l’utilisateur d’unecommunauté d’internautes aux préférences similaires,

3. les approches hybrides qui essaient de combiner les avantages desdeux approches précédentes.

Ainsi, Pazzani et Billsus (1997) proposent un système qui recommandedes pages Web en accord avec les préférences thématiques de l’utilisateur.Le système apprend un profil thématique de l’utilisateur sur une basede mots-clefs pondérés, puis utilise un classifieur bayésien naïf pour dis-tinguer les pages intéressantes des pages jugées non pertinentes. Parmiles premières approches collaboratives, citons le travail de Goldberg et al.(1992) dans lequel un système est mis en place pour filtrer les courrielset les news correspondant au profil de l’utilisateur. Une autre caractéris-tique de ce système est d’utiliser les retours (feedback) de l’utilisateur. Laplupart de ces approches nécessite d’avoir une idée des préférences del’utilisateur, sous une forme explicite (fournir des mots-clefs) ou implicite(utiliser l’historique de ses votes). Dans le cas d’un nouvel utilisateur, leproblème, qualifié de “recommandation à froid” (cold start) devient plusdifficile. Une solution consiste à se baser uniquement sur des caractéris-tiques propres aux objets. Dans le cas des messages dans les discussions enligne, il s’agit par exemple de sa popularité (nombre de réponses que l’in-ternaute a provoqué) ou de son entropie (quantité d’information contenuedans le message). Kohrs et Mérialdo (2001) ont ainsi utilisé l’entropie poursélectionner les objets à fournir aux utilisateurs afin d’obtenir des votes quimaximisent la qualité des recommandations, en particulier destinées auxnouveaux utilisateurs. Dans nos travaux, nous nous plaçons précisémentdans ce contexte de recommandation à froid. Je décris ci-dessous notrecontribution dans la recommandation de messages-clefs dans les forumsde discussion en ligne.

4.1.2 Détection de messages-clefs

Après une analyse des pages Web comprenant le forum et son intégra-tion dans une base de données relationnelle, l’objectif est de fournir

une visualisation de la discussion et de calculer un certain nombre de cri-tères pour faire ressortir les messages les plus intéressants. La figure 4.1p.69 illustre le système qui a été construit dans son ensemble, depuis l’ana-lyse des pages jusqu’à l’interaction avec l’utilisateur final.

Ce travail repose sur la formalisation d’un forum de discussion commeun graphe appelé PROG (Post-Reply Opinion Graph). Dans sa constitutioninitiale, c’est-à-dire sans enrichissement ultérieur avec des relations de ci-tation, il s’agit en réalité d’une forêt car un message (à l’exception despremiers de chaque fil) ne répond qu’à un seul autre message. Ce graphe

Page 77: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

4.1. Recommandation dans les communautés en ligne 69

Figure 4.1 – Analyse de la discussion à travers une représentation sous forme de graphe(extrait de la thèse d’A. Stavrianou (2010)).

est orienté et peut être noté G = (V, E), où V contient les messages pos-tés sur le forum et E contient les arcs (v′, v) qui indiquent une réponsedu message v′ au message v. Un message v est caractérisé par un n-uplet(mv, opv, uv, tmv) où mv est le contenu textuel du message, opv la pola-rité d’opinion du message (par exemple négative, neutre ou positive), uvl’identité de l’auteur du message et tmv son étiquette temporelle. La po-larité de l’opinion peut être calculée automatiquement à l’aide des tech-niques présentées dans la section précédente (voir section 3.2). On peutdéfinir le fil de discussion (thread) comme l’ensemble des messages d’unecomposante connexe de G postés après un message, et une chaîne de dis-cussion comme un chemin maximal pour l’inclusion, c’est-à-dire la suc-cession des réponses partant d’une racine à une feuille de chacun desarbres. La figure 4.2 p.70 illustre ce que nous entendons par fil et chaînede discussion.

A partir de là, il est facile de calculer différentes mesures pour caracté-riser les nœuds du graphe, et donc les messages : initiateur d’un fil de dis-cussion, influent, contenant ou provoquant des opinions, etc. L’influencepeut se calculer, par exemple, à partir du degré entrant d’un nœud (critèrepopulaire) ou bien à partir du nombre de messages contenus dans le filinitié par ce nœud (critère ordre). La variété des opinions provoquéespar un message, calculée à l’aide d’une entropie de Shannon sur les dif-férentes polarités d’opinion (critère var_op), peut donner une indicationsur la nature controversée du message. Au total, six critères ont été définis :chacun d’eux estime l’ensemble des messages qui comportent un intérêtpotentiel pour l’utilisateur selon un certain point de vue. Ces critères sontensuite testés séparément puis combinés, afin de fournir une recomman-dation à l’utilisateur. Une brève description des critères est présentée dansla figure 4.3 p.70.

Page 78: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

70 Chapitre 4. Recommandation de messages et analyse des rôles

Figure 4.2 – Fil et chaîne de discussion (extrait de la thèse d’A. Stavrianou (2010)).

critère définitionordred nœuds appartenant à un fil de discussion com-

portant au moins d messagesracine nœuds débutant un fil de discussion composé

d’au moins 2 messagespopulaired nœuds dont le degré entrant (messages répon-

dants) est au moins de dopinion nœuds dont le message contient des opinions

(c.-à-d. où opv est différent de neutre)react_opd nœuds dont au moins d messages répondants

contiennent une opinion (positive ou neutre)var_opd nœuds qui ont provoqué une réaction variée en

terme d’opinion (estimée par une entropie deShannon supérieure à un seuil d)

Figure 4.3 – Liste des six critères utilisés pour la recommandation de messages-clefs.

Page 79: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

4.1. Recommandation dans les communautés en ligne 71

L’évaluation des systèmes de recommandation est toujours un pro-blème difficile, ne serait-ce que parce que la qualité d’une recommanda-tion dépend souvent de la personne à qui elle s’adresse (Herlocker et al.2004). Dans notre situation, nous avons choisi d’évaluer les performancesde notre système sur la base du jugement humain en deux étapes : a)demander à des personnes d’évaluer quels messages ils jugeaient intéres-sants à priori sans les influencer sur les critères de choix, puis calculerdes indicateurs habituels en recherche d’information, et b) demander àdes personnes d’évaluer à postériori la sortie produite par le système. Lesdonnées analysées sont constitués de huit forums en français extraits dusite d’actualité Liberation.fr. Cela représente un total de 1147 messagescomprenant 510 fils de discussion. Puisqu’il s’agit d’un corpus en françaiset qu’il n’existait pas de méthode automatique performante à l’époque,l’annotation des opinions en trois polarités (négative, neutre, positive) aété réalisée manuellement ; cela correspond à un total de 187 messages.Il est déjà intéressant de noter que l’accord inter-annotateurs, estimée parune corrélation de Pearson, conduit à une valeur située entre 0,09 et 0,45.Cela confirme la difficulté de la tâche d’évaluation déjà signalée dans lalittérature et la nécessité de procéder également à une évaluation à poste-riori.

Le tableau 4.4 p.72 présente les résultats obtenus en moyenne pour leshuit forums et les six annotateurs, ventilés selon les critères pris séparé-ment, mais aussi agrégés linéairement (un poids identique est attribué àchaque critère). Les mesures d’évaluation sont celles utilisées habituelle-ment en recherche d’information : la précision, qui calcule la proportionde messages effectivement intéressants dans l’ensemble retourné par lesystème, le rappel, qui calcule la proportion totale de messages intéres-sants effectivement retournés, et la F-Mesure qui calcule une moyenneharmonique de ces deux mesures. Le domaine de variation des mesuresest situé entre 0 (plus mauvais résultat) et 1 (meilleur résultat). Les résul-tats présentés ont été obtenus avec les paramètres de seuil 0,2, 0,2, 0,1 et 0,6respectivement sur les critères ordre, populaire, react_op et var_op.Ces valeurs ont été obtenues en normalisant d par la valeur maximale ob-servée sur les données. Une discussion approfondie sur l’influence desparamètres et sur le choix des meilleures valeurs se trouve dans la thèsed’Anna Stavrianou (2010). La principale observation est qu’une simpleagrégation permet d’améliorer les résultats de manière importante. Lesrésultats présentés dans la thèse montrent aussi que les valeurs peuventêtre bien différentes d’un annotateur à l’autre car ils n’ont pas la même ap-préhension de ce qui fait l’intérêt d’un message. Intégrer des éléments depersonnalisation permettrait certainement d’améliorer les scores obtenus,mais nous ferait sortir du contexte de recommandation à froid.

Le tableau 4.5 p.72 présente les résultats de l’évaluation réalisée à pos-teriori sur un total de quinze forums. La stratégie consiste cette fois à pré-senter à des êtres humains un nombre réduit de vingt messages et à leurdemander de qualifier le message recommandé à l’aide d’une des troismodalités suivantes : a) utile (useful), b) peu utile/indifférent (indifferent),c) inutile (useless). Les messages sont donnés dans un ordre aléatoire afinde limiter le biais introduit par l’ordre de présentation de la recommanda-tion. Afin d’identifier l’influence de la taille de l’échantillon de messages

Page 80: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

72 Chapitre 4. Recommandation de messages et analyse des rôles

ordre racine populaireRap. Préc. F-M Rap. Préc. F-M Rap. Préc. F-M0,71 0,14 0,22 0,64 0,2 0,26 0,44 0,27 0,29

opinion react_op var_opRap. Préc. F-M Rap. Préc. F-M Rap. Préc. F-M0,59 0,22 0,28 0,31 0,36 0,3 0,2 0, 53 0,27

agrégation linéaireRap. Préc. F-M0,82 0,37 0,48

Figure 4.4 – Résultats obtenus sur les 8 forums par les 6 critères et par leur agrégation(extrait de la thèse d’A. Stavrianou (2010)).

Figure 4.5 – Résultats de l’évaluation des messages recommandés (extrait de la thèsed’A. Stavrianou (2010)).

retournés à l’utilisateur, les résultats sont présentés par groupes de 5 selonque le système propose 5, 10, 15 ou 20 messages. Ces résultats semblentconforter les résultats précédents en précision avec, grosso modo, un peuplus d’un tiers des messages recommandés jugés comme utiles. Des ex-périences plus poussées et une analyse détaillée des raisons de l’échecde certaines recommandations ont été réalisées. Entre autres raisons, ontrouve par exemple le fait que certains utilisateurs ne sont pas en mesurede réellement comprendre le message à cause d’un problème de langue(comme un vocabulaire trop cryptique) ou bien parce que leurs connais-sances actuelles font que l’information apportée par le message est jugéeredondante. Une discussion plus complète est menée dans la thèse d’AnnaStavrianou (2010). Ces travaux ont donné lieu à des publications dans unatelier de la conférence WAINA (Stavrianou et al. 2009a), à la conférenceinternationale ASONAM (Stavrianou et al. 2009c), dans un chapitre d’ou-vrage (Stavrianou et al. 2010) et dans une revue francophone (Stavrianouet al. 2009b).

Page 81: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

4.2. Détection de rôles dans les communautés en ligne 73

4.2 Détection de rôles dans les communautés en ligne

Dans cette deuxième partie, j’expose les différents travaux dont l’objec-tif consiste à étudier la communauté des individus qui composent la

communauté virtuelle afin d’identifier les rôles joués par ces individus àpartir de leur comportement. Ces travaux résultent de plusieurs collabo-rations et s’articulent en deux étapes. La première étape, réalisée dans lecadre de la thèse de Mathilde Forestier (2012), co-encadrée avec DjamelA. Zighed, a consisté à extraire le réseau des interactions (incluant les ci-tations) entre les internautes, puis à y chercher un rôle particulier qu’estcelui de célébrité en adoptant une approche descendante. Ils ont mené àune deuxième étape initiée avec Philippe Schmouker et James Lanagande l’entreprise Technicolor. Contrairement aux travaux précédents, l’ex-traction de rôle est vue comme un processus émergent (approche ascen-dante). Après le départ de James, les travaux continuent avec la thèse d’Al-berto Lumbreras que je co-encadre avec Bertrand Jouve. Avant de détaillerles principales contributions que nous avons réalisées sur l’extraction desrôles, je donne un aperçu de l’état de l’art que le lecteur pourra trouver demanière plus détaillée dans un passage en revue que nous avons publiéesur ce sujet dans le journal WIAS (Forestier et al. 2012a).

4.2.1 Eléments d’état de l’art

Le concept de rôles a drainé de nombreux travaux dans le domaine dela sociologie depuis le début du vingtième siècle, divisant la commu-

nauté en deux écoles : celle des structuralistes qui considèrent que le rôlede l’individu est généré par la position de l’individu dans la structuresociale, et celle des interactionnistes pour lesquels ce sont les individuset leurs interactions qui génèrent les rôles ainsi que la structure sociale.Bien que ces écoles ne soient pas totalement orthogonales et qu’elles aienttendance à se rejoindre en de multiples occasions, cela explique la raisonpour laquelle il n’existe pas de définition universelle de ce qu’est un rôle.Pour une introduction plus détaillée, j’invite le lecteur à consulter l’ar-ticle de Lumbreras et al. (2013). Partant des travaux de Borgatti et Everett(1992), nous choisissons de distinguer la position, c’est-à-dire la place del’individu dans la structure sociale, du rôle, qui représente l’ensemble desattentes (droits, devoirs) associées à la position occupée. Goffman (1959)donne l’exemple des positions parent et enfant, pour lesquels le rôlede parent correspond au comportement que celui-ci est censé avoir vis-à-vis de son enfant. Les positions et les rôles forment un système social quigénère des relations sociales : ensemble d’attitudes, de comportements,d’interactions. . . que l’on peut observer, voire mesurer. Suivant cette lo-gique, des individus associés à un même rôle partagent des caractéris-tiques communes et des schémas de relations identiques, même s’ils nepartagent pas nécessairement de relation directe (Schwartz et Sprinzen1984). Les sociologues ont alors cherché à développer des outils mathéma-tiques et informatiques afin de retrouver les rôles joués par des individusà partir de l’observation de ces derniers, de leurs caractéristiques, de leurscomportements et de leurs interactions.

Page 82: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

74 Chapitre 4. Recommandation de messages et analyse des rôles

Une manière de structurer la nombreuse littérature sur le sujet consisteà distinguer deux types d’approche que l’on trouve classiquement enfouille de données (cf. section 2.2) : une approche descendante (top-down)qui revient à chercher des rôles définis à l’avance, et une approche ascen-dante (bottom-up) qui permet de faire émerger des rôles de manière nonsupervisée, c’est-à-dire sans (trop de) connaissance à priori. Je donne ci-dessous quelques éléments de repère sur chacune de ces deux approches.

Recherche de rôles explicites – Cette famille de travaux regroupe les casqui relèvent de la recherche d’information et pour lesquels une définitiondu ou des rôles recherchés est connue, ou alors pour lesquels des exemplesd’individus jouant ces rôles sont connus. La tâche la plus connue est certai-nement l’identification d’experts dans des communautés pouvant être trèsdiverses : forums d’entraide en programmation, systèmes de Questions-Réponses, réseaux sociaux comme FaceBook ou Twitter, etc. Il s’agit parexemple des travaux d’Adamic et al. (2008), qui cherchent à trouver desschémas typiques pour caractériser le comportement des experts pour desdonnées issues de Yahoo! Answers. Pour ce faire, ils se basent sur de nom-breux concepts issus de l’analyse des graphes : degrés entrants et sortants,réseaux égocentriques, composantes connexes, motifs récurrents. Ils ontnotamment montré que les individus les plus concentrés sur une seulethématique avaient des réponses mieux notées. Sur la base de l’intranetd’une organisation, Balog et al. (2006) ont cherché à découvrir le profil desexperts. Ils ont utilisé principalement des techniques issues de la fouille detextes avec, par exemple, l’idée que le nom d’un expert sera plus souventcité dans les documents associés à sa thématique d’expertise. Plus récem-ment, des chercheurs ont développé des travaux sur la détection précoced’experts dans les communautés de Questions-Réponses (Pal et al. 2011)et celle d’experts thématiques sur Twitter (Pal et Counts 2011).

Un autre type de rôles souvent recherché est celui de personne in-fluente (influencer), autrement dit capable d’influencer les décisions ou lespensées des autres individus, par exemple dans le domaine du marke-ting. Citons notamment les travaux d’Agarwal et al. (2008) qui utilisentdes critères pour identifier ce type de personne, comme le niveau de re-connaissance de la communauté (proportionnel au degré entrant du nœuddans le graphe) ou l’activité de l’individu mesurée par le nombre de mes-sages postés, la longueur des messages, etc. Kim et Han (2009) utilisentle degré de centralité qui représente la popularité de l’individu et l’his-torique de participation au blog. Scripps et al. (2007) combinent des cri-tères comme la popularité, le nombre d’amis, l’appartenance au groupe, lenombre d’interactions. . . le tout associé à un algorithme de type PageRankafin d’identifier les personnes influentes. Enfin, des travaux considèrentl’influence des personnes dans la diffusion de l’information dans un ré-seau, comme ceux de Massa et Avesani (2007). D’autres types de rôles ontattiré l’attention : les spammers (Yardi et al. 2009), les “capitalistes sociaux”(Dugué et Perez 2013), etc.

Emergence non supervisée de rôles – Les travaux de la littérature pré-sentés dans cette partie cherchent à découvrir les rôles joués par les in-ternautes sans (trop d’) idées à priori. Autrement dit, on souhaite voir

Page 83: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

4.2. Détection de rôles dans les communautés en ligne 75

apparaître les rôles qui émergent à partir des comportements observés surles individus et leurs interactions. Les premiers travaux relevant de cetteapproche ascendante peuvent être qualifiés d’ethnologiques, en ce qu’ilsconsistent essentiellement à réaliser une étude qualitative fine des commu-nautés en ligne par une analyse de l’intérieur de la communauté. Il s’agitpar exemple de la typologie construite par Viégas et Smith (2004) sur lesnewsgroups qui distingue des personnes répondantes (answer people), desdébatteurs (debater), des trouble-fêtes (spammer-like behavior), des nouveauxutilisateurs (newcomers and question askers), etc. De manière analogue, lestravaux de Golder et Donath (2004) sur Usenet ont permis de construireune typologie comprenant des célébrités (celebrity), des nouveaux utilisa-teurs (newbie), des rôdeurs (lurker), des troubles-fêtes (troll), etc.

Plus récemment, des approches plus automatiques ont vu le jour afind’extraire des rôles à partir de forums de discussion sur la base de carac-téristiques (features) mesurant l’activité des internautes. A partir de vingtforums extraits du jeu de données Boards.ie, Chan et al. (2010) utilisentdes mesures comme le degré entrant et sortant, la longueur moyenne desmessages postés, le taux de fils de discussion initiés, le taux de réciprocité(pourcentage de liens bi-directionnels entre deux internautes) et quelquesautres, mesures qui leur permettent de filtrer les internautes avant d’uti-liser un algorithme classique de clustering hiérarchique ascendant pourtrouver des profils typiques d’individus. Le nombre de catégories est fixéà l’aide de cinq mesures objectives de qualité, comme l’indice de Rand et laSilhouette (voir à ce sujet Halkidi et al. (2002)). A l’issue du processus, ilstrouvent huit profils typiques qu’ils appellent des rôles tels que l’initiateurpopulaire (popular initiator), le taciturne (taciturn), le soutien (supporter) oul’élitiste (elitist). A partir de cette typologie, ils montrent que les rôles sontdistribués en proportions bien différentes en fonction du forum étudié. Lestravaux que je présente dans la section 4.2.3 se placent dans cette lignée,en essayant de prendre en compte la dimension temporelle.

Il est indispensable ici de citer les travaux liés aux modèles par blocs(blockmodels). Ces modèles mathématiques ont été initialement développésdans le domaine de la sociologie pour étudier les rôles en se basant sur lamatrice carrée des relations entre individus (White et Reitz 1983, Borgattiet Everett 1992). Ils ont notamment été utilisés pour trouver des blocs(catégories) d’individus occupant une position similaire et pour construireun graphe de relation entre les positions, en utilisant différentes mesuresd’équivalence (structurelle, régulière, etc.). Ces modèles ont ensuite étéétendus aux modèles stochastiques afin de prendre en compte l’incertitudesur les données (Wang et Wong 1987, Handcock et al. 2007) et l’on a vuapparaître de nombreuses variantes, comme par exemple celle de Wolfeet Jensen (2004) qui permet à un individu de jouer plusieurs rôles oucelle de Fu et al. (2009) pour traiter de l’aspect dynamique des rôles. Pourterminer ce passage en revue, il faut noter la tendance actuelle qui consisteà fusionner les caractéristiques relationnelles telles qu’elles peuvent êtremesurées sur un graphe (ce qui est majoritairement le cas dans les modèlespar blocs), et les caractéristiques textuelles des messages échangés, parexemple à l’aide de modèles de thématiques (McCallum et al. 2005).

Page 84: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

76 Chapitre 4. Recommandation de messages et analyse des rôles

4.2.2 Détection des célébrités

Dans cette partie, je présente deux contributions réalisées dans le cadrede la thèse de Mathilde Forestier (2012) dont l’objectif consiste à re-

trouver automatiquement les individus considérés comme des célébritésà partir de forums de discussion. La principale originalité de ce travailest qu’il s’appuie sur des travaux de la littérature en sociologie pour déve-lopper des méthodes automatiques de détection. La première contributionformalise la définition proposée par Golder et Donath (2004) à l’aide decaractéristiques ; ces dernières servent de base à un algorithme qui estensuite testé sur un grand nombre de forums de discussion en anglaisextraits du Huffington Post. La seconde contribution met en place une ap-proche plus systématique basée sur un algorithme d’apprentissage auto-matique supervisé afin de tester s’il est possible d’améliorer nos résultatsen utilisant des informations obtenues à partir d’une vérité terrain.

Première approche pour détecter les célébrités – Sur la base des tra-vaux de Golder et Donath (2004), nous définissons la célébrité de la ma-nière suivante : il s’agit d’une « figure centrale prototypique d’une com-munauté. Les célébrités sont des contributeurs prolifiques qui dépensentbeaucoup de temps et d’énergie à leur communauté. Du fait de leur forteparticipation, tout le monde les connaît ». Les critères de participation etde réputation ont été traduits à l’aide de conditions nécessaires décritesdans le langage de la théorie des graphes, après avoir appliqué une mé-thode originale de détection des citations entre les messages (Forestieret al. 2011a). Par exemple, la « forte contribution dans une discussion »est vérifiée si le nombre de messages postés est supérieur à la moyennedes messages postés par les individus. La « compétence de communica-tion » est vérifiée si le degré entrant et sortant est supérieur à un certainseuil, et ainsi de suite. Comme indiqué dans la figure 4.6 p.77, ces condi-tions nécessaires permettent de filtrer la population des internautes afind’obtenir une sous-population de célébrités potentielles, qui sont ensuiteordonnées selon des méta-critères. Le méta-critère 1 ordonne les candi-dats suivant le nombre de messages postés ; le méta-critère 2 prend encompte la participation moyenne sur plusieurs forums de discussion liésà la même thématique (par exemple des forums sur la politique ou sur lesmédias) ; le méta-critère 3 pondère suivant le nombre de citations reçuespar les autres internautes. Enfin, la baseline ordonne les internautes sui-vant le nombre de messages postés mais sans utiliser cette fois le filtre desconditions dérivées de Golder et Donath (2004).

Des expériences ont été réalisées sur une population de 14 443 inter-nautes ayant rédigé plus de 35 000 messages sur 57 forums de discussionextraits du site du Huffington Post selon trois thématiques : la politique,les médias et le mode de vie. Dans l’optique d’évaluer nos résultats, nousavons choisi de considérer le nombre de fans indiqué sur le site d’infor-mation comme une vérité terrain, à savoir un indicateur externe considérécomme objectif du niveau de célébrité de l’individu. Dans cette premièreapproche, nous avons opté pour une classification binaire dans l’une oul’autre des classes célèbre et non célèbre. Sur la base de statistiquesdescriptives, nous avons choisi de fixer à 800 fans le seuil au-delà duquel

Page 85: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

4.2. Détection de rôles dans les communautés en ligne 77

Figure 4.6 – Cadre expérimental de détection des célébrités (extrait de la thèse de M.Forestier (2012)).

un internaute est considéré comme célèbre. Cette question difficile de lavérité terrain sera discutée en conclusion (section 4.2.3). Globalement, lesrésultats n’ont pas été à la hauteur de nos attentes car la baseline l’em-porte sur l’application des filtres et des méta-critères. Cependant, un exa-men plus attentif permet de constater qu’un agrandissement de la courbeROC sur les premiers individus du classement, visible sur la figure 4.7p.78, montre une légère supériorité de notre approche en tête de classe-ment. Ce phénomène semble davantage présent dans certains types deforums (médias, politique). Toutefois, en calculant un score de précisionsur les tout premiers individus (par exemple 20), on peut constater desécarts avec la solution de référence pouvant aller jusqu’à 26% en faveurde notre approche. On constate également que la prise en compte des ci-tations (méta-critère 3) n’améliore en rien la détection des célébrités, dumoins si l’on se base sur la vérité terrain choisie, résultat contraire à ceque nous attendions. Une analyse plus détaillée permet de constater quele nombre de forums différents sur lesquels un internaute s’exprime est unfacteur important pour obtenir de nombreux fans et donc être considérécomme une célébrité si on suit notre hypothèse. Notons que les différentsparamètres de notre algorithme ont été, jusqu’à présent, fixés manuelle-ment. Dans l’approche qui suit, nous avons donc décidé d’étudier s’il étaitpossible d’apprendre le poids des différents critères candidats à l’aide detechniques d’apprentissage automatique supervisé.

Seconde approche pour détecter les célébrités – Dans cette nouvelle ap-proche, l’objectif consiste à changer le problème afin de a) nous passer duchoix d’un seuil pour déterminer la vérité terrain, b) apprendre automa-tiquement le poids des critères qui classeront ou non un individu commeune célébrité. Ainsi, nous visons une tâche de régression dont le but est deprédire le nombre de fans observés à partir de critères comme le nombre

Page 86: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

78 Chapitre 4. Recommandation de messages et analyse des rôles

Figure 4.7 – Agrandissement de la courbe ROC sur le début du classement (extrait dela thèse de M. Forestier (2012)).

de messages postés, le nombre de forums dans lesquels un individu estimpliqué, le nombre de citations reçues, etc. Au total, 18 mesures ont étédéfinies pour décrire le comportement d’un internaute sur les forums dediscussion. A partir de ces mesures et du score indiqué par le nombre defans, nous avons divisé le jeu de données en deux sous-ensembles pourapprendre les paramètres d’un modèle de régression (deux tiers des don-nées) et tester le modèle (un tiers des données). Un système de filtrageavant et durant l’apprentissage a été mis en place, telle que la méthodeM5 permettant de retirer les critères durant le processus d’apprentissage(voir Witten et Frank (2005) pour les détails de l’heuristique).

Pour ces nouvelles expériences, nous avons travaillé sur les mêmesdonnées mais en supprimant les auteurs qui se sont désinscrits du siteWeb durant la période d’étude, ce qui réduit le nombre de 14 443 à 10 720

individus. Une première analyse de régression linaire a montré qu’aucundes critères n’était significativement corrélé à lui seul avec le nombre defans, la corrélation de Pearson la plus forte étant observée avec le nombrede messages (score de 0,39) puis le nombre de forums (score de 0,38).Après avoir testé plusieurs scénarios de filtrage, nous obtenons un scorede 0,425 avec la régression multiple. Les poids les plus élevés sont asso-ciés aux deux critères du nombre de messages et du nombre de forumsde discussion, ce qui confirme les précédents résultats, mais sans nouspermettre d’aller beaucoup plus loin. Au-delà de ces résultats un peu dé-cevants, plusieurs observations ont pu être réalisées comme par exemplele fait que la longueur moyenne des messages ne semble pas être un boncritère pour reconnaître les célébrités. Cela contredit les observations deGolder et Donath (2004), mais n’oublions pas que ces derniers ont étu-dié Usenet, qui a un fonctionnement vraisemblablement différent de celuides forums du Huffington Post. D’autres observations plus étonnantesont été faites, comme par exemple le fait que citer le texte d’autres mes-

Page 87: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

4.2. Détection de rôles dans les communautés en ligne 79

sages est un point négatif pour devenir une célébrité. Une discussion plusdétaillée est menée dans la thèse de Forestier (2012), mais l’une des princi-pales conclusions est qu’il s’agit d’un problème difficile et que la prise encompte de la dimension temporelle pourrait s’avérer un élément détermi-nant dans sa résolution. Ces travaux ont conduit à des publications dansles conférences ISMIS (Forestier et al. 2011b), ASONAM (Forestier et al.2011a) et ICDS (Forestier et al. 2012c).

4.2.3 Détection de rôles émergents

Alors que les efforts précédents concernaient la recherche d’un rôledéterminé à l’avance, en l’occurrence celui de célébrité, je vais pré-

senter les premiers travaux que nous avons réalisés en essayant d’imposerle moins d’à priori dans la nature des rôles recherchés. Il s’agit égalementd’une première contribution qui prend en compte la dimension tempo-relle. Les expériences ont été réalisées sur des forums de discussion en an-glais au sujet de séries américaines (par exemple Dr House ou Mad Men).Ces travaux ont été entrepris en collaboration avec l’entreprise Technico-lor. Ils ont débuté avec le stage de Master de Nicolas Anokhin, co-encadréavec James Lanagan. Ils se poursuivent actuellement avec la thèse d’Al-berto Lumbreras, co-encadrée avec Bertrand Jouve et Marie Guégan (voirles perspectives en section 7.2).

Description de la démarche – L’objectif de ce travail est double : a)réaliser une analyse diachronique du comportement d’internautes dansdes discussions en ligne en nous appuyant sur la période d’intérêt quiconcentre le plus d’activité, b) extraire des motifs de comportement demanière non supervisée et voir s’il existe des relations entre ces “rôles” etle déroulement des discussions. Pour ce faire, la stratégie a tout d’abordconsisté à recenser un certain nombre d’indicateurs d’activité (comme lenombre de réponses, quantifié par le degré des nœuds du graphe), à enimaginer de nouveaux (comme le “pouvoir catalytique d’un message” quiestime récursivement l’influence locale, inspirée par le H-index utilisé enbibliométrie) et à les traduire pour être en mesure de traiter des flux dedonnées dans le temps. Afin de traiter l’aspect temporel, nous avons lisséles données sur la base du jour (24 observations avec une observationpar heure) à l’aide d’une extraction des tendances et d’une suppressiondes effets saisonniers (comme le cycle circadien). Ces opérations sont trèsclassiques dans l’analyse des séries temporelles (Stuart et al. 1983) et per-mettent d’obtenir un lissage comme celui présenté dans la figure 4.8 p.80.Une étude descriptive permet de constater un pic d’activité se déroulantjuste après la diffusion des épisodes de la série, ce qui paraît naturel, maissuivant différentes formes et différents degrés. Notre objectif consiste à neconserver que les messages issus de cette forte période d’activité et de voirs’il est possible de prédire le volume d’activité à long terme à partir de là.Pour ce faire, nous avons supposé que l’activité de certains internautesjoue un rôle important dans le devenir de la discussion. Il me semble qu’ils’agit d’une idée prometteuse qui est actuellement explorée dans la thèsed’Alberto Lumbreras et que je présente brièvement dans les perspectives.

Page 88: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

80 Chapitre 4. Recommandation de messages et analyse des rôles

Figure 4.8 – Evolution temporelle du nombre de messages pour les forums “House”, latendance générale étant affichée en orange (extrait de Lanagan et al. (2014)).

Dans ce travail préliminaire, nous avons choisi d’adopter une stratégiesimple inspirée par les travaux de Chan et al. (2010), à savoir appliquerun algorithme des K-Moyennes à des variables décrivant l’activité des in-ternautes. En plus des mesures habituelles telles que celles déjà évoquéesdans la section 4.2.2, nous avons défini une nouvelle mesure inspirée par leH-index, appelée le pouvoir catalytique (catalytic power) qui permet d’esti-mer l’impact des messages postés par un internaute, au-delà des premiersnœuds voisins. Ces mesures ont été calculées sur des fenêtres de tempsadaptatives afin de prendre en compte des périodes de plus grande acti-vité (suite à la diffusion d’un épisode) ou de moindre activité (durant l’été,pour les données qui nous intéressent). Chaque internaute est alors repré-senté par une série temporelle décrite par 7 variables avec le jour commegranularité. Un algorithme de clustering robuste inspiré par Ayad et Kamel(2005) est ensuite utilisé afin d’extraire des catégories de comportementstypiques. Les résultats obtenus sont présentés dans le paragraphe qui suit.

Résultats obtenus – Les expériences ont été réalisées sur des données deforum traitant de 7 séries télévisées américaines à succès, pour lesquelleschaque épisode est diffusé une fois par semaine et initie un ou plusieursfils de discussion. Je rappelle que l’idée globale consiste à vérifier si lesdonnées issues du pic d’intérêt suffisent à estimer l’impact global mesurésur l’épisode, en particulier en prenant en compte les différents rôles jouéspar les internautes. Ces données ont été extraites du site TWOP sur l’an-née 2007-2008 pour un total de 878 épisodes, 278 037 messages rédigés par25 384 auteurs. Des prétraitements ont été nécessaires, en particulier pourreconstruire l’arbre de réponses en utilisant un système d’expressions ré-gulières et une distance de Levenshtein. Les expériences sont découpéesen trois étapes : i) vérifier si la période du pic d’intérêt observé suffit àregrouper les épisodes dans des catégories similaires, ii) regrouper les in-

Page 89: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

4.2. Détection de rôles dans les communautés en ligne 81

N˚ In-degree

Out-degree

In-g-index

Out-g-index

Catalyticpower

Cross-threadentropy

Activity

1 0.070 0.075 2,26e-4 0,052 1,59e-01 1,98e-01 0.300

2 0,010 0,221 0 0 7,97e-05 5,98e-03 0,205

3 0,291 0,048 0,322 0 2,34e-01 7,52e-02 0,241

4 0,428 0,429 0,447 0,445 3,65e-01 1,80e-01 0,445

5 0,242 0,305 0,277 0,335 1,93e-01 5,52e-03 0,287

6 0,008 0 0 0 0 2,43e-16 0,171

7 0,012 0,271 0 0,308 2,74e-05 8,07e-03 0,231

Figure 4.9 – 7 centroïdes résultants de l’algorithme de clustering ensembliste (extraitde Lanagan et al. (2014)).

ternautes adoptant un comportement semblable et essayer de dégager lesrôles importants de manière qualitative, iii) mesurer la perte d’informationlorsqu’on n’observe que le pic d’intérêt au regard de ces rôles.

Suivant d’autres travaux de la littérature (Fisher et al. 2006), nous dé-crivons les fils de discussion avec 5 attributs mesurant le volume de ladiscussion, mais également l’intensité des échanges : nombre d’auteursdistincts, nombre total de messages, nombre de messages initiant un nou-veau fil, nombre de réponses, taille moyenne d’un message (en nombrede caractères). L’algorithme de clustering est alors exécuté sur l’ensembledes fils de discussion, d’une part, et ensuite uniquement sur la périoded’intérêt. Les résultats sont comparés à l’aide de l’index de Rand ajusté(ARI), qui évalue l’accord entre deux partitions par une valeur entre -1(désaccord complet) et 1 (accord parfait). On constate une valeur situéeentre 0 pour American Idol (50% environ des messages se trouvent dansle pic) et 0,33 pour The Office (32% des messages environ se trouventdans le pic), ce qui semble être une valeur raisonnable et tend à montrerqu’une grande partie de l’information utile se trouve dans la période quisuit immédiatement la diffusion de l’épisode.

La deuxième série d’expériences a consisté à catégoriser automati-quement les internautes en fonction de leur comportement mesuré se-lon la méthodologie brièvement présentée dans le paragraphe précédent.Rappelons que chaque internaute est décrit par 730 vecteurs (un vecteurpour chaque jour) selon 7 caractéristiques calculées selon la structure dugraphe. Nous avons supprimé les individus de faible activité lorsqu’ilsavaient écrit moins de 10 messages. Cela représente toujours un total de139 474 vecteurs décrivant 1959 individus. Après de nombreux essais enfaisant varier les paramètres de l’algorithme de clustering ensembliste,nous avons finalement construit une typologie de 7 catégories associéesaux centroïdes présentés dans le tableau de la figure 4.9. La suite est ques-tion d’interprétation des valeurs associées à ces comportements considéréscomme typiques. Par exemple, le groupe n˚3 correspond à des individusqui participent à de nombreux fils de discussion (faible entropie) et quireçoivent de nombreuses réponses (in-degree élevé) de la part d’individusimportants (in-g-index élevé). Il semble qu’il s’agisse d’individus qui nesont pas centraux, mais capables d’attirer l’attention et de provoquer des

Page 90: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

82 Chapitre 4. Recommandation de messages et analyse des rôles

chaînes de discussion (catalytic power plutôt élevé). Le groupe n˚2 corres-pond à des individus qui essaient d’intervenir dans la conversation, maissans succès (in/out-g-index et catalytic power faibles). On peut continuerl’interprétation avec les autres groupes. A la lumière de ces résultats, unepremière analyse permet de constater que les individus les plus influentssemblent être regroupés dans les catégories n˚4 et 5.

La dernière étape de nos expériences consiste à observer la quantité demessages conservés dans le pic d’activité suivant les différents groupes decomportements que nous venons d’extraire. Mise à part la série Dexter,pour laquelle le pic semble avoir été mal classé, entre 79% et 100% desmessages produits par les individus des groupes n˚4 et n˚5 sont conservés.Bien qu’il s’agisse de travaux préliminaires, ce résultat semble confirmerqu’il est possible de ne considérer qu’une période assez courte suivant ladiffusion de l’épisode pour réaliser les analyses, car la plus grande partiede l’information est apportée à ce moment-là par les internautes les plusinfluents. Une discussion plus fournie se trouve dans (Lanagan et al. 2014).

Conclusion du chapitre

J’ai présenté dans ce chapitre plusieurs travaux réalisés sur l’analyse desforums de discussion en ligne. Qu’il s’agisse d’un système de recom-

mandation de messages-clefs ou d’un algorithme permettant d’identifierles rôles joués par les internautes, ces travaux s’inscrivent naturellementdans mon projet de recherche global, car les messages intéressants oul’identité des auteurs de ces messages participent activement à la manièredont la conversation est perçue par l’individu. Plus encore, ils influent surla dynamique de la discussion et sur la manière dont les représentationssont véhiculées. Sur l’analyse des rôles, les travaux qui ont été réalisésjusqu’à présent montrent vite leurs limites, ce qui permet d’envisager denombreuses perspectives.

Tout d’abord, l’un des plus importants problèmes auxquels nous avonsété confrontés est celui de l’évaluation des rôles automatiquement induitspar nos algorithmes. La vérité terrain utilisée dans les travaux sur les cé-lébrités, vérité constituée du nombre de fans extrait du site web du Huf-fington Post, est on ne peut plus discutable ; il y a fort à parier que cettevaleur diffère de la manière dont Golder et Donath (2004) percevaient cetype de rôle dans leur étude ethnographique. A vrai dire, il paraît tout au-tant légitime d’affirmer que certains rôles existent bel et bien, tels que ceuxdans les communautés Usenet ou les experts dans Yahoo! Answers, quede remettre en cause leur existence à d’autres endroits du Web. Qui nousprouve que de tels rôles existent sur les sites d’actualité qui connaissentun turn-over important, ou même que le terme de communauté s’appliquepartout de la même manière ? L’une des perspectives de recherche, pro-fondément pluridisciplinaire car aussi bien informatique que sociologique,est de s’interroger sur la nature même de communauté, intimement liéeà la notion de rôles, et de chercher les conditions de son existence. Laprise en compte de la dimension temporelle pourrait être l’une des clefspermettant de répondre à ce type de questions.

Plus précisément, une autre perspective à notre travail concerne la dy-

Page 91: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

4.2. Détection de rôles dans les communautés en ligne 83

namique des discussions et l’influence du comportement de certains in-dividus. Ainsi, se donner comme objectif de prédire, même à très courtterme, la manière dont une discussion va évoluer, permet de contournerle verrou relatif à l’évaluation des rôles. L’idée est alors de développerdes modèles supervisés qui prédisent non pas le comportement particu-lier des individus dans leurs réponses aux messages des forums, maisplutôt la forme générale que peut prendre la conversation (s’agit-il d’unfil très court ou au contraire d’un fil enclin à se diversifier ?). Dans cecontexte, les comportements des individus seraient limités à un rôle utili-taire dans le sens où ils permettraient de mieux prédire l’évolution de laconversation, ce qui conduirait à développer des modèles d’apprentissagesemi-supervisé. Ces thématiques se trouvent au cœur de la thèse d’AlbertoLumbreras et elles sont détaillées dans la section 7.2.

Page 92: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 93: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

5Construction semi-supervisée

du vocabulaire

Sommaire

5.1 Construction du vocabulaire visuel . . . . . . . . . . . . . 87

5.1.1 Construire une représentation numérique de type « sac-de-caractéristiques » . . . . . . . . . . . . . . . . . . . . . . 88

5.1.2 Enrichir la sémantique d’une représentation numérique detype BoF en utilisant des connaissances externes . . . . . . 88

5.1.3 Evaluation des deux approches . . . . . . . . . . . . . . . . 91

5.2 Reconstruction du vocabulaire sémantique . . . . . . . . 94

5.2.1 Pourquoi construire un nouvel ensemble d’attributs ? . . . 95

5.2.2 Propositions : uFRINGE et uFC . . . . . . . . . . . . . . . . 96

5.2.3 Mesures d’évaluation et quelque résultats . . . . . . . . . . 99

Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . 102

Dans ce chapitre, je présente les travaux centrés sur la recherche d’unbon espace de représentation, notamment avec comme objectif de

réaliser une tâche de classification ultérieure. La première partie consisteà construire l’espace de représentation sur la base de descripteurs debas niveau décrivant des images (descripteurs SIFT). La deuxième par-tie consiste à redécrire une base d’images déjà étiquetées par des méta-données sémantiques en essayant de réduire la redondance de l’informa-tion qu’elles fournissent. Ces travaux se sont déroulés dans le cadre de lathèse de M.A. Rizoiu et ils ont donné lieu à deux publications :

Thèse de Marian-Andréi Rizoiu : Stéphane Lallich (directeur).

Publications : 2 revues internationales (Rizoiu et al. 2013; 2015).

85

Page 94: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 95: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

5.1. Construction du vocabulaire visuel 87

5.1 Construction du vocabulaire visuel

Cette première partie concerne l’utilisation de connaissances séman-tiques lors de l’analyse de données complexes. Nous nous intéres-

sons en particulier aux données de type image et, pour être plus précis,nous cherchons à construire une représentation numérique des imagesavec une sémantique enrichie. Cette approche s’inscrit clairement dans ladémarche d’enrichissement de la représentation des données afin d’aug-menter les possibilités d’analyse au-delà de l’utilisation de descripteursde bas niveau, tels que les pixels qui constituent les images. Elle participedonc à la palette des outils rendus possible grâce à la science des données,thème esquissé dans la section 2.2 de ce mémoire.

L’une des analyses ultérieures possibles correspond à la classificationsupervisée de ces images sur la base de leur contenu. C’est une tâche par-ticulièrement difficile, surtout parce que les caractéristiques de bas niveauutilisées pour décrire numériquement les images ne permettent générale-ment pas de capturer leur sémantique. Dans notre travail, nous choisissonsd’aborder ce problème en enrichissant la sémantique associée à la repré-sentation des images à l’aide de connaissances externes. L’hypothèse sous-jacente est que la création d’une représentation basée sur une sémantiqueenrichie permet d’obtenir des performances en apprentissage plus éle-vées, et ce sans qu’il soit nécessaire de modifier les algorithmes d’appren-tissage eux-mêmes. Pour tester notre hypothèse, nous appliquons notreproposition à la tâche de classification supervisée basée sur le contenu, etnous montrons que l’enrichissement sémantique de la représentation desimages améliore les performances en classification.

Le format habituel pour stocker des images sur un support informa-tique est une matrice composée de pixels. Or, ce genre de caractéristiquesde bas niveau apporte très peu d’information concernant le contenu sé-mantique de l’image. L’une des représentations qui présente des résul-tats très prometteurs est la représentation en « sac-de-caractéristiques »(en anglais bag-of-features ou BoF), inspirée de la représentation textuelle« sac-de-mots » que nous avons employée dans la section 3.1.1. Notre pro-position consiste à utiliser l’information experte, fournie sous la formed’annotations non positionnelles, afin d’améliorer la sémantique d’unereprésentation de type BoF. Nous introduisons cette information addi-tionnelle au niveau de la construction du vocabulaire visuel. Pour cela,nous proposons deux nouvelles contributions qui s’appuient sur des in-formations sémantiques externes et qui permettent au vocabulaire visuelde cerner plus précisément la sémantique qui peut être associée à unecollection d’images. La première proposition porte sur l’introduction del’information supplémentaire tôt dans la création du vocabulaire visuel,ce qui permet de construire un vocabulaire visuel dédié aux images anno-tées avec une classe donnée. Dans la deuxième proposition, nous ajoutonsune phase de filtrage comme prétraitement dans la construction du voca-bulaire visuel. L’idée est d’éliminer les points d’intérêt qui ont de faibleschances d’appartenir à un objet donné et d’augmenter ainsi la précisiondu processus de classification qui suit.

Page 96: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

88 Chapitre 5. Construction semi-supervisée du vocabulaire

5.1.1 Construire une représentation numérique de type « sac-de-caractéristiques »

Typiquement, la construction d’une représentation BoF est un processuscomposé de quatre phases, comme le montre la figure 5.1. A partir

d’une collection P contenant n images, le but est de plonger ces imagesdans un espace numérique dans lequel les algorithmes sont les plus effi-caces. Dans la phase 1, chaque image pi ∈ P est échantillonnée et li caracté-ristiques 1 sont extraites. Les techniques d’échantillonnage les plus popu-laires sont celles basées sur une grille dense (Fei-Fei et Perona 2005, Vogelet Schiele 2007) et des détecteurs de points d’intérêt (Csurka et al. 2004,Fei-Fei et Perona 2005, Sivic et al. 2005). Dans la phase 2, en utilisant undescripteur local, comme le SIFT (Lowe 2004) ou le SURF (Bay et al. 2006),chaque caractéristique est décrite à l’aide d’un vecteur à h dimensions 2.Par conséquent, après cette phase, chaque image pi est décrite numérique-ment par Vi ⊂ Rh, l’ensemble des vecteurs à h dimensions décrivant lescaractéristiques échantillonnées à partir de pi.

ImageSampling

FeatureDescription

Visual Vocabulary Construction

Assign Featuresto Visual Words

Image Dataset

“Bag-of-features”

representation

1 2 3 4

Figure 5.1 – Schéma de construction d’une représentation numérique de type « sac-de-caractéristiques » pour décrire des images (extrait de la thèse de M.A. Rizoiu (2013c)).

Ensuite, sur la base des caractéristiques extraites dans les phases anté-rieures, la phase 3 consiste à construire le vocabulaire visuel. La techniqueemployée est généralement un algorithme de type clustering. Le vocabu-laire visuel est une collection de M mots visuels ; ces mots sont décritsdans le même espace numérique que celui des caractéristiques visuelles etils servent de bases à l’espace numérique dans lequel les images sont plon-gées. Plus précisément, les centroïdes des clusters créés par l’algorithmede clustering servent de mots visuels. Dans la phase 4, chaque caractéris-tique échantillonnée est affectée à l’un de ces mots visuels. Par conséquent,chaque image est décrite comme une distribution sur les mots visuels enutilisant l’un des systèmes de pondération de termes inspirés de la fouillede textes (par exemple, TF, TF-IDF, etc.). La description numérique qui enrésulte peut ensuite être utilisée pour une indexation ou des tâches pluscomplexes comme la classification automatique.

5.1.2 Enrichir la sémantique d’une représentation numérique de typeBoF en utilisant des connaissances externes

A présent, je décris brièvement deux contributions réalisées dans lecadre de la thèse de M.A. Rizoiu sur ce sujet. Il s’agit de nouvelles

1. li dépend du contenu de l’image (nombre d’objets, forme, etc.) et de l’algorithmed’extraction utilisés. li peut varier de quelques centaines de caractéristique allant jusqu’àplusieurs dizaines de milliers.

2. par exemple, pour le descripteur SIFT h = 128.

Page 97: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

5.1. Construction du vocabulaire visuel 89

méthodes qui s’appuient sur des informations sémantiques externes, four-nies sous la forme d’étiquettes d’objet non positionnelles, afin d’enrichir lasémantique du vocabulaire visuel. Notre travail se situe dans un contextede faible supervision, similaire à celui défini par Zhang et al. (2007), oùchaque étiquette signale la présence d’un objet donné dans une imagemais pas sa position, ni sa forme ou sa taille. De plus, seule une fractionde l’ensemble des images est étiquetée et nous utilisons, tout à la fois, lesimages étiquetées et non étiquetées pour construire la représentation asso-ciée à une sémantique enrichie. Par conséquent, notre travail se positionneclairement dans un contexte semi-supervisé.

Pour chacune des étiquettes, nous construisons un vocabulaire visueldédié qui se base uniquement sur les images associées à une étiquette enparticulier. Il a été montré (Perronnin et al. 2006, Jianjia et Limin 2011)que ce type d’approche améliore la précision par rapport à un vocabulairegénéraliste. Cela est dû au fait que les vocabulaires spécialisés contiennentdes mots visuels capables de décrire de manière plus appropriée les ob-jets qui apparaissent dans la collection d’images. Pour notre deuxièmeapproche, nous améliorons encore la précision en proposant une phasede prétraitement qui filtre les caractéristiques visuelles susceptibles dene pas être associées à un objet donné. Cette proposition suit l’idée del’algorithme de reconnaissance d’objets proposé par Lowe (2004). On uti-lise en effet un ensemble d’exemples positifs et un ensemble d’exemplesnégatifs, construits chacun sur la base des informations d’étiquette. Leprétraitement de filtrage est finalement combiné avec la construction desvocabulaires visuels dédiés. Nos expériences montrent que cette approchepermet d’obtenir systématiquement un gain de précision, à la fois avec unvocabulaire spécialisé (sans filtrage) et avec un vocabulaire généraliste.

Construire un vocabulaire visuel dédié – L’idée qui se trouve derrièrel’utilisation d’une représentation de type BoF est que les mots visuels ontun pouvoir prédictif pour certains objets. La qualité des mots visuels (etleur pouvoir prédictif) peut être améliorée s’ils sont construits seulement àpartir des caractéristiques extraites de leurs objets respectifs. Cela permetd’éliminer les éléments caractéristiques du fond de l’image ou d’autresobjets. Dans un contexte de faible supervision, le contour des objets est in-connu ; mais pouvoir sélectionner uniquement les images qui contiennentun certain objet (information connue grâce à l’étiquette) augmente le rap-port entre le nombre de caractéristiques pertinentes et le bruit. Par consé-quent, les mots visuels construits de cette manière permettent d’obtenirdes descriptions plus précises pour les objets désignés par les étiquettes.C’est pourquoi nous proposons de construire un vocabulaire visuel dédiépour chaque étiquette ti ∈ T , c’est-à-dire généré à partir des caractéris-tiques extraites des images marquées avec l’étiquette ti.

Nous distribuons les m mots visuels de manière uniforme entre lesétiquettes et nous construisons k vocabulaires spécialisés, chacun conte-nant m/k mots visuels. Chaque vocabulaire dédié est créé en utilisant uneapproche BoF standard, comme expliqué dans la section 5.1.1. Pour uneétiquette donnée ti, nous créons Ci l’ensemble de toutes les caractéristiques

Page 98: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

90 Chapitre 5. Construction semi-supervisée du vocabulaire

extraites des images marquées avec ti, ce qui donne :

Ci =n1⋃

j=1yj,i=1

Vj (5.1)

où Vj est l’ensemble des caractéristiques extraites de l’image pj, n1 est lenombre total d’images étiquetées et yj,i est un indicateur binaire de la pré-sence ou de l’absence de l’objet j dans l’image pi. L’ensemble des motsvisuels qui en résulte est plus représentatif pour décrire l’objet désignépar l’étiquette ti. A la fin de l’algorithme, nous fusionnons les vocabu-laires spécialisés pour obtenir un vocabulaire visuel général unique. Cetteconstruction garantit que le vocabulaire visuel généré contient les motsvisuels représentatifs pour tous les objets annotés avec les étiquettes de T .

Filtrage des points d’intérêt – Dans cette partie, nous détaillons un mé-canisme de filtrage pour augmenter encore davantage le ratio entre les ca-ractéristiques pertinentes et le bruit. Nous l’appliquons comme une phasede prétraitement à la technique de construction des vocabulaires dédiésprésentée précédemment : nous filtrons ainsi les caractéristiques visuellesqui sont susceptibles de ne pas être reliées à l’objet en question. Étant don-née une image pi ∈ P1, nous construisons deux collections d’images auxi-liaires : l’ensemble des exemples positifs qui contient uniquement les imagesétiquetées de manière identique à pi, et l’ensemble des exemples négatifs quicontient les images qui ne partagent aucune annotation commune avecpi. Nous définissons alors KPpi comme l’ensemble des caractéristiqueséchantillonnées à partir des images qui se trouvent dans l’ensemble desexemples positifs et KNpi comme l’ensemble des caractéristiques extraitesde l’ensemble des exemples négatifs :

KPpi = { f+ ∈ Vj | ∀ tl ∈ T pour laquelle yi,l = 1 =⇒ yj,l = 1}KNpi = { f− ∈ Vj | ∀ tl ∈ T pour laquelle yi,l = 1 =⇒ yj,l = 0}

Prenons le cas d’une caractéristique visuelle extraite à partir de l’imagepi ( f ∈ Vi) qui est davantage similaire aux caractéristiques de l’ensembledes exemple négatifs ( f− ∈ KNpi ) qu’aux caractéristiques de l’ensembledes exemples positifs ( f+ ∈ KPpi ). Cette caractéristique a plus de chancesd’appartenir à l’arrière plan de l’image pi qu’à l’un des objets anno-tés dans l’image ; elle peut, par conséquent, être filtrée. Nous utilisonsla distance euclidienne pour mesurer la similarité entre deux caractéris-tiques visuelles, décrites numériquement à l’aide d’un descripteur SIFT :

|| f1 − f2|| =√

Σhi=1 ( f1,i − f2,i)

2. Formellement, pour une caractéristique fextraite à partir de l’image pi, nous avons :

f ∈ Vi est filtrée ⇔ @ f+ ∈ KPpi tel que || f − f+|| ≤ δ

avec δ = α× minf∈KNpi

|| f − f−|| (5.2)

où δ est un seuil de filtrage et α ∈ R+ est un paramètre qui permet derégler ce seuil de filtrage. Ces valeurs correspondent à la distance entre

Page 99: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

5.1. Construction du vocabulaire visuel 91

(a) (b)

(c)

Figure 5.2 – (a) Image avec l’annotation ‘moto’, (b) image appartenant à l’ensemble desexemples positifs et (c) image appartenant à l’ensemble des exemples négatifs (extrait dela thèse de M.A. Rizoiu (2013c)).

la caractéristique f et la caractéristique la plus proche provenant de l’en-semble des exemples négatifs. La caractéristique f est considérée commesimilaire à une caractéristique f+ ∈ KPpi de l’ensemble des exemples po-sitifs si et seulement si la distance || f − f+|| est plus petite que le seuil defiltrage. Par conséquent, une caractéristique f est filtrée quand elle n’a pasde caractéristique similaire dans l’ensemble des exemples positifs.

Prenons l’exemple d’une collection d’images représentées dans la fi-gure 5.2. Les images 5.2a et 5.2b sont étiquetées avec ‘moto’, tandis quel’image 5.2c est annotée avec ‘ville’. L’image cible 5.2a possède des bâ-timents en arrière plan et toutes les caractéristiques échantillonnées decette région ne seront pas pertinentes pour l’objet ‘moto’. L’image 5.2bfait office d’ensemble des exemples positifs (ensemble contenant ici uneunique image), tandis que 5.2c fait office d’ensemble des exemples né-gatifs. Prenons l’exemple de deux caractéristiques de l’image cible : f1,échantillonnée à partir de la roue de la moto (en vert), et f2, prélevée àpartir des bâtiments situés en arrière-plan (en rouge). Pour f1, il existeau moins une caractéristique similaire dans l’ensemble des exemples po-sitifs, tandis que f2 n’a pas de caractéristique similaire dans cet ensemble.En conséquence de quoi f2 est éliminée car elle n’est pas jugée pertinentepour l’objet ‘moto’.

5.1.3 Evaluation des deux approches

Protocole expérimental – Le but du protocole d’évaluation est de quan-tifier le gain de performance obtenu en enrichissant la sémantique d’unereprésentation des images de type « BoF baseline » (comme celui présentédans la section 5.1.1) et en utilisant des connaissances expertes. L’évalua-tion est réalisée dans le contexte d’une tâche d’apprentissage de classifi-

Page 100: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

92 Chapitre 5. Construction semi-supervisée du vocabulaire

cation supervisée des images basée sur le contenu. Pour chaque image,nous construisons plusieurs représentations numériques, correspondantchacune à une technique particulière. Ensuite, le même algorithme de clas-sification, utilisant les mêmes paramètres, est appliqué sur chacune de cesreprésentations. La différence constatée dans les performances est alorsimputée à la pertinence des représentations.

Construction de représentations numériques – Nous construisonschaque représentation numérique en suivant le processus présenté dansla figure 5.1 p.88. Les phases 1, 2 et 4 sont identiques pour chaque repré-sentation. Dans la phase 1, nous extrayons les caractéristiques visuelles enutilisant un détecteur de régions Hessian-Affines et chaque caractéristiqueest décrite dans la phase 2 à l’aide de descripteurs SIFT. La phase 3 diffèresuivant la représentation employée : le vocabulaire visuel est construit soit(a) en utilisant des caractéristiques tirées au hasard (cas appelé random),(b) à l’aide d’un algorithme simple de clustering (méthode « baseline »random+km), (c) avec notre proposition de construction des vocabulairesvisuels dédiés (appelé model), ou (d) avec nos propositions de filtrage etde construction du vocabulaire visuel dédié (appelé filt+model). Dans laphase 4, chaque caractéristique visuelle est associée à un mot visuel ; lareprésentation BoF est construite et nous appliquons ensuite un classifieurSVM (Cortes et Vapnik 1995) ou un classifieur à base de clustering pourclasser les images sur la base de leur contenu.

Jeux de données – Nous évaluons nos propositions sur troisbases d’images issues de la littérature : Caltech101 (Fei-Fei et al.2007), RandCaltech101 (Kinnunen et al. 2010) et Caltech101-3.RandCaltech101 est une version de Caltech101 dans laquelle l’arrièreplan de chaque image et l’orientation des objets plan ont été modifiésau hasard afin de rendre la classification plus difficile. Nous avons crééCaltech101-3 en conservant uniquement les 3 classes les plus impor-tantes de Caltech101 et ce, afin d’éliminer le déséquilibre présent dansle jeu de données initial.

Figure 5.3 – Exemples d’images appartenant aux classes « faciles à apprendre » (rangéedu haut) et des classes « difficiles à apprendre » (rangée du bas) (extrait de la thèse deM.A. Rizoiu (2013c)).

Evaluation qualitative – Dans une tâche de classification, certainesclasses sont naturellement plus faciles à apprendre que d’autres. Dansla figure 5.3, nous présentons des exemples d’images appartenant aux

Page 101: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

5.1. Construction du vocabulaire visuel 93

Table 5.1 – Des classes « faciles à apprendre » et des classes « difficiles à apprendre » surCaltech101 et RandCaltech101 (extrait de la thèse de M.A. Rizoiu (2013c)).

classes « faciles » classes « difficiles »Caltech101 RandCaltech101 Caltech101 RandCaltech101

airplanes accordion beaver basscar_side airplanes buddha binocular

dalmatian car_side butterfly brontosaurusdollar_bill dalmatian ceiling_fan buddhaFaces_easy dollar_bill cougar_body butterfly

garfield Faces_easy crab crabgrand_piano garfield crayfish crayfish

Leopards laptop cup crocodilemetronome Motorbikes dragonfly cupMotorbikes panda ewer dragonfly

panda snoopy ferry ewerscissors soccer_ball flamingo flamingosnoopy stop_sign flamingo_head flamingo_head

soccer_ball watch ibis gerenukstop_sign windsor_chair kangaroo helicopter

tick yin_yang lamp ibiswatch lobster kangaroo

windsor_chair mandolin lampyin_yang mayfly lobster

minaret mandolinpigeon mayfly

platypus metronomepyramid minaret

rhino okapisaxophone pigeonschooner platypussea_horse saxophone

stapler sea_horsestrawberry stapler

wild_cat wrenchwrench

classes « faciles à apprendre » (une bonne précision est obtenue en classi-fication) et de classes « difficiles à apprendre » (on obtient une précisionplus basse). Les objets appartiennent à la classe facile soit parce qu’ils ap-paraissent toujours dans la même posture (p. ex. airplanes, garfield), soitparce qu’ils ont un motif de couleur facile à reconnaître (p. ex. yin_yang,soccer_ball ou dalmatian).

Le tableau 5.1 montre des classes faciles et difficiles à apprendre pourCaltech101 et RandCaltech101 en soulignant les classes différentesen gras. Nous observons que la plupart des classes n’ont pas changéde difficulté malgré les modifications réalisées dans RandCaltech101.Cela montre que, tout en rendant les images plus difficiles à discriminer,RandCaltech101 ne change pas fondamentalement la difficulté relativeentre les classes.

Evaluation quantitative – Du point de vue quantitatif, nous avons faitvarier les différents paramètres de nos algorithmes et nous avons comparéles résultats en terme de précision, Fscore et True Positive Rate. La figure 5.4

Page 102: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

94 Chapitre 5. Construction semi-supervisée du vocabulaire

0.08

0.09

0.1

0.11

0.12

0.13

0.14

0.15

0.16

0.17

100 200 300 500 700 1000 2300 3300 5300

FS

co

re v

alu

e

Visual vocabulary size (log)

FScore for different vocabulary creation techniques

modelfilt+model

random+kmrandom

(a)

0.06

0.07

0.08

0.09

0.1

0.11

0.12

100 200 300 500 700 1000 2300 3300 5300

FS

co

re v

alu

e

Visual vocabulary size (log)

FScore for different vocabulary creation techniques

modelfilt+model

random+kmrandom

(b)

Figure 5.4 – Fscoreobtenu par le classifieur à base de clustering sur Caltech101 (a)et sur RandCaltech101 (b) (extrait de la thèse de M.A. Rizoiu (2013c)).

présente les résultats que nous avons obtenus dans nos expériences surCaltech101 (figure 5.4a) et sur RandCaltech101 (figure 5.4b). Nousobservons que nos propositions obtiennent constamment de meilleurs ré-sultats en terme de Fscore que l’approche « baseline ». Cela montre que lefait d’introduire un peu de sémantique dans la représentation des imagesrend la représentation plus adaptée pour décrire les images, et permetdonc d’améliorer les résultats d’un algorithme de classification sans avoirbesoin de changer l’algorithme lui-même. Une discussion plus détailléese trouve dans la thèse de Marian-Andréi Rizoiu (2013c). Ces travaux ontdonné lieu à une publication dans la revue IDA (Rizoiu et al. 2015).

5.2 Reconstruction du vocabulaire sémantique

Comme cela a été montré lors de l’introduction de ce mémoire, l’une desproblématiques abordées dans mes recherches consiste à travailler sur

la représentation de l’information et son possible enrichissement. Contrai-rement aux autres contributions qui tiraient parti du contenu, soit desdonnées textuelles (voir sections 3.1 et 3.2), soit des données image (voirsection 5.1 précédente), le travail présenté dans cette section manipule l’in-formation sémantique constituée par des descripteurs étiquetant les don-nées. L’opération de redescription des images effectuée sur la base des cor-rélations entre ces méta-données constitue à mes yeux une manière d’en-richir l’information issue de certains médias sociaux. Cet enrichissementparticipe à la palette des techniques proposées par la science des donnéepour l’analyse du Web, thème qui a été esquissé dans la section 2.2.

Dans le contexte de l’apprentissage automatique, pour qu’un attributdécrivant une observation soit utile, celui-ci doit apporter des informa-tions nouvelles par rapport aux autres attributs. Les attributs corrélésn’apportent donc pas d’information mais leur co-occurrence est souventle résultat d’une relation sémantique entre ceux-ci. Par conséquent, notretravail concernant la reconstruction de la représentation des données adeux missions : (a) améliorer l’espace de représentation en enlevant lescorrélations entre les attributs et (b) découvrir des liens sémantiques entreces derniers en analysant les co-occurrences dans les données. Pour ré-

Page 103: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

5.2. Reconstruction du vocabulaire sémantique 95

Figure 5.5 – Exemples d’images annotées avec des attributs de l’ensemble {groupes,route, batiment, interieur} (extrait de la thèse de M.A. Rizoiu (2013c)).

pondre à ces défis, nous proposons un nouvel algorithme non supervisé,uFC, qui améliore l’espace de représentation en réduisant la corrélationtotale entre les attributs, tout en découvrant les liens sémantiques entreces derniers en construisant de nouveaux attributs. Les paires d’attributsinitiaux affichant une forte corrélation sont remplacées par des conjonc-tions booléennes et les co-occurrences sémantiquement présentes dans lejeu de données initial sont mises en évidence.

5.2.1 Pourquoi construire un nouvel ensemble d’attributs ?

Un attribut pj qui est hautement corrélé avec un autre attribut pi n’ap-porte aucune information nouvelle puisque la valeur de pj peut être

déduite de celle de pi. Par conséquent, nous pouvons filtrer ces attributsjugés comme non pertinents avant d’appliquer un algorithme de classifica-tion. Mais si on supprime simplement certains attributs, on court le risquede perdre de l’information sur les liens sémantiques entre ces derniers ;c’est la raison pour laquelle nous avons choisi de construire de nouveauxattributs au lieu de simplement filtrer ceux corrélés.

Nous avons choisi de travailler sur des données décrites par des attri-buts booléens qui expriment la présence (valeur vrai) ou l’absence (valeurfaux) d’un objet dans une image. Avec de tels objets (p. ex. ‘eau’, ‘cas-cade’, ‘manifestation’, ‘urbain’, ‘groupes’ et ‘intérieur’), une partie de lastructure sémantique de l’ensemble des attributs peut être devinée faci-lement. En effet, les relations de type “c’est un” ou “partie de” sont in-tuitives car elles dérivent d’une structuration taxonomique des objets : lacascade “est un” type d’eau, la patte est une “partie de” animal, etc. Maiscertaines relations peuvent être induites de la sémantique même des don-nées (les images dans notre exemple). Par exemple, on peut y observerune co-occurrence entre ‘manifestation’ et ‘urbain’ car les manifestationsont généralement lieu dans la ville. La figure 5.5 montre un jeu de don-nées d’images décrites en utilisant les attributs { groupes, route, bâtiment,intérieur }. Certains attributs peuvent sembler redondants voire non in-formatifs (p. ex. l’attribut ‘groupes’ est présent pour tous les individus).

Page 104: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

96 Chapitre 5. Construction semi-supervisée du vocabulaire

Compte tenu de ces co-occurrences entre les attributs, nous pourrions encréer de nouveaux plus éloquents tels que “personnes à l’intérieur et nonsur la route” (groupes ∧¬ route ∧ intérieur, décrivant la rangée du haut)et “personnes sur la route avec des bâtiments sur le fond” (groupes ∧route ∧ bâtiment, décrivant la rangée du bas). Notre idée consiste à créerun ensemble d’attributs qui dépendent des données, de telle sorte que lesnouveaux présentent un faible taux de co-occurrence.

5.2.2 Propositions : uFRINGE et uFC

Pour améliorer les résultat des algorithmes d’apprentissage automatique,des approches existent dans la littérature (comme par exemple le truc dunoyau dans les SVM (Cortes et Vapnik 1995)) qui traitent le problèmedes attributs non tout à fait adéquats en modifiant l’espace de descrip-tion. Le principal inconvénient de ces approches est qu’elles fonctionnentcomme une boîte noire, où le nouvel espace de représentation est soitcaché (pour les SVM), soit totalement synthétique et difficilement compré-hensible pour l’utilisateur humain (cas de l’ACP). La littérature proposeégalement des algorithmes qui construisent des nouveaux attributs ba-sés sur des primitives. Mais, à notre connaissance, tous ces algorithmesconstruisent un nouvel espace de représentation d’une manière supervi-sée, c’est-à-dire en utilisant l’information de classe fournie avec les don-nées.

Par rapport aux solutions existant dans la littérature, celles que nousproposons ont deux avantages : en plus de construire un espace de repré-sentation dans lequel les variables co-occurrent moins, (a) elles produisentde nouveaux attributs compréhensibles pour l’utilisateur humain et (b)elles fonctionnent sans exemple pré-classé en adoptant une approche nonsupervisée. Le premier algorithme que nous proposons est une adapta-tion d’un algorithme supervisé. Pour le deuxième algorithme, nous avonsdéveloppé une nouvelle heuristique qui choisit, à chaque itération, despaires d’attributs fortement corrélés et qui les remplace par des conjonc-tions de littéraux. Comme résultat, la redondance globale de l’ensembledes attributs est réduite. Les itérations ultérieures créent des formules boo-léennes plus complexes, pouvant contenir des négations. Nous utilisonsdes techniques statistiques (tests d’hypothèses) pour déterminer automa-tiquement la valeur des paramètres en fonction de l’ensemble de données,avant d’évaluer notre approche à l’aide d’une méthode inspirée du frontdu Pareto (Sawaragi et al. 1985).

uFRINGE – Nous proposons uFRINGE, une version non supervisée deFRINGE proposée par Pagallo et Haussler (1990), algorithme qui construitdes nouveaux attributs en utilisant la sortie d’un algorithme d’arbre de dé-cision, comme ID3 (Quinlan 1986) ou C4.5 (Quinlan 1993). Pour rendreFRINGE non supervisé, nous remplaçons l’algorithme d’induction desarbres de décision par un algorithme non supervisé qui construit desarbres de clustering (Blockeel et al. 1998).

Cependant, uFRINGE a quelques inconvénients ; en particulier, les at-tributs construits ont tendance à être redondants. Les attributs nouvelle-ment construits sont ajoutés à l’ensemble des attributs et sont utilisés dans

Page 105: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

5.2. Reconstruction du vocabulaire sémantique 97

f2

f3

f5

f4

f1

(a)

f1^f

2

f1^f

2

f4

f5

f1^f

2f3

(b)

f1^f

2^f

3(f

1^f

2)^f

3

f4

f5

f1^f

2

f1^f

2

(c)

Figure 5.6 – Représentation graphique du processus de construction des nouveaux attri-buts en utilisant des diagrammes de Venn. (a) Iter. 0 : variables initiales (les primitives),(b) Iter. 1 : combinaisons de f1 et f2 and (c) Iter. 2 : Combinaisons de f1 ∧ f2 et f3 (extraitde la thèse de M.A. Rizoiu (2013c)).

les itérations ultérieures à côté des anciennes variables. Ces dernières nesont jamais retirées de l’ensemble des attributs et peuvent être combinéesà plusieurs reprises, ce qui entraîne l’apparition de doublons dans l’en-semble. C’est pour répondre à ces problèmes que je décris à présent uneautre méthode intitulée uFC.

uFC, une heuristique gloutonne – Nous dépassons les limitationsd’uFRINGE en proposant un deuxième algorithme innovant appelé uFC.Notre approche réduit la corrélation globale entre les attributs en rempla-çant, d’une façon itérative, les paires d’attributs fortement corrélés par desconjonctions de littéraux. Nous utilisons une stratégie de recherche glou-tonne afin d’identifier les variables qui sont fortement corrélées entre elleset, par la suite, nous utilisons un opérateur de construction pour créerde nouveaux attributs. A partir de deux attributs corrélés fi et f j, nouscréons trois nouvelles variables : fi ∧ f j, fi ∧ f j et fi ∧ f j. Ensuite, fi et f jsont tous deux retirés de l’ensemble des attributs. L’algorithme s’arrêtelorsqu’il n’y a plus de nouvelles variables créées ou lorsqu’il a effectué unnombre maximum d’itérations fixé à l’avance.

La figure 5.6 illustre visuellement, à l’aide de diagrammes de Venn,comment l’algorithme remplace les anciennes variables par de nouvellesvariables. Les attributs sont représentés par des rectangles, chacun conte-nant les individus ayant un certain nombre d’attributs avec la valeur vrai.Naturellement, les individus situés à l’intersection de deux rectangles ontles deux attributs fixés à vrai. La figure 5.6a montre la configuration ini-

Page 106: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

98 Chapitre 5. Construction semi-supervisée du vocabulaire

tiale de l’ensemble des attributs : f1 et f2 ont une grande intersection, cequi signifie qu’ils apparaissent souvent ensemble. Au contraire, f2 et f5 enont une petite, ce qui suggère que leur co-occurrence est inférieure à celledue au hasard (corrélation négative). f3 est inclus dans l’intersection de f1et f2, tandis que f4 n’a pas d’élément en commun avec les autres ( f4 estincompatible avec tous les autres attributs). Le but de l’algorithme est deconstruire un nouvel ensemble d’attributs, pour lequel il n’y a pas d’in-tersection entre les diagrammes de Venn correspondants. A la premièreitération (cf. figure 5.6b), f1 et f2 sont combinés et 3 nouvelles variablessont créées : f1 ∧ f2, f1 ∧ f2 et f1 ∧ f2. Ces nouvelles variables vont rem-placer les attributs originaux f1 et f2. Lors de la deuxième itération (cf. fi-gure 5.6c), f1 ∧ f2 est combiné avec f3. Comme f3 est contenu dans f1 ∧ f2,la variable f1 ∧ f2 ∧ f3 aura un support égal à zéro et elles sera suppri-mée. Notez que f2 et f5 ne sont jamais combinés car ils sont considéréscomme non corrélés. Le nouvel ensemble d’attributs sera donc le suivant :{ f1 ∧ f2, f1 ∧ f2 ∧ f3, f1 ∧ f2 ∧ f3, f1 ∧ f2, f4, f5}.

Chercher les paires d’attributs corrélés – Pour trouver les paires corré-lées, l’algorithme effectue une énumération intelligente de toutes les paires( fi, f j) ∈ F× F. Afin de mesurer la corrélation entre deux variables, nousutilisons le coefficient de corrélation de Pearson (r), mesure classique pourévaluer la dépendance linéaire entre deux attributs. Cette mesure prendses valeurs entre -1 et 1 ; une valeur de 0 indique une absence de corré-lation linéaire entre les deux variables. Quand la corrélation d’une pairede variables est supérieure à un certain seuil λ, les deux attributs sont ju-gés comme corrélés et ils sont ajoutés à l’ensemble des paires corrélées O.Formellement, nous avons :

O ={( fi, f j) ∈ F× F, i 6= j

∣∣ r(( fi, f j)) > λ}

(5.3)

où le paramètre λ sert à régler le nombre des paires sélectionnées. Nousproposons, dans le paragraphe suivant, une méthode basée sur un testd’hypothèse statistique afin de déterminer automatiquement la meilleurevaleur pour λ.

Construction et filtrage des attributs – Après avoir construit l’ensembleO de paires corrélées, on les parcourt toutes en suivant l’ordre décrois-sant du score de corrélation. A partir d’une paire ( fi, f j), nous construi-sons trois nouveaux attributs : fi ∧ f j, fi ∧ f j et fi ∧ f j. Ces nouveaux attri-buts sont garantis, par construction, d’être corrélés négativement. fi et f jpeuvent être soit des attributs initiaux, soit des attributs plus complexesconstruits lors des itérations précédentes. Chaque itération construit desattributs à l’aide d’opérateurs très simples (conjonction de deux littéraux).Cependant, des attributs complexes et plus riches d’un point de vue sé-mantique apparaissent au fil des itérations.

Après avoir construit les nouveaux attributs, nous enlevons de l’en-semble O la paire ( fi, f j) et toutes les autres paires contenant fi ou f j. A lafin de chaque itération, nous filtrons l’ensemble des attributs construitspour enlever : (a) les attributs qui ont un support de zéro (ceux quiprennent la valeur faux pour tous les exemples), et (b) les attributs qui

Page 107: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

5.2. Reconstruction du vocabulaire sémantique 99

ont participé à la construction des nouveaux attributs (les nouveaux rem-placent les anciens). Autrement dit :

{ fi, f j ∈ F|( fi, f j) ∈ O} remplacé par−−−−−−−→ { fi ∧ f j, fi ∧ f j, fi ∧ f j} (5.4)

Choix automatique du paramètre λ – Le paramètre λ, introduit dansl’équation 5.3, est très dépendant du jeu de données considéré et diffi-cile à déterminer de manière générale. Nous proposons de le supprimeren introduisant une technique qui choisit seulement les paires d’attributspour lesquelles la corrélation est jugée significative d’un point de vue sta-tistique. Nous utilisons pour chaque paire d’attributs candidate une mé-thode statistique, le test d’hypothèse, où nous confrontons l’hypothèsed’indépendance H0 à l’hypothèse de corrélation positive H1. Pour effec-tuer le test statistique, nous choisissons d’utiliser le coefficient de corréla-tion de Pearson. Formellement, nous testons les hypothèses H0 : ρ = 0 etH1 : ρ > 0, où ρ est le coefficient théorique de corrélation entre les deuxattributs candidats. On peut montrer que, dans le cas d’attributs booléens,la valeur observée du χ2 d’indépendance est χ2

obs = n× r2 (n est la tailledu jeu de données). Par conséquent, en considérant comme vraie l’hypo-thèse H0, n × r2 suit approximativement une distribution du χ2 avec undegré de liberté (n× r2 ∼ χ2

1). Comme résultat r√

n suit une distributionnormale (r

√n ∼ N(0, 1)).

En conséquence, nous rejetons l’hypothèse H0 en faveur de l’hypothèseH1 si et seulement si r

√n ≥ u1−α, où u1−α est la valeur critique à droite

de la distribution normale. Les deux attributs candidats sont considéréscomme significativement corrélés quand r( fi, f j) ≥ u1−α√

n . Le niveau de si-gnificativité α représente le risque de rejeter l’hypothèse d’indépendanceH0 alors qu’elle était vraie en réalité.

5.2.3 Mesures d’évaluation et quelque résultats

Corrélation totale d’un ensemble d’attributs – Afin d’évaluer la corré-lation totale d’un ensemble d’attributs, valeur que l’on souhaite minime,nous proposons une mesure inspirée de la formule de Poincaré (Feller1950). Dans sa forme booléenne, cette formule est utilisée pour calculerla cardinalité d’une réunion finie d’ensembles finis, et cela en fonction dunombre d’éléments de ces ensembles et de leurs intersections. Étant donnéun ensemble d’attributs F = { f1, f2, ..., fm}, sa formulation généralisée estcomme suit :

p( f1 ∨ f2 ∨ ...∨ fm) =m

∑k=1

((−1)k−1 ∑

1≤i1<...<ik≤mp( fi1 ∧ fi2 ∧ ...∧ fik)

)(5.5)

En nous basant sur cette formule, nous proposons l’indice de recouvre-ment (OI pour Overlapping Index) comme suit :

OI(F) = ∑mi=1 p( fi)− 1

m− 1(5.6)

où OI(F) ∈ [0, 1] doit être minimisé.

Page 108: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

100 Chapitre 5. Construction semi-supervisée du vocabulaire

Complexité d’un ensemble d’attributs – Souvent, réduire la corréla-tion totale d’un ensemble d’attributs revient à augmenter la taille decet ensemble. Si l’on considère que la paire ( fi, f j) est corrélée, à l’ex-ception du cas où fi ⊇ f j ou fi ⊆ f j, alors l’algorithme remplacera{ fi, f j} par { fi ∧ f j, fi ∧ f j, fi ∧ f j} en augmentant le nombre total des at-tributs. Comme le nombre maximal des attributs pouvant être construitsest limité par le nombre des individus qui composent le jeu de données(|F| ≤ unique(I) ≤ |I|), nous proposons la mesure suivante pour évaluerla complexité d’un ensemble d’attributs :

C0(F) =|F| − |P|

unique(I)− |P| (5.7)

où P est l’ensemble des attributs dits primitifs (ceux initiaux) et unique(I)correspond aux nombre de descriptions uniques observées dans les don-nées. C0(F) ∈ [0, 1] doit être minimisé.

Recherche d’un compromis entre deux critères opposés – La corréla-tion totale d’un ensemble de données (mesurée par OI) et sa complexité(mesurée par C0) sont associées à des critères opposés qu’il n’est pas pos-sible d’optimiser simultanément. Obtenir un compromis entre des critèresopposés est un problème classique dans le domaine de l’optimisation mul-ticritère. Nous choisissons d’utiliser le concept d’optimalité de Pareto (Sa-waragi et al. 1985) afin de déterminer notre solution. Une solution estconsidérée comme Pareto optimale si et seulement s’il n’existe pas uneautre solution avec à la fois un meilleur score de corrélation et un meilleurscore de complexité. L’ensemble des solutions Pareto optimales formentle front de Pareto.

En pratique, nous faisons varier les paramètres du système et nousplongeons les solutions obtenues dans le plan défini par OI et C0. Ensuite,nous utilisons deux heuristiques afin de choisir la solution optimale : (a)heuristique dite du “point le plus proche”, où nous choisissons sur le frontde Pareto la solution la plus proche du point idéal déterminé par les coor-données (0; 0) ; (b) heuristique “basée sur le risque”, où nous combinons laméthode pour choisir la valeur du paramètre λ avec une condition d’arrêtfixée sur le nombre d’itérations : les mesures OI et C0 sont combinées dansun seul indicateur en utilisant la moyenne quadratique, avant d’itérer tantque la valeur de cette moyenne quadratique continue à diminuer.

Evaluation quantitative Le tableau 5.2 p.101 montre une comparaisonquantitative entre les deux heuristiques proposées ci-dessus. Nous utili-sons un risque de 0,001 pour le jeux de données hungarian et 0,0001

pour spect et street (à cause de la dimension du jeu de données). Onconstate tout d’abord que les deux algorithmes ont le comportement sou-haité, à savoir réduire la redondance au prix d’un vocabulaire un peu pluscomplexe. Ensuite, les ensembles d’attributs construits par les deux heu-ristiques sont très similaires ; non seulement les différences pour l’OI, leC0, la longueur moyenne des attributs et la dimension de l’ensemble de cesderniers sont négligeables mais la plupart de ceux créés sont identiques.Pour hungarian, 19 attributs des 21 créés par les heuristiques sont iden-tiques. Cela montre que l’heuristique “basée sur le risque” arrive à des

Page 109: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

5.2. Reconstruction du vocabulaire sémantique 101

Table 5.2 – Heuristiques dites “point le plus proche” et “basée sur le risque” (extrait dela thèse de M.A. Rizoiu (2013c)).

Strategy λ limititer # f eat #common length OI C0hung. Primitives - - 13 - 1.00 0.235 0.000

uFC*(0.194, 2) 0.194 2 21

19

2.95 0.076 0.069

uFCα(0.001) 0.190 2 22 3.18 0.071 0.078

street Primitives - - 66 - 1.00 0.121 0.000

uFC*(0.446, 3) 0.446 3 87

33

2.14 0.062 0.038

uFCα(0.0001) 0.150 1 90 1.84 0.060 0.060

spect Primitives - - 22 - 1.00 0.279 0.000

uFC*(0.432, 3) 0.432 3 36

19

2.83 0.086 0.071

uFCα(0.0001) 0.228 2 39 2.97 0.078 0.086

Table 5.3 – Ensemble des attributs construits par uFC avec les heuristiques « point leplus proche » et « basée sur le risque » (extrait de la thèse de M.A. Rizoiu (2013c)).

primitives uFC*(0.194, 2) uFCα(0.001)

person groups ∧ road ∧ interior groups ∧ road ∧ interiorgroups groups ∧ road ∧ interior groups ∧ road ∧ interiorwater groups ∧ road ∧ interior groups ∧ road ∧ interiorcascade water ∧ cascade ∧ tree ∧ f orest water ∧ cascade ∧ tree ∧ f orestsky water ∧ cascade ∧ tree ∧ f orest water ∧ cascade ∧ tree ∧ f oresttree water ∧ cascade ∧ tree ∧ f orest water ∧ cascade ∧ tree ∧ f orestgrass sky ∧ building ∧ tree ∧ f orest sky ∧ building ∧ tree ∧ f orestf orest sky ∧ building ∧ tree ∧ f orest sky ∧ building ∧ tree ∧ f oreststatue sky ∧ building ∧ tree ∧ f orest sky ∧ building ∧ tree ∧ f orestbuilding sky ∧ building ∧ panorama sky ∧ building ∧ panoramaroad sky ∧ building ∧ panorama sky ∧ building ∧ panoramainterior sky ∧ building ∧ panorama sky ∧ building ∧ panoramapanorama groups ∧ road ∧ person groups ∧ road ∧ person

groups ∧ road ∧ person groups ∧ road ∧ persongroups ∧ road ∧ person groups ∧ road ∧ personwater ∧ cascade sky ∧ building ∧ groups ∧ roadsky ∧ building sky ∧ building ∧ groups ∧ roadtree ∧ f orest sky ∧ building ∧ groups ∧ roadgroups ∧ road water ∧ cascadegrass tree ∧ f oreststatue grass

statue

résultats très similaires à ceux créés avec le “point le plus proche”, sansavoir besoin de faire varier les paramètres et de ré-exécuter l’algorithmeuFC un grand nombre de fois. C’est précisément l’effet recherché et celapermet de gagner un temps considérable dans l’exécution.

Evaluation qualitative – Dans le tableau 5.3, nous montrons l’ensembledes attributs qui peuvent être construits avec notre proposition à par-

Page 110: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

102 Chapitre 5. Construction semi-supervisée du vocabulaire

tir d’un ensemble de primitives. uFC*(0.194, 2) représente l’exécution denotre algorithme avec les paramètres choisis en utilisant l’heuristique du“point le plus proche” et uFCα(0.001) est l’exécution avec l’heuristique“basée sur le risque” et un risque de 0,001. Nous avons mis en gras lesattributs qui différent entre les deux exécutions. On peut se convaincre,images à l’appui, que les descripteurs construits présentent une séman-tique plus riche que celle portée par les primitives. Là encore, une dis-cussion plus avancée est menée dans la thèse de Marian-Andréi Rizoiu(2013c) et j’invite le lecteur à s’y reporter. Ces travaux ont donné lieu àune publication dans la revue JIIS (Rizoiu et al. 2013).

Conclusion du chapitre

Les travaux présentés dans ce chapitre nous ont permis de travailler surdes descripteurs d’images, qu’ils soient de bas niveau (descripteurs

SIFT dans la section 5.1) ou davantage sémantiques car attribués par desêtres humains (attributs dans la section 5.2). On cherche, dans les deux cas,à trouver le meilleur espace de représentation des images, qu’il s’agisseuniquement d’optimiser une tâche ultérieure de classification ou de trou-ver une description qui peut s’avérer utile au spécialiste du domaine étu-dié. Bien que ces travaux puissent sembler bien différents de ceux deschapitres précédents, je pense qu’ils participent à l’effort de traiter le casde données de différentes natures, c’est-à-dire de tendre vers le traitementde données complexes. Il paraît clair aujourd’hui que l’analyse des don-nées issues du Web, mais aussi des autres grands gisements de donnéestels que les fonds documentaires ou historiques, doit être en mesure detraiter à la fois de contenus textuels et de contenus d’autres natures, tellesque des images ou des étiquettes sémantiques attribuées par des humains.Ce travail entrepris à l’occasion de la thèse de Marian-Andréi Rizoiu avaitpour objectif initial la structuration de documents historiques comportanttous ces types de données à la fois (textes, images, attributs). La struc-turation est alors vue comme un processus de clustering semi-supervisé,c’est-à-dire un processus qui tire profit des régularités observées dans lesdonnées et de connaissances apportées par les spécialistes (ici les histo-riens). De nombreuses perspectives de travail subsistent.

La première perspective qui s’impose consiste à combiner les descrip-teurs de bas niveau et ceux issus des attributs avec des descripteurs as-sociés au contenu textuel (par exemple les thématiques qui constituent lecœur du chapitre 3) dans le but d’aider à structurer les collections de docu-ments historiques, telles celles manipulées par les historiens du LARHRA.Cet objectif à long terme est un pas de plus vers une meilleure indexationdes données de notre patrimoine, effort qui s’inscrit clairement dans lesgrandes orientations prises par les humanités numériques. Une autre pers-pective, plus prosaïque, consiste à améliorer l’algorithme de constructiond’attributs afin qu’il prenne en compte la dimension temporelle en plusde la sémantique du jeu de données. Cette prise en compte peut se faireen étendant la corrélation de deux valeurs à une fenêtre temporelle, ce quiouvre un champ d’investigation intéressant avec des liens vers les modèlestemporels abordés dans les chapitres précédents. Enfin, l’information is-

Page 111: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

5.2. Reconstruction du vocabulaire sémantique 103

sue des attributs étiquetant nos images est considérée comme complète, cequi signifie que l’absence d’une valeur est équivalente à sa négation. Or,ce n’est clairement pas le cas pour les tags attribués par des internautesdans un contexte de crowd sourcing. Une autre perspective serait alors demodifier notre approche afin de prendre en considération cette nouvellecontrainte. Cela ouvrirait évidemment des horizons riches en nouveauxjeux de données afin de tester la pertinence de notre approche.

Page 112: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 113: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

6Implication dans des projets

de recherche

Sommaire

6.1 Analyse des conversations en ligne . . . . . . . . . . . . . . 107

6.2 Projet Imagiweb . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . 113

Dans ce chapitre, je présente différents projets de recherche dans les-quels je me suis investi ces dernières années. Je réserve une attention

particulière au projet ImagiWeb car il occupe une place importante dansmon activité scientifique. Ces projets ont donné lieu à des publicationsplus appliquées, telles que :

Publications : 1 conférence internationale (Velcin et al. 2014a), 1 revuenationale (Velcin et al. 2014b).

105

Page 114: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 115: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

6.1. Analyse des conversations en ligne 107

6.1 Analyse des conversations en ligne

Cette partie récapitule l’ensemble des projets dans lesquels je me suisinvesti ces dernières années sur l’analyse des conversations en ligne.

Ce travail a débuté à l’occasion de la thèse d’Anna Stavrianou (2010) etde l’incubation d’une jeune start-up dans le cadre du projet Converses-sion. Il a permis de se familiariser avec le type de données que constituentles forums de discussion et avec les problématiques afférentes : analysede la structure (graphe de réponses, citations), analyse du contenu textuel(fouille de textes et d’opinion), prise en compte du réseau social sous-jacent (rôles, communautés). La thèse de Mathilde Forestier (2012), bienque n’étant pas directement associée au projet, a profité de l’expérience ac-cumulée et de l’infrastructure logicielle mise en place. Dans la continuité,un projet sur l’analyse des controverses, en partenariat avec le laboratoireELICO, a été financé par le Bonus Qualité Recherche (BQR) de l’Univer-sité Lyon 2. Il a notamment permis d’avancer sur les problématiques del’extraction et du nommage des thématiques avec les stages de Marian-Andréi Rizoiu et Claudiu Musat. Enfin, un nouveau projet a été financépar le BQR de l’Université sur l’analyse du vocabulaire, en partenariatavec le laboratoire CRTT. Il a permis d’acquérir un serveur appelé Me-diaMining sur lequel ont été portées les différentes réalisations logiciellesproduites durant ces projets. Ce serveur propose notamment le logicielCommentWatcher qui permet d’extraire automatiquement des forums dediscussions à partir de sites Web et d’y appliquer des outils de fouille dedonnées, tels que l’extraction de thématiques et leur visualisation au fildu temps. Pour terminer ce tour d’horizon, le partenariat avec l’entrepriseTechnicolor et la thèse d’Alberto Lumbreras se situent dans la droite lignede ces travaux puisqu’ils visent à analyser les rôles et leur dynamiquedans les communautés virtuelles.

Je donne à présent quelques détails sur les différents projets que jeviens rapidement d’évoquer.

Projet Conversession (2007-2009) – Le projet Conversession, porté parRobin Coulet et financé par CREALYS, consistait à créer une entreprise in-novante sur la mise en place et l’analyse des débats citoyens en ligne. Plusparticulièrement, il s’agissait de mettre en place une plateforme de gestiond’un débat entre deux personnalités politiques (comme des élus locaux).L’originalité du projet consistait à permettre aux citoyens non seulementd’assister au débat en ligne, mais surtout d’intervenir dans ce dernier enposant des questions en direct. Cela supposait de disposer d’un outil effi-cace de modération afin de sélectionner les questions les plus pertinentes àpartir du contenu mais aussi de la communauté des internautes impliquésdans l’événement. Le rôle du laboratoire a consisté à accompagner l’entre-preneur dans l’élaboration de cet outil, en particulier en construisant aveclui des méthodes innovantes de sélection des textes jugés les plus intéres-sants à partir de la structure et du contenu. Il était prévu que ces textesintéressants remontent aux deux débateurs qui avaient ainsi l’opportunitéde répondre en direct à leurs concitoyens. Cela explique que l’extraction

Page 116: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

108 Chapitre 6. Implication dans des projets de recherche

Figure 6.1 – Copie d’écran du premier prototype pour l’analyse des discussions (extraitde la thèse d’A. Stavrianou (2010)).

de messages dits clefs constitue le cœur de la thèse d’Anna Stavrianou(2010).

Outre les contributions scientifiques réalisées dans la thèse, ce projet apermis la réalisation d’un prototype logiciel en Java qui affiche l’ensemblede la discussion sous forme de deux graphes conjoints, celui des messageset celui des utilisateurs, puis calcule différentes mesures sur ces graphes.Les mesures consistent en des mesures standards en analyse de réseaux(p. ex. le degré des nœuds) mais aussi en des critères d’intérêt tels queceux définis dans la section 4.1. Un aperçu de l’interface fournie par cepremier prototype d’analyse des forums est donné dans la figure 6.1.

Je précise que Robin Coulet a finalement créé en 2011 l’entrepriseConversationnel, agence de communication spécialisée dans les médiaset réseaux sociaux du Web.

Projet ERIC-ELICO (2010-2011) – Financé par le BQR de l’UniversitéLyon 2, ce projet a été piloté conjointement par Jean-Hugues Chauchatdu laboratoire ERIC et Jean-Claude Soulage du laboratoire ELICO. L’ob-jectif de ce projet était une analyse conjointe, réalisée par des spécialistesen science de l’information et de la communication (laboratoire ELICO)et par des spécialistes en informatique et fouille de données (laboratoireERIC), des débats publics tels qu’ils se déroulent dans les médias. Plusprécisément, l’idée était qu’ELICO se charge d’analyser les médias ditstraditionnels (journal TV, presse) et qu’ERIC se charge de certains mé-dias numériques (forums, blogs). La mission des chercheurs du labora-toire ERIC consistait donc à procéder à une analyse des articles publiés sur

Page 117: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

6.1. Analyse des conversations en ligne 109

des sites de presse en ligne (Liberation.fr, Mediapart, Rue89, etc.) et sur-tout des commentaires postés quotidiennement par les internautes. Aprèsavoir dû réorienter le sujet d’étude initialement imaginé qui portait surles dernières élections européennes, l’analyse a porté sur les deux sujetsde l’actualité de cette période qu’étaient la « loi Hadopi » et le débat sur« l’identité nationale ». Poursuivant les travaux préalablement réalisés aulaboratoire dans le cadre du projet Conversession et de la thèse d’AnnaStavrianou, ce projet a permis d’élaborer un système complet pour récu-pérer automatiquement les articles publiés sur un certain nombre de cessites Web et de les stocker dans une base de données relationnelle afin deles rendre disponibles pour des analyses ultérieures.

Il faut ici souligner que la tâche n’était pas triviale car la structure dessites change régulièrement. A l’occasion d’un projet orienté recherche duM1 Data Mining and Knowledge Management (DMKM), des étudiantsnous ont aidé à mettre au point un système à base de règles (patrons) afinde faciliter la mise à jour des analyseurs existants et le développement denouveaux. A partir de cette base d’articles, il était alors possible de calcu-ler quelques statistiques (mots les plus fréquemment employés, quantitéd’articles par source, etc.) et de faire une classification automatique nonsupervisée pour en extraire les sous-thématiques abordées. Le travail surl’extraction de thématiques a été réalisé avec la collaboration de Marian-Andréi Rizoiu (2013c), dans le cadre de son stage de Master et de sa thèse,et celle de Claudiu Musat en séjour scientifique au laboratoire. Ces sous-thématiques permettent d’étudier les sujets à un degré plus fin, mais sansaller toutefois jusqu’à une granularité au niveau du mot (ex. : « les réseauxpair à pair » pour la « loi Hadopi »). Une interface graphique a égalementété développée afin d’étudier ces statistiques au niveau temporel. Elle aété ultérieurement intégrée au logiciel CommentWatcher de la plateformeMediaMining. Enfin, il faut préciser que c’est à cette époque que j’ai com-mencé à construire des relations avec le milieu industriel (société AMISoftware, centre de recherche de Xerox à Grenoble) et académique (visited’une semaine en juillet 2010 à l’invitation de Marc El-Bèze au LIA d’Avi-gnon) au sujet de l’analyse des opinions. Ce sujet sera décrit plus en détaildans la section 6.2. Il est à déplorer cependant que le projet ERIC-ELICOn’ait finalement pas abouti dans le sens où l’analyse qualitative réaliséepar les spécialistes en science de l’information et de la communication etl’analyse quantative réalisée par nos soins (analyse des textes, extractiondes thématiques) n’ont jamais été mises en corrélation.

Projet ERIC-CRTT (2013-2014) – Ce projet récent a, là encore, financépar le BQR de l’Université Lyon 2. Il était piloté par François Maniez duCRTT, aidé par Jean-Hughes Chauchat et moi-même du côté du labora-toire ERIC. L’objectif du projet était d’étudier le langage utilisé dans undomaine spécifique (ici, la médecine nucléaire) en combinant un pointde vue informatique et linguistique. En particulier, nous avons choisi deréaliser une étude diastratique en comparant le vocabulaire employé pardifférents groupes de population. Les chercheurs du CRTT sont des spé-cialistes des questions de terminologie, spécialistes avec lesquels il a étépossible d’identifier des problématiques pouvant bénéficier des outils dé-veloppés par les informaticiens et les statisticiens du laboratoire ERIC.

Page 118: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

110 Chapitre 6. Implication dans des projets de recherche

D’un point de vue pratique, nous avons identifié un sujet d’étude (la« médecine nucléaire »), un ensemble de quatre populations (étudiants,chercheurs en médecine, techniciens, internautes non spécialisés) et leslieux où nous pouvions recueillir des textes rédigés par ces populations.Il s’agissait d’articles scientifiques pour les médecins et de forums de dis-cussion spécifiques à une population (par exemple E-carabin pour les étu-diants en médecine et I-Manip pour les techniciens). La principale contri-bution du laboratoire a consisté à mettre à disposition des linguistes lesdonnées récupérées grâce à la plateforme MediaMining. Le stage de Mas-ter de Bamba Kane a également permis de proposer et de tester plusieursmesures afin de déterminer automatiquement quels étaient les termes (cer-taines suites de mots) employés plus fréquemment dans une populationque dans l’ensemble des textes disponibles. Parmi les mesures essayées setrouvent des mesures classiques, telles que le Z-score ou une mesure ins-pirée de TF-IDF, mais également une proposition de mesure sémantiqueutilisant sur une base de connaissance (en l’occurrence DBPedia). Les col-lègues linguistes sont encore en train d’analyser les données fournies et laclassification des termes issue des mesures statistiques.

6.2 Projet Imagiweb

Contexte – Le Projet ImagiWeb repose sur l’intérêt que je porte à l’ana-lyse des nouveaux médias sociaux et s’inscrit dans la continuité des tra-vaux de recherche entamés à l’Université de Paris 6 durant ma thèse sousla direction de Jean-Gabriel Ganascia. La constitution du consortium et dela problématique a été réalisée de manière incrémentale. Elle trouve trèscertainement son origine dans mes travaux de thèse sur l’analyse des sté-réotypes (Velcin 2005), puis dans le séjour de recherche que j’ai effectué enjuillet 2010 au Laboratoire Informatique d’Avignon (LIA) sur l’invitationde Marc El-Bèze et dans les discussions que nous avons eues au sujet del’analyse d’opinion. Les contacts que j’avais avec la société AMI Softwared’un côté et avec le centre Xerox d’autre part, où Anna Stavrianou avaitété embauchée après sa thèse ont fait le reste. Le laboratoire CEPEL col-laborait déjà avec AMI et EDF R&D était partie prenante du projet DoXa.J’ai déposé la proposition en tant que coordinateur principal auprès duprogramme CONTINT (CONTenu et INTeraction) de l’ANR à l’automne2011. Celui-ci a été retenu avec un financement sur trois ans de 872 000

euros, comprenant l’abondement supplémentaire attribué par la labellisa-tion de trois pôles de compétitivité. Il a ensuite été étendu à 42 mois, pourdes raisons à la fois administratives et scientifiques.

Je décris ci-dessous les objectifs du projet et les contributions collec-tives réalisées jusqu’à présent.

Objectif du projet – Internet joue un rôle très important sur la ma-nière dont nous percevons le monde qui nous entoure. En particulier, denombreuses entités nous parviennent uniquement par l’intermédiaire del’existence virtuelle qu’elles mènent sur la toile et dans les médias, qu’ils’agisse d’un film, d’une personnalité, d’une entreprise, d’une marque.L’enjeu du projet ImagiWeb, financé par l’ANR (2012-2015), est de dévoi-

Page 119: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

6.2. Projet Imagiweb 111

ler les mécanismes qui procèdent à la production, la diffusion et l’évolu-tion des opinions des internautes relativement à ces entités, ce que nousappelons l’image de marque. Pour cela, l’idée est de mêler une approcheinformatique, mettant notamment en œuvre des techniques d’analyse au-tomatique des textes d’expressions postés sur Internet (blogs, tweets) etune approche sociologique afin de déterminer l’identité des producteursd’opinion. Le projet donnera lieu à l’élaboration d’un prototype qui per-mettra de visualiser et d’interroger les images d’entités suivant deux casd’étude. Le premier cas traite de l’image de Nicolas Sarkozy et de FrançoisHollande autour de la période de l’élection présidentielle de 2012. Nousavons ainsi pu recueillir plus de 10 millions de tweets qui fournissent uncommentaire sur l’un ou l’autre des candidats avant et après l’élection.Le deuxième cas traite de l’image de l’entreprise EDF sur le thème dunucléaire, pour lequel nous disposons de plus de 9339 messages postéssur 1262 blogs. Afin de capturer l’image véhiculée par les médias sociaux,il est nécessaire de développer des outils capables de traiter ce type degrands volumes de données qui évoluent au fil du temps. Je décris briè-vement dans la suite la méthodologie que nous avons adoptée avant dedonner les tout premiers résultats obtenus dans le projet.

Méthodologie mise en œuvre – L’un des principaux atouts du projet estde combiner une analyse automatique des messages textuels produits surle Web afin d’en extraire les images avec une étude sociologique pourcaractériser au plus près les émetteurs des opinions à l’origine de cesimages. L’analyse automatique des textes contenant les opinions est unverrou qui peut tirer partie d’annotations manuelles reflétant la connais-sance des experts. Cette analyse est réalisée en utilisant à la fois des tech-niques issues du traitement automatique des langues, permettant une ana-lyse fine des textes (syntaxe, négations, co-références. . . ), mais égalementdes techniques basées sur la co-occurrence statistique, afin de proposerde nouvelles méthodes hybrides pour l’extraction des opinions. Ces tech-niques explorent notamment l’approche dite active qui permet de détermi-ner les messages les plus pertinents pour l’apprentissage et de demanderà l’expert de nouvelles annotations afin d’améliorer les performances fi-nales. Les images, résultat de l’agrégation des opinions émises dans lesmessages, sont reconstruites à l’aide d’algorithmes d’apprentissage au-tomatique non supervisé s’inspirant du clustering évolutionnaire afin deprendre en compte leur dimension temporelle (le modèle TMM développéest présenté dans la section 3.3.2). Une fois ces images (re)constituées, dif-férentes techniques peuvent être mises en place pour les interroger de ma-nière conviviale : système de question-réponse, visualisation, navigationen ligne, etc.

La représentativité de ces images et de leurs émetteurs est un ver-rou important. Pour aborder ce problème, nous avons choisi de découpernotre ensemble de messages en trois échantillons : un échantillon de mes-sages tirés aléatoirement sur la base d’une requête par mots-clefs, un autretiré d’un panel d’internautes représentatifs et un dernier tiré d’internautesavec une forte audience. Les deux derniers panels ont été sélectionnés parles experts en sciences politiques du CEPEL pour le cas d’étude sur lesélections et les membres qui les constituent ont été annotés à l’aide d’in-

Page 120: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

112 Chapitre 6. Implication dans des projets de recherche

formations socio-démographiques. Ces panels permettent de collecter lespublications émises par les individus puis de les analyser au fil du tempsen connaissant les caractéristiques de leurs auteurs.

Premiers résultats – Le projet est toujours en cours. Je présente à pré-sent les contributions qui ont été réalisées à mi-parcours. Les perspectivesseront évoquées dans la conclusion du chapitre.

Plusieurs objectifs ont déjà été atteints à mi-parcours du projet. Toutd’abord, les données brutes associées au cas d’étude des hommes poli-tiques ont pu être extraites d’Internet et mises à la disposition des par-tenaires. Dans le cadre du projet, une plateforme d’annotation complètea été réalisée afin de pouvoir sélectionner des passages à l’intérieur destextes, préciser la polarité avec 6 modalités différentes (très négatif, néga-tif, neutre, ambigu, positif, très positif), mais également préciser la cible del’opinion (s’agit-il du bilan économique du candidat, de ses talents d’ora-teurs, de sa vie privée ?). A la fin d’une première campagne d’annotation,nous avons réalisé 11 527 annotations à partir des 10 millions de tweetsmis à notre disposition. Cela correspond à 7283 tweets uniques, annotéschacun entre 1 et 3 fois par une vingtaine de membres du consortium.Nous avons calculé de nombreuses autres statistiques concernant la distri-bution des opinions sur les cibles ou dans le temps, mais aussi sur l’accordentre les annotateurs. La plateforme d’annotation est disponible en opensource. La procédure complète d’annotation et quelques statistiques sontdonnées dans un article récemment accepté (Velcin et al. 2014a). Il estprévu de mettre ces données annotées à disposition de la communautéaprès une opération de pseudonymisation afin de garantir la vie privéedes émetteurs d’opinion, en accord avec la CNIL. En parallèle, nous avonspu rassembler un ensemble de données issues de sondages officiels (p. ex.CSA, IPSOS) mais également des caractéristiques socio-démographiquesdes deux panels d’internautes représentatifs et de forte audience. En plusdes tweets recueillis initialement, nous avons recueilli 100 000 nouveauxmessages environ par ce nouveau biais. L’un des objectifs du projet est deparvenir à classer automatiquement les opinions sur la totalité des tweetsen utilisant ceux qui ont été annotés et une approche d’apprentissage au-tomatique actif. Il sera ensuite possible de comparer les résultats automa-tiques avec ceux affichés par les baromètres d’opinion pour détecter s’ilexiste des corrélations.

Les recherches traitant de l’annotation automatique des messagesd’opinion ont été entamées selon trois approches : linguistique (princi-palement un système à base de règles), statistique (techniques d’appren-tissage automatique supervisé) et hybride (mélange des deux approchesprécédentes). Les algorithmes développés seront intégrés via des servicesWeb afin d’obtenir un prototype complet qui permettra de valider notreapproche selon les deux cas d’études envisagés. Enfin, un important tra-vail d’investigation a été réalisé afin de définir précisément ce qu’est uneimage. Cela se concrétise par une première description utilisant les techno-logies du Web sémantique, puis par une définition plus formelle qui ser-vira de base aux futurs algorithmes et à leur utilisation tout au long desscénarii prévus dans le projet. Pour résumer, une image est vue commeune distribution des polarités émises par un groupe d’individus aux opi-

Page 121: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

6.2. Projet Imagiweb 113

nions similaires selon les différents attributs qui caractérisent l’entité. Unmodèle original de classification peu supervisée est actuellement mis aupoint afin d’extraire une structuration temporelle de ces images (voir lemodèle TMM dans la section 3.3.2). Le modèle est en cours de validationmais il a déjà été montré qu’il permet d’obtenir des catégories d’opinionplus stables et davantage fidèles aux opinions réellement exprimées dansles tweets.

Pour le deuxième cas d’étude, c’est-à-dire l’image de l’entreprise EDFsur le nucléaire, un ensemble de 9339 billets de blog provenant de sourcesdiverses a été mis à notre disposition par la société et un cahier des chargesde l’annotation a été mis au point, précisant notamment les cibles de l’opi-nion (tarifs, stratégie de l’entreprise, etc.). L’annotation proprement diteest en cours et permettra d’aboutir à un jeu de données comportant en-viron 1000 paragraphes étiquetés. En parallèle, une analyse sémiologiquea été réalisée sur l’image de l’entreprise ; les résultats obtenus constituentune autre contribution du projet. L’analyse a été réalisée manuellementselon deux axes : l’image que souhaite émettre l’entreprise au sujet du nu-cléaire et celle perçue par les internautes au travers des billets de blog. L’undes objectifs du projet consiste alors à comparer l’analyse automatique del’opinion issue des billets de blog avec cette analyse sémiologique, et ceafin de mieux cerner l’apport des techniques automatiques dans l’analysede l’image de l’entreprise.

Conclusion du chapitre

Ces dernières années m’ont donné de multiples occasions de participer àdes projets appliqués en lien avec mes recherches. La plateforme Media-Mining, qui résulte de l’agrégation de plusieurs projets financés de taillemodeste mais également de l’implication d’étudiants en Master et en Doc-torat, n’est encore qu’une vitrine en devenir. Le logiciel CommentWatcherest aujourd’hui utilisé pour acquérir facilement des corpus de forums dediscussion, mais il souffre du problème récurrent de modification du codedes sites Web qu’il permet d’analyser. Le méta-langage qui a été mis aupoint pour accélérer le développement des analyseurs n’est pas une so-lution totalement pérenne à ce problème et une perspective serait de mi-grer vers des méthodes plus, si ce n’est totalement, automatiques. Mais lerisque encouru est de perdre en précision pour gagner en rappel.

Le projet Projet ImagiWeb est certainement le plus avancé car il ré-sulte d’un effort prolongé dans la droite lignée de mes travaux débutésen thèse sur la question des représentations véhiculées par les médias.Plus de deux ans après son commencement, un certain nombre d’objectifsont été atteints : acquisition des données, mise en place d’une procédured’annotation, annotation proprement dite, mise au point d’algorithmes declassification des cibles et des polarités d’opinion. Un premier modèle declustering temporel a été élaboré et il semble donner des premiers résultatsintéressants, couplés à une interface de visualisation. Comme cela a été ex-pliqué à la fin du chapitre correspondant, ce modèle nécessite aujourd’huid’être mieux évalué au regard de l’état de l’art et probablement d’êtreamélioré pour en lever certaines limitations. L’algorithme d’extraction desgroupes d’opinion, comme ceux développés dans les autres tâches du pro-

Page 122: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

114 Chapitre 6. Implication dans des projets de recherche

jet, doivent ensuite être intégrés à un prototype logiciel afin de permettreau spécialiste d’interroger ces images de manière conviviale : présenta-tion résumée des images, système de questions-réponses, navigation enligne, etc. Dans un cadre de veille informationnelle, ce système devra per-mettre de mieux comprendre l’opinion des internautes exprimée au sujetd’entités de natures diverses (dans notre cas : deux hommes politiques etune entreprise). En ce qui concerne les sciences humaines et sociales, laréussite du projet permettra de redéfinir la manière dont les sociologuesdéfinissent et exploitent des panels sur le Web. Il sera ainsi possible de ca-ractériser les populations d’internautes qui expriment les opinions consti-tutives des images, ce qui n’est à l’heure actuelle que peu, voire jamais,réalisé de manière systématique.

Page 123: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

7Conclusion sur l’activité de

recherche et perspectives

Sommaire

7.1 Bilan général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

7.2 Perspectives de recherche . . . . . . . . . . . . . . . . . . . . 117

7.2.1 Agrégation d’opinion semi-supervisée . . . . . . . . . . . . 117

7.2.2 Conversations et rôles dans les communautés du Web . . 119

Dans ce chapitre, je vais au-delà des conclusions partielles tirées dansles chapitres qui précèdent afin de donner une vision plus globale des

travaux de recherches menés ces dernières années et d’imaginer les pistesque je pourrai emprunter dans les années à venir. Certaines de ces pistessont d’ailleurs en cours d’investigation mais elles n’ont pas encore donnéde résultats suffisamment aboutis pour être présentés dans ce mémoire.

115

Page 124: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en
Page 125: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

7.1. Bilan général 117

7.1 Bilan général

Les travaux présentés dans ce mémoire ont été menés au sein du labo-ratoire ERIC avec un souci constant d’allier des recherches théoriques re-posant sur l’élaboration de modèles et d’algorithmes originaux à l’expéri-mentation du fruit de ces recherches sur des jeux de données du monderéel et/ou issus de la littérature du domaine et à leur application dans desprojets variés. La plupart de ces projets ont été entrepris en collaborationavec des acteurs des SHS : historiens, linguistes, sociologues. Sur le planlocal, la plateforme MediaMining illustre bien une volonté de valoriserl’effort investi à travers plusieurs projets de taille modeste (stages, thèses,projets BQR) afin de ne pas perdre le bénéfice de l’expérience accumuléejusque-là. Sur le plan national, le Projet ImagiWeb illustre cette fois unevolonté de construire des collaborations durables en cherchant les com-pétences complémentaires requises pour répondre à des défis sociétauximportants.

Du point de vue applicatif, j’ai choisi jusqu’ici de privilégier la cap-ture des représentations véhiculées par les nouveaux médias sociaux. Eneffet, il s’agit d’un sujet que je porte depuis ma thèse et qui me paraîtimportant à plus d’un titre. Je pense par exemple qu’une société commela nôtre doit se doter d’outils efficaces pour lutter contre toute forme demanipulation et d’embrigadement, dérives de l’influence qui pourrait êtreimputée, à tort ou à raison, aux médias et à Internet. Toutefois, le typede méthodes que je développe peut être employé pour d’autres applica-tions, comme cela avait été prévu dans le cadre d’un début de partenariatavec les chercheurs en histoire du LARHRA, comme par exemple l’indexa-tion de fonds documentaires historiques dont le volume déjà important necesse de croître.

Sur le fond, mes recherche s’inscrivent clairement dans le développe-ment de nouveaux outils pour structurer automatiquement les donnéescomplexes. Ces outils privilégient des modèles d’apprentissage non oupeu supervisé, modèles que l’on retrouve sous le vocable scientifique desemi-supervised clustering, même si ceux-ci seraient plus justement nom-mées semi-supervised structuring (voir le titre donné par Rizoiu (2013b)pour sa participation à la session doctorale d’IJCAI). Outre l’intégrationde connaissances et de contraintes, la prise en compte de la dimensiontemporelle réalisée de manière rétrospective constitue peut-être l’une desprincipales contributions de mon travail. C’est pourquoi je dédie un axedes perspectives à cette dimension qui me paraît fondamentale pour ré-soudre bon nombre de problèmes.

7.2 Perspectives de recherche

7.2.1 Agrégation d’opinion semi-supervisée

Les travaux engagés dans plusieurs thèses et dans le cadre du Projet Ima-giWeb m’ont permis de me familiariser avec la thématique de l’analyse desopinions. J’ai pu constater que beaucoup d’efforts ont été fournis pourtravailler à l’échelle du message, voire de l’individu, mais moins à plusgrande échelle. Selon moi, des perspectives passionnantes résident dans

Page 126: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

118 Chapitre 7. Conclusion sur l’activité de recherche et perspectives

l’agrégation des traces d’opinion, notamment lorsqu’il s’agit de la situer,que ce soit dans l’espace (groupes d’opinion sur Twitter, domaines sur In-ternet) ou dans le temps. Prendre en compte une “géographie” des lieuxémettant les messages, mais également des indicateurs qualifiant ces lieux,constitue un pas supplémentaire vers la caractérisation des sources d’opi-nion, dans une démarche ambitieuse de sociologie du Web. Déontologi-quement, cela pose bien sûr des questions liées à l’accès aux données etau respect de la vie privée, questions que l’on ne peut ignorer mais quine doivent pas paralyser le développement d’outils qui permettraient demieux comprendre les débats qui agitent notre société numérique. Au-delàd’une étude superficielle des représentations, de tels outils pourraient per-mettre par exemple de distinguer les avis véritablement exprimés par lesindividus de manipulations visant des produits (dans une optique marke-ting), mais aussi des sujets de société tels que l’aménagement du territoire(voir le projet Senterritoire, Kergosien et al. (2014)).

D’un point de vue technique, cette perspective soulève un certainnombre de verrous. Je ne compte pas travailler spécifiquement sur lesproblèmes d’acquisition ou de stockage des données, problèmes certesimportants mais qui accaparent déjà l’attention de nombreuses équipesde recherche. Mon idée réside plutôt dans le développement de nou-veaux modèles d’apprentissage automatique semi-supervisé dont l’objec-tif n’est pas tant de placer les objets (textes, individus, sites Web, etc.)dans des classes prédéfinies que de proposer des manières de structurerutilement l’information. Il s’agit de prendre en compte à la fois des struc-tures qui émergent des données dans une approche classique ascendante(bottom-up), mais aussi des connaissances partielles sur le problème quel’on souhaite traiter. Ces connaissances peuvent être fournies sous formede lexiques (cf. section 3.2.2), de contraintes (cf. section 3.3.2) ou simple-ment reposer sur la présence de dates clefs permettant de découper la frisechronologique d’une affaire. Cela me place clairement dans une optiquede weakly-supervised clustering, qui peut être vue comme une implémen-tation moderne de questions sur la catégorisation des objets du mondeet la création d’encyclopédies. L’une des pistes originales que je souhaiteexplorer concerne la manière de traiter la dimension temporelle. En ef-fet, la majorité des algorithmes de clustering temporel, du moins ceux quicherchent à agréger l’information de manière rétrospective, tels que lesmodèles de clustering évolutionnaire, se contentent de discrétiser le tempsde manière uniforme. Cela peut sembler arbitraire et des solutions alter-natives commencent à voir le jour.

Dans mon projet de recherche, je souhaite explorer les approchesmulti-échelles pour le clustering qui travaillent à plusieurs niveaux de gra-nularité. L’algorithme CluStream de Aggarwal et al. (2003), ou plus ré-cemment des travaux de Iwata et al. (2010) en topic modeling, suivent cettephilosophie, mais en procédant de manière incrémentale et non rétrospec-tive. Une autre piste m’a été inspirée par les travaux de Jaromir Antochà l’occasion de sa visite au laboratoire début 2014. L’idée est de trouverautomatiquement des moments précis où les catégories changent de ma-nière significative. En apprentissage automatique supervisé, on trouve denombreux travaux sous l’expression « dérive de concepts » (concept drift),mais les contributions se font plus rares lorsqu’on se place dans une pers-

Page 127: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

7.2. Perspectives de recherche 119

pective de structuration de type clustering (voir par exemple les travaux deChen et al. (2009)). Une piste qui semble prometteuse et que je souhaiteexplorer est celle de la détection des « points de rupture » ou change points(Horváth et Hušková 2012).

Du point de vue méthodologique, deux éléments me paraissent essen-tiels pour mener ce projet à bien. Tout d’abord, j’envisage de continuerà travailler de manière rétrospective, c’est-à-dire sans investir (du moinspersonnellement) le domaine du traitement des données en ligne et vo-lumineuses. Cela peut sembler contraire au contexte de big data que j’aibrièvement décrit en introduction à ce mémoire. En effet, je pense que lesproblèmes que je souhaite aborder ne seront pas nécessairement résolusen travaillant sur des algorithmes économes ou sur la parallélisation desprocessus mis en place. Au contraire, je suis de plus en plus persuadéque la clef réside dans la sélection intelligente des données les plus adé-quates, soit grâce à un échantillonnage soigneusement construit commedans le cas du projet ImagiWeb, soit par l’emploi de méthodes actives.Il s’agit alors de reconstruire les données nécessaires à l’apprentissageet d’abandonner l’illusion de données totalement observables. Bourigaultet al. (2014), par exemple, prennent le contre-pied de la plupart des mé-thodes de diffusion d’information, qui présupposent une topologie dugraphe connue, et se contentent d’utiliser les seules données observéespour reconstruire des trajectoires. Le deuxième élément qui me sembleessentiel est le suivant : de la même manière que des algorithmes clas-siques de clustering ont pu s’inspirer des travaux réalisés en psychologiecognitive (notion de prototype pour les K-Moyennes, Category Utility deCOBWEB), je crois fortement que l’élaboration de modèles de clusteringpour capturer des représentations de groupe devrait s’inspirer des travauxréalisés en psychologie sociale, comme par exemple ceux sur la théorie dunoyau central (Michel 1999, Abric 2003). A minima, l’élaboration de cesalgorithmes devrait s’accomplir en partenariat étroit avec les spécialistesde ces domaines qui étudient ce genre de phénomènes depuis des an-nées. Cette démarche est profondément pluridisciplinaire et s’inscrit dansle contexte développé tout au long du chapitre 2.

7.2.2 Conversations et rôles dans les communautés du Web

Un deuxième axe de recherche se situe dans la droite ligne du projetMediaMining et des travaux sur l’analyse des forums de discussion, telsqu’ils ont été présentés dans le chapitre 4. De nombreuses questions res-tent sans réponses sur l’émergence des communautés en ligne, sur leurscaractéristiques et leurs dynamiques, sur une possible typologie de ceslieux virtuels, sur les rôles joués par les internautes et leur influence. Cesquestions sont au cœur de ce que certains appellent la science des réseaux(network science), qui se nourrit d’une formidable énergie déployée depuisl’apparition d’Internet dans l’analyse des réseaux, l’étude des systèmescomplexes, la recherche d’information, etc. Elles interrogent notre sociétéet ses nouveaux modes de communication. L’étude des forums de discus-sion, en particulier, n’attire une attention significative de la communautéinformatique que depuis peu, si on la compare aux travaux pléthoriquessur l’étude des réseaux sociaux (on pense notamment à Twitter).

Page 128: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

120 Chapitre 7. Conclusion sur l’activité de recherche et perspectives

Une piste passionnante est l’étude de la dynamique des conversationsqui se déroulent au sein des forums de discussion. En effet, de nombreuxsites Web traitant de sujets aussi divers que l’actualité, la médecine, laprogrammation, le bricolage, la mode, le sport, mais également une par-tie de la blogosphère, se sont dotés de services permettant aux indivi-dus de réagir aux articles en postant de simples commentaires, des avisplus fournis, voire des jugements très argumentés. On peut se demandersi l’observation d’un volume suffisant de discussions permet à un mo-dèle d’apprentissage automatique de prévoir comment l’une d’entre ellespeut évoluer. Prévoir la dynamique d’une conversation sur un forum estune tâche qui peut se décliner de différentes manières, qui va de la plussimple (le fil de discussion va-t-il “réussir”, par exemple en impliquantplus de deux individus ?) à la plus difficile (quel internaute a le plus dechance d’être le prochain à poster un message ? combien de messages autotal seront postés sur le sujet ?). Cette tâche peut être abordée commeune tâche de classification ou de régression, mais elle peut aussi intégrerdes composantes non supervisées (voir ci-dessous). Les données sont denature complexe (texte, auteur du message, date, lien entre les messages)et nécessitent d’être contextualisées. Le développement d’outils de fouillede données pour faciliter leur analyse devient hautement stratégique pourde nombreux acteurs de la société (spécialistes du marketing, sociologueset linguistes, élus, etc.) car ils permettraient de mieux prendre le pouls dela population, ou au moins d’une frange de celle-ci.

D’un point de vue technique, l’idée première est d’élaborer des mo-dèles d’apprentissage automatique semi-supervisé basés sur des caracté-ristiques aussi bien structurelles (issues du graphe des messages ou desauteurs, par exemple) que textuelles (analyse des thématiques et des opi-nions). Mais contrairement à une grande partie de la littérature, l’origi-nalité consiste à introduire un aspect non supervisé de type clustering enfaisant l’hypothèse que le rôle joué par les internautes est un élément dé-terminant dans la manière dont la discussion va évoluer. Une autre origi-nalité réside dans la manière d’aborder l’extraction des rôles en favorisantune approche qui privilégie l’interaction et ses caractéristiques (comme lemessage véhiculé, par exemple). Cela permet de faire un lien avec mestravaux précédents sur les rôles tout en fixant un objectif clairement su-pervisé, ce qui différencie cet axe de recherche de l’axe précédent. Il s’agitdonc bien d’introduire un modèle de clustering, mais au sein d’un cadreprédictif clairement défini, comme par exemple prédire la réussite ou nond’un fil de discussion (classification binaire) ou le nombre de messagesqui composeront le fil (régression). Sur l’introduction des rôles, plusieurstypes de modèles peuvent être envisagés, tels que les modèles par blocsévoqués dans la section 4.2.1. Cependant, le premier verrou à lever sera derésoudre le problème lié à la taille de la matrice d’interactions car celle-cipeut s’avérer très grande dans notre cas. Parmi les autres difficultés, onpeut citer la fixation du nombre de catégories, problème pour lequel noussongeons à développer des modèles graphiques non paramétriques, oucelui du caractère dynamique des rôles, car les individus peuvent chan-ger de rôle (passer de newbie arrivant sur un forum à expert) et les rôleseux-mêmes peuvent évoluer dans le temps.

Page 129: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Bibliographie

Douglas Aberdeen, Ondrej Pacovsky, et Andrew Slater. The learning be-hind gmail priority inbox. Dans LCCC : NIPS 2010 Workshop on Learningon Cores, Clusters and Clouds, 2010. (cité page 6)

J.C. Abric. Méthodes d’étude des représentations sociales. Erès [Methodsfor the study of social representations]. Ramonville Saint-Agne, France,2003. (cité page 119)

Lada A Adamic, Jun Zhang, Eytan Bakshy, et Mark S Ackerman. Know-ledge sharing and yahoo answers : everyone knows something. DansProceedings of the 17th international conference on World Wide Web, pages665–674. ACM, 2008. (cité page 74)

Gediminas Adomavicius et Alexander Tuzhilin. Toward the next gene-ration of recommender systems : A survey of the state-of-the-art andpossible extensions. Knowledge and Data Engineering, IEEE Transactionson, 17(6) :734–749, 2005. (cité page 68)

Nitin Agarwal, Huan Liu, Lei Tang, et Philip S Yu. Identifying the influen-tial bloggers in a community. Dans Proceedings of the 2008 internationalconference on web search and data mining, pages 207–218. ACM, 2008. (citépage 74)

Charu C Aggarwal, Jiawei Han, Jianyong Wang, et Philip S Yu. A frame-work for clustering evolving data streams. Dans Proceedings of the 29thinternational conference on Very large data bases-Volume 29, pages 81–92.VLDB Endowment, 2003. (cité pages 53 et 118)

Divyakant Agrawal, Sudipto Das, et Amr El Abbadi. Big data and cloudcomputing : current state and future opportunities. Dans Proceedings ofthe 14th International Conference on Extending Database Technology, pages530–533. ACM, 2011. (cité page 18)

Rakesh Agrawal, Ramakrishnan Srikant, et al. Fast algorithms for miningassociation rules. Dans Proc. 20th int. conf. very large data bases, VLDB,volume 1215, pages 487–499, 1994. (cité page 18)

Amr Ahmed et Eric P. Xing. Timeline : A dynamic hierarchical dirichletprocess model for recovering birth/death and evolution of topics in textstream. pages 20–29, 2010. (cité page 63)

Enrique Amigó, Jorge Carrillo De Albornoz, Irina Chugur, Adolfo Co-rujo, Julio Gonzalo, Tamara Martín, Edgar Meij, Maarten De Rijke, et

121

Page 130: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

122 Bibliographie

Damiano Spina. Overview of replab 2013 : Evaluating online reputa-tion monitoring systems. Dans Information Access Evaluation. Multilin-guality, Multimodality, and Visualization, pages 333–352. Springer, 2013.(cité page 61)

Nikolay Anokhin, James Lanagan, et Julien Velcin. Social citation : fin-ding roles in social networks. an analysis of tv-series web forums. DansProceedings of the Second International Workshop on Mining Communitiesand People Recommenders (COMMPER), pages 49–56, Bristol, UK, 2012.collocated with ECML/PKDD. (cité page 65)

Sitaram Asur et Bernardo A Huberman. Predicting the future with socialmedia. Dans Web Intelligence and Intelligent Agent Technology (WI-IAT),2010 IEEE/WIC/ACM International Conference on, volume 1, pages 492–499. IEEE, 2010. (cité pages 19 et 43)

Hanan G. Ayad et Mohamed S. Kamel. Cluster-based cumulative en-sembles. Dans Multiple Classifier Systems, pages 236–245. Springer, 2005.(cité page 80)

Franz Baader. The description logic handbook : theory, implementation, andapplications. Cambridge university press, 2003. (cité page 24)

Georges Balandier. Le dépaysement contemporain, l’immédiat et l’essen-tiel. Dans Entretiens avec Joël Birman et Claudine Haroche. Presses Univer-sitaires de France, 2009. (cité page 15)

Krisztian Balog, Leif Azzopardi, et Maarten De Rijke. Formal models forexpert finding in enterprise corpora. Dans Proceedings of the 29th annualinternational ACM SIGIR conference on Research and development in infor-mation retrieval, pages 43–50. ACM, 2006. (cité page 74)

Sugato Basu, Arindam Banerjee, et Raymond J Mooney. Semi-supervisedclustering by seeding. Dans ICML, volume 2, pages 27–34, 2002. (citépage 54)

Sugato Basu, Mikhail Bilenko, et Raymond J Mooney. A probabilistic fra-mework for semi-supervised clustering. Dans Proceedings of the tenthACM SIGKDD international conference on Knowledge discovery and data mi-ning, pages 59–68. ACM, 2004. (cité page 38)

Herbert Bay, Tinne Tuytelaars, et Luc Van Gool. Surf : Speeded up robustfeatures. Computer Vision–ECCV 2006, pages 404–417, 2006. (cité page 88)

Jean-Léon Beauvois, Gabriel Mugny, et Dominique Oberlé. Relations hu-maines, groupe et influence sociale. Presses universitaires de Grenoble,1995. coll. “Psychologie sociale” (1ère édition). (cité page 26)

Jean-Paul Benzécri et L Bellier. L’analyse des données, volume 2. DunodParis, 1976. (cité pages 18 et 27)

Christopher M. Bishop. Pattern Recognition and Machine Learning (Informa-tion Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ,USA, 2006. (cité page 59)

Page 131: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Bibliographie 123

David M Blei, Thomas L Griffiths, et Michael I Jordan. The nested chi-nese restaurant process and bayesian nonparametric inference of topichierarchies. Journal of the ACM (JACM), 57(2) :7, 2010. (cité pages 36

et 62)

David M Blei et John D Lafferty. Dynamic topic models. Dans Procee-dings of the 23rd international conference on Machine learning, pages 113–120. ACM, 2006. (cité pages 54 et 58)

David M Blei et Jon D McAuliffe. Supervised topic models. arXiv preprintarXiv :1003.0783, 2010. (cité page 36)

David M Blei, Andrew Y Ng, et Michael I Jordan. Latent dirichlet allo-cation. the Journal of machine Learning research, 3 :993–1022, 2003. (citépages 27, 30, 36, 37 et 49)

John Blitzer, Mark Dredze, et Fernando Pereira. Biographies, bollywood,boom-boxes and blenders : Domain adaptation for sentiment classifica-tion. Dans ACL, volume 7, pages 440–447, 2007. (cité pages 43 et 51)

Hendrik Blockeel, Luc De Raedt, et Jan Ramon. Top-down induction ofclustering trees. Dans Proceedings of the 15th International Conference onMachine Learning, pages 55–63, 1998. (cité page 96)

Stephen P. Borgatti et Martin G. Everett. Notions of position in social net-work analysis. Sociological methodology, 22(1) :1–35, 1992. (cité pages 73

et 75)

Dominique Boullier, Audrey Lohard, et al. Opinion mining et ? Sentimentanalysis. OpenEdition Press, 2012. http://books.openedition.org/oep/204. (cité pages 19, 42 et 43)

Simon Bourigault, Cedric Lagnier, Sylvain Lamprier, Ludovic Denoyer, etPatrick Gallinari. Learning social network embeddings for predicting in-formation diffusion. Dans Proceedings of the 7th ACM international confe-rence on Web search and data mining, pages 393–402. ACM, 2014. (citépage 119)

Caroline Brun. Un système de détection d’opinions fondé sur l’analysesyntaxique profonde. Dans Actes de la conférence TALN, 2011. (citépage 43)

Deepayan Chakrabarti, Ravi Kumar, et Andrew Tomkins. Evolutionaryclustering. Dans Proceedings of the 12th ACM SIGKDD international confe-rence on Knowledge discovery and data mining, pages 554–560. ACM, 2006.(cité page 54)

Jeffrey Chan, Conor Hayes, et Elizabeth Daly. Decomposing discussionforums using common user roles. Dans Proceedings of the Fourth Interna-tional AAAI Conference on Weblogs and Social Media, 2010. (cité pages 75

et 80)

Jonathan Chang, Sean Gerrish, Chong Wang, Jordan L Boyd-graber, et Da-vid M Blei. Reading tea leaves : How humans interpret topic models.

Page 132: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

124 Bibliographie

Dans Advances in neural information processing systems, pages 288–296,2009. (cité pages 37, 39 et 40)

Francis Chateauraynaud. Prospero, une méthode d’analyse des contro-verses publiques, 2002. URL http://psycho.univ-lyon2.fr/sites/psycho/IMG/pdf/doc-1392-2.pdf. Entretien avec PhilippeBlanchard et Thomas Ribémont. (cité page 16)

Francis Chateauraynaud. Prospéro, une technologie littéraire pour les scienceshumaines. CNRS Paris, 2003. (cité pages 5 et 30)

Shixi Chen, Haixun Wang, et Shuigeng Zhou. Concept clustering of evol-ving data. Dans Data Engineering, 2009. ICDE’09. IEEE 25th InternationalConference on, pages 1327–1330. IEEE, 2009. (cité page 119)

Yun Chi, Xiaodan Song, Dengyong Zhou, Koji Hino, et Belle L Tseng.Evolutionary spectral clustering by incorporating temporal smoothness.Dans Proceedings of the 13th ACM SIGKDD international conference onKnowledge discovery and data mining, pages 153–162. ACM, 2007. (citépage 54)

Jason Chuang, Christopher D Manning, et Jeffrey Heer. Termite : visuali-zation techniques for assessing textual topic models. Dans Proceedingsof the International Working Conference on Advanced Visual Interfaces, pages74–77. ACM, 2012. (cité page 38)

Guillaume Cleuziou. Okm : une extension des k-moyennes pour la re-cherche de classes recouvrantes. Dans Egc, volume 7, pages 691–702,2007. (cité page 38)

Corrina Cortes et Vladimir Vapnik. Support-vector networks. Machinelearning, 20(3) :273–297, 1995. (cité pages 92 et 96)

Joseph A Cruz et David S Wishart. Applications of machine learning incancer prediction and prognosis. Cancer informatics, 2 :59, 2006. (citépage 6)

Gabriela Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, etCédric Bray. Visual categorization with bags of keypoints. Dans Work-shop on statistical learning in computer vision, ECCV, volume 1, pages 1–22,2004. (cité page 88)

Fernando De la Torre et Carlos Agell. Multimodal diaries. Dans Multime-dia and Expo, 2007 IEEE International Conference on, pages 839–842. IEEE,2007. (cité page 54)

Scott C. Deerwester, Susan T Dumais, Thomas K. Landauer, George W.Furnas, et Richard A. Harshman. Indexing by latent semantic analysis.JASIS, 41(6) :391–407, 1990. (cité page 36)

Robert Deliège et al. Une histoire de l’anthropologie : écoles, auteurs et théories.Seuil, Paris, 2006. (cité page 13)

Page 133: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Bibliographie 125

Mohamed Dermouche, Leila Khouas, Sabine Loudcher, et Julien Velcin.Analyse d’opinions dans un cadre de veille sur le web. Dans Actes dela 15ème Conférence Extraction et Gestion des Connaissances (EGC), Luxem-bourg, 2015. papier démo. (cité page 33)

Mohamed Dermouche, Leila Khouas, Julien Velcin, et Sabine Loudcher.Ami&eric : How to learn with naive bayes and prior knowledge : anapplication to sentiment analysis. Dans Second Joint Conference on Lexi-cal and Computational Semantics (*SEM), Volume 2 : Proceedings of the Se-venth International Workshop on Semantic Evaluation (SemEval 2013), pages364–368, Atlanta, Georgia, USA, June 2013a. Association for Compu-tational Linguistics. URL http://www.aclweb.org/anthology/S13-2059. (cité pages 33 et 47)

Mohamed Dermouche, Julien Velcin, Sabine Loudcher, et Leila Khouas.Une nouvelle mesure pour l’évaluation des méthodes d’extraction dethématiques : la vraisemblance généralisée. Dans Actes de la 13ème Confé-rence francophones en Extraction et Gestion des Connaissances (EGC), pages317–328, 2013b. (cité pages 33, 41 et 42)

Mohamed Dermouche, Julien Velcin, Sabine Loudcher, et Leila Khouas. Ajoint model for topic-sentiment evolution over time. Dans Proceedingsof the IEEE International Conference on Data Mining (ICDM), Shenzhen,China, 2014. (cité pages 33, 48, 49, 50 et 52)

Chris HQ Ding, Xiaofeng He, et Horst D Simon. On the equivalence ofnonnegative matrix factorization and spectral clustering. Dans Procee-dings of SIAM International Conference on Data Mining (SDM), volume 5,pages 606–610, 2005. (cité page 36)

Xiaowen Ding, Bing Liu, et Philip S Yu. A holistic lexicon-based approachto opinion mining. Dans Proceedings of the 2008 International Conferenceon Web Search and Data Mining, pages 231–240. ACM, 2008. (cité page 46)

Judith S. Donath et al. Identity and deception in the virtual community.Communities in cyberspace, 1996 :29–59, 1999. (cité page 67)

Leonard W Doob. Public opinion and propaganda. Henry Holt, New York,1948. (cité page 26)

G. Dowek. L’explosion mémorielle change la donne. Pour La Science, (433),2013. (cité page 14)

Hubert L Dreyfus. What computers still can’t do : a critique of artificial reason.The MIT Press, 1992. (cité page 28)

Nicolas Dugué et Anthony Perez. Detecting social capitalists on twit-ter using similarity measures. Dans Complex Networks IV, pages 1–12.Springer, 2013. (cité pages 31 et 74)

Joseph C Dunn. A fuzzy relative of the isodata process and its use indetecting compact well-separated clusters. Journal of Cybernetics, 1973.(cité pages 35 et 55)

Page 134: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

126 Bibliographie

Émile Durkheim. Représentations individuelles et représentations col-lectives. Revue de Métaphysique et de Morale, 6(3) :273–302, 1898. (citépage 25)

Andrea Esuli et Fabrizio Sebastiani. Determining the semantic orientationof terms through gloss classification. Dans Proceedings of the 14th ACMinternational conference on Information and knowledge management, pages617–624. ACM, 2005. (cité page 43)

Nicola Fanizzi, Claudia d ?Amato, et Floriana Esposito. Conceptual clus-tering and its application to concept drift and novelty detection. DansProceedings of the European Semantic Web Conference (ESWC), pages 318–332. Springer, 2008. (cité page 63)

Li Fei-Fei, Rob Fergus, et Pietro Perona. Learning generative visual modelsfrom few training examples : An incremental bayesian approach testedon 101 object categories. Computer Vision and Image Understanding, 106

(1) :59–70, 2007. ISSN 1077-3142. (cité page 92)

Li Fei-Fei et Pietro Perona. A bayesian hierarchical model for learningnatural scene categories. Dans Computer Vision and Pattern Recognition,IEEE Computer Society Conference on, volume 2 de CVPR 2005, pages 524–531. IEEE, 2005. (cité page 88)

W. Feller. An introduction to probability theory and its applications. Vol. I.Wiley, 1950. (cité page 99)

Danyel Fisher, Marc Smith, et Howard T. Welser. You are who you talkto : Detecting roles in usenet newsgroups. Dans System Sciences, 2006.HICSS’06. Proceedings of the 39th Annual Hawaii International Conferenceon, volume 3, pages 59b–59b. IEEE, 2006. (cité page 81)

Douglas H Fisher. Knowledge acquisition via incremental conceptual clus-tering. Machine learning, 2(2) :139–172, 1987. (cité page 30)

Mathilde Forestier. Extraction automatique de réseaux sociaux enrichis pourl’analyse des rôles sociaux dans les forums de discussion en ligne. PhD thesis,Université Lumière Lyon 2, 2012. (cité pages 73, 76, 77, 78, 79 et 107)

Mathilde Forestier, Anna Stavrianou, Julien Velcin, et Djamel A Zighed.Roles in social networks : Methodologies and research issues. Web In-telligence and Agent Systems (WIAS), 10(1) :117–133, 2012a. (cité pages 65

et 73)

Mathilde Forestier, Julien Velcin, Anna Stavrianou, et Djamel Zighed. Ex-tracting celebrities from online discussions. Dans Proceedings of the In-ternational Conference on Advances in Social Networks Analysis and Mining(ASONAM), pages 322–326, Istanbul, Turkey, 2012b. IEEE Computer So-ciety. (cité page 65)

Mathilde Forestier, Julien Velcin, et Djamel Zighed. Extracting social net-works to understand interaction. Dans International Conference on Ad-vances in Social Networks Analysis and Mining (ASONAM), pages 213–219,Kaohsiung, Taiwan, 2011a. IEEE. (cité pages 65, 76 et 79)

Page 135: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Bibliographie 127

Mathilde Forestier, Julien Velcin, et Djamel A. Zighed. Extracting socialnetworks enriched by using text. Dans Proceedings of the InternationalSymposium on Methodologies for Intelligent Systems (ISMIS), pages 140–145. Springer, 2011b. (cité pages 65 et 79)

Mathilde Forestier, Julien Velcin, et Djamel A. Zighed. Analyzing socialroles using enriched social network on on-line sub-communities. DansProceedings of the Sixth International Conference on Digital Society (ICDS),pages 17–22, Valencia, Spain, 2012c. (cité pages 65 et 79)

Ricardo Fraiman, Badih Ghattas, et Marcela Svarc. Interpretable clusteringusing unsupervised binary trees. Advances in Data Analysis and Classifi-cation, pages 1–21, 2013. (cité page 27)

Wenjie Fu, Le Song, et Eric P. Xing. Dynamic mixed membership block-model for evolving networks. Dans Proceedings of the 26th annual inter-national conference on machine learning, pages 329–336. ACM, 2009. (citépage 75)

Benjamin CM Fung, Ke Wang, et Martin Ester. Hierarchical documentclustering using frequent itemsets. Dans Proceedings of SIAM internatio-nal conference on data mining, pages 59–70, 2003. (cité page 37)

Michael Gamon, Anthony Aue, Simon Corston-Oliver, et Eric Ringger.Pulse : Mining customer opinions from free text. Dans Advances in In-telligent Data Analysis VI, pages 121–132. Springer, 2005. (cité page 44)

J.-G. Ganascia. Expérimentations in silico. Les nouvelles d’Archimède, 51 :18–19, 2009. (cité pages 13 et 16)

Jean-Gabriel Ganascia. Epistemology of AI Revisited in the Light of thePhilosophy of Information. Knowledge, Technology & Policy, 23(1-2) :57–73, 2010a. (cité page 29)

Jean-Gabriel Ganascia. The generalized sousveillance society. Social ScienceInformation, 49(3) :489–507, 2010b. (cité page 32)

Eric Gaussier et Cyril Goutte. Relation between plsa and nmf and im-plications. Dans Proceedings of the 28th annual international ACM SIGIRconference on Research and development in information retrieval, pages 601–602. ACM, 2005. (cité page 36)

Lise Getoor. Link mining : a new data mining challenge. ACM SIGKDDExplorations Newsletter, 5(1) :84–89, 2003. (cité page 18)

M.A. Gluck et J.E. Corter. Information, uncertainty and the utility of ca-tegories. Dans Proceedings of the Seventh Annual Conference on CognitiveScience Society, pages 283–287, Irvine, CA, 1985. Lawrence Erlbaum As-sociates. (cité page 30)

Erving Goffman. The presentation of self in everyday life. Anchor Books, 1959.(cité page 73)

Page 136: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

128 Bibliographie

André Gohr, Myra Spiliopoulou, et Alexander Hinneburg. Visually sum-marizing the evolution of documents under a social tag. Dans Procee-dings of the International Conference on Knowledge Discovery and InformationRetrieval (KDIR), pages 85–94, 2010. (cité page 38)

André Gohr, Myra Spiliopoulou, et Alexander Hinneburg. Visually sum-marizing semantic evolution in document streams with topic table.Dans Proceedings of the International Joint Conference on Knowledge Dis-covery, Knowledge Engineering and Knowledge Management (IC3K), pages136–150. Springer, 2013. (cité page 27)

David Goldberg, David Nichols, Brian M Oki, et Douglas Terry. Usingcollaborative filtering to weave an information tapestry. Communicationsof the ACM, 35(12) :61–70, 1992. (cité page 68)

Scott A. Golder et Judith Donath. Social roles in electronic communities.Internet Research, 5 :19–22, 2004. (cité pages 75, 76, 78 et 82)

Doris Appel Graber. Mass media and American politics. CQ Press Washing-ton, DC, 1997. (cité page 32)

Brynjar Gretarsson, John O’donovan, Svetlin Bostandjiev, Tobias Höllerer,Arthur Asuncion, David Newman, et Padhraic Smyth. Topicnets : Visualanalysis of large text corpora with topic modeling. ACM Transactions onIntelligent Systems and Technology (TIST), 3(2) :23, 2012. (cité page 38)

Adrien Guille, Cécile Favre, Hakim Hacid, Djamel Abdelkader Zighed,et al. Sondy : An open source platform for social dynamics miningand analysis. Dans Proceedings of the 2013 ACM SIGMOD InternationalConference on Management of Data, 2013. (cité page 19)

Pritam Gundecha et Huan Liu. Mining social media : A brief introduction.Tutorials in Operations Research, 1(4), 2012. (cité pages 19 et 20)

Volker Haarslev et Ralf Möller. Racer : A core inference engine for the se-mantic web. Dans Proceedings of the 2nd International Workshop on Evalua-tion of Ontology-based Tools (EON 2003), volume 87, pages 27–36, SanibelIsland, Florida, USA, 2003. (cité page 24)

Maria Halkidi, Yannis Batistakis, et Michalis Vazirgiannis. Cluster validitymethods : part i & ii. ACM Sigmod Record, 31(2), 2002. (cité pages 36, 61

et 75)

Jiawei Han, Micheline Kamber, et Jian Pei. Data mining : concepts and tech-niques. Morgan kaufmann, 2006. (cité page 17)

Mark S. Handcock, Adrian E. Raftery, et Jeremy M. Tantrum. Model-basedclustering for social networks. Journal of the Royal Statistical Society : SeriesA (Statistics in Society), 170(2) :301–354, 2007. (cité page 75)

Vasileios Hatzivassiloglou et Kathleen R McKeown. Predicting the seman-tic orientation of adjectives. Dans Proceedings of the 35th Annual Mee-ting of the Association for Computational Linguistics and Eighth Conference ofthe European Chapter of the Association for Computational Linguistics, pages174–181. Association for Computational Linguistics, 1997. (cité page 44)

Page 137: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Bibliographie 129

Yulan He, Chenghua Lin, Wei Gao, et Kam-Fai Wong. Dynamic jointsentiment-topic model. ACM Transactions on Intelligent Systems and Tech-nology (TIST), 5(1) :6, 2013. (cité page 45)

Jonathan L Herlocker, Joseph A Konstan, Loren G. Terveen, et John T.Riedl. Evaluating collaborative filtering recommender systems. ACMTransactions on Information Systems (TOIS), 22(1) :5–53, 2004. (citépage 71)

Peter D. Hoff, Adrian E. Raftery, et Mark S. Handcock. Latent space ap-proaches to social network analysis. Journal of the american Statisticalassociation, 97(460) :1090–1098, 2002. (cité page 23)

Thomas Hofmann. Probabilistic latent semantic indexing. Dans Procee-dings of the 22nd annual international ACM SIGIR conference on Researchand development in information retrieval, pages 50–57. ACM, 1999. (citépages 23, 27 et 36)

Lajos Horváth et Marie Hušková. Change-point detection in panel data.Journal of Time Series Analysis, 33(4) :631–648, 2012. (cité pages 63 et 119)

Minqing Hu et Bing Liu. Mining and summarizing customer reviews.Dans Proceedings of the tenth ACM SIGKDD international conference onKnowledge discovery and data mining, pages 168–177. ACM, 2004. (citépages 44 et 45)

Ioana Hulpus, Conor Hayes, Marcel Karnstedt, et Derek Greene. Unsu-pervised graph-based topic labelling using dbpedia. Dans Proceedings ofthe sixth ACM international conference on Web search and data mining, pages465–474. ACM, 2013. (cité page 37)

Xiaoming Huo, Xuelei Sherry Ni, et Andrew K Smith. A survey ofmanifold-based learning methods. Mining of Enterprise Data, 2007. (citépages 23 et 27)

Tomoharu Iwata, Takeshi Yamada, Yasushi Sakurai, et Naonori Ueda. On-line multiscale dynamic topic models. Dans Proceedings of the 16th ACMSIGKDD international conference on Knowledge discovery and data mining,pages 663–672. ACM, 2010. (cité pages 63 et 118)

Radwan Jalam. Apprentissage automatique et catégorisation de textes multi-lingues. PhD thesis, Université Lumière - Lyon 2, 2003. (cité page 6)

Rodolphe Jenatton, Julien Mairal, Francis R Bach, et Guillaume R Obo-zinski. Proximal methods for sparse hierarchical dictionary learning.Dans Proceedings of the 27th International Conference on Machine Learning(ICML), pages 487–494, 2010. (cité pages 36 et 62)

Zhang Jianjia et Luo Limin. Combined category visual vocabulary : Anew approach to visual vocabulary construction. Dans Image and SignalProcessing, 4th International Congress on, volume 3 de CISP 2011, pages1409–1415, Octobre 2011. (cité page 89)

Page 138: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

130 Bibliographie

Wei Jin, Hung Hay Ho, et Rohini K Srihari. Opinionminer : a novel ma-chine learning system for web opinion mining and extraction. DansProceedings of the 15th ACM SIGKDD international conference on Knowledgediscovery and data mining, pages 1195–1204. ACM, 2009. (cité page 43)

Yohan Jo et Alice H Oh. Aspect and sentiment unification model for on-line review analysis. Dans Proceedings of the fourth ACM internationalconference on Web search and data mining, pages 815–824. ACM, 2011. (citépages 45 et 51)

Denise Jodelet et Serge Moscovici. Folies et représentations sociales. Pressesuniversitaires de France, 1989. (cité pages 14, 25 et 28)

Nikos Kalampalikis et Serge Moscovici. Une approche pragmatique del’analyse alceste. Les cahiers internationaux de psychologie sociale, (2) :15–24, 2005. (cité page 30)

Jaap Kamps, MJ Marx, Robert J Mokken, et Maarten De Rijke. Usingwordnet to measure semantic orientations of adjectives. pages 1115–1118, 2004. (cité page 44)

Andreas M Kaplan et Michael Haenlein. Users of the world, unite ! thechallenges and opportunities of social media. Business horizons, 53(1) :59–68, 2010. (cité page 19)

Alistair Kennedy et Diana Inkpen. Sentiment classification of movie re-views using contextual valence shifters. Computational Intelligence, 22(2) :110–125, 2006. (cité page 43)

E. Kergosien, B. Laval, M. Roche, et M. Teisseire. Are opinions expressedin land-use planning documents ? International Journal of GeographicalInformation Science, 2014. To appear. (cité page 118)

Erica Suyeon Kim et Steve Sangki Han. An analytical way to find influen-cers on social networks and validate their effects in disseminating socialgames. Dans Social Network Analysis and Mining, 2009. ASONAM’09.International Conference on Advances in, pages 41–46. IEEE, 2009. (citépage 74)

Soo-Min Kim et Eduard H Hovy. Crystal : Analyzing predictive opinionson the web. Dans EMNLP-CoNLL, pages 1056–1064, 2007. (cité page 43)

Young-Min Kim, J. Velcin, S. Bonnevay, et M. A. Rizoiu. Temporal Multino-mial Mixture for Instance-oriented Evolutionary Clustering. Dans Pro-ceedings of the European Conference on Information Retrieval (ECIR), Vienna,Austria, 2015. (cité pages 33 et 60)

Teemu Kinnunen, Joni Kristian Kamarainen, Lasse Lensu, Jukka Lanki-nen, et Heikki Kälviäinen. Making visual object categorization morechallenging : Randomized caltech-101 data set. Dans 2010 Internatio-nal Conference on Pattern Recognition, pages 476–479. IEEE, 2010. (citépage 92)

Page 139: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Bibliographie 131

Dan Klein, Sepandar D Kamvar, et Christopher D Manning. Frominstance-level constraints to space-level constraints : Making the mostof prior knowledge in data clustering. 2002. (cité page 54)

Jean-Marie Klinkenberg. Précis de sémiotique générale. Le Seuil, 2000. (citépages 24, 26, 30 et 63)

Nozomi Kobayashi, Kentaro Inui, et Yuji Matsumoto. Extracting aspect-evaluation and aspect-of relations in opinion mining. Dans EMNLP-CoNLL, pages 1065–1074, 2007. (cité page 45)

Teuvo Kohonen. Self-organized formation of topologically correct featuremaps. Biological cybernetics, 43(1) :59–69, 1982. (cité page 27)

Arnd Kohrs et Bernard Mérialdo. Improving collaborative filtering fornew-users by smart object selection. Dans ICME 2001, InternationalConference on Media Futures, 8-9 May 2001, Florence, Italy, Florence, ITA-LIE, 05 2001. URL https://www.eurecom.fr/publication/670.(cité page 68)

Solomon Kullback. Letter to the editor : The kullback-leibler distance.American Statistician, 41(4) :340–340, 1987. (cité page 51)

Nicolas Labroche. Online fuzzy medoid based clustering algorithms. Neu-rocomputing, 126 :141–150, 2014. (cité page 53)

John D Lafferty et David M Blei. Correlated topic models. Dans Ad-vances in neural information processing systems, pages 147–154, 2005. (citépage 36)

George Lakoff. Women, fire, and dangerous things : What categories re-veal about the mind. 1987. (cité page 25)

James Lanagan, Nikholai Anokhin, et Julien Velcin. Early stage conversa-tion catalysts on entertainment-based web forums. Dans Fazli Can, Tan-sel Ozyer, et Faruk Polat, éditeurs, State of the Art Applications of SocialNetwork Analysis, pages 97–118. Springer, 2014. ISBN 978-3-319-05912-9.(cité pages 65, 80, 81 et 82)

Aurélien Lauf, Mathieu Valette, et Leila Khouas. Analyse du graphe descooccurrents de deuxième ordre pour la classification non-superviséede documents. Dans Actes des 11èmes Journées Internationales d ?Analysestatistique des Données Textuelles (JADT), pages 577–589, Liège, 2012. (citépage 35)

Julien Lecomte. Médias : influence, pouvoir et fiabilité : A quoi peut-on se fier ?Editions L’Harmattan, 2012. (cité page 31)

Claire Lemercier et ZALC Claire. Méthodes quantitatives pour l’historien. laDécouverte, 2010. (cité pages 29 et 30)

Claude Levi Strauss. Les structures élémentaires de la parenté. Paris,Presses Universitaires, 1949. (cité page 14)

Page 140: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

132 Bibliographie

Chengtao Li, Jianwen Zhang, Jian-Tao Sun, et Zheng Chen. Sentimenttopic model with decomposed prior. Dans Proceedings of the SIAM Inter-national Conference on Data mining (SDM). SIAM, 2013. (cité page 45)

Fangtao Li, Minlie Huang, et Xiaoyan Zhu. Sentiment analysis with globaltopics and local dependency. Dans AAAI Conference on Artificial Intelli-gence. AAAI Press, 2010. (cité page 45)

Chenghua Lin, Yulan He, Richard Everson, et Stefan Ruger. Weakly su-pervised joint sentiment-topic detection from text. Knowledge and DataEngineering, IEEE Transactions on, 24(6) :1134–1145, 2012. (cité pages 45

et 51)

Wei-Hao Lin et Alexander Hauptmann. Structuring continuous video re-cordings of everyday life using time-constrained clustering. Dans Elec-tronic Imaging 2006, pages 60730D–60730D. International Society for Op-tics and Photonics, 2006. (cité page 54)

Carolus Linnaeus et al. Systema naturae per regna tria naturae, secun-dum classes, ordines, genera, species, cum characteribus, differentiis, syno-nymis, locis. 1758. URL http://gallica.bnf.fr/ark:/12148/bpt6k6468158v.r=Systema+natur%C3%A6.langFR. (cité page 30)

Walter Lippmann. Public opinion. Transaction Publishers, 1922. (citépages 25, 26 et 28)

Bing Liu. Sentiment analysis and opinion mining. Synthesis Lectures onHuman Language Technologies, 5(1) :1–167, 2012. (cité page 43)

Liu Huan Liu et Hiroshi Motoda. Feature extraction, construction and selec-tion : A data mining perspective. Springer, 1998. (cité pages 23 et 27)

Francois Lorrain et Harrison C. White. Structural equivalence of indivi-duals in social networks. The Journal of mathematical sociology, 1(1) :49–80,1971. (cité page 15)

David G. Lowe. Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision, 60(2) :91–110, 2004. (cité pages 88

et 89)

Alberto Lumbreras, James Lanagan, Julien Velcin, et Bertrand Jouve. Ana-lyse des rôles dans les communautés virtuelles : définitions et premièresexpérimentations sur IMDb. 2013. Travail sélectionné et présenté lorsde la 4ième conférence sur les Modèles et l’Analyse des Réseaux : Ap-proches Mathématiques et Informatiques (MARAMI). (cité pages 65

et 73)

James MacQueen et al. Some methods for classification and analysis ofmultivariate observations. Dans Proceedings of the fifth Berkeley symposiumon mathematical statistics and probability, volume 1, page 14. California,USA, 1967. (cité page 30)

Davide Magatti, Silvia Calegari, Davide Ciucci, et Fabio Stella. Automaticlabeling of topics. Dans Intelligent Systems Design and Applications, 2009.

Page 141: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Bibliographie 133

ISDA’09. Ninth International Conference on, pages 1227–1232. IEEE, 2009.(cité page 37)

Bronislaw Malinowski, André Devyver, Simone Devyver, James G Fraser,Michel Panoff, et Charles Lénars. Les argonautes du Pacifique occidental.1922. traduction française en 1963. (cité page 14)

Paolo Massa et Paolo Avesani. Trust metrics on controversial users : Balan-cing between tyranny of the majority. International Journal on SemanticWeb and Information Systems (IJSWIS), 3(1) :39–64, 2007. (cité page 74)

Andrew McCallum, Andres Corrada-Emmanuel, et Xuerui Wang. Topicand role discovery in social networks. Computer Science Department Fa-culty Publication Series, page 3, 2005. (cité page 75)

Maxwell E McCombs et Donald L Shaw. The agenda-setting function ofmass media. Public opinion quarterly, 36(2) :176–187, 1972. (cité page 31)

Qiaozhu Mei, Xu Ling, Matthew Wondra, Hang Su, et ChengXiang Zhai.Topic sentiment mixture : modeling facets and opinions in weblogs.Dans Proceedings of the 16th international conference on World Wide Web,pages 171–180. ACM, 2007. (cité page 45)

Yelena Mejova, Padmini Srinivasan, et Bob Boynton. Gop primary seasonon twitter : popular political sentiment in social media. Dans Proceedingsof the sixth ACM international conference on Web search and data mining,pages 517–526. ACM, 2013. (cité page 21)

G. Michel. L’évolution des marques : approche par la théorie du noyaucentral. Recherche et applications en marketing, pages 33–53, 1999. (citépage 119)

George A Miller. Wordnet : a lexical database for english. Communicationsof the ACM, 38(11) :39–41, 1995. (cité page 39)

Jacob L. Moreno et Helen Hall Jennings. Who shall survive ? a new ap-proach to the problem of human interrelations. 1934. (cité page 15)

Serge Moscovici. La psychanalyse, son image et son public : étude sur la repré-sentation sociale de la psychanalyse. Presses universitaires de France, 1961.(cité pages 6, 25 et 28)

Fabrice Muhlenbach et Stéphane Lallich. Discovering research communi-ties by clustering bibliographical data. Dans Web Intelligence and Intelli-gent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Confe-rence on, volume 1, pages 500–507. IEEE, 2010. (cité page 23)

Claudiu Cristian Musat, Julien Velcin, Marian-Andrei Rizoiu, et StefanTrausan-Matu. Concept-based topic model improvement. Dans Procee-dings of the International Symposium on Methodologies for Intelligent Systems(ISMIS), pages 133–142. Springer, 2011a. Industrial track. (cité pages 33

et 40)

Page 142: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

134 Bibliographie

Claudiu Cristian Musat, Julien Velcin, Stefan Trausan-Matu, et Marian-Andrei Rizoiu. Improving topic evaluation using conceptual know-ledge. Dans Proceedings of the Twenty-Second International Joint Conferenceon Artificial Intelligence (IJCAI), pages 1866–1871. AAAI Press, 2011b.(cité pages 33 et 40)

Preslav Nakov, Zornitsa Kozareva, Alan Ritter, Sara Rosenthal, VeselinStoyanov, et Theresa Wilson. Semeval-2013 task 2 : Sentiment analysisin twitter. 2013. (cité page 43)

Brendan O’Connor, Ramnath Balasubramanyan, Bryan R Routledge, etNoah A Smith. From tweets to polls : Linking text sentiment to pu-blic opinion time series. ICWSM, 11 :122–129, 2010. (cité page 21)

Stanisław Osinski, Jerzy Stefanowski, et Dawid Weiss. Lingo : Search re-sults clustering algorithm based on singular value decomposition. DansIntelligent information processing and web mining, pages 359–368. Springer,2004. (cité page 38)

Pentti Paatero et Unto Tapper. Positive matrix factorization : A non-negative factor model with optimal utilization of error estimates of datavalues. Environmetrics, 5(2) :111–126, 1994. (cité pages 27 et 36)

Giulia Pagallo et David Haussler. Boolean feature discovery in empiri-cal learning. Machine learning, 5(1) :71–99, 1990. ISSN 0885-6125. (citépage 96)

Lawrence Page, Sergey Brin, Rajeev Motwani, et Terry Winograd. The pa-gerank citation ranking : Bringing order to the web. 1999. (cité page 22)

Aditya Pal et Scott Counts. Identifying topical authorities in microblogs.Dans Proceedings of the fourth ACM international conference on Web searchand data mining, pages 45–54. ACM, 2011. (cité page 74)

Aditya Pal, Rosta Farzan, Joseph A. Konstan, et Robert E. Kraut. Earlydetection of potential experts in question answering communities. DansUser Modeling, Adaption and Personalization, pages 231–242. Springer,2011. (cité page 74)

Bo Pang et Lillian Lee. A sentimental education : Sentiment analysis usingsubjectivity summarization based on minimum cuts. Dans Proceedingsof the 42nd Annual Meeting on Association for Computational Linguistics(ACL’04), pages 271–278, Barcelona, Catalonia, Spain, 2004. ACL. URLhttp://dl.acm.org/citation.cfm?id=1218990. (cité page 46)

Bo Pang, Lillian Lee, et Shivakumar Vaithyanathan. Thumbs up ? : sen-timent classification using machine learning techniques. Dans Procee-dings of the ACL-02 conference on Empirical methods in natural languageprocessing-Volume 10, pages 79–86. Association for Computational Lin-guistics, 2002. (cité page 43)

Tan Pang-Ning, Michael Steinbach, Vipin Kumar, et al. Introduction todata mining. Dans Library of Congress, 2006. (cité page 17)

Page 143: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Bibliographie 135

Michael Pazzani et Daniel Billsus. Learning and revising user profiles :The identification of interesting web sites. Machine Learning, 27(3) :313–331, 1997. (cité page 68)

Florent Perronnin, Christopher R. Dance, Gabriela Csurka, et Marco Bres-san. Adapted vocabularies for generic visual categorization. ComputerVision–ECCV 2006, pages 464–475, 2006. (cité page 89)

Aurora Pons-Porrata, Rafael Berlanga-Llavori, et José Ruiz-Shulcloper.Building a hierarchy of events and topics for newspaper digital libra-ries. Dans Advances in Information Retrieval, pages 588–596. Springer,2003. (cité page 35)

Ana-Maria Popescu et Orena Etzioni. Extracting product features andopinions from reviews. Dans Natural language processing and text mining,pages 9–28. Springer, 2007. (cité page 45)

Ana-Maria Popescu, Bao Nguyen, et Oren Etzioni. Opine : Extrac-ting product features and opinions from reviews. Dans Proceedings ofHLT/EMNLP on interactive demonstrations, pages 32–33. Association forComputational Linguistics, 2005. (cité page 44)

Erik Qualman. Socialnomics : How social media transforms the way we live anddo business. John Wiley & Sons, 2012. (cité pages 19 et 26)

John Ross Quinlan. Induction of decision trees. Machine learning, 1(1) :81–106, 1986. (cité pages 18 et 96)

John Ross Quinlan. C4.5 : programs for machine learning. Morgan Kaufmann,1993. (cité page 96)

Max Reinert. Alceste une méthodologie d’analyse des données textuelleset une application : Aurelia de gerard de nerval. Bulletin de méthodologiesociologique, 26(1) :24–54, 1990. (cité pages 5 et 30)

Heinrich Rickert. Kulturwissenschaft und Naturwissenschaft. J.C.B. Mohr,Tubingen, 1921. 5ème édition. (cité page 13)

Marian-Andrei Rizoiu. Semi-supervised structuring of complex data. PhDthesis, Université Lyon 2, 2013a. (cité page 17)

Marian-Andrei Rizoiu. Semi-supervised structuring of complex data.Dans Proceedings of the Twenty-Third International Joint Conference on Ar-tificial Intelligence (IJCAI), pages 3239–3240. AAAI Press, 2013b. (citépage 117)

Marian-Andrei Rizoiu, J. Velcin, et S. Lallich. How to use temporal-drivenconstrained clustering to detect typical evolutions. International Journalon Artificial Intelligence Tools (IJAIT), 23(4), 2014. (cité pages 33, 56 et 57)

Marian-Andrei Rizoiu et Julien Velcin. Topic extraction for ontology lear-ning. Dans Wilson Wong, Wei Liu, et Mohammed Bennamoun, éditeurs,Ontology Learning and Knowledge Discovery Using the Web : Challenges andRecent Advances, pages 38–61. IGI Global, 2011. (cité page 33)

Page 144: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

136 Bibliographie

Marian-Andrei Rizoiu, Julien Velcin, et Jean-Hugues Chauchat. Regrou-per les données textuelles et nommer les groupes à l’aide des classesrecouvrantes. Dans Actes de la 10ème Conférence Extraction et Gestiondes Connaissances (EGC), Hammamet, Tunisie, pages 561–572, 2010. (citépages 33 et 39)

Marian-Andrei Rizoiu, Julien Velcin, et Stéphane Lallich. Structuring typi-cal evolutions using temporal-driven constrained clustering. Dans Pro-ceedings of the 24th International Conference on Tools with Artificial Intelli-gence (ICTAI), volume 1, pages 610–617, Athens, Greece, 2012. IEEE. (citépages 33 et 57)

Marian-Andrei Rizoiu, Julien Velcin, et Stéphane Lallich. Unsupervisedfeature construction for improving data representation and semantics.Journal of Intelligent Information Systems (JIIS), 40(3) :501–527, 2013. (citépages 85 et 102)

Marian-Andrei Rizoiu, Julien Velcin, et Stéphane Lallich. Semantic-enriched visual vocabulary construction in a weakly supervised context.Intelligent Data Analysis (IDA), 19(1) :161–185, 2015. (cité pages 85 et 94)

Marian-Andréi Rizoiu. Semi-supervised structuring of complex data. PhDthesis, Université Lumière Lyon 2, 2013c. (cité pages 40, 57, 88, 91, 92,93, 94, 95, 97, 101, 102 et 109)

Thomas N Robinson, Dina LG Borzekowski, Donna M Matheson, et He-lena C Kraemer. Effects of fast food branding on young children’s tastepreferences. Archives of Pediatrics & Adolescent Medicine, 161(8) :792, 2007.(cité page 31)

Eleanor Rosch. Principles of categorization. Concepts : core readings, pages189–206, 1999. (cité pages 6, 25 et 30)

Eleanor H Rosch. Natural categories. Cognitive psychology, 4(3) :328–350,1973. (cité page 25)

Steven C Rosenbaum. Curation Nation : How to Win in a World where Consu-mers are Creators : why the Future of Content is Context. McGraw-Hill, 2011.(cité page 28)

Gerard Salton, Anita Wong, et Chung-Shu Yang. A vector space model forautomatic indexing. Communications of the ACM, 18(11) :613–620, 1975.(cité page 35)

Y. Sawaragi, H. Nakayama, et T. Tanino. Theory of multiobjective optimiza-tion, volume 176. Academic Press New York, 1985. (cité pages 96 et 100)

Mario Schmidt. Der einsatz von sankey-diagrammen im stoffstrommana-gement. Rapport Technique 124, Beiträge der Hochschule Pforzheim,2006. (cité page 62)

Thomas Schoberth, Jennifer Preece, et Armin Heinzl. Online communi-ties : A longitudinal analysis of communication activities. Dans SystemSciences, 2003. Proceedings of the 36th Annual Hawaii International Confe-rence on, pages 10–pp. IEEE, 2003. (cité page 67)

Page 145: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Bibliographie 137

Joseph E. Schwartz et Merle Sprinzen. Structures of connectivity. SocialNetworks, 6(2) :103–140, 1984. (cité page 73)

Jerry Scripps, Pang-Ning Tan, et Abdol-Hossein Esfahanian. Node rolesand community structure in networks. Dans Proceedings of the 9thWebKDD and 1st SNA-KDD 2007 workshop on Web mining and social net-work analysis, pages 26–35. ACM, 2007. (cité page 74)

Claude E Shannon. Key papers in the development of information theory.Bell Syst. Tech. J, 27 :623–656, 1948. (cité page 26)

Josef Sivic, Bryan C. Russell, Alexei A. Efros, Andrew Zisserman, etWilliam T. Freeman. Discovering objects and their location in images.Dans Computer Vision, Tenth IEEE International Conference on, volume 1

de ICCV 2005, pages 370–377. IEEE, 2005. (cité page 88)

Anna Stavrianou. Modeling and Mining of Web Discussions. PhD thesis,Université Lumière Lyon 2, 2010. (cité pages 69, 70, 71, 72, 107 et 108)

Anna Stavrianou, Periklis Andritsos, et Nicolas Nicoloyannis. Overviewand semantic issues of text mining. ACM Sigmod Record, 36(3) :23–34,2007. (cité page 18)

Anna Stavrianou, J-H Chauchat, et Julien Velcin. A content-oriented fra-mework for online discussion analysis. Dans Advanced Information Net-working and Applications Workshops, 2009. WAINA’09. International Confe-rence on, pages 721–726. IEEE, 2009a. (cité pages 65 et 72)

Anna Stavrianou, Julien Velcin, et Jean-Hugues Chauchat. A combinationof opinion mining and social network techniques for discussion analy-sis. Revue des Nouvelles Technologies de l’Information (RNTI), pages 25–44,2009b. (cité pages 65 et 72)

Anna Stavrianou, Julien Velcin, et Jean-Hugues Chauchat. Definition andmeasures of an opinion model for mining forums. Dans InternationalConference on Advances in Social Network Analysis and Mining (ASONAM),pages 188–193, Athens, Greece, 2009c. IEEE. (cité pages 65 et 72)

Anna Stavrianou, Julien Velcin, et Jean-Hugues Chauchat. PROG : A Com-plementary Model to the Social Networks for Mining Forums. DansFrom Sociology to Computing in Social Networks. Springer-Verlag, 2010.ISBN 978-3-7091-0293-0. (cité page 72)

Veselin Stoyanov et Claire Cardie. Topic identification for fine-grainedopinion analysis. Dans Proceedings of the 22nd International Conference onComputational Linguistics-Volume 1, pages 817–824. Association for Com-putational Linguistics, 2008. (cité page 45)

A. Stuart, M. Kendall, et J. Keith Ord. The advanced theory of statistics. Vol.3 : Design and analysis and time-series. Griffin, 1983. (cité page 79)

Andranik Tumasjan, Timm Oliver Sprenger, Philipp G Sandner, et Isa-bell M Welpe. Predicting elections with twitter : What 140 characters re-veal about political sentiment. ICWSM, 10 :178–185, 2010. (cité page 21)

Page 146: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

138 Bibliographie

Peter D Turney et Michael L Littman. Measuring praise and criticism :Inference of semantic orientation from association. ACM Transactions onInformation Systems (TOIS), 21(4) :315–346, 2003. (cité page 44)

Julien Velcin. Extraction automatique de stéréotypes à partir de données symbo-liques et lacunaires. PhD thesis, Université de Paris 6, 2005. (cité pages 58

et 110)

Julien Velcin et Jean-Gabriel Ganascia. Stereotype extraction with defaultclustering. Dans Proceedings of the Twenty-Second International Joint Confe-rence on Artificial Intelligence (IJCAI), pages 883–888, 2005. (cité page 58)

Julien Velcin et Jean-Gabriel Ganascia. Topic extraction with AGAPE. DansAdvanced Data Mining and Applications, pages 377–388. Springer, 2007.(cité page 35)

Julien Velcin, Y.M. Kim, C. Brun, J.Y. Dormagen, E. SanJuan, L. Khouas,A. Peradotto, S. Bonnevay, C. Roux, J. Boyadjian, A. Molina, et M. Nei-houser. Investigating the image of entities in social media : Dataset de-sign and first results. Dans Proceedings of the 9th International Conferenceon Language Resources and Evaluation (LREC), pages 818–822, Reykjavik,Iceland, 2014a. (cité pages 59, 60, 105 et 112)

Julien Velcin, A. Peradotto, L. Khouas, J.V. Cossu, J.Y. Dormagen, etC. Brun. Analyser l’image de marque d’entités sur le web : revue duprojet imagiweb. Ingénierie des Systèmes d’Information (ISI), 19(3) :159–162, 2014b. numéro spécial big data. (cité page 105)

Fernanda B. Viégas et Marc Smith. Newsgroup crowds and authorlines :Visualizing the activity of individuals in conversational cyberspaces.Dans System Sciences, 2004. Proceedings of the 37th Annual Hawaii Inter-national Conference on, pages 10–pp. IEEE, 2004. (cité page 75)

Marc Vincent et Grégoire Winterstein. Construction et exploitation d ?uncorpus français pour l ?analyse de sentiment. Dans Actes de la 20èmeconférence sur le Traitement Automatique des Langues Naturelles (TALN), nu-méro 2007, pages 764–771, 2013. (cité page 46)

Julia Vogel et Bernt Schiele. Semantic modeling of natural scenes forcontent-based image retrieval. International Journal of Computer Vision,72(2) :133–157, 2007. (cité page 88)

Xuerui Wang et Andrew McCallum. Topics over time : a non-markovcontinuous-time model of topical trends. Dans Proceedings of the 12thACM SIGKDD international conference on Knowledge discovery and data mi-ning, pages 424–433. ACM, 2006. (cité pages 36, 47 et 50)

Yuchung J. Wang et George Y. Wong. Stochastic blockmodels for directedgraphs. Journal of the American Statistical Association, 82(397) :8–19, 1987.(cité page 75)

Christian Wartena et Rogier Brussee. Topic detection by clustering key-words. Dans Database and Expert Systems Application, 2008. DEXA’08.19th International Workshop on, pages 54–58. IEEE, 2008. (cité page 37)

Page 147: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Bibliographie 139

Furu Wei, Shixia Liu, Yangqiu Song, Shimei Pan, Michelle X Zhou, Wei-hong Qian, Lei Shi, Li Tan, et Qiang Zhang. Tiara : a visual exploratorytext analytic system. Dans Proceedings of the 16th ACM SIGKDD interna-tional conference on Knowledge discovery and data mining, pages 153–162.ACM, 2010. (cité pages 27 et 38)

Zhihua Wei, Duoqian Miao, Jean-Hugues Chauchat, et Caiming Zhong.Feature selection on chinese text classification using character n-grams.Dans Rough Sets and Knowledge Technology, pages 500–507. Springer,2008. (cité page 7)

Douglas R. White et Karl P. Reitz. Graph and semigroup homomorphismson networks of relations. Social Networks, 5(2) :193–234, 1983. (citépage 75)

Shimon Whiteson et Daniel Whiteson. Machine learning for event selec-tion in high energy physics. Engineering Applications of Artificial Intelli-gence, 22(8) :1203–1217, 2009. (cité page 6)

William Foote Whyte. Street corner society. the social structure of an italianslum. 1943. (cité page 14)

Janyce Wiebe, Theresa Wilson, et Claire Cardie. Annotating expressionsof opinions and emotions in language. Language resources and evaluation,39(2-3) :165–210, 2005. (cité page 42)

Christine Williams et Girish Gulati. What is a social network worth ? fa-cebook and vote share in the 2008 presidential primaries. Dans AnnualMeeting of the American Political Science Association, volume 54, 2008. (citépage 21)

Ian H. Witten et Eibe Frank. Data Mining : Practical machine learning toolsand techniques. Morgan Kaufmann, 2005. (cité page 78)

Ian H Witten, Eibe Frank, et Mark A Hall. Data Mining : Practical Ma-chine Learning Tools and Techniques : Practical Machine Learning Tools andTechniques. Elsevier, 2011. (cité page 17)

Ludwig Wittgenstein, Gertrude Elizabeth Margaret Anscombe, et MarionCumming. Philosophical investigations, volume 255. Blackwell Oxford,1958. (cité page 25)

A.P. Wolfe et David Jensen. Playing multiple roles : Discovering over-lapping roles in social networks. Dans ICML-04 Workshop on StatisticalRelational Learning and its Connections to Other Fields, 2004. (cité page 75)

Tianbing Xu, Zhongfei Zhang, Philip S Yu, et Bo Long. Generative modelsfor evolutionary clustering. ACM Transactions on Knowledge Discoveryfrom Data (TKDD), 6(2) :7, 2012. (cité page 54)

Sarita Yardi, Daniel Romero, Grant Schoenebeck, et al. Detecting spam ina twitter network. First Monday, 15(1), 2009. (cité page 74)

Dan Zarrella. The social media marketing book. O’Reilly, 2010. (cité page 32)

Page 148: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

140 Bibliographie

Harry Zhang. The optimality of Naive Bayes. Dans Proceedings of the7th International Florida Artificial Intelligence Research Society Conference(FLAIRS), pages 562–567, Miami Beach, Florida, USA, 2004. AAAI Press.(cité page 45)

Jianguo Zhang, Marcin Marszałek, Svetlana Lazebnik, et Cordelia Schmid.Local features and kernels for classification of texture and object cate-gories : A comprehensive study. International Journal of Computer Vision,73(2) :213–238, 2007. (cité page 89)

Djamel A. Zighed. Les Humanités Numériques : la révolution en SciencesHumaines et Sociales. Revue des Nouvelles Technologies de l’Information(RNTI), pages 01–28, 2014. Modèles et Apprentissage en Sciences Hu-maines et Sociales (MASHS-2). (cité pages 16 et 29)

Djamel A Zighed, Shusaku Tsumoto, Zbigniew W Ras, et Hakim Hacid.Mining complex data, volume 165. Springer, 2009. (cité pages 5 et 17)

Page 149: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Webographie

Abiteboul, 2012. Sciences des données : de la logique du premier ordre à latoile. URL http://books.openedition.org/cdf/529?lang=fr.Leçon inaugurale prononcée au Collège de France le jeudi 8 mars 2012

(accédé le 15 juillet 2014).

American Idol. American idol – wikipedia. URL http://fr.wikipedia.org/wiki/American_Idol. Accédé le 24 juin 2014.

AMI EI. Ami enterprise intelligence software. URL http://www.amisw.com/fr. Accédé le 13 décembre 2013.

AMI Software. Ami software - logiciel de veille stratégique, market intel-ligenceami software. URL http://www.amisw.com/fr. Accédé le 23

mai 2014.

Apopsis. Un détecteur d’opinions qui explore les tweets sur le sujetqui vous intéresse ! URL http://taln.lina.univ-nantes.fr/apopsis. Accédé le 6 décembre 2013.

ASU Coordination Tracker. ASU Coordination Tracker : Non-profit orga-nization need to distribute aid effectively. URL http://alive-dev.asu.edu/homepage. Accédé le 6 décembre 2013.

BnF. Bibliothèque nationale de france. URL http://www.bnf.fr/fr/acc/x.accueil.html. Accédé le 16 juillet 2014.

Boards.ie. ICWSM-12 - Submitting - Datasets. URL http://www.icwsm.org/2012/submitting/datasets. Accédé le 18 avril 2014.

BradFrost. Brad Frost Web : Web Design, Speaking, Consulting, Musicand Art. URL http://bradfrostweb.com. Accédé le 12 novembre2013.

CALO. Cognitive Assistant that Learns and Organizes. URL http://www.calosystem.org. Accédé le 6 décembre 2013.

CEPEL. Centre d’etudes politiques de l’europe latine (cepel) / unités derecherche / recherche / université montpellier 1 - université montpel-lier 1. URL http://www.univ-montp1.fr/recherche/unites_de_recherche/centre_d_etudes_politiques_de_l_europe_latine_cepel. Accédé le 23 mai 2014.

CREALYS. Incubateur crealys. URL http://www.crealys.com. Ac-cédé le 23 mai 2014.

141

Page 150: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

142 Webographie

CRTT. Université lyon 2 - centre de recherche enterminologie et traduction (crtt). URL http://www.univ-lyon2.fr/recherche/laboratoires/centre-de-recherche-en-terminologie-et-traduction-crtt--305727.kjsp?RH=WWW303. Accédé le 23 mai 2014.

Data Mining and Knowledge Management (DMKM). Erasmus mundusmaster course in data mining and knowledge management, a europeanmaster. URL http://www.em-dmkm.eu. Accédé le 23 mai 2014.

DBPedia. Dbpédia en français. URL http://fr.dbpedia.org. Accédéle 23 mai 2014.

Dexter. Dexter – wikipedia. URL http://fr.wikipedia.org/wiki/Dexter_(série_télévisée). Accédé le 24 juin 2014.

Dr House. Dr house – wikipedia. URL http://fr.wikipedia.org/wiki/Dr_House. Accédé le 24 juin 2014.

E-carabin. E-carabin - le forum officiel des étudiants en médecine defrance. URL http://www.e-carabin.net. Accédé le 23 mai 2014.

EDF R&D. Espace innovation et recherche du groupe edf. URL http://innovation.edf.com. Accédé le 23 mai 2014.

ELICO. Elico, équipe de recherche de lyon en sciences de l’informationet de la communication. URL http://www.elico-recherche.eu.Accédé le 23 mai 2014.

FaceBook. Réseau social Facebook. URL https://www.facebook.com.Accédé le 6 décembre 2013.

Google. Moteur de recherche Google. URL https://www.google.fr.Accédé le 6 décembre 2013.

Google Actualité. Google actualité. URL https://news.google.fr.Accédé le 10 décembre 2013.

Huffington Post. Journal : Le Huffington Post. URL http://www.huffingtonpost.fr. Accédé le 6 décembre 2013.

I-Manip. Association i-manip. URL http://www.c2k-manip.com. Ac-cédé le 23 mai 2014.

IBM. IBM Avec plus de données, on voit mieux - France. URL http://www.ibm.com/fr/big-data. Accédé le 25 mars 2014.

ICRL. International conference on learning representa-tions 2013. URL https://sites.google.com/site/representationlearning2013. Accédé le 6 décembre 2013.

IMDb. IMDb - Movies, TV and Celebrities. URL http://www.imdb.com. Accédé le 6 décembre 2013.

INA. Ina.fr : vidéo, audio, radio et publicité – actualités, archives de laradio et de la télévision en ligne. URL http://www.ina.fr. Accédéle 16 juillet 2014.

Page 151: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Webographie 143

Laboratoire Informatique d’Avignon (LIA). Laboratoire informatiqued’avignon. URL http://lia.univ-avignon.fr. Accédé le 23 mai2014.

LARHRA. Laboratoire de recherche historique rhône-alpes. URL http://larhra.ish-lyon.cnrs.fr. Accédé le 15 juillet 2014.

Le Monde. Journal Le Monde. URL http://lemonde.fr. Accédé le 6

décembre 2013.

L’Express. Journal L’Express. URL http://www.lexpress.fr. Accédéle 6 décembre 2013.

Liberation.fr. Site d’actualité liberation.fr. URL http://www.liberation.fr/.

Linkfluence. Linkfluence : Social media intelligence. URL http://linkfluence.com/fr. Accédé le 13 décembre 2013.

liste exhaustive des voyages. Voyage d’exploration scientifique. URLhttp://fr.wikipedia.org/wiki/Voyage_d%27exploration_scientifique. Accédé le 14 mai 2014.

Mad Men. Mad men – wikipedia. URL http://fr.wikipedia.org/wiki/Mad_Men. Accédé le 24 juin 2014.

MediaMining. Eric laboratory online media mining project. URL http://mediamining.univ-lyon2.fr. Accédé le 23 mai 2014.

Mediapart. Site d’information français d’actualités indépendant et partici-patif en ligne | mediapart. URL http://www.mediapart.fr. Accédéle 2 septembre 2014.

Meetic. Meetic.fr – site de rencontres et chat pour célibataires. URL http://www.meetic.fr. Accédé le 15 juillet 2014.

MySpace. Réseau social MySpace. URL https://myspace.com. Accédéle 6 décembre 2013.

NBC New York. A Timeline of the Dominique Strauss-KahnCase. URL http://www.nbcnewyork.com/news/local/DSK-Dominique-Strauss-Kahn-Case-Timeline-124854459.html. Accédé le 28 février 2014.

OGMS. Ontology for General Medical Science. URL http://code.google.com/p/ogms. Accédé le 6 décembre 2013.

Open Diary. Open Diary of the oldest interactive diary community. URLhttp://www.opendiary.com. Accédé le 6 décembre 2013.

Panoptinet. Prism : vrai ou faux scandale ? Comment préserver sa vie pri-vée sur Internet ? URL http://www.panoptinet.com/archives/11359. Article du 13 juin 2013.

Planetoscope. Planetoscope : Statistiques mondiales en temps réel. URLhttp://www.planetoscope.com. Accédé le 12 novembre 2013.

Page 152: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

144 Webographie

plateforme d’annotation. Plate-forme d’annotation d’opinion imagweb.URL http://dev.termwatch.es/~molina/imagiweb2/static/systeme_description.html. Accédé le 23 mai 2014.

Projet ImagiWeb. Projet anr imagiweb. URL http://mediamining.univ-lyon2.fr/people/velcin/imagiweb. Accédé le 23 mai2014.

Qwant. Moteur de recherche Qwant. URL http://www.qwant.com.Accédé le 6 décembre 2013.

Rue89. Rue89. URL http://rue89.nouvelobs.com. Accédé le 2 sep-tembre 2014.

SAS. What is Big Data. URL http://www.sas.com/en_us/insights/big-data/what-is-big-data.html. Accédé le 25

mars 2014.

SemEval 2013. Semeval-2013 : Semantic evaluation exercises. internationalworkshop on semantic evaluation. URL http://www.cs.york.ac.uk/semeval-2013. Accédé le 21 février 2014.

SYSTRAN. Systran – translation technologies. URL http://www.systransoft.com. Accédé le 15 juillet 2014.

Technicolor. Technicolor – Société axée sur les technologies innovantes.URL http://www.technicolor.com/fr. Accédé le 2 septembre2014.

The Office. The office – wikipedia. URL http://fr.wikipedia.org/wiki/The_Office_(série_télévisée,_2005). Accédé le 24 juin2014.

Tom’s Guide. Vie privée : les 12 scandales majeurs de Facebook.URL http://www.tomsguide.fr/article/facebook-faille,2-1153.html. Article du 1er juin 2010.

Twitter. Twitter. URL https://twitter.com. Accédé le 5 septembre2014.

TWOP. Television without pity – television reviews. URL http://www.televisionwithoutpity.com. Accédé le 24 juin 2014.

UCI. NYSK data set. URL http://archive.ics.uci.edu/ml/datasets/NYSK. Accédé le 28 février 2014.

Urban Dictionary. The urban dictionary. URL http://www.urbandictionary.com. Accédé le 21 février 2014.

Usenet. Usenet & Newsgroups Access. URL http://www.usenet.net.Accédé le 18 avril 2014.

W3C. World wide web consortium. URL http://www.w3.org. Accédéle 13 décembre 2013.

Page 153: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Wikipedia BBS. Bulletin board system. URL http://fr.wikipedia.org/wiki/Bulletin_board_system. Accédé le 27 novembre 2013.

Wikipédia. Wikipédia, l’encyclopédie libre. URL http://fr.wikipedia.org. Accédé le 6 décembre 2013.

Xerox. Xerox research centre europe (xrce). URL http://www.xrce.xerox.com. Accédé le 23 mai 2014.

Yahoo ! Answers. Yahoo ! answers. URL https://answers.yahoo.com. Accédé le 28 mars 2014.

Page 154: Mémoire - mediamining.univ-lyon2.frmediamining.univ-lyon2.fr/velcin/public/publis/VELCIN_HDR_FINAL.pdf · thème de la science des données, en soulignant les applications qui en

Titre Contributions à la science des données : Fouille de données tex-tuelles appliquée à l’analyse des médias sociaux

Résumé L’augmentation phénoménale du volume des données dispo-nibles depuis l’avènement du Web et la mise à disposition de données tou-jours plus abondantes (archives, fonds documentaires, open data) conduitau constat que le développement de techniques modernes de fouille dedonnées complexes est aujourd’hui une question cruciale. Ces techniquesattribuées à la nouvelle science des données sont en passe de devenir deformidables outils pour le spécialiste dans les Sciences de l’Homme et dela Société (SHS) et plus largement pour le citoyen de ce nouvel universnumérique. Dans ce mémoire, je passe en revue les travaux dans lesquelsj’ai été impliqué sur ce sujet au sein de l’équipe Data Mining et Décision(DMD) au laboratoire ERIC de l’Université de Lyon. Plus particulièrement,je décris trois contributions originales pour le traitement des données com-plexes (en particulier textuelles) que l’on trouve de manière abondante surInternet ou dans les grandes bases de données. L’approche que je privi-légie dans mes travaux est le développement de modèles d’apprentissageautomatique non ou peu supervisés (weakly-supervised clustering).

La première contribution traite de l’analyse des thématiques et desopinions, en particulier à partir de corpus textuels. Dans cette partie, jemontre qu’il est possible de construire des modèles capables de prendreen compte la dimension temporelle des données afin de capturer la dy-namique générale des opinions exprimées dans un corpus. La deuxièmecontribution s’intéresse de plus près aux internautes qui s’investissentdans les conversations virtuelles ainsi qu’au réseau social que ces der-niers tissent sur la toile. Dans cette partie, je montre qu’il est possible derecourir à des techniques de recherche d’information et d’apprentissageautomatique pour recommander des messages-clefs ou pour trouver lesrôles que jouent les internautes dans les discussions. La troisième contri-bution est centrée sur un travail autour des représentations portant surdes données d’image. Cette partie permet de montrer qu’il est possible demodifier ou d’enrichir la représentation de ce type de données pour destâches de classification automatique.

Le mémoire se termine par une description de deux projets sur les-quels j’ai été investi ces dernières années et qui illustrent les recherchesentreprises jusqu’à présent. Le premier de ces projets porte sur l’analysedes conversations en ligne. Fruit de nombreuses collaborations, il a per-mis de mettre au point une plateforme d’analyse des forums de discus-sion pour tester les algorithmes développés dans l’équipe. Le second estle projet ImagiWeb dont l’objectif consiste à étudier les images (au sensdes représentations) véhiculées par les médias sociaux, et plus particuliè-rement les données issues de Twitter et de messages de blogs. Ce projetfinancé par l’ANR sur trois ans implique six partenaires. Il nous permetde montrer qu’une analyse temporelle fine des opinions exprimées sur In-ternet est possible. Pour finir, le mémoire se termine par un bilan généralde mes recherches et par des perspectives qui portent sur l’analyse desreprésentations véhiculées par les médias sociaux.