8
30/06/13 10:08 Text Mining, Sentiment Analysis, Big Data. Page 1 sur 8 http://lecercle.lesechos.fr/print/69745 Publié sur Le Cercle Les Echos (http://lecercle.lesechos.fr ) Text Mining, Sentiment Analysis, Big Data. Espaces vectoriels et sémantique distributionnelle… Introduction A l’ère du digital et de la société de l’information nous conjuguons deux phénomènes auxquels les entreprises sont confrontées et doivent faire faces: le déluge informationnel « Big Data » et le déluge publicitaire que j’ai désigné par l’expression « Big Ads » dans un article précédent. Avec l’évolution du web 2.0 vers ce que l’on appelle désormais le web 3.0 ou web sémantique, on assiste à une explosion des données textuelles, données non structurées par excellence et qui soulèvent nombre de questions et de potentialités pour les entreprises qui ne peuvent en ignorer l’existence et les impacts sur leur écosystème : collaborateurs, fournisseurs, image de marque, notoriété, tous les composants du mix- marketing, concurrents, prospects et clients… Le passage du Web 2.0 au Web 3.0 a eu pour conséquence de créer la diffusion d’une communication sociale sans limite dans l’espace et le temps, une conversation sociale ubiquitaire qui se traduit par l’émergence des plates-formes de blogging, d’espaces d’expression tels que les forums, les sites acceptant les commentaires, et surtout les échanges conversationnels via les réseaux sociaux tels que Facebook, Twitter, Foursquare, Linkedin, Viadeo, Pinterest, Slideshare pour former une réunion de moyen de communication sociale et pervasive (omniprésence) entre individus à distance et sans précédent. Tout ce contenu textuel généré par les internautes s’appelle « User Generated Content ». Ce nouvel espace d’expression représente une gigantesque manne et mine d’informations, notamment en termes d’avis, d’idées, de jugements, de commentaires, d’opinions susceptibles d’être exploitées à des fins diverses. Les données textuelles, notamment, peuvent être analysées dans différents buts. Par exemple, dans le domaine de la fouille d’opinion (Opinion Mining), les textes sont utilisées afin de permettre à des entreprises de connaître automatiquement l’image que les consommateurs ont de leur marque, de leurs produits, de leurs services, de leurs concurrents, d’un marché, de même pour les projets et les personnalités politiques, réaliser des sondages, détecter des rumeurs, anticiper des crises etc. En effet, les textes rédigés par les internautes sont en général plus subjectifs que les articles rédigés par des professionnels et sont donc beaucoup plus porteurs d’opinion. Dès lors, toutes les initiatives en matière de recherche d’information (Information Retrieval),

Text mining, sentiment analysis, big data

Embed Size (px)

DESCRIPTION

A l’ère du digital et de la société de l’information nous conjuguons deux phénomènes auxquels les entreprises sont confrontées et doivent faire faces: le déluge informationnel « Big Data » et le déluge publicitaire que j’ai désigné par l’expression « Big Ads » dans un article précédent. Avec l’évolution du web 2.0 vers ce que l’on appelle désormais le web 3.0 ou web sémantique, on assiste à une explosion des données textuelles, données non structurées par excellence et qui soulèvent nombre de questions et de potentialités pour les entreprises qui ne peuvent en ignorer l’existence et les impacts sur leur écosystème : collaborateurs, fournisseurs, image de marque, notoriété, tous les composants du mix- marketing, concurrents, prospects et clients...

Citation preview

Page 1: Text mining, sentiment analysis, big data

30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.

Page 1 sur 8http://lecercle.lesechos.fr/print/69745

Publié sur Le Cercle Les Echos (http://lecercle.lesechos.fr)

Text Mining, Sentiment Analysis, Big Data.Espaces vectoriels et sémantique distributionnelle…Introduction

A l’ère du digital et de la société de l’information nous conjuguons deux phénomènesauxquels les entreprises sont confrontées et doivent faire faces: le déluge informationnel «Big Data » et le déluge publicitaire que j’ai désigné par l’expression « Big Ads » dans unarticle précédent. Avec l’évolution du web 2.0 vers ce que l’on appelle désormais le web 3.0ou web sémantique, on assiste à une explosion des données textuelles, données nonstructurées par excellence et qui soulèvent nombre de questions et de potentialités pour lesentreprises qui ne peuvent en ignorer l’existence et les impacts sur leur écosystème :collaborateurs, fournisseurs, image de marque, notoriété, tous les composants du mix-marketing, concurrents, prospects et clients…

Le passage du Web 2.0 au Web 3.0 a eu pour conséquence de créer la diffusion d’unecommunication sociale sans limite dans l’espace et le temps, une conversation socialeubiquitaire qui se traduit par l’émergence des plates-formes de blogging, d’espacesd’expression tels que les forums, les sites acceptant les commentaires, et surtout leséchanges conversationnels via les réseaux sociaux tels que Facebook, Twitter, Foursquare,Linkedin, Viadeo, Pinterest, Slideshare pour former une réunion de moyen de communicationsociale et pervasive (omniprésence) entre individus à distance et sans précédent.

Tout ce contenu textuel généré par les internautes s’appelle « User Generated Content ». Cenouvel espace d’expression représente une gigantesque manne et mine d’informations,notamment en termes d’avis, d’idées, de jugements, de commentaires, d’opinionssusceptibles d’être exploitées à des fins diverses. Les données textuelles, notamment,peuvent être analysées dans différents buts. Par exemple, dans le domaine de la fouilled’opinion (Opinion Mining), les textes sont utilisées afin de permettre à des entreprises deconnaître automatiquement l’image que les consommateurs ont de leur marque, de leursproduits, de leurs services, de leurs concurrents, d’un marché, de même pour les projets etles personnalités politiques, réaliser des sondages, détecter des rumeurs, anticiper des crisesetc. En effet, les textes rédigés par les internautes sont en général plus subjectifs que lesarticles rédigés par des professionnels et sont donc beaucoup plus porteurs d’opinion.

Dès lors, toutes les initiatives en matière de recherche d’information (Information Retrieval),

Page 2: Text mining, sentiment analysis, big data

30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.

Page 2 sur 8http://lecercle.lesechos.fr/print/69745

d’indexation et d’analyse du langage automatisé via le web font appel à des techniques deplus en plus sophistiquées, mais qui reposent sur des bases algorithmiques souvent simplesempruntées à la logique booléenne, aux statistiques et/ou à une approche probabiliste quifinalement en limite l’efficience. Nous verrons qu’il existe une voie inexploitée en France quifait référence à l’algèbre linéaire et aux bons vieux espaces vectoriels : au recours à lafonction cosinus, aux produits scalaires et autres souvenirs en mathématiques que nosconfrères américains n’ont pas manqués d’utiliser pour développer les Lucene, Yahoo !,Google ou encore Bing… Les technologies utilisées aujourd’hui en Text et Opinion Miningmais aussi en Search ont évoluées considérablement depuis 10 ans et font références auxdernières avancées en Intelligence Artificielle et en Linguistique Computationnelle pourpermettre à de nouveaux acteurs du Web Semantic d’utiliser le modèle vectoriel dans lafouille, l’analyse et la clustérisation des data afin de contribuer au traitement du délugeinformationnel (Big Data).

Nous verrons notamment avec l’apparition de la Sémantique Distributionnelle (DistributionalSemantic) l’utilisation de l’analyse sémantique fondée sur le modèle vectoriel se propose deréduire les dimensions de l’espace linguistique investigué, d’optimiser les calculs, d’affiner lesrésultats obtenus le tout par la maximisation des capacités computationnelles au service dusens, d’une meilleure interprétation des data textuelles (data non structurées)...

1/ Du Text Mining au Sentiment Analysis…

La fouille d’opinion (Opinion Mining) est un sous-domaine de la fouille de textes (Text Mining) qui consiste à analyser destextes afin d’en extraire des informations liées aux opinions et aux sentiments (Sentiment Analysis). Le terme Opinion Miningapparaît dans un article de Dave en 2003 qui a été publié dans l’acte de conférence WWW 2003. Selon Dave, l’OpinionMining devrait « traiter un ensemble de résultats de recherche pour un cas donné, générer une liste des attributs (qualité,caractéristiques, etc.) et agréger des avis sur chacun d’entre eux (mauvais, modéré, de bonne qualité) ». Toutefois, l’OpinionMining a récemment été interprétée de manière plus générale pour inclure de nombreux types d’analyse d’évaluation detexte.

Le terme « Analyse des Sentiments » est utilisé pour décrire l’analyse automatique de texte évaluatif et pour la recherche devaleur prédictive des jugements. Elle a été introduite dans les travaux de Das et Chen en 2001 afin d’analyser dessentiments dans le cadre de l’économie de marché. Depuis 2002, un nombre important d’articles citant l’Analyse desSentiments ont vus le jour, ces travaux se concentrent sur la classification des commentaires et à leur polarité (positif ounégatif). Aujourd’hui, l’Opinion Mining et l’Analyse des Sentiments font partie du même domaine de recherche. L’une destâches de la fouille d’opinion, appelée classification d’opinion et a pour objectif de classer les textes suivant l’opinion qu’ilsexpriment. Cette classification peut se faire sur deux classes (positif ou négatif), sur trois classes (positif, négatif ou neutre)ou sur plus de classes encore. Ces classes sont ordonnées et peuvent donc être assimilées à des notes.

Ainsi, les internautes ont à leur disposition une tribune sans précédent, de portée et depuissance, permettant de partager leurs expériences et de marquer leur avis (positifs ounégatifs) sur n’importe quel sujet, sur n’importe quelle marque, sur n’importe quel produit ouservice. Les entreprises peuvent répondre aux besoins des consommateurs en effectuant dela surveillance et de l’analyse des opinions pour améliorer leurs produits et leurs services.Malheureusement le risque de modification des opinions est important. De ce fait, il estnécessaire d’avoir un système capable d’analyser automatiquement les comportementsgénéraux liés à la consommation, afin de mieux comprendre comment les différents produitset les services sont perçus par les clients. Un tel système devrait premièrement collecter lesopinions des consommateurs et des utilisateurs dans des documents qui montrent lesopinions et les phrases subjectives. Parfois, cela est relativement facile, comme dans les casde grands sites où les opinions des utilisateurs sont bien structurées comme par exemple

Page 3: Text mining, sentiment analysis, big data

30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.

Page 3 sur 8http://lecercle.lesechos.fr/print/69745

Amazon.com, Allociné.com.

Le problème devient plus complexe dans le cas des blogs ou de sites à forte audience avecune grande partie dédiée au blogging tels que Doctissimo.com, Auféminin.com, pour n’enciter que deux et qui contiennent aussi bien des parties de texte de fonds rédigées par desjournalistes professionnels et des parties plus subjectives, qui peuvent varier assez largementdans le contenu, le style, la présentation, la structure syntaxique et la grammaticalité. Il esttrès intéressant de travailler sur des commentaires venant des blogs car ils sont pluspertinents que sur les sites de vente, car plus détaillés, plus détachés de « l’opinion desautres » et de la modération supposée du site ; enfin ils sont généralement plus expressifsquant à l’intensité des opinions exprimées elles-mêmes.

Une fois que les documents intéressants sont collectés, nous sommes confrontés auproblème d’identification de l’ensemble des avis et sentiments exprimés par ces documents.Pour résoudre cette tâche, il faut préciser le domaine d’intérêt, car si par exemple nousnotons les opinions sur un produit de grande consommation ou sur un produit bancaire nousremarquons que la langue est spécifique à un secteur, cette spécificité linguistique tient à latechnicité et à la richesses du vocabulaire utilisé dans un secteur donné : c’est pourquoi cesmêmes attributs linguistiques peuvent être groupés dans des ensembles prédéfinis ce quifacilitera l’analyse automatique. La dernière étape est de présenter les résultats de sanotation en précisant l’intensité de chaque opinion, car la simple polarité (positif/négatif) nesuffit plus.

Comme nous l’avons rappelé précédemment, depuis l’avènement d’Internet et parconséquent l’explosion de l’information disponible, la recherche d’information ou « informationretrieval » s’est vue confrontée à de nouveaux problèmes comme par exemple lasurabondance d’information, la redondance, le problème de la qualification de l’information...La recherche d’information ne concerne plus seulement la documentation : des techniques derecherche d’information apparaissent dans de nombreux domaines tels que l’analyse dedonnées, la bio-informatique, la linguistique, les statistiques, l’optimisation de grandes basesde données, l’intelligence artificielle... La grande variété des méthodes souligne la diversitédes communautés qui travaillent sur le domaine de la recherche d’information. Le terme «recherche d’information » ou « information retrieval » est employé pour la première fois parMoers pour désigner le processus d’indexation automatique et de recherche d’information.Les premiers projets de recherche d’information portaient sur l’indexation de documents(projet Cranfield, projet SMART...).

2/ Les modèles mathématiques sous-tendant le Text Mining : dépassement de la logique booléenne par l’algèbre linéaire…

Nous présentons ici deux modèles de systèmes de recherche d’informations qui sont utilisés par différents types de sociétés: d’une côté des entreprises récentes positionnées sur le marché de l’e-réputation et de l’autre des éditeurs de logiciel en «open source » de type Lucene, SolR ou encore les fameux « moteurs de recherche » tels que Yahoo ! Google ou Bing.

Le premier modèle dit « modèle booléen » est plutôt classique et limité mais encore utilisé pardes start-ups françaises spécialisées dans la e-réputation. En effet, ce modèle issu de lalogique classique est très limité, peu opérant dans un environnement Big Data du fait de saconception théorique (mathématique). Dans le modèle Booléen, chaque document Di estreprésenté par un ensemble de descripteurs {d1,..,dj,...,dn}. Tous les descripteurs desdocuments sont rangés dans un fichier appelé dictionnaire. Une requête est composée d’unensemble de descripteurs et un ou des opérateurs logiques comme « ET », « OU » ou « NON». Par exemple, je recherche un document en français sur le modèle booléen en recherche

Page 4: Text mining, sentiment analysis, big data

30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.

Page 4 sur 8http://lecercle.lesechos.fr/print/69745

d’information, ma requête pourra s’écrire : « modèle ET booléen ET recherche ET information». Le système évalue chaque document en fonction de la requête : ainsi tous les documentsdont la liste des descripteurs correspond à la requête seront fournis à l’utilisateur. Sur notreexemple, tous les documents ayant exactement dans leur liste « modèle », « booléen », «recherche » et « information » nous seront présentés. Les documents auxquels il manqueraitun descripteur ne seront pas fournis. Les principaux avantages de ce modèle sont :

– sa transparence : l’outil restitue les documents qui répondent exactement à la requête del’utilisateur,– sa facilité de mise en œuvre.

Il présente néanmoins des limites sérieuses et rédhibitoires:– la nécessité d’une bonne maîtrise des opérateurs pour obtenir exactement ce que l’oncherche,– les documents ne sont pas classés et leur nombre pas maîtrisé,– raisonnement et fonctionnement binaires, – un document qui ne correspond pas à la requête sur un seul point sera rejeté.

Le second modèle qu’est le « modèle vectoriel » nous paraît beaucoup pertinent, beaucoupplus actuel et très efficace. En effet, ce modèle à rapidement été décrit dans la littératurespécialisée comme extrêmement innovant et opérant dans un environnement flou, complexeet de déluge informationnel (Big Data). En effet, contrairement au modèle booléen, l’utilisateurn’a pas besoin d’exprimer sa requête à l’aide d’opérateurs. Les documents et les requêtessont représentés par des vecteurs : à chaque composante du vecteur est associé undescripteur issu de l’indexation. La valeur de la composante est le poids attribué audescripteur par rapport au document. Le modèle le plus simple est : – on met la composante à 1 si le descripteur est attribué au document, – 0 sinon.

Un document est d’autant plus pertinent à une requête que le vecteur associé est similaire àcelui de la requête. Ainsi, on va utiliser un calcul de similarité pour obtenir une liste ordonnéede documents pertinents. Dans un espace de mot, les divers sens d'un terme se distinguentpar des valeurs différentes d'un certain nombre de paramètres (informations sur le contextedu mot, lexicales, syntaxiques, sémantiques, etc.). Chaque sens (ou emploi) du mot est doncreprésenté par une région de son espace sémantique, plus ou moins grande dans unedimension donnée, et les proximités de sens entre acceptions se traduisent dans l'espace pardes relations de voisinage ou de recouvrement. La représentation en espaces vectorielssémantiques est donc particulièrement adaptée pour rendre compte des phénomènessémantiques tels que la polysémie car ils permettent de déterminer avec précision le sens dechaque acception d'un terme ambigu tout en conservant la notion de proximité, essentielle,dans la définition-même de la polysémie.

La désambiguïsation consiste alors à étudier la position du vecteur représentant uneacception donnée à désambiguïser dans l'espace sémantique du mot et à lui assigner le sensle plus proche. L'idée de base de la clustérisation est de regrouper ensemble des objets quise ressemblent dans une ou plusieurs dimensions données, en l'occurrence des motsregroupés en classes de voisins/co- occurrents. En analyse des données, le but de laclustérisation est de créer un partitionnement d'un ensemble de données (mots, documents)en un ensemble de sous-classes pertinentes, appelées « clusters » (grappes), représentéespar un « centroïd » ou barycentre (élément le plus représentatif ou moyenne de tout ou partiede leurs membres).

Page 5: Text mining, sentiment analysis, big data

30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.

Page 5 sur 8http://lecercle.lesechos.fr/print/69745

Le choix de la méthode de calcul de la similarité entre les objets du modèle (mots,documents) dépend du choix du modèle de représentation (espaces vectoriels, graphes,arbres de décision, etc.). Dans le cas de notre modèle vectoriel, le point de départ de cetteméthode est un espace vectoriel sémantique de grande dimension construit à partir d'uncorpus et dont la dimensionnalité est souvent réduite à l’aide de divers procédés de réductionmatricielle, notamment la décomposition en valeur singulière on parle de Latent SemanticAnalysis (LSA).

3/ De la sémantique distributionnelle…

C’est en 1968 que Gérard Salton définit pour la première sa fonction Cosinus Similarité : le Cosinus de Salton est l'analysede la pertinence d'une page (=un document) par rapport à un requête. Il présente pour la première fois le modèle vectoriel.Cette technique était principalement utilisée par les renseignements généraux et autres agences d’espionnage à l’époque.Elle permet aujourd’hui de prendre un texte et de le transformer en un vecteur, ainsi l'ensemble d'un texte peut faire ressortirune idée, un concept. Cette approche va se propager dans tous les milieux de la linguistique et de l’intelligence artificielledurant près de 20 ans et pour finalement produire en 1990 un nouveau type d’analyse la Latent Semantic Analysis quis'appuie sur la matrice utilisée par Salton pour y appliquer des méthodes de réduction matricielle via la Décomposition enValeur Singulière (SVD).

En effet c’est en 1990, dans un article fondateur pour la sémantique vectorielle queDeerwester, Dumais, Landauer et al (Indexing by Latent Semantic Analysis, Journal of TheAmerican society for Information Science, sept.1990 ; 41, 6) définissent les bases de LatentSemantic Analysis (LSA) en mettant au point une méthode de représentation sous la formed’un espace sémantique de très grande dimension, du sens contextuel des mots à l'aide decalculs statistiques sur un large corpus qui leur permettent d'inférer des relations profondesentre mots ou ensembles de mots. L'information de base utilisée par cette technique est ladistribution des mots dans la somme de leurs contextes. L'idée sous-jacente est que lasomme de tous les contextes d'apparition ou non d'un mot fournit un ensemble de contraintesmutuelles qui déterminent largement la similarité sémantique entre mots et ensembles demots.

Le point de départ de la Latent Semantic Analysis est une matrice de cooccurrences dont lesdimensions sont les mots et leurs contextes d'apparition à laquelle on applique unedécomposition en valeurs singulières, cette technique s’appelle la (SVD) qui produit unesorte de lissage des associations mot-à-mot. La matrice de cooccurrences est ainsitransformée en une matrice plus petite contenant la partie la plus pertinente de l'informationcontenues dans les cooccurrences initiales. Ceci permet de résoudre le problème de ladisparité des fréquences de cooccurrence (probabilités nulles) entre mots entraînée par le faitque, même dans un grand corpus de textes, la plupart des mots sont relativement rares. Celapermet non seulement d'améliorer la complexité en temps (pour le calcul des distances oudes plus proches voisins) mais aussi en espace puisque la caractérisation d'un mot devientplus petite. Le positionnement des mots et de leurs sens, représentés par des vecteurs, dansl'espace sémantique ainsi obtenu permet toujours de mesurer leur proximité par le cosinus.Les clusters peuvent ensuite être construits à partir des vecteurs des mots proches dansl'espace. Le cosinus permet de calculer l'angle entre deux vecteurs, soit comparer leurdirection. Comme les documents et les requêtes sont des vecteurs, on peut calculer leurproximité par leur cosinus. La valeur du cosinus est normée (entre 0 et 1, car lescomposantes sont positives) :

- si le cosinus tend vers 1 => les deux documents sont proches- si le cosinus tend vers 0 => les deux documents sont éloignés

Page 6: Text mining, sentiment analysis, big data

30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.

Page 6 sur 8http://lecercle.lesechos.fr/print/69745

La pertinence d'une requête par rapport à un document n'est pas binaire (ex. cosinus entrevecteurs) par opposition au modèle booléen. On constante une très nette amélioration de laprécision de la réponse du système, auxquels on peut ajouter la grande simplicité et lapopularité du modèle issu de l’algèbre linéaire. On parle de Similarité Cosinus (ou mesurecosinus) permet de calculer la similarité entre deux vecteurs à n dimensions en déterminantl'angle entre eux. Elle est représentée par la formule ci-dessous :cos(thêta) = A . B / ||A|| ||B||

Soient deux vecteurs A et B, l'angle s'obtient par le produit scalaire et la norme des vecteurs.Les valeurs, et donc les objets qu’elles représentent, peuvent alors être interprétées commedes vecteurs formant un espace vectoriel. L’avantage de cette représentation est que l’on saitfaire certaines opérations assez facilement dans de tels espaces, notamment des calculs dedistance/similarité très rapides. Dans le cas des data textuelles, ces représentationsconsistent souvent à considérer le document (ou n’importe quelle donnée textuelle) commeun sac-de-mots, c’est-à-dire un ensemble non structuré, sans information sur la séquentialitédes mots dans le texte. Usuellement, on calcule pour chaque mot présent dans le documentune valeur reflétant son importance comme descripteur du document.

Les mots du vocabulaire (ou de la collection de documents traitée) absents du document ontune valeur nulle. Finalement, le texte est donc décrit comme un vecteur d’un espace ayantpour dimensions tous les mots du vocabulaire. Certains auteurs évoquent les limites de laLatent Semantic Analysis en se référant à l’approche Harrissienne de la sémantique. Dansson œuvre magistrale datée de 1951, Zellig Harris définit la méthode distributionnelle qui serala première tentative de traitement formel de la langue. La formalisation est poussée, et ellerefuse toute utilisation du sens comme critère de définition formelle de la langue. Harrisremplace les sens par le critère formel de la somme totale des environnements (ladistribution) des éléments abstraits. Il réussit ainsi à axiomatiser entièrement l'analyse de lalangue, avec une rigueur poussée à l’extrême.

La Sémantique Distributionnelle suppose l’existence d’une forte corrélation entre lescaractéristiques distributionnelles observables des mots et leur sens : la sémantique d’un motest reliée à l’ensemble des contextes dans lesquels il apparaît. La sémantiquedistributionnelle fait l’hypothèse qu’il est possible de déterminer, de déduire automatiquementla sémantique d’un mot à partir de l’ensemble de ses contextes dans un corpus. C’est ce quiconduit Cohen et Widdows dans un article de 2009 intitulé Empirical distributional semantics :methods and biomedical applications (in Journal of Biomedical Informatics) à considérer qu’enrecherche d’information on atteint vite les limites de l’exercice si on se base uniquement surun système qui ne prend en compte que l’exacte correspondance entre la requête par mots-clés et la parfaite pertinence des résultats dans une logique booléenne.

C’est justement pour les auteurs la première motivation à l'utilisation de la méthodedistributionnelle. Bien que prometteuse, l’indexation sémantique latente (Latent SemanticIndexing) pour les moteurs de recherche ne s'est pas révélée être une « killing application ».Cela s'explique en partie parce qu’en dépit de quelques bons résultats, la précision n'a pasété améliorée de manière fiable lorsqu’il s’agit d’appréhender des masses de données (BigData). Il est également devenu peu à peu évident que le moteur de recherche « sémantique »(au sens de langage naturel) doit être beaucoup plus efficace qu'un simple moteur derecherche par « mot-clé » (booléen), même si les utilisateurs ont pris l'habitude de rechercherpar mots clés et ont tendance à préférer les outils qu'ils peuvent manipuler facilement et demanière prévisible ». C’est ainsi qu’a germé à l’Université de Technologie de Pittsburgh, lepremier projet de moteur de recherche utilisant la sémantique distributionnelle pour une

Page 7: Text mining, sentiment analysis, big data

30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.

Page 7 sur 8http://lecercle.lesechos.fr/print/69745

communauté universitaire spécifique et donnant naissance à une solution permettant detraiter en langage naturel et donc de modéliser la signification des mots, des phrases et desdocuments à partir de la distribution et de l'utilisation des mots dans un large corpus de texte.

Ce projet est détaillé dans un second article « The Semantic Vectors Package: NewAlgorithms and Public Tools for Distributional Semantics » toujours publié par Trevor Cohen(University of Texas) et Dominic Widdows (Google Inc) en 2010 à l’Université CarnegieMellon lors d’une conférence sur les derniers développements en SémantiqueComputationnelle. Les auteurs rappellent qu’en 2007 l’Université de Pittsburg a décidé dedévelopper en open source (Apache Lucene) une librairie en java portant le nom de «Semantic Vector Package ». L’accès à cette plateforme évolutive et stable se fait via le site de

Project Hosting de Google à l’adresse suivante :http://code.google.com/p/semanticvectors/Package for creating and searching semantic vector indexes by wrapping Apache Lucene.

Conclusion

Par conséquent, on peut affirmer que le modèle théorique (mathématique) de base des moteurs de recherche tels queLucene, Yahoo !, Google ou encore Bing est bien vectoriel. Il peut se résumer ainsi: un index géant contient tous les mots duvocabulaire contenu dans les documents indexés, un fichier dit inverse recense pour chaque mot de cet index sa présencedans les documents indexés (les pages html pour le web), et pour retrouver ces pages en fonction d’une requête, il estréalisé un calcul de similarité (notre fameuse fonction Similarité Cosinus héritée de Gérard Salton) entre un vecteur de poidsde mot correspondants à la requête et un autre correspondant au poids des mots contenus dans un document. Les scoresobtenus pour chaque mesure de similarité servent ensuite à ordonner la liste de résultat. Le modèle vectoriel exploitegénéralement des espaces avec de très nombreuses dimensions, par exemple lorsqu’il est utilisé pour l’étiquetagesémantique. Ce modèle est en effet applicable à toutes les activités de recherche d’information et pas seulement auxmoteurs de recherche.

Le problème intrinsèque de ce modèle est qu’il n’est pas sémantique: si votre requête afficheen résultat les pages contenant les mots Ordinateur ou Tablette, vous ne pourrez pas recevoirles documents qui contiennent les mots Apple, Dell, Sony, Samsung ou bien iPad, GalaxyTab, Surface qui sont pourtant pertinents.

Pour introduire de la sémantique dans un système de recherche d’information, plusieurstechniques ont été proposées. Et notamment Latent Semantic Analysis (LSA) qui permetd’identifier automatiquement quels mots sont « sémantiquement proches ». Cette méthoderéalise nous l’avons vu un processus d'abstraction des relations sémantiques latentes entreles termes via la méthode Singular Value Decomposition (SVD). Une des critiques que l'onpeut faire du modèle LSA avec SVD est qu'il est couteux d'un point de vue computationnel.Cependant, il a ouvert la voie dans le domaine de l'analyse sémantique « latente ». Lesmodèles qui arrivent après la Latent Semantic Analysis pallie au problème du traitementcomputationnel en optimisant les calculs par des méthodes de projections aléatoires. Lemodèle en question a été révélé par une équipe de chercheurs suédois en « computersciences » en 1998 (Kanerva et al) : ils ont élaborés ce qui s’appelle « Random Indexing »(RI) qui s’impose comme l’alternative au modèle LSA classique.

C’est sans aucun doute le modèle RI est bien celui à utiliser aujourd’hui: car avec la méthodeSVD et sa modélisation mathématique encore complexe et trop gourmande sur un plancomputationnel fait place à une approche beaucoup plus efficace en matière de Text Mining.Les travaux de Kanerva ont ouvert une nouvelle dimension en mettant en place un modèle

Page 8: Text mining, sentiment analysis, big data

30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.

Page 8 sur 8http://lecercle.lesechos.fr/print/69745

porteur d’avenir pour la sémantique computationnelle. Le Random Indexing (RI) ens’appuyant non plus sur les formules mathématiques habituelles de réduction que l’on a décritplus haut dans notre article (SVD dans LSA), mais sur des méthodes de projection aléatoirerend possible le text mining massif voire exhaustif, en accélérant le traitement de l’informationtout en préservant la pertinence des résultats : pour appréhender le déluge informationneld’origine textuel...

Cette magnifique perspective offrent aux entreprises françaises désireuses de traiter letsunami de données non structurées (Big Data) une occasion rare et unique de profiter desderniers développements et algorithmes produits par la sémantique computationnelle, dans lebut de rattraper le retard et la distance pris avec nos voisins américains, pour qui le Big Datan’est pas un « buzz word » mais une priorité à traiter…J’en suis convaincu, le champ académique français est très fécond, j’en veux pour preuve lesnombreuses publications scientifiques de doctorants et docteurs en Sciences Cognitives et enIntelligence Artificielle spécialisée en Linguistique Computationnelle qui traitent de ces mêmessujets et s’imposent progressivement sur la scène de la recherche mondiale. Aussi, je nedoute pas un seul instant que ces avancées scientifiques et techniques donneront naissanceà quelques jeunes pousses issues de la recherche-développement qui deviendront très vitedes usines à transformer les data non structurées en information pertinentes et actionnableset non pas en ressource fossile (allusion au fameux « Data is new oil » qui me paraîtgalvaudé et déjà dépassé) mais à l’énergie digitale nouvelle et durable dont toutes lesentreprises ont besoin pour se développer et se transformer grâce à l’ingéniosité de quelquesentrepreneurs spécialisés dans le traitement du Big Data et qui deviendront peut-être lesLucene, Yahoo !, Google ou Bing de demain…

Bruno Teboul

Bruno TEBOUL

URL source: http://lecercle.lesechos.fr/entrepreneur/internet/221169745/text-mining-sentiment-analysis-big-data