2

Click here to load reader

Sujet de thèse 36 mois / Brest - telecom-bretagne.eu · Qualité des données textuelles : ... données hétérogènes et fouille de celles-ci. 6) Aspects théoriques : considérer

Embed Size (px)

Citation preview

Page 1: Sujet de thèse 36 mois / Brest - telecom-bretagne.eu · Qualité des données textuelles : ... données hétérogènes et fouille de celles-ci. 6) Aspects théoriques : considérer

Sujet de thèse

36 mois / Brest

Directeurs : Yannis Haralambous et Philippe Lenca (Télécom Bretagne & DECIDE/Lab-STICC)

Encadrant : Yannis Haralambous et Philippe Lenca (Télécom Bretagne & DECIDE/Lab-STICC), Laurent Le Bodic (Crédit Mutuel Arkea)

Mots clés : machine learning, big data, fouille sémantique, motif séquentiel, OpenData, chaîne temporelle, langage, normalisation, deep learning Localisation : mixte entre le Crédit Mutuel Arkéa / Télécom Bretagne, sur Brest

Titre : Modélisation et fouille sémantiques des interactions client/établissement bancaire à partir de données massives

Résumé du projet

La communication entre une entreprise et ses clients est complexe à appréhender. De nombreux travaux ont déjà pu être menés autour de la détection d’attrition, ou des différentes facettes de la relation client-fournisseur. Cette thèse se propose d’approfondir ces travaux, avec l’analyse de nouveaux facteurs, comme l’analyse sémantique des éléments textuels d’échanges entre les parties, des réseaux sociaux, de l’Open Data, en plus des données concernant le compte et les opérations du client. En effet, en tenant compte de toutes les interactions entre client et établissement bancaire, on peut construire un modèle qualitatif global de la relation bancaire. L'apport des données numériques et transactionnelles à ce modèle est connu depuis longtemps, l'innovation consiste ici à utiliser conjointement les données textuelles diverses et à indexer sémantiquement l'ensemble des données (numériques, transactionnelles, textuelles). Les motifs numériques et transactionnels d'un côté, lexicaux, sémantiques ou rhétoriques de l'autre, caractérisent dans une certaine mesure la qualité de la relation et permettent de calculer des indices, qui peuvent à leur tour servir dans un deuxième temps au déclenchement de nouvelles stratégies au regard de la relation attendue. Aux données textuelles issues des échanges avec le client peut s'ajouter une analyse de données Open Data (données sociales économiques géolocalisées par exemple), couplée avec des éléments provenant de réseaux sociaux ou bases de données internes, ce qui pourrait aussi permettre la détection de clusters d’influence, géographiques, temporels, causaux ou d’intérêt, afin de mieux comprendre, sur un plan global, des phénomènes de groupe ou de mimétisme.

Ce sujet de thèse porte sur l’analyse des différents corpus de données, en vue d’élaborer un modèle de la qualité de la relation client fournisseur, et la réalisation d’un démonstrateur logiciel.

État de l’art

Qualité des données textuelles : des travaux ont été effectués sur la qualité des données textuelles selon des contraintes sémantiques données et vis-à-vis d'un référentiel de qualité sur plusieurs niveaux, correspondant aux différentes couches d'analyse linguistique.

Page 2: Sujet de thèse 36 mois / Brest - telecom-bretagne.eu · Qualité des données textuelles : ... données hétérogènes et fouille de celles-ci. 6) Aspects théoriques : considérer

Modélisation des relations et sa représentation : Il existe différentes ontologies financières et bancaires décrivant les concepts, entités, processus, intentions et interactions du fonctionnement d'un établissement bancaire. Comme il s'agit d'un système complexe, ces ontologies ne couvrent que des domaines spécifiques du système financier / bancaire.

Grandes étapes de travail envisagées :

1) Analyse approfondie du problème et des sources de données internes/externes utilisables. En particulier, analyse des concepts et relations qui entourent la relation client/établissement bancaire.

2) État de l’art et étude du corpus : cet état de l’art sera fait en alternance temporelle avec l’analyse précédente qui permettra de l’affiner. Il s'agira de confronter l'analyse aux données du corpus, en indexant les données par rapport aux ontologies.

3) Phénomène d'attrition et santé de relation client/banque. Il s'agira de fouiller les données sémantiquement indexées aux points 1 et 2 pour déterminer les indicateurs de santé de relation ou de risque d'attrition. Ces indicateurs seront évalués sur une partie du corpus.

4) Théorie de la décision : de quelle manière l'outil peut-il alerter le conseiller, lui suggérer une démarche à suivre, réincorporer les données obtenues pour réajuster les calculs d'indice de risque d'attrition ?

5) Traitement de données hétérogènes : comment combiner les calculs sur les données textuelles avec les autres données concernant un client donné ? Alignement sémantique de données hétérogènes et fouille de celles-ci.

6) Aspects théoriques : considérer l'ensemble des données comme un langage, une opération bancaire étant, par exemple, considérée comme un acte de langage. Étudier ce langage et le fouiller pour déduire des indicateurs d'attrition.

École doctorale

Cette thèse sera menée dans le cadre de l’école doctorale SICMA.

Candidatures :

Pour postuler les candidats doivent envoyer (par email aux deux adresses [email protected] et [email protected]) :

• un CV détaillé avec d’éventuels référents et/ou lettres de recommandation • un relevé de notes du master ou de l’école d’ingénieur • une lettre de motivation écrite en français • le cas échéant, un résumé de leur stage de fin d’étude

Sont éligibles les candidats :

• titulaires d’un Master en Informatique ou d’une équivalence leur permettant de s’inscrire en thèse, ou en cours de préparation de ce diplôme pendant l’année de dépôt de la candidature (joindre le relevé de notes du 1er semestre) (idéalement spécialisation en fouille de données, représentation et gestion des connaissances)

Les candidats pré-sélectionnés sur dossier seront auditionnés sur le site de Telecom Bretagne pour un recrutement à partir du 1er octobre.