14
15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz Formation Actuaire Data- Scientist PROGRAMME

Big data f prez formation_datascience_14-sept

Embed Size (px)

DESCRIPTION

Présentation formation data scientist 15 septembre 2014

Citation preview

Page 1: Big data f prez formation_datascience_14-sept

15 Septembre 2014

Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz

Formation Actuaire Data-Scientist

PROGRAMME

Page 2: Big data f prez formation_datascience_14-sept

Programme

14-9-12

Séance inaugurale: révolution numérique; besoins des entreprises; cadre réglementaire; éthique et normes.

3 blocs pédagogiques: cours et TD approfondissements et applications aux métiers de l’assurance réalisation d’un projet individuel sur un sujet actuariel

Rythme: 2 jours par mois comportant à la fois cours et cas pratiques début du projet à mi-parcours

Page 3: Big data f prez formation_datascience_14-sept

Programme

A) Éléments logiciels et programmation Python ~ 18h

B) Datamining et programmation R ~ 18h

C) Algorithmique en Machine Learning et mise en situation ~ 24h

D) Fondements théoriques de l’apprentissage statistique ~ 24h

E) Machine Learning distribué et applications ~ 12h

F) Extraction, utilisation et visualisation des données ~ 18h

Approfondissements et études de cas pratiques ~ 40h* nombre d'heures à titre indicatif

COURS ET TD

APPLICATIONS AUX MÉTIERS DE L ’ASSURANCE

Page 4: Big data f prez formation_datascience_14-sept

Programme

A) Éléments logiciels et programmation Python ~ 18h

Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques pertinentes.

Eléments de programme :

Initiation à la programmation PythonProgrammation objet, classes, héritageBibliothèque des méthodes statistiques usuellesEléments logiciels pour grandes bases de donnéeHardware, performance machine et gestion de mémoireEfficacité d'un algorithmeComplexité, accès mémoire, ordres de grandeur

Page 5: Big data f prez formation_datascience_14-sept

Programme

B) Datamining et programmation R ~ 18h

Objectif : Présenter les outils classiques d'exploration de données, sous un angle essentiellement descriptif. Ces cours permettra une remise à niveau en R, en rappelant, durant les premières heures, les bases de la programmation en R.

Eléments de programme :

Manipuler des données sous R: données continues, facteurs (recodification), dates, heuresBases de la programmation avancée en RMéthodes non-superviséesAnalyse factorielle et détection de clusters

Page 6: Big data f prez formation_datascience_14-sept

Programme

C) Algorithmique en machine learning et mise en situation ~ 24h

Objectif : Approche par mise en situation via la participation à un concours type Kaggle. Présentation des différentes phases : exploration, sélection/transformation des données, algorithmes d’apprentissage, visualisation

Eléments de programme :

Etude de casExploration/ Sélection / Transformation / Nettoyage des données Principaux algorithmes de Machine Learning (contexte de Classification)K-NN, Régression Logistique, SVMForêts aléatoires, Réseaux de NeuronesBoosting, BaggingProcédures de validation / sélection de modèleVisualisationRetour d’expérience et analyse des résultats

Page 7: Big data f prez formation_datascience_14-sept

Programme

D) Fondements théoriques de l’apprentissage statistique ~ 24h

Objectif : Présenter les fondements mathématiques des principales méthodes de Machine learning

Eléments de programme :

Théorie de la décision, Perte, risque, risque empiriqueModèle statistique pour la classification binaire, Approches génératives vs. discriminantesMachine Learning, Méthodes paramétriques, perceptron, partitionnementAlgorithmes de classification de données massives, Convexification du risque, boosting et SVM Méthodes ascendantes et descendantes, Critères AIC et BICRégression linéaire: limites et améliorations : Parcimonie. Régression pas à pas Approche par pénalisation: ridge, lasso... Modèles linéaires généralisés, Méthodes de régression alternatives, Approche non linéaire: polynômes locaux, ondelettes Régression PLS et CART

Page 8: Big data f prez formation_datascience_14-sept

Programme

E) Machine Learning distribué et applications ~ 12h

Objectif : Pour passer à l’échelle, les algorithmes de Machine Learning vus dans les cours précédents doivent être repensés. Un cadre efficace est celui des algorithmes distribués où on utilise plusieurs entités de calculs pour mener à bien l’objectif initial. L’objectif de ce cours sera de présenter différents exemples d’algorithmes de Machine Learning distribués

Eléments de programme :

Algorithmes distribués : généralitésLe cas de Map-ReduceApplications en Machine Learning

Page 9: Big data f prez formation_datascience_14-sept

Programme

F) Extraction, utilisation et visualisation des données ~ 18h

Objectif : Description des enjeux économiques et sociétaux de la révolution numérique du Big Data. Présentation des architectures de bases ou entrepôts de données, ainsi que des techniques d'exploration associées pour la récolte des données. Sensibilisation aux questions éthiques sous-jacentes, aux contraintes juridiques européennes et au rôle de la CNIL. Présentation des principales méthodes de visualisation des données complexes.

Eléments de programme :

Ecosystème des données massivesSQL vs NoSQLAnonymisation de données, Protection des données personnelles, enjeux économiquesVisualisation des données

Page 10: Big data f prez formation_datascience_14-sept

Programme

Approfondissements et études de cas ~ 40h

Objectif : Présentations de sujets « métier » et mises en situation via des interventions courtes, et techniques, (2 à 4 h) sur des thématiques précises.

Exemple :Cartographie et GPSGéolocalisation et anonymisationTraitement de données textuellesHealth monitoringDétection de fraudeApplications en GénomiqueInvestissement séquentiel en gestion de portefeuille...

APPLICATIONS AUX MÉTIERS DE L’ASSURANCE

Page 11: Big data f prez formation_datascience_14-sept

Programme

Approfondissements et études de cas ~ 40h

Objectif : Présentations de sujets « métier » et mises en situation via des interventions courtes, et techniques, (2 à 4 h) sur des thématiques précises.

Exemples :...Enchère webRéseaux de neurone & e-commerceCalcul du capital économique en grande dimensionVente d’assurance en ligneVisualisation de données et réseaux sociauxBiosécuritéParallélisation massive pour la simulation Monte Carlo

APPLICATIONS AUX MÉTIERS DE L’ASSURANCE

Page 12: Big data f prez formation_datascience_14-sept

Programme

* calendrier donné à titre purement indicatif

Page 13: Big data f prez formation_datascience_14-sept

Réalisation d’un projetLes participants à la formation réaliseront un projet visant à

exhiber l'apport de ces nouvelles méthodologies statistiques et informatiques pour la modélisation d'un phénomène actuariel

Projet réalisé sous le tutorat d’un membre du corps enseignant de la formation

Projet réalisé sur la deuxième moitié de la formation

Rédaction d’un rapport et soutenance devant un jury de membres du corps enseignant ainsi que l’ensemble de la promotion (sauf conflit trop important pour cause de confidentialité).

Page 14: Big data f prez formation_datascience_14-sept

Validation de la formation

Plusieurs examens ou QCMs au cours de la formation, pour valider l’acquisition de blocs précis de compétences en data science

Réalisation et soutenance d’un projet mettant en application les compétences acquises à des problématiques actuarielles

Obtention du diplôme Actuaire Data Scientist de l’Institut du Risk Management