3

Click here to load reader

Modules Tech : Apprendre des méthodes, des techniques et ... (Institut... · Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle discriminante

Embed Size (px)

Citation preview

Page 1: Modules Tech : Apprendre des méthodes, des techniques et ... (Institut... · Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle discriminante

Modules Tech : Apprendre des méthodes, des techniques et des logiciels (non spécifiques à un domaine d'application)

Titre Description Pré requis

Algorithmes pour la résolution de problèmes Modélisation de problèmes (graphes, programmes linéaires) et résolution par des approches algorithmiques (exactes, approchées, probabilistes)

Connaître un langage impératif (C, C++, Java, Python ou autre)

Introduction à Python pour le calcul scientifique

Introduction au langage Python. Découverte et prise en main de quelques bibliothèques spécialisées de calcul scientifique. aucun

Programmation paralléle + Programmation Multicoeurs= Programmation haute

performance

Comment paralléliser un problème pour une mise en oeuvre sur des architectures à mémoire distribuée (grappe de PCs, machines massivement paralléle) ou des machines à mémoire partagée (machine multicoeurs) ? Introduction à la programmation avec la librairie MPI et l'API OpenMP. Ce module inclut également une petite mise à niveau en programmation C.

Savoir programmer dans un langage impératif

Comment utiliser la puissance des GPU pour accélerer ses calculs ? Quels sont les parallélisations adaptées à ces architectures particulières ? Comment programmer pour des GPU ? Introduction à la programmation CUDA et OpenCL.

Savoir programmer dans un langage impératif

Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle discriminante et Classification. Sans

Data Mining avec le logiciel R

Introduction au langage R et aux outils de statistiques descriptives (“data exploratory analysis”) avec R 1. Méthodes de data mining multivariées pour données numériques ou qualitatives: Analyse en composantes principales (ACP), Analyse factorielle des correspondances (AFC), Analyse des Correspondances multiples (ACM) 2. Méthodes de classification (clustering) non supervisées (kmeans, classification hiérarchique, à base de modèles probabilistes de mélange) et supervisées (régression logistique,…). NB: Ce module s'intitule “Data Mining” (fouille de données) et pas “Big Data” car ces méthodes sont adaptées à des données éventuellement très volumineuses, mais qui “tiennent” dans un ordinateur courant, sans nécessiter de système ni de calcul distribué type Hadoop/MapReduce.

Sans (une connaissance de base du logiciel R et des statistiques

élémentaires est un plus)

Data Mining : Fondements et Outils Python

Introduction au Data Mining (types de données - tâches) - Classification supervisée : arbre de décision, classifieur bayésien, k-plus-proche-voisin, réseau de neurones, SVM, noyaux - Classification non supervisée : k-moyenne, hiérarchique, clustering spectral, méthodes fondées sur la densité - Quelques notions sur la recherche de règles d'association et de motifs fréquents. Utilisation d'un environnement de Data Mining développé en Python (Orange) et de librairies Python comme Scikit-learn. Importance du pré-traitement des données et de la validation des modèles

Sans. Une connaissance de Python peut être un plus mais

nous utiliserons principalement des packages Python et des fonctions prédéfinies de ces

packages.

Expérimentation numérique + Méthodes numériques pour la simulation =

Expérimentations numériques

La simulation numérique s'avère être aussi un véritable outil d'expérimentation dans bien des domaines. Ce module aborde deux méthodes que sont celles de Monte Carlo et celles de la dynamique moléculaire avec des applications vers le dépôt de couches minces, la théorie des votes, la biologie, l'écoulements des fluides, ... La pertinence des solutions obtenues sera examinée.

Connaissances en algorithmique/programmation

Dans ce module, on découvrira le logiciel libre Scilab, référence pour le calcul scientifique (syntaxe similaire à Matlab).On présentera et programmera des méthodes efficaces pour - résoudre un système d'équations linéaires - trouver les zeros d'une fonction- interpoler des mesures- calculer une intégrale - visualiser la solution d'une équation différentielleCe module pourra être complété par le module Expérimentation numérique qui abordera d'autres exemples d'applications.

Goût pour la programmation

Analyse de données par des cas pratiques

Apprendre à se servir de différents outils/concepts courants dans l'analyse de données, à partir de cas pratiques (cf. numerical recipes): propagation d'erreurs (bootstrap), tests d'hypothèse, régression linéaire (avec/sans erreurs), régression non-linéaire, estimation de spectres de Fourier, ...

Connaissances en algorithmique/programmation

Introduction au logiciel SAS Sans

Page 2: Modules Tech : Apprendre des méthodes, des techniques et ... (Institut... · Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle discriminante

Modèles de prévision avec séries temporelles

Rappel sur les outils usuels de modélisation des séries temporelles univariées stationnaires. Modèles de séries temporelles univariés à variables non stationnaires. La modélisation économétrique multivariée usuelle à l'aide des modèles vectoriels autorégressifs. Cointégration et modèles Vectoriels à Correction d’Erreurs.

Connaissance de la statistique inférentielle et de notions en

algèbre matricielle

Big Data avec SAS

Ce cours a pour objet l’étude d’un modèle d’apprentissage supervisé connusous le nom d’arbres de décision. Les méthodes d’agrégation des arbres de décisions, telles que les forêts aléatoires ou Random Forest (Breiman, 2001) et les méthodes de Boosting (Freund et Schapire, 1996) seront également abordées. Ces méthodes sont très utiles pour la prédiction dans le contexte des données massives. Le logiciel d’application est SAS.

Connaissance des méthodes de régression (MCO) et de classification (logistique)

Big Data avec Hadoop

Ce module, contenant une partie très pratique, a pour objectif de donner aux étudiants des connaissances solides dans la gestion, le stockage et la manipulation de grandes masses de données en utilisant le modèle MapReduce, le système de fichiers distribuées et différents frameworks BigData : Hadoop, Hbase, Hive Piglatin, et Giraph.

Connaissance de Java et de Linux

Modules Them : Utilisation des data sciences dans différents domaines des Masters participant à GSON

Titre du module existant Description Pré requis

Biologie : qu'analyse-t-on?

Nature, fonction et expression du génome. L'ADN, un code à 4 lettres formant des signatures. Séquençage de l'ADN, assemblage des morceaux et bar-coding. L'ARN, ne jamais travailler avec l'original. Traduire un ARN en protéine, règle et prédictions. La protéine, un code à 20 lettres formant des cassettes modulables. Séquence protéique : prédictions de structures et fonctions. Analyses de n séquences : alignements et motifs consensus. Phylogénie : évolution moléculaire, un arbre de distance.

Sans

Data sciences et langage

Dans ce module, nous initions les futurs data scientists aux pièges tendus par les langues naturelles et nous leur offrons quelques clés pour décoder efficacement le langage humain. Parmi bien d'autres choses, nous évoquerons avec vous :- Qui parle lorsqu’on parle ? (structuration des données massives en langues naturelles dans la perspective des humanités numériques),- Des oui qui veulent dire non — et très rarement des non qui veulent dire oui (Pour l'opinion mining notamment : de la prosodie à la sémantique),- « des poulets vifs et bien gras qu'on plume, qu'on coupe en morceaux, qu'on cuit et qu'on sert avec des légumes » (Problèmes d’extraction d'information, résumé automatique, etc... : la résolution automatisée des coréférences),- « si t'as soif, y a de la bière dans le frigo » /« c'était bon, mais c'était bon ! » — ou comment faire déprimer les logiciens (Connecteurs logiques en langues naturelles).

Sans

Du CRM (Management de la Relation Client) au BigData

Faire prendre conscience que l'organisation est fondamentalement immergée dans un ensemble de relations tant internes qu'externes, que ces relations s'alimentent grâce à de multiples données et informations qu'il est nécessaire d'identifier, de stocker, de structurer, d'analyser et d'exploiter, notamment en mobilisant des outils informatiques.

Connaissances fondamentales en marketing, systèmes

d'information et bases de données

Chimie informatique

Sélection, transformation et préparation des données chimiques et biologiques en données numériques ; Data Mining (analyse de chimiothèques, de bases de données publiques et analyse en composantes principales) ; Construction de modèles QSAR ; méthodes supervisées et non supervisées, méthodes de classification. Exemples de méthodes utilisées : k-NN, Neural Networks, k-means, hierarchical clustering, kohonen maps, SVM et SVR, PLS, RF. Application à la découverte de nouveaux médicaments.

connaissance de Python est un plus

Analyse de données par des cas pratiques

Apprendre à se servir de différents outils/concepts courants dans l'analyse de données, à partir de cas pratiques (cf. numerical recipes): propagation d'erreurs (bootstrap), tests d'hypothèse, régression linéaire (avec/sans erreurs), régression non-linéaire, estimation de spectres de Fourier, ...

Connaissances en algorithmique/programmation

Page 3: Modules Tech : Apprendre des méthodes, des techniques et ... (Institut... · Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle discriminante

Méthodologie de l'économétrie

Ce cours propose une présentation des notions et des méthodes statistiques/économétriques de base. Nous commençons par la distinction entre la statistique descriptive et la statistique inférentielle, et la présentation des principales mesures statistiques. Nous abordons ensuite les techniques d’estimation des paramètres, notamment les estimateurs ponctuels et les intervalles de confiance. Les paramètres inconnus font l’objet des tests statistiques, et la relation entre deux ou plusieurs populations (en termes de moyenne, variance, etc.) est aussi vérifiée à l’aide des procédures de tests paramétriques.La deuxième partie du cours porte sur les principes de l’estimation des modèles de régression simple/multiple avec des applications en finance. Les problèmes liés aux termes d’erreurs seront ensuite détectés via les tests d’hétéroscedasticité, d’autocorrélation et de normalité. Une analyse de la stabilité du modèle est aussi envisagée.

Statistiques/Proba et algèbre linéaire

Géomatique pour les géosciences

Géomatiques des ingénieurs des bureaux d’études ou des compagnies minières pour la modélisation des désordres environnementaux sur l’eau et les sols liés aux activités humaines en général ainsi que la modélisation et la gestion des données métallogéniques.

Sans

Droit de l'informatique Ce module se propose d'initier les futurs data scientists au droit lié à la gestion de l'information et de les sensibliser à la sécurité des pratiques utilisateurs. Sans