3

Click here to load reader

Modules Tech : Apprendre des méthodes, des techniques et ... (Institut Convergence... · Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle

  • Upload
    lamcong

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Modules Tech : Apprendre des méthodes, des techniques et ... (Institut Convergence... · Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle

Modules Tech : Apprendre des méthodes, des techniques et des logiciels (non spécifiques à un domaine d'application)

Titre Description Pré requis

Algorithmes pour la résolution de problèmes Modélisation de problèmes (graphes, programmes linéaires) et résolution par des approches algorithmiques (exactes, approchées, probabilistes)

Connaître un langage impératif (C, C++, Java, Python ou autre)

Introduction à Python pour le calcul scientifique

Introduction au langage Python. Découverte et prise en main de quelques bibliothèques spécialisées de calcul scientifique. aucun

Programmation parallèle

Comment paralléliser un problème pour une mise en oeuvre sur des architectures à mémoire distribuée (grappe de PCs, machines massivement paralléle) ou des machines à mémoire partagée (machine multicoeurs) ? Introduction à la programmation avec la librairie MPI et l'API OpenMP. Ce module inclut également une petite mise à niveau en programmation C.

Savoir programmer dans un langage impératif

Programmation MulticoeursComment utiliser la puissance des GPU pour accélerer ses calculs ? Quels sont les parallélisations adaptées à ces architectures particulières ? Comment programmer pour des GPU ? Introduction à la programmation CUDA et OpenCL.

Savoir programmer dans un langage impératif

Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle discriminante et Classification. Sans

Data Mining avec le logiciel R

Introduction au langage R et aux outils de statistiques descriptives (“data exploratory analysis”) avec R 1. Méthodes de data mining multivariées pour données numériques ou qualitatives: Analyse en composantes principales (ACP), Analyse factorielle des correspondances (AFC), Analyse des Correspondances multiples (ACM) 2. Méthodes de classification (clustering) non supervisées (kmeans, classification hiérarchique, à base de modèles probabilistes de mélange) et supervisées (régression logistique,…). NB: Ce module s'intitule “Data Mining” (fouille de données) et pas “Big Data” car ces méthodes sont adaptées à des données éventuellement très volumineuses, mais qui “tiennent” dans un ordinateur courant, sans nécessiter de système ni de calcul distribué type Hadoop/MapReduce.

Sans (une connaissance de base du logiciel R et des statistiques

élémentaires est un plus)

Data Mining : Fondements et Outils Python

Introduction au Data Mining (types de données - tâches) - Classification supervisée : arbre de décision, classifieur bayésien, k-plus-proche-voisin, réseau de neurones, SVM, noyaux - Classification non supervisée : k-moyenne, hiérarchique, clustering spectral, méthodes fondées sur la densité - Quelques notions sur la recherche de règles d'association et de motifs fréquents. Utilisation d'un environnement de Data Mining développé en Python (Orange) et de librairies Python comme Scikit-learn. Importance du pré-traitement des données et de la validation des modèles

Sans. Une connaissance de Python peut être un plus mais

nous utiliserons principalement des packages Python et des fonctions prédéfinies de ces

packages.

Méthodes numériques pour la modélisation

Dans ce module, on découvrira le logiciel libre Scilab, référence pour le calcul scientifique (syntaxe similaire à Matlab).On présentera et programmera des méthodes efficaces pour - résoudre un système d'équations linéaires - trouver les zeros d'une fonction- interpoler des mesures- calculer une intégrale - visualiser la solution d'une équation différentielleCe module pourra être complété par le module Expérimentation numérique qui abordera d'autres exemples d'applications.

Goût pour la programmation

Analyse de données par des cas pratiques

Apprendre à se servir de différents outils/concepts courants dans l'analyse de données, à partir de cas pratiques (cf. numerical recipes): propagation d'erreurs (bootstrap), tests d'hypothèse, régression linéaire (avec/sans erreurs), régression non-linéaire, estimation de spectres de Fourier, ...

Connaissances en algorithmique/programmation

Introduction au logiciel SAS Sans

Modèles de prévision avec séries temporelles

Rappel sur les outils usuels de modélisation des séries temporelles univariées stationnaires. Modèles de séries temporelles univariés à variables non stationnaires. La modélisation économétrique multivariée usuelle à l'aide des modèles vectoriels autorégressifs. Cointégration et modèles Vectoriels à Correction d’Erreurs.

Connaissance de la statistique inférentielle et de notions en

algèbre matricielle

Page 2: Modules Tech : Apprendre des méthodes, des techniques et ... (Institut Convergence... · Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle

Big Data avec SAS

Ce cours a pour objet l’étude d’un modèle d’apprentissage supervisé connusous le nom d’arbres de décision. Les méthodes d’agrégation des arbres de décisions, telles que les forêts aléatoires ou Random Forest (Breiman, 2001) et les méthodes de Boosting (Freund et Schapire, 1996) seront également abordées. Ces méthodes sont très utiles pour la prédiction dans le contexte des données massives. Le logiciel d’application est SAS.

Connaissance des méthodes de régression (MCO) et de classification (logistique)

Big Data avec Hadoop

Ce module, contenant une partie très pratique, a pour objectif de donner aux étudiants des connaissances solides dans la gestion, le stockage et la manipulation de grandes masses de données en utilisant le modèle MapReduce, le système de fichiers distribuées et différents frameworks BigData : Hadoop, Hbase, Hive Piglatin, et Giraph.

Connaissance de Java et de Linux

Modules Them : Utilisation des data sciences dans différents domaines des Masters participant à GSON

Titre du module existant Description Pré requis

Biologie : qu'analyse-t-on?

Nature, fonction et expression du génome. L'ADN, un code à 4 lettres formant des signatures. Séquençage de l'ADN, assemblage des morceaux et bar-coding. L'ARN, ne jamais travailler avec l'original. Traduire un ARN en protéine, règle et prédictions. La protéine, un code à 20 lettres formant des cassettes modulables. Séquence protéique : prédictions de structures et fonctions. Analyses de n séquences : alignements et motifs consensus. Phylogénie : évolution moléculaire, un arbre de distance.

Sans

Expérimentation numérique

La simulation numérique s'avère être aussi un véritable outil d'expérimentation dans bien des domaines. Ce module aborde deux méthodes que sont celles de Monte Carlo et celles de la dynamique moléculaire avec des applications vers le dépôt de couches minces, la théorie des votes, la biologie, l'écoulements des fluides, ... La pertinence des solutions obtenues sera examinée.

Connaissances en algorithmique/programmation

Data sciences et langage

Dans ce module, nous initions les futurs data scientists aux pièges tendus par les langues naturelles et nous leur offrons quelques clés pour décoder efficacement le langage humain. Parmi bien d'autres choses, nous évoquerons avec vous :- Qui parle lorsqu’on parle ? (structuration des données massives en langues naturelles dans la perspective des humanités numériques),- Des oui qui veulent dire non — et très rarement des non qui veulent dire oui (Pour l'opinion mining notamment : de la prosodie à la sémantique),- « des poulets vifs et bien gras qu'on plume, qu'on coupe en morceaux, qu'on cuit et qu'on sert avec des légumes » (Problèmes d’extraction d'information, résumé automatique, etc... : la résolution automatisée des coréférences),- « si t'as soif, y a de la bière dans le frigo » /« c'était bon, mais c'était bon ! » — ou comment faire déprimer les logiciens (Connecteurs logiques en langues naturelles).

Sans

Du CRM (Management de la Relation Client) au BigData

Faire prendre conscience que l'organisation est fondamentalement immergée dans un ensemble de relations tant internes qu'externes, que ces relations s'alimentent grâce à de multiples données et informations qu'il est nécessaire d'identifier, de stocker, de structurer, d'analyser et d'exploiter, notamment en mobilisant des outils informatiques.

Connaissances fondamentales en marketing, systèmes

d'information et bases de données

Systèmes d'Information et veille stratégique

Apprendre à identifier les typologies de l'information et des sources, à pratiquer la recherche avancée sur les moteurs de recherche, à établir un plan de veille, à sélectionner les outils de veille, à initier une démarche de veille au sein d'une entreprise.

Sans

Chimie informatique

Sélection, transformation et préparation des données chimiques et biologiques en données numériques ; Data Mining (analyse de chimiothèques, de bases de données publiques et analyse en composantes principales) ; Construction de modèles QSAR ; méthodes supervisées et non supervisées, méthodes de classification. Exemples de méthodes utilisées : k-NN, Neural Networks, k-means, hierarchical clustering, kohonen maps, SVM et SVR, PLS, RF. Application à la découverte de nouveaux médicaments.

connaissance de Python est un plus

Analyses des matériaux et Eco-conception Comprendre les enjeux des analyses de cycle de vie des produits manufacturés, introduction à l'écoconception. Sans

Analyse de données en Physique

Apprendre à se servir de différents outils/concepts courants dans l'analyse de données, à partir de cas pratiques (cf. numerical recipes): propagation d'erreurs (bootstrap), tests d'hypothèse, régression linéaire (avec/sans erreurs), régression non-linéaire, estimation de spectres de Fourier, ...

Connaissances en algorithmique/programmation

Page 3: Modules Tech : Apprendre des méthodes, des techniques et ... (Institut Convergence... · Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle

Méthodologie de l'économétrie

Ce cours propose une présentation des notions et des méthodes statistiques/économétriques de base. Nous commençons par la distinction entre la statistique descriptive et la statistique inférentielle, et la présentation des principales mesures statistiques. Nous abordons ensuite les techniques d’estimation des paramètres, notamment les estimateurs ponctuels et les intervalles de confiance. Les paramètres inconnus font l’objet des tests statistiques, et la relation entre deux ou plusieurs populations (en termes de moyenne, variance, etc.) est aussi vérifiée à l’aide des procédures de tests paramétriques.La deuxième partie du cours porte sur les principes de l’estimation des modèles de régression simple/multiple avec des applications en finance. Les problèmes liés aux termes d’erreurs seront ensuite détectés via les tests d’hétéroscedasticité, d’autocorrélation et de normalité. Une analyse de la stabilité du modèle est aussi envisagée.

Statistiques/Proba et algèbre linéaire

Géomatique professionnelle pour la modélisation des environnements naturels et

industriels

Géomatiques des ingénieurs des bureaux d’études ou des compagnies minières pour la modélisation des désordres environnementaux sur l’eau et les sols liés aux activités humaines en général ainsi que la modélisation et la gestion des données métallogéniques.

Sans

Lois de transports dans les hydro-géosystèmes

Ce module se propose de faire un point sur les équations de transport (de masse, de quantité de mouvement …), sur la façon dont on les obtient et sur la signification physique des différents termes qui y interviennent. Les TD consisteront à utiliser et à comprendre ces équations par le biais de la modélisation numérique de différents systèmes géologiques. Les sujets traités concerneront entre autres et au choix : les systèmes hydrothermaux, la géothermie ou la migration des polluants dans un aquifère.

Sans

Analyse spatiale prédictive (SIG)

Ce module traite des méthodes de calcul de cartes de risque ou de favorabilité dans le domaine des géosciences et sous Système d'Information Géographique. Il se repose fortement i) sur les traitements statistiques uni- et multi-variables et ii) sur les méthodes d’analyse spatiale en cartographie numérique.La partie théorique de cet enseignement comprend : des rappels de cartographie numérique et des principes de géostatistique pour l’analyse et l’interpolation des variables continues, l’analyse des corrélations entre variables et les outils de qualification et de quantification des relations spatiales entre objets cartographiques de type vectoriel. Différentes méthodes de croisement/combinaison de données (weight of evidence, logique floue, combinaison de scores SIRIS) sont ensuite abordées et illustrées à travers la modélisation de cartes d’aléas et de « favorabilité ».Les démarches d’Analyse Spatiale Prédictive seront illustrées sur des exemples choisis dans différents domaines des sciences de la Terre (prospection minière, recherche de ressources en eaux, prévisions de risques naturels, etc).

Sans

Droit de l'informatique Ce module se propose d'initier les futurs data scientists au droit lié à la gestion de l'information et de les sensibliser à la sécurité des pratiques utilisateurs. Sans