15
Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs “BLAST” intensifs sur la Calculs “BLAST” intensifs sur la plateforme plateforme TIDRA TIDRA - - T T raitement de données et raitement de données et I I nformatique nformatique D D istribuée en istribuée en R R hône- hône- A A lpes. lpes.

Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Embed Size (px)

Citation preview

Page 1: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Recherche de similarité de séquences à grande

échelleS. Penel, P. Calvat, Y. Cardenas

LBBE, CCIN2P3Calculs “BLAST” intensifs sur la Calculs “BLAST” intensifs sur la

plateforme plateforme TIDRATIDRA - -

TTraitement de données et raitement de données et IInformatique nformatique DDistribuée en istribuée en RRhône-hône-AAlpes.lpes.

Page 2: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Contexte biologiqueContexte biologique

Bases de données dédiées à la phylogénomique

HOVERGEN ( vertébrés), HOGENOM( génome complets), etc.

Principe : pour chaque base de données:Calcul de similarité entre les protéines (BLAST 2.2 ) Clustering en familles (BUILD_FAM 2.0) Calcul d’alignement et d’arbre phylogénétique pour chaque famille

Généralisation Création d’une base unique contentant toutes les séquences de protéines ( Uniprot + CDS traduits non présents dans Uniprot) Servira de point de départ pour la construction de toutes les autres bases

Calcul de similarité sur toutes les séquences de protéine :

BLAST de 8,000,000 x 8,000,000 séquences

Page 3: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Technologie grille et Technologie grille et services associésservices associés

RAGRID (Grille Rhône-RAGRID (Grille Rhône-Alpes)Alpes)

7000 coeurs (cpu)7000 coeurs (cpu) 300 To de stockage300 To de stockage 5 Noeuds5 Noeuds

• LAPP (Annecy)LAPP (Annecy)• LPSC (Grenoble)LPSC (Grenoble)• IPNL (Lyon)IPNL (Lyon)• IBCP (Lyon)IBCP (Lyon)• CC-IN2P3 ( Lyon)CC-IN2P3 ( Lyon)

Page 4: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Technologie grille et Technologie grille et services associésservices associés

RAGRID (Grille Rhône-RAGRID (Grille Rhône-Alpes)Alpes)

Middleware:Middleware:• Job management : gLite, LRMSJob management : gLite, LRMS• Stockage : iRODS, SRMStockage : iRODS, SRM• Utilisateur : JSAGA Utilisateur : JSAGA

implemtantation SAGAimplemtantation SAGA

vo.rhone-alpes.idgrilles.frvo.rhone-alpes.idgrilles.fr

Page 5: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

RessourcesRessources

SE/SRM

SE/SRM

SE/SRM

SE/SRM

CE/WN

CE/WNCE/WNSE/SRM

CE/WN

CE/WN

Page 6: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

UI

SE/SRM

WN

WN

WN

SE/SRM

Control et Load balancingControl et Load balancing WMS

SE/SRM

SE/SRM

WN

Page 7: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

UI

SE/SRM

WN

WN

WN

SE/SRM

Stokage distribuée et catalogue Stokage distribuée et catalogue

global de Donnéesglobal de Données LFC

SE/SRMSE/SRM

WN

Job

Job

Job

Job

Page 8: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

UI

WN

WN

WN

Optimisation de calculOptimisation de calcul Serveur MyProxy

WN

Job

Job

JobJob

Page 9: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Client

WN

WN

WN

Gestion et stokage centralisé avec Gestion et stokage centralisé avec IRODSIRODS

IRODS cluster

WN

Job

Job

JobJob

Page 10: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

8 millions de séquences à 8 millions de séquences à blaster:blaster:

StratégieStratégieProgramme BLAST 2.2.17

options standards

Banque BLAST 8 millions de séquences Divisée en 4 bases de 2 millions de séquences pour éviter de dépasser la mémoire maximum disponible sur les machines

Séquences à blaster 8 millions de séquences,soit: 250, 000 fichiers de 30 séquences au format FASTA

30 séquences : nb maximum de séquences pour éviter un dépassement de mémoire

Page 11: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Tache unitaire : blast d’un fichier de 30 séquences contre 4 bases BLAST de 2 millions de séquences.

Une tache unitaire représente un temps de calcul assez court.

Les machines de la grille permettent des jobs de durée variée (quelques heures -quelques jours) : nécéssité de maximiser le temps passé sur chaque worker : chaque job éxécute un maximim de taches

8 millions de séquences à 8 millions de séquences à blaster:blaster:

StratégieStratégie

Page 12: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

1 - Liste de taches à effectuer ( 250,000 fichiers au départ) 2 - Chaque job N tente de traiter les 100 fichiers à partir du fichier numéro N x 100 3 - Une fois tous les jobs terminés, génération d’une nouvelle liste de fichier à traiter 4 - Retour au point 1

8 millions de séquences à 8 millions de séquences à blaster:blaster:

StratégieStratégie

Page 13: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

StratégieStratégie1

100

200

300

400

1

100

200

300

400

1

100

200

300

400

première production

1

100

200

300

400

deuxième production

Page 14: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

StratégieStratégie Déroulement d’un job numéro N:

Récupération de différents outils via lcg-cp:outils iRODSoutils pour l’estimation du temps de calculoutils pour la gestion des proxy

Renouvellement du proxy Lancement de l’application:

Copie des programmes blast en local via iRODS Copie des banques BLAST en local via iRODS Copie de la liste de fichiers à traiter Copie des 100 fichiers à traiter pour le job N Boucle:

Traite le fichier i, copie le résultat via iRODSTant que 95% du temps maximum n’est pas atteint, passe au fichier suivant

Post traitement: envoi de mail, copie des logs via iRODS

Page 15: Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -

Résultats (en cours)Résultats (en cours)

1 200 jobs paramétriques1 200 jobs paramétriques 5 280 millions d’heures S12K5 280 millions d’heures S12K jobs de 20hjobs de 20h Calcul en 1 semaine au lieu de Calcul en 1 semaine au lieu de

8 ans8 ans