34
Natalie Clairoux, M. Sc., M.S.I. Bibliothécaire Hiver 2014 LES BASES DE DONNÉES DU

Bases du NCBI partie I - Sources de données brutes et BLAST

Embed Size (px)

DESCRIPTION

Survol des sources de données brutes au NCBI: Nucleotide, Protein, Geo. Recherche de séquences homologues avec BLAST. Séquences de référence RefSeq

Citation preview

Page 1: Bases du NCBI partie I - Sources de données brutes et BLAST

Natalie Clairoux, M. Sc., M.S.I.Bibliothécaire

Hiver 2014

LES BASES DE DONNÉES DU

Page 2: Bases du NCBI partie I - Sources de données brutes et BLAST

PAR OÙ COMMENCER?Le labyrinthe de bases de données en bio-informatique L’INTÉGRATION DES BASES DU NCBIPermet la navigation entre les bases

SOURCES DE DONNÉES BRUTESNucleotide, Protein, RefSeq, GEO…

RECHERCHE DE SÉQUENCES HOMOLOGUESBLAST, Blink, Related sequences

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 3: Bases du NCBI partie I - Sources de données brutes et BLAST

Bio-informatique in silico: citer ses sources

Source: Fritz-Laylin LK, Prochnik SE, Ginger ML, Dacks JB, Carpenter ML, Field MC, et al. The Genome of Naegleria gruberi Illuminates Early Eukaryotic Versatility. Cell. 2010;140(5):631-42.

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 4: Bases du NCBI partie I - Sources de données brutes et BLAST

Ressources en bio-informatique

Natalie Clairoux Bases du NCBI I Hiver 2014

Lien

Page 5: Bases du NCBI partie I - Sources de données brutes et BLAST

Natalie Clairoux Bases du NCBI I Hiver 2014

Croissance exponentielle des données

Source: NLM

Page 6: Bases du NCBI partie I - Sources de données brutes et BLAST

Traitement des données au NCBI: permet de trouver de l’information de qualité

Natalie Clairoux Bases du NCBI I Hiver 2014

Données brutes:•Nucleotide•Protein•GEO

Alignement de séquences par l’usager:•BLAST

Valeur ajoutée: • RefSeq• Entrez Gene• OMIM

Alignement déjà calculé au NCBI:• BLink• Related sequences

Page 7: Bases du NCBI partie I - Sources de données brutes et BLAST

PAR OÙ COMMENCER?Le labyrinthe de bases de données en bio-informatique L’INTÉGRATION DES BASES DU NCBIPermet la navigation entre les bases

SOURCES DE DONNÉES BRUTESNucleotide, Protein, RefSeq, GEO…

RECHERCHE DE SÉQUENCES HOMOLOGUESBLAST, Blink, Related sequences

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 8: Bases du NCBI partie I - Sources de données brutes et BLAST

Natalie Clairoux Bases du NCBI I Hiver 2014

Bases de données du NCBI: page d’accueil

Page 10: Bases du NCBI partie I - Sources de données brutes et BLAST

Il y a beaucoup plus que des références d’articles dans PubMed…

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 11: Bases du NCBI partie I - Sources de données brutes et BLAST

Bases de données du NCBI: classification

Natalie Clairoux Bases du NCBI I Hiver 2014

Nucléotides

Génomes

Protéines

Structure

Taxonomie

Expression

Chimie

Littérature

Page 12: Bases du NCBI partie I - Sources de données brutes et BLAST

TaxonomyBrowser

Classification qui gouverne toutes les autres bases au NCBI

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 13: Bases du NCBI partie I - Sources de données brutes et BLAST

Liens entreles bases

Natalie Clairoux Bases du NCBI I Hiver 2014

(Schéma date de 2008)

Page 14: Bases du NCBI partie I - Sources de données brutes et BLAST

Les liens entre les bdd du NCBI

Hard links: liens directs entre deux notices provenant de deux bdd distinctes (figure pécédente).

• Exemples: lien entre l’article qui décrit une nouvelle séquence (PubMed) et sa notice dans GenBank (Nucleotide); lien entre la séquence d’une protéine (Protein) et une structure en 3D (Structure).

• Tous les liens directs possibles ne sont pas nécessairement présents.

Neighbouring links: liens calculés par ordinateur entre deux notices d’une même bdd.

• Critères de définition de la similarité varient d’une bdd à l’autre.

• Exemples: similarité de structure 3D entre protéines, déterminée avec VAST; Related sequences et Blink.

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 15: Bases du NCBI partie I - Sources de données brutes et BLAST

L’interface commune aux bases du NCBI

Fonctions: Limits, Advanced search, Clipboard• Exemple: recherche de séquences de gènes impliqués

dans le cancer du côlon dans Nucleotide.

LinkOut: liens vers des ressources externes au NCBI (près de 3000), pertinentes à la notice affichée. Ex.: Medline Plus, Flybase, REBASE…

MyNCBI: espace personnel de stockage et d’organisation de l’information repêchée.

• Possibilité de partage entre collègues.

• Garde en mémoire les actions des 6 derniers mois.

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 16: Bases du NCBI partie I - Sources de données brutes et BLAST

PAR OÙ COMMENCER?Le labyrinthe de bases de données en bio-informatique

L’INTÉGRATION DES BASES DU NCBIPermet la navigation entre les bases SOURCES DE DONNÉES BRUTESNucleotide, Protein, RefSeq, GEO…

RECHERCHE DE SÉQUENCES HOMOLOGUESBLAST, Blink, Related sequences

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 17: Bases du NCBI partie I - Sources de données brutes et BLAST

Séquences de nucléotides Nucleotide contient :

Séquences en nt (avec annotations bibliographiques et biologiques) provenant de GenBank (Etats-Unis), EMBL (Europe) et DDBJ (Japon).

Sources de données: soumissions individuelles par les auteurs et soumissions en lot (EST, GSS, centres de séquençage, brevets)

No. d’accession: identificateur unique; demeure constant même si des changements sont apportés à la notice (no. de version peut changer). Il y a aussi un no. d’identification au NCBI (GI) pour chaque version.

Description des composantes d’une noticeNatalie Clairoux Bases du NCBI I Hiver 2014

Exemple

Page 18: Bases du NCBI partie I - Sources de données brutes et BLAST

Séquences de protéines

Protein contient: Traductions des séquences codantes de GenBank

(GenPept)

Séquences en aa (avec annotations bibliographiques et biologiques) provenant de TPA, SwissProt, PIR, PRF et PDB.

Il peut y avoir plus d’une protéine associée à une notice de Nucleotide.

Les symboles <> indiquent qu’une partie de la séquence est manquante.

Natalie Clairoux Bases du NCBI I Hiver 2014

Exemple

Page 19: Bases du NCBI partie I - Sources de données brutes et BLAST

Séquences de référence (RefSeq)

Collection exhaustive, intégrée et non-redondante de séquences d’ADN, d’ARN et de protéines.

Référence pour l’identification et la caractérisation de gènes, de mutations et l’analyse de polymorphismes.

UNE notice par molécule chez les principaux organismes.

>42 millions de séquences, représentant >33,000 organismes.

Natalie Clairoux Bases du NCBI Hiver 2014

Je veux toutes les séquences BLAST, Nucleotide, Protein…

Je veux la meilleure séquence RefSeq

Page 20: Bases du NCBI partie I - Sources de données brutes et BLAST

Nomenclature des nos d’accession des séquences de référence (RefSeq)

Natalie Clairoux Bases du NCBI Hiver 2014

Exemple

Page 21: Bases du NCBI partie I - Sources de données brutes et BLAST

Données brutes d’expression GEO (Gene Expression Omnibus) contient des

données génomiques fonctionnelles générées par les technologies à puces (microarray) et de séquençage de nouvelle génération:

Données d’expression

Variation du nombre de copies de génome

Interactions génome-protéines

Études de profilage de méthylation

GEO Profile: mesures quantitatives d’expression pour un gène dans une expérience.

GEO Datasets: données complètes d’expériences.

Voir aussi: ArrayExpress (EBI)

Natalie Clairoux Bases du NCBI I Hiver 2014

Exemple

Page 22: Bases du NCBI partie I - Sources de données brutes et BLAST

PAR OÙ COMMENCER?Le labyrinthe de bases de données en bio-informatique L’INTÉGRATION DES BASES DU NCBIPermet la navigation entre les bases

SOURCES DE DONNÉES BRUTESNucleotide, Protein, GEO…

RECHERCHE DE SÉQUENCES HOMOLOGUESBLAST, Blink, Related sequences

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 23: Bases du NCBI partie I - Sources de données brutes et BLAST

BLAST Basic Local Alignment Search Tool – algorithme

développé par Altschul et al. en 1990, révisé en 2007 (citez l’article si vous utilisez BLAST!)

Compare des séquences de nucléotides ou de protéines avec les séquences de bases de données et calcule la signification statistique des appariements obtenus.

Tient compte des substitutions possibles nt/aa qui ne modifient pas les fonctions du gène/protéine.

Utilisé (entre autres) pour: Identifier les membres d’une famille de gènes;

Déduire des relations fonctionnelles et évolutives entre des séquences.

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 24: Bases du NCBI partie I - Sources de données brutes et BLAST

BLAST - DéfinitionsEt.alors,.de.jour.en.jour,.j’apprends.des.choses.||| |||||||||||||||||||| | | ||||||||||||||Et.puis-,.de.jour.en.jour,.je.p--erds.des choses.

Alignement global: apparie deux séquences l’une avec l’autre. L’exemple illustre les non-appariements, les insertions et les délétions.

The.cat.in.the.hat.----meowed--.The.cot.in.the.hut.----stank---.The.bat.in.the.cavern.flew.fast.

Alignement multiple: appariement de plusieurs séquences.

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 25: Bases du NCBI partie I - Sources de données brutes et BLAST

BLAST – Fonctionnement 1. Séquence de la requête coupée en “mots” de 11nt ou 3

aa, sur 3 positions consécutives (puisque cadre de lecture inconnu)

2. Mots sont comparés avec les séquences des bases de données

3. Nucléotides: les paires (match) sont utilisées comme graines (seed) pour étendre l’alignement dans les deux directions. Si aucun “match” n’est trouvé sur 40 nt, le résultat est rejeté. Si un autre “match” est trouvé, assigne un pointage basé sur le degré de similarité.

4. Acides aminés: besoin d’une matrice de pointage pour tenir compte des substitutions fonctionnelles possibles. Par défaut: BLOSUM 62

5. Pointages compilés et normalisés.

6. Calcul de la probabilité que chaque résultat est aléatoire= e-value; plus petit le nombre, moins de chance que la similarité soit due au hasard.

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 26: Bases du NCBI partie I - Sources de données brutes et BLAST

BLAST – interprétation des résultats

La “probabilité” que l’appariement ne soit pas dû au hasard

Utiliser les e-values pour comparer les résultats d’une MÊME requête

Résultats sont en log2 (binaire) PAS log10 Le plus près de 0.0, le moins probable que ce soit dû au

hasard E-value de 1e-32 est considérée non-aléatoire Valeur >1.0 peut être aléatoire Valeur >10 est probablement aléatoire (mais attention si

les organismes sont très divergents, i.e. humain vs Tetrahymena)

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 27: Bases du NCBI partie I - Sources de données brutes et BLAST

Basic BLAST: 5 façons de chercher

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 28: Bases du NCBI partie I - Sources de données brutes et BLAST

Bases de données interrogées par BLAST

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 29: Bases du NCBI partie I - Sources de données brutes et BLAST

Étapes d’utilisation de BLAST

1. Entrer la séquence à rechercher Copier/coller, fichier texte, sélection de l’intervalle

Possibilité de comparer avec une autre séquence

2. Choisir l’ensemble de données à interroger Ensemble des bdd, sous-ensembles, ou organismes

précis

3. Sélectionner le programme (algorithme)

4. Ajuster les paramètres si désiré Sensibilité de la recherche, longueur de mot, etc.

5. Envoi de la requête au serveur BLAST

Natalie Clairoux Bases du NCBI I Hiver 2014

Exemple 1

Exemple 2

Page 30: Bases du NCBI partie I - Sources de données brutes et BLAST

BLAST autres que Basic BLAST

Génomes complets (séquences connues vs séquences inconnues)

BLAST spécialisés: design d’amorces, recherche de mutations, immunoglobulines, alignement de séquences multiples, etc.

Disponibles sur la page d’accueil de BLAST

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 31: Bases du NCBI partie I - Sources de données brutes et BLAST

Formatage des résultats

Options d’alignement

Reformater les résultats originaux pour filtrer selon des organismes précis –PLUS EFFICACE

Natalie Clairoux Bases du NCBI I Hiver 2014

Page 32: Bases du NCBI partie I - Sources de données brutes et BLAST

Natalie Clairoux Bases du NCBI I Hiver 2014

Ai-je vraiment besoin de faire un BLAST??

Recherche de séquences homologues

Related sequences et

BLink

Page 33: Bases du NCBI partie I - Sources de données brutes et BLAST

Lien Related sequences

Liste de séquences similaires, déjà identifiées par le NCBI en utilisant le programme BLAST.

Lien disponible pour toutes les séquences de Nucleotide et Protein.

Conditions plus stringentes que les paramètres par défaut de l’outil = moins de résultats qu’un BLAST conventionnel, mais souvent plus pertinents.

Permet de sauver du temps!

Conseil : utiliser la séquence fonctionnelle en acides aminés (si applicable) plutôt que la séquence en nucléotides pour identifier des séquences homologues.

Natalie Clairoux Bases du NCBI I Hiver 2014

Exemple

Page 34: Bases du NCBI partie I - Sources de données brutes et BLAST

Lien BLink (BLAST Link)

Comparaison de séquences de protéines, déjà effectuée par le NCBI avec BLAST, pour toutes les notices de Proteins.

Résultats non-redondants.

Présentation graphique des résultats, avec différentes options d’affichage et de tri.

Affiche plus de résultats que le BLAST par défaut (=100)

Natalie Clairoux Bases du NCBI I Hiver 2014

Exemple

Hum… à considérer!