129
Recherche dans des bases de données de séquences biologiques Using BLAST to Search Sequence Databases Cédric Notredame

Recherche dans des bases de données de séquences biologiques

  • Upload
    saul

  • View
    61

  • Download
    0

Embed Size (px)

DESCRIPTION

Using BLAST to Search Sequence Databases. Recherche dans des bases de données de séquences biologiques. Cédric Notredame. Outline. -Evolution and Sequence Similarity. - The inside of BLAST. - Using BLAST. - Adapting BLAST to your needs. - Searching Protein Domains with BLAST. - PowerPoint PPT Presentation

Citation preview

Page 1: Recherche dans des bases de données de séquences biologiques

Recherche dans des bases de données de séquences

biologiques

Using BLAST to Search Sequence

DatabasesCédric Notredame

Page 2: Recherche dans des bases de données de séquences biologiques

-The inside of BLAST

-Using BLAST

-Adapting BLAST to your needs

Outline

-Evolution and Sequence Similarity

-Searching Protein Domains with BLAST

-Digging Genomes

Page 3: Recherche dans des bases de données de séquences biologiques

Two Minutes of the

Evolutionnary Clock…

Page 4: Recherche dans des bases de données de séquences biologiques

An Alignment is a STORY

ADKPKRPLSAYMLWLN

ADKPKRPKPRLSAYMLWLNADKPRRPLS-YMLWLN

ADKPKRPLSAYMLWLN ADKPKRPLSAYMLWLN

Mutations+

Selection

Page 5: Recherche dans des bases de données de séquences biologiques

An Alignment is a STORY

ADKPRRP---LS-YMLWLNADKPKRPKPRLSAYMLWLN

Mutation

Insertion Deletion

ADKPKRPLSAYMLWLN

ADKPKRPKPRLSAYMLWLNADKPRRPLS-YMLWLN

ADKPKRPLSAYMLWLN ADKPKRPLSAYMLWLN

Mutations+

Selection

Page 6: Recherche dans des bases de données de séquences biologiques

How Do Sequences Evolve ?

In a structure, each Amino Acid plays a Special Role

OmpR, Cter Domain

In the core, SIZE MATTERS

On the surface, CHARGE MATTERS

-- +

Page 7: Recherche dans des bases de données de séquences biologiques

Why Does It Make Sense To Align Sequences ?

SameSequence

Same Function

Same 3D Fold

Same Origin

Page 8: Recherche dans des bases de données de séquences biologiques

How Can We Compare Sequences ?The Twilight Zone

Length

%Sequence Identity

100

Same 3D Fold

Twilight Zone

Similar SequenceSimilar Structure

30%

Different SequenceStructure ????

30

Page 9: Recherche dans des bases de données de séquences biologiques

Different molecular clocks for different proteins--another prediction

Page 10: Recherche dans des bases de données de séquences biologiques

A few Basic Definitions

Page 11: Recherche dans des bases de données de séquences biologiques

A few Definitions

Query : Your sequence

Subject: The database against which you search

Heuristic: Algorithm that does not guaranty the optimal solution

Page 12: Recherche dans des bases de données de séquences biologiques

Other Important DefinitionsIdentity

Proportion of IDENTICAL residues between two sequences. Depends on the Alignment. Unit: the % id

Homology Sequences SIMILAR enough are sometimes HOMOLOGOUSHOMOLOGY COMMON ANCESTORUnit: Yes or No!DIFFERENT sequences can also be Homologous

SimilarityProportion of SIMILAR residuesTwo residues are similar if their substitution cost is higher than 0. Depends on the matrix Unit: the %similarity

Page 13: Recherche dans des bases de données de séquences biologiques

More Important DefinitionsHit

A sequence that matches your sequence and reported by BLAST.

E-Value

Expectation valueHow many times would you expect to find a hit by chance only?

Depends on the alignment.Depends on the matrixDepends on the databaseSensitive to Low complexity regions

Unit: must be lower than 0.0001 to mean something

Page 14: Recherche dans des bases de données de séquences biologiques

A Good Hit Is Something You

Would Not Expect by Chance

Page 15: Recherche dans des bases de données de séquences biologiques

What is BLAST ?

Page 16: Recherche dans des bases de données de séquences biologiques

BLAST

BLAST is a Program Designed for RAPIDLY Comparing Your Sequence With every Sequence in a database and REPORT the most SIMILAR sequences

Basic Local Alignment Search Tool

Page 17: Recherche dans des bases de données de séquences biologiques

Database Search

1-Query

3-Database4-Statistical Evaluation (E-Value)

PROBLEM: LOCAL ALIGNMENT (SW)TOO SLOW

2-Comparison Engine

LOCAL Alignment

Page 18: Recherche dans des bases de données de séquences biologiques

Database Search

1.10e-20

101.10e-100

1.10e-2

1.10e-1

103

1

3

61.10e-2

1

20

1513

SWQ

BLAST

Page 19: Recherche dans des bases de données de séquences biologiques

BLAST

BLAST is a Heuristic Smith and Waterman

Basic Local Alignment Search Tool

BLAST = 3 STEPS

1-Decide who will be compared

This is where Blast SAVES TIME

This is where it LOSES HITS

Most BLAST parameters refer to this step

Page 20: Recherche dans des bases de données de séquences biologiques

BLAST

BLAST is a Heuristic Smith and Waterman

Basic Local Alignment Search Tool

BLAST = 3 STEPS

1-Decide who will be compared2-Check the most promising Hits

3-Compute the E-value of the most interesting Hits

Page 21: Recherche dans des bases de données de séquences biologiques

Heuristic Algorithms

Smith and Waterman • Exact Local Dynamic Programming, 1981

FASTA • Lipman and Pearson, 1985• Looks for similar words (k-tup) on the same diagonal.• Comparison on the sequences one by one…

BLAST• Altschul et al., 1990• The most widely cited tool in Biology• www.ncbi.nlm.nih.gov/Education/BLASTinfo/tut1.html

BLASTA Bit of History

Page 22: Recherche dans des bases de données de séquences biologiques

The Inside of BLAST

Page 23: Recherche dans des bases de données de séquences biologiques

Inside BLAST Step 1: finding the worthy words

RELQueryRSL

AAAAACAAD

YYY

List of all the 3AA words thatCan be found in the database

...

ACT

RSL

TVF

Words with a score > T

score > T

...

...

LKP

LKP

score < T

Page 24: Recherche dans des bases de données de séquences biologiques

Inside BLAST

ACT

RSL

TVF

List of « interesting » words > T

...

...

Step 2: Eliminate the database sequences that do not contain any interesting word

ACTACT

RSL

RSL TVF

RSL

RSL TVF

Sequences within the database

Sequences containing interesting words (Hits)

Look for «interesting»

words

Page 25: Recherche dans des bases de données de séquences biologiques

Inside BLAST: the end

Step 3: Extension of the HitsDatabase sequenceQ

uery

X

•2 "Hits" on the same diagonal distant by less than X

Database sequenceQuer

y

X

Extension by limited Dynamic Programming

Page 26: Recherche dans des bases de données de séquences biologiques

The Statistics in BLAST

Page 27: Recherche dans des bases de données de séquences biologiques

Evaluation of the score •Raw Score

Sum of the substitutions and gap penalties.

Not very informative

BLAST Statistics: Raw Score

Page 28: Recherche dans des bases de données de séquences biologiques

BLAST Statistics: P Values

Derived Statistics•p-value

Probability of finding an alignment with such a score, by chance.

The lower, the better

Page 29: Recherche dans des bases de données de séquences biologiques

Just as the sum of a large number of independent identically distributed (i.i.d) random variables tends to a normal distribution, the maximum of a large number of i.i.d. random variables tends to an extreme value distribution.

normal distribution Extreme value distribution(Gumbel)

BLAST Statistics: P-Values

Page 30: Recherche dans des bases de données de séquences biologiques

P-Value: Probability that a random alignments obtainsa score superior or Equal to X

K must be calibrated with the database compositionLambda is calibrated with the matrix being used

BLAST Statistics: P-Values

Page 31: Recherche dans des bases de données de séquences biologiques

Derived Statistics•E-value

Number of alignments expected by chance

The lower, the better: <0.00001

For Values Lower than 0.0001, E-Value ~ P-ValueThe E-Values are easier to compare than P-Values

BLAST Statistics: E-Values

Page 32: Recherche dans des bases de données de séquences biologiques

•Bit ScoreEvaluates the amount of information in

the alignmentMakes it possible to compare

alignments

BLAST Statistics: Bit-Score

Page 33: Recherche dans des bases de données de séquences biologiques

BLAST Statistics: Booby Trap!

The E-Value depends on N, theDatabase size.

If N increases, some Hits can be lost

Page 34: Recherche dans des bases de données de séquences biologiques

P31383 Vs YEAST

P31383 Vs UniProt

Page 35: Recherche dans des bases de données de séquences biologiques

The Many Flavorsof

BLAST

Page 36: Recherche dans des bases de données de séquences biologiques
Page 37: Recherche dans des bases de données de séquences biologiques
Page 38: Recherche dans des bases de données de séquences biologiques
Page 39: Recherche dans des bases de données de séquences biologiques

Database Against Database:« Farm-Blast »

Ideal for finding Orthologues

Genome 1

Genome 2

Page 40: Recherche dans des bases de données de séquences biologiques

The Classics

1 SequenceVs

A sequence Db

Page 41: Recherche dans des bases de données de séquences biologiques

Program Query Database

blastp protein protéine

blastn nucleotide nucleotide

tblastn

protein protein

nucleotide

VS

blastx

protein

nucleotide

proteinVS

tblastx

protein

nucleotide

protein

nucleotide

VS

The Many Flavors of BLAST

Page 42: Recherche dans des bases de données de séquences biologiques

Program Query Database

Psi-blast protein protein

RPS-blast protein Domain

The Many Flavors of BLAST

DART-blast protein protein

mega-blast DNA Large DNA

Page 43: Recherche dans des bases de données de séquences biologiques

If your Sequence is a Protein

Page 44: Recherche dans des bases de données de séquences biologiques

If your Sequence is made of DNA

Page 45: Recherche dans des bases de données de séquences biologiques

BLASTing with DNA: Asking the right question.

Page 46: Recherche dans des bases de données de séquences biologiques

Keeping an Eye on the Public Servers.

Page 47: Recherche dans des bases de données de séquences biologiques

Using BLAST:The Basic Way

Page 48: Recherche dans des bases de données de séquences biologiques

Database Search

Database Search Result=Prediction

Protein X IS or IS NOT homologous to the QUERRY.

Page 49: Recherche dans des bases de données de séquences biologiques

Submitting your Query

Page 50: Recherche dans des bases de données de séquences biologiques

Understanding the BLAST Output

Graphic Display

Hit List

Alignments

Page 51: Recherche dans des bases de données de séquences biologiques

Understanding the Graphic Display

Page 52: Recherche dans des bases de données de séquences biologiques

Understanding the Hit List

Page 53: Recherche dans des bases de données de séquences biologiques

Understanding the Alignments

Low Complexity

Page 54: Recherche dans des bases de données de séquences biologiques

Low Complexity Regions

Regions with a single residue repeated many times (like the AFGP) can produce meaningless alignments.

The statistics expect ALL the regions to look the same « on average ».

By default, BLAST replaces these regions with Xs

Page 55: Recherche dans des bases de données de séquences biologiques

Reproducing The Experiment

Everything you need to know to reproduce your search is at the bottom.

BLAST searches are notoriously difficult to reproduce

Page 56: Recherche dans des bases de données de séquences biologiques

Database Searches:A few Guidelines

Page 57: Recherche dans des bases de données de séquences biologiques

DataBase Search According to Pearson

Page 58: Recherche dans des bases de données de séquences biologiques

DataBase Search According to Pearson

Page 59: Recherche dans des bases de données de séquences biologiques

DataBase Search According to Pearson

Page 60: Recherche dans des bases de données de séquences biologiques

Using Weak Matches To Identify Domains

RNA Recognition Motif

Page 61: Recherche dans des bases de données de séquences biologiques

Three Short-Sighted Witnesses

are more Informative than a single eagle-eye

witness

Page 62: Recherche dans des bases de données de séquences biologiques

Using BLAST:Trouble Shooting

Page 63: Recherche dans des bases de données de séquences biologiques
Page 64: Recherche dans des bases de données de séquences biologiques

Domain 2

Domain 1

No Overlap

Page 65: Recherche dans des bases de données de séquences biologiques
Page 66: Recherche dans des bases de données de séquences biologiques
Page 67: Recherche dans des bases de données de séquences biologiques
Page 68: Recherche dans des bases de données de séquences biologiques
Page 69: Recherche dans des bases de données de séquences biologiques

Advanced Blast on the EMBnet

www.ch.embnet.org/software/aBLAST.html

• More choice on the databases• Change all the parameters

Page 70: Recherche dans des bases de données de séquences biologiques

Adapting BLAST To your Problem

Page 71: Recherche dans des bases de données de séquences biologiques
Page 72: Recherche dans des bases de données de séquences biologiques
Page 73: Recherche dans des bases de données de séquences biologiques
Page 74: Recherche dans des bases de données de séquences biologiques
Page 75: Recherche dans des bases de données de séquences biologiques

Domain-FlavoredBLAST

Page 76: Recherche dans des bases de données de séquences biologiques
Page 77: Recherche dans des bases de données de séquences biologiques

Psi-BLAST

Page 78: Recherche dans des bases de données de séquences biologiques

BLAST latest Flavor

PSI-BLAST

-Position Specific Iterated Version of BLAST.

-Uses Profiles.-More Sensitive.

Page 79: Recherche dans des bases de données de séquences biologiques

Psi-BLAST Iteration

C C

C C

C CC C

C SC C

C CC C

C SC C

Page 80: Recherche dans des bases de données de séquences biologiques

Psi-BLAST Iteration

C C

C C

C CC C

C SC C

C CC C

C SC C

Page 81: Recherche dans des bases de données de séquences biologiques

Psi-BLAST Iteration

C C

C C

C CC C

C SC C

C CC C

C SC C

Page 82: Recherche dans des bases de données de séquences biologiques

BLAST PSSM or weight matrix

M Y C E Q U E N C E S . .A 0 2 -1 0 0 0 0 -1 0 -1 3 S -1 -1 -1 0 -1 0 0 0 5 -1 -1 C -1 -1 10 1 -1 0 0 5 5 4 -1 ..Y -1 6 -1 -1 -1 0 -1 -1 -1 -1 -1V -1 1 -1 -1 -1 0 -1 -1 -1 1 -1

Page 83: Recherche dans des bases de données de séquences biologiques

Asking a Question With Psi-BLAST

Page 84: Recherche dans des bases de données de séquences biologiques

Asking a Question With Psi-BLAST

Is the Leghemoglobin related to the Human Hemoglobin ?

Page 85: Recherche dans des bases de données de séquences biologiques

Asking a Question With Psi-BLAST

Page 86: Recherche dans des bases de données de séquences biologiques

Asking a Question With Psi-BLAST

Page 87: Recherche dans des bases de données de séquences biologiques

Asking a Question With Psi-BLAST

Page 88: Recherche dans des bases de données de séquences biologiques
Page 89: Recherche dans des bases de données de séquences biologiques

Which Domain Organisation

For Your Protein:

(Reverse PSI-BLAST)

Page 90: Recherche dans des bases de données de séquences biologiques

Asking a Question With RPS-BLAST

PSI-BLAST: Discovering Domains

RPS-BLAST: Which KNOWN Domain in my protein ?

DomainDatabase

Sequence

Page 91: Recherche dans des bases de données de séquences biologiques

Asking a Question With RPS-BLAST

Page 92: Recherche dans des bases de données de séquences biologiques

False Hits caused by the domain low complexity (see E-values)

Page 93: Recherche dans des bases de données de séquences biologiques

RPS-BLAST:Filtering Or Not Filtering Low

COmplexity

Page 94: Recherche dans des bases de données de séquences biologiques
Page 95: Recherche dans des bases de données de séquences biologiques

How Many Proteins Have the same

Domain Structure as Mine ?

(CDART)

Page 96: Recherche dans des bases de données de séquences biologiques

Asking a Question With CDART

CDART:Conserved Domain Architecture Retrieval Tool Finds the proteins that contain the same

domains as your protein.

Page 97: Recherche dans des bases de données de séquences biologiques

Asking a Question With CDART

PSI-BLAST: Discovering DomainsRPS-BLAST: Which known Domain in my protein ?CDART:

Which domains are COMMONLY ASSOCIATED with the domain I am interested in ?

-Which proteins have the SAME DOMAIN ORGANIZATION as my proteins ?

Page 98: Recherche dans des bases de données de séquences biologiques
Page 99: Recherche dans des bases de données de séquences biologiques
Page 100: Recherche dans des bases de données de séquences biologiques

Filtering:-By Domain-By Species

Page 101: Recherche dans des bases de données de séquences biologiques

-I want to Find all the Insect proteins containing a June/Fos organisation.

Page 102: Recherche dans des bases de données de séquences biologiques

Asking a Question With CDART

-I want to see all the Insect proteins containing a June/Fos organisation.

Page 103: Recherche dans des bases de données de séquences biologiques

Asking a Question With CDART

-I want to see all the Insect proteins containing a June/Fos organisation.

Page 104: Recherche dans des bases de données de séquences biologiques

Asking a Question With CDART

-I want to see all the Insect proteins containing a June/Fos organisation.

Page 105: Recherche dans des bases de données de séquences biologiques

Genome FlavoredBLAST

Page 106: Recherche dans des bases de données de séquences biologiques
Page 107: Recherche dans des bases de données de séquences biologiques

Standard Blastn with long word size

Page 108: Recherche dans des bases de données de séquences biologiques

MegaBLAST=Longer Words Faster BUT Less sensitive

RELQueryRSL

AAAAACAAD

YYY

List of all the 3AA words thatCan be found in the database

...

ACT

RSL

TVF

Words with a score > T

score > T

...

...

LKP

LKP

score < T

Page 109: Recherche dans des bases de données de séquences biologiques
Page 110: Recherche dans des bases de données de séquences biologiques

The NcBi BlAsT GEnoMe SecTion is MesSy

Page 111: Recherche dans des bases de données de séquences biologiques
Page 112: Recherche dans des bases de données de séquences biologiques

Makes it possible to select predicted proteomes

Page 113: Recherche dans des bases de données de séquences biologiques
Page 114: Recherche dans des bases de données de séquences biologiques

Venter-BLAST

Page 115: Recherche dans des bases de données de séquences biologiques

When it comes toBLASTingEukaryotic Genomes:

WWW.ENSEMBL.ORG

Page 116: Recherche dans des bases de données de séquences biologiques

Asking a Question With ENSEMBL-BLAST

ENSEMBL:WHERE are located the genes coding for

Homologues of my protein

Page 117: Recherche dans des bases de données de séquences biologiques
Page 118: Recherche dans des bases de données de séquences biologiques
Page 119: Recherche dans des bases de données de séquences biologiques
Page 120: Recherche dans des bases de données de séquences biologiques

CONCLUSION

Page 121: Recherche dans des bases de données de séquences biologiques

-

-BLAST is a fast approximation for the Full Local Dynamic Programming. It is convenient to scan Databases.

-BLAST computes the Statistical Significance of the Alignments (E-Value, P-Value).

Searching Databases

-The main pitfall to avoid are low complexity regions

Page 122: Recherche dans des bases de données de séquences biologiques

-

Searching Databases

-USE Psi-Blast to find remote homologues

-USE blastp the best educated blast to discover the function of your protein

-USE RPS-Blast to find domains in your protein (Interpro for EBI)

-USE ENSEMBL-Blast for the human Genome

Page 123: Recherche dans des bases de données de séquences biologiques

A few Extra Ressources

Page 124: Recherche dans des bases de données de séquences biologiques
Page 125: Recherche dans des bases de données de séquences biologiques
Page 126: Recherche dans des bases de données de séquences biologiques
Page 127: Recherche dans des bases de données de séquences biologiques

Tunning BLAST

Page 128: Recherche dans des bases de données de séquences biologiques

BLAST Tunning

Page 129: Recherche dans des bases de données de séquences biologiques