45
Séminaire Genopole d’Evry du 17 Juin 2005 MicroScope : Bases de données pour la (ré)-annotation de génomes bactériens Dr Claudine Médigue (“Atelier de Génomique Comparative”) Claude Scarpelli Equipe informatique du Genoscope”) Aurélie Lajus Stéphane Cruveiller Zoé Rouy David Vallenet Laurent Sainte-Marthe Sylvain Bonneval

Séminaire Genopole d’Evry du 17 Juin 2005

  • Upload
    simeon

  • View
    26

  • Download
    0

Embed Size (px)

DESCRIPTION

Séminaire Genopole d’Evry du 17 Juin 2005. MicroScope : Bases de données pour la (ré)-annotation de génomes bactériens. Dr Claudine Médigue (“Atelier de Génomique Comparative”). Claude Scarpelli (Equipe informatique du Genoscope”). Aurélie Lajus Stéphane Cruveiller Zoé Rouy - PowerPoint PPT Presentation

Citation preview

Page 1: Séminaire Genopole d’Evry du 17 Juin 2005

Séminaire Genopole d’Evry du 17 Juin 2005

MicroScope :Bases de données pour la (ré)-

annotation de génomes bactériens

Dr Claudine Médigue (“Atelier de Génomique Comparative”)

Claude Scarpelli (Equipe informatique du Genoscope”)

Aurélie Lajus Stéphane Cruveiller Zoé RouyDavid Vallenet

Laurent Sainte-Marthe Sylvain Bonneval

Page 2: Séminaire Genopole d’Evry du 17 Juin 2005

Bases/b

anq

ues g

éno

miq

ues

Sequençage

Prédictionde gènes

Annotationfonctionnelle

Prediction de régions codantes, promoteurs, terminateurs, RNAs

Recherche de similarités, familles de protéines, domaines, …Suggestion de fonctions, classification

Ré-annotation Validation/mise à jour des annotationsDonnées d’expression, phenotypes de mutant, etc.

Annotationmanuelle

Intégration dans d’autresplateformes d’analyse

Validation des annotations automatiques,Recherche complémentaires (littérature, bases spécialisées),Analyse contextuelle, fusions de gène, interactions de protéines , phylogénie, etc…

Annotation des génomes bactériens

Page 3: Séminaire Genopole d’Evry du 17 Juin 2005

Labo ‘humide’+ Bioinformatique

EffortManuel

Bioinformatique

Bioinformatique

Labo ‘humide’ + Bioinformatique

PROCEDURES AUTOMATIQUES

INDISPENSABLES

INTERFACESGRAPHIQUES

INDISPENSABLES

Bioinformatique

Annotation des génomes bactériens

Bases/b

anq

ues g

éno

miq

ues

Sequençage

Prédictionde gènes

Annotationfonctionnelle

Ré-annotation

Annotationmanuelle

Intégration dans d’autresplateformes d’analyse

Page 4: Séminaire Genopole d’Evry du 17 Juin 2005

Annotation des génomes bactériens : contexte internationale

TIGR : pipeline annotation, bases de données, interface Web (service + formation)

Aux Etats Unis :

Univ. Wisconsin : base de données de séquences et d’annotations + données d’expression (E. coli)

Pipeline automatique à l’ORNL (http://genome.ornl.gov/microbial)

puis intégration au site IMG du DOE (http://img.jgi.doe.gov/v1.1/main.cgi)

Au MIPs : automatic annotation of bacterial proteomes (plateforme d’annotation experte PedantPro)

En Allemagne

GenDB plateforme d’annotation automatique + expert (« open source »)

Univ. Bielefeld.

Au Danemark

http://www.cbs.dtu.dk/services/GenomeAtlas/ Atlas des données de génomes publiés

En Angleterre :

Sanger Center Outil d’annotation graphique de génomes

Page 5: Séminaire Genopole d’Evry du 17 Juin 2005

Projets de ré-annotation de génomes bactériens au TIGR Base de données CMR (Comprehensive Microbial Resource)

Gènes en plus

«Primary annotation» : annotations originales+ « TIGR annotation » : annotations automatiques

Portion du génome de S. typhimurium (Genome Browser de CMR) :

Page 6: Séminaire Genopole d’Evry du 17 Juin 2005

Projets de ré-annotation de génomes bactériens au NCBI Projet RefSeq (Reference Sequence)

Gènes en plus/en moins

Reviewed RefSeq : annotations automatiques + ‘curation’ manuelle par des experts du NCBI.

Provisional RefSeq :

Provisional RefSeq : annotations originales

annotations automatiques uniquement

gene 494591..495058 /locus_tag="PH0553.1n" /db_xref="GeneID:1444443 »CDS 494591..495058 /locus_tag="PH0553.1n" /codon_start=1 /transl_table=11 /product="putative flagella-related protein" /protein_id="NP_877768.1" /db_xref="GI:33359301" /db_xref="GeneID:1444443" /translation="MGFSVSASAAIVFISFLIGLGTLYIAWENSYLEVQAAREFWYSL RTSQLHFDIGNVSISYVNSTHVDVAFTYLGQTLEGKIDVLHNGTYVSSVDVTYLIPGE SYSITIPGGDTSGSLNHLTLAFNNGCVAIIAYHYNGTAYVVDSTSIQCPMEVS"

LOCUS NC_000961 1738505 bp DNA circular BCT 07-JUN-2005DEFINITION Pyrococcus horikoshii OT3, complete genome.…COMMENT REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from BA000001.…

Gène supplémentaire entreles CDSs PH0553 et PH0554

Page 7: Séminaire Genopole d’Evry du 17 Juin 2005

Projets de ré-annotation de génomes bactériens à l’EBI

Gènes en moins/en plus

Enrichissement/correction des annotations fonctionnelles originales(Données UniProt, Genome Ontology, InterPro, etc)

Standardisation/homogénéisation des annotations

Elimination des annotations ‘erronées’ (‘curators’ de UniProt/SWISSProt)

Projet Genome Reviews (GR)

Ajout de CDSs correspondants à des entrées UniProt non annotées sur un génome.

FT CDS complement(3273023..3273601)FT /codon_start=1FT /gene="tdk {UniProt/Swiss-Prot:Q8ECK0}"FT /locus_tag="SO3140 {UniProt/SwissProt:Q8ECK0}"FT /product="Thymidine kinase {UniProt/Swiss-FT Prot:Q8ECK0}"FT /EC_number="2.7.1.21 {UniProt/Swiss-Prot:Q8…}"FT /function="ATP binding {GO:0005524} »FT /function="thymidine kinase activity {GO:0004797}"FT /biological_process="DNA metabolism FT {GO:0006259}"

ID AE014299_GR standard; circular genomic DNA; GRV; 4969803 BP.XXDT 06-JUN-2005 (Rel. 28, Last updated, Version 33)XXDE Shewanella oneidensis (strain MR-1) chromosome, complete sequence.XXCC This Genome Reviews entry was created from entry AE014299.1 in the CC EMBL/GenBank/DDBJ databases on 06 June 2005.…

CDS complement(3273023..3273601) /locus_tag="SO3140" /note="identified by match to PFAM protein family HMM PF00265" /codon_start=1 /transl_table=11 /protein_id="AAN56142.1" /product="thymidine kinase

Page 8: Séminaire Genopole d’Evry du 17 Juin 2005

ID U00096_GR standard; circular genomic DNA; GRV; 4639675 BP.XXDE Escherichia coli (strain K12) chromosome, complete sequence.CC This Genome Reviews entry was created from entry U00096.2 in the CC EMBL/GenBank/DDBJ databases on 06 June 2005.…FT CDS 1486256..1487695FT /gene="aldA"FT /locus_tag="b1415"FT /product="Aldehyde dehydrogenase A"FT /EC_number="1.2.1.21"FT /EC_number="1.2.1.22"FT /function="glycolaldehyde dehydrogenase activity"FT /function="lactaldehyde dehydrogenase activity"FT /biological_process="metabolism"FT /translation="MSVPVQHPMYIDGQFVTWR… »FT CDS complement(1487737..1488389)FT /pseudo="{EMBL:U00096}"FT CDS join(complement(1487997..1488737),FT complement(1487737..1487994))FT /evidence="{BLASTALL 2.2.6/ALIGN 2.0u}"FT /product="Glyceraldehyde-3-phosphate dehydrogenase CFT {UniProt/Swiss-Prot:P33898}"FT /EC_number="1.2.1.12 {UniProt/Swiss-Prot:P33898}"FT /insertion="1487994^1487995,seq:GFT {UniProt/Swiss-Prot:P33898}"FT /transl_except=(pos:1488621..1488623,aa:Lys)FT {UniProt/Swiss-Prot:P33898}FT /translation="MSKVGINGFGRIGRLVLGRLLEVKSNI…

Ajout de CDSs dans le fichier GR : exemple chez E. coli

UniProtKB/Swiss-Prot entry P33898Entered in Swiss-Prot in Release 28, February 1994

CAUTION : In the K12 strain thisgene is disrupted by a stop codonand a frameshift. It seems to beintact in a number of wild strains.

Page 9: Séminaire Genopole d’Evry du 17 Juin 2005

Situation en France et objectif de MicroScope

=> Proposer une «assistance» aux biologistes pour l’annotation de génomes bactériens (automatique et experte)

Les 3 composantes de MicroScope

Pipeline d’annotation automatique (1)

Bases de données relationnelles (2)

Interface graphique d’annotation MaGe (3)

CAATBox

AGMIAL

iANT(S. meliloti,R. solanacearum)

(génomesbactériensd’intérêt agro-alimentaire)

(génomes pathogènesséquencés à l’IP)

(plateforme degénomiqueexploratoire)

MICADO

IMGLib

GenoList

Page 10: Séminaire Genopole d’Evry du 17 Juin 2005

Composante 1 de MicroScope : outils d’annotation structurale

From the AGC groupFrom different authors

Page 11: Séminaire Genopole d’Evry du 17 Juin 2005

AMIMat et AMIGene

AMIMat : caractériser des groupes de gènes homogènes dans l’usage des codons au sein d’un génome bactérien.

Class III(397)

Class I(1791)

Class II(1551)

Class IV(256)

AFCClustering

http://www.genoscope.cns.fr/agc/tools/micheck/html/database_status.html

P(X/X1...Xk)Matrice(s) de transitions

AMIGene : Détecter les gènes de composition atypique / petits gènes http://www.genoscope.cns.fr/agc/tools/amigene

w

phase 1

phase 2

phase 3

start stop

Patterns starts/stops

+ RBS (RBS-Finder)

+ +Heuristique desélection des CDSsles plus probables

ChevauchementsInclusions, …

GeneMark

Page 12: Séminaire Genopole d’Evry du 17 Juin 2005

MICheck : ré-annotation (syntaxique) de génomes bactériensObjectif : Vérifier rapidement si les annotations répertoriées dans les banques de séquences pour un génome donné sont complètes.

http://www.genoscope.cns.fr/agc/tools/micheck

Page 13: Séminaire Genopole d’Evry du 17 Juin 2005

Résultats MICheck quelques génomes bactériens

Genome

Aeropyrumpernix

Nb Gene Uniques AMIGene Uniques Banque

Ori RefSeq GR Ori RefSeq GR Ori RefSeq GR

2694 1843 2694 18 35 18 941 186 941

Corynebacterium glutamicum

3099 2993 3099 15 5 15 65 14 65

Page 14: Séminaire Genopole d’Evry du 17 Juin 2005

Résultats MICheck sur A. pernix (status Reviewed Refseq)

CDS communes CDS UNIQUESBanques

CDS UNIQUESAMIGene

BA00000215651569

1835

941186 NC_000854

Genbank‘original’

(BA000002)

Fichier‘Refseq’

(NC_00854)

APE1077 APE1097rplX APE1087a APE1088a

APE1089

Page 15: Séminaire Genopole d’Evry du 17 Juin 2005

Résultats MICheck quelques génomes bactériens

Genome

Aeropyrumpernix

Nb Gene Uniques AMIGene Uniques Banque

Ori RefSeq GR Ori RefSeq GR Ori RefSeq GR

2694 1843 2694 18 35 18 941 186 941

3497 3502 3497 2 14 2 18 18 18Oceanobacillus

iheyensis

Haemophilus influenzae

Buchnera sp. 572 572 564 0 0 10 0 0 0

1739 1716 1709 2 4 47 4 0 4

Shewanella oneidensis 4757 4438 4630 20 7 150 175 15 175

Corynebacterium glutamicum

3099 2993 3099 15 5 15 65 14 65

Page 16: Séminaire Genopole d’Evry du 17 Juin 2005

Fichier d’annotation original et fichier EMBL (GR)

FT CDS 3264761..3266158FT /codon_start=1FT /gene="dctM {UniProt/TrEMBL:Q8ECK2}"FT /locus_tag="SO3136 {UniProt/TrEMBL:Q8ECK2}"FT /product="C4-dicarboxylate transport protein …FT CDS 3268059..3269438FT /codon_start=1FT /gene="dctD {UniProt/TrEMBL:Q8ECK1}"FT /locus_tag="SO3138 {UniProt/TrEMBL:Q8ECK1}"FT /product="C4-dicarboxylate transportFT transcriptional regulatory proteinFT {UniProt/TrEMBL:Q8ECK1} »FT CDS complement(3273023..3273601)FT /codon_start=1FT /gene="tdk {UniProt/Swiss-Prot:Q8ECK0}"FT /locus_tag="SO3140 {UniProt/SwissProt:Q8ECK0}"FT /product="Thymidine kinase {UniProt/Swiss-FT Prot:Q8ECK0}"FT /EC_number="2.7.1.21 {UniProt/Swiss-Prot:Q8…}"FT /function="ATP binding {GO:0005524} »FT /function="thymidine kinase activity {GO:0004797}"FT /biological_process="DNA metabolism FT {GO:0006259}"FT CDS 3276288..3278438FT /codon_start=1FT /gene="dcp-1 {UniProt/TrEMBL:Q8ECJ9}"FT /locus_tag="SO3142 {UniProt/TrEMBL:Q8ECJ9}"FT /product="Peptidyl-dipeptidase Dcp"FT /function="metalloendopeptidase activity FT {GO:0004222}"FT /biological_process="proteolysis and peptidolysisFT {GO:0006508}"

AE005176_GR gene 3266258..3268062 /gene="dctB" /locus_tag="SO3137" /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift" gene 3268059..3269438 /gene="dctD" /locus_tag="SO3138" CDS 3268059..3269438 /gene="dctD" /locus_tag="SO3138" /note="similar to GB:X14046, SP:P11049, and PID:29794; identified by sequence similarity; putative" /codon_start=1 /transl_table=11 /product="C4-dicarboxylate transport transcriptional regulatory protein" gene complement(3269514..3272585) /locus_tag="SO3139" /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; conserved hypothetical protein; identified by Glimmer2; putative" gene complement(3273023..3273601) /locus_tag="SO3140" CDS complement(3273023..3273601) /locus_tag="SO3140" /note="identified by match to PFAM protein family HMM PF00265" /codon_start=1 /transl_table=11 /protein_id="AAN56142.1" /product="thymidine kinase gene 3274138..3276066 /locus_tag="SO3141" /note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP:3628769; identified by sequence similarity; putative" …

AE005176

/note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift"

/note=" This region contains an authentic frame shift and is not the result of a sequencing artifact; … "

/note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP:3628769; identified by sequence similarity; putative"

Page 17: Séminaire Genopole d’Evry du 17 Juin 2005

Résultats MICheck quelques génomes bactériens

Genome

Aeropyrumpernix

Nb Gene Uniques AMIGene Uniques Banque

Ori RefSeq GR Ori RefSeq GR Ori RefSeq GR

2694 1843 2694 18 35 18 941 186 941

3497 3502 3497 2 14 2 18 18 18Oceanobacillus

iheyensis

Haemophilus influenzae

Buchnera sp. 572 572 564 0 0 10 0 0 0

1739 1716 1709 2 4 47 4 0 4

Shewanella oneidensis 4757 4438 4630 20 7 150 175 15 175

Corynebacterium glutamicum

3099 2993 3099 15 5 15 65 14 65

Xanthomonas oryzae

4637 123 76

Dehalococcoidesethenogenes

1592 6 51

Page 18: Séminaire Genopole d’Evry du 17 Juin 2005

Annotation manquante dans le génome de Xanthomonas oryzae

CDS communes CDS UNIQUESBanques

CDS UNIQUESAMIGene

NC_0068344323123 76

XOO3512

Putative vgr-relatedprotein

Similar to rhs element vgr proteinfrom Burkholderia mallei (Q62L24)

XOO3517 XOO3518

Similar to putative membrane proteinfrom Burkholderia pseudomallei

(Q63QC8)

XOO3513

XOO3514

XOO3515

XOO3516

Page 19: Séminaire Genopole d’Evry du 17 Juin 2005

From the AGC groupFrom different authors

Composante 1 de MicroScope : outils d’annotation fonctionnelle

Page 20: Séminaire Genopole d’Evry du 17 Juin 2005

Syntonizer : Groupes de synténies dans les génomes bactériensObjectif : Détecter des groupes de gènes ‘localement’ conserver dans les génomes bactériens.

http://www.genoscope.cns.fr/agc/tools/syntonizer

Rearrangement Fusion Duplication Insertion Inversion

A

B

Synteny Group #2 Synteny Group #1

Page 21: Séminaire Genopole d’Evry du 17 Juin 2005

Reconstition de voies métaboliques

Correspondances simples par EC sur les données d’un génome de référence.

Requêtes dynamiques au serveur de Kyoto.

Voies prédites dans l ’organisme X

Peter Karp (SRI International)

Base métabolique construite pour chaque génome annoté (genomeCyc)

Pathologic : identifie les voies métaboliques à partir des EC +

données métaboliques de MetaCyc. Pathway Hole Filler : recherche de gènes candidats pour les enzymes manquantes.

Relation : numéros EC

Pathway de Référence

Prédiction d’activités enzymatiques (PRIAM)

OrganismeX

Page 22: Séminaire Genopole d’Evry du 17 Juin 2005

• SGBD relationnel (MySQL)SGBD relationnel (MySQL)

Objectif : données d’annotation ‘propres’, cohérentes, à la source des méthodologies de génomique comparative

• Génomes completsGénomes complets (Refseq NCBI (Refseq NCBI + GR+ GR))

Intégration dans PkGDB

Gestion des ‘frameshifts’

Homogénéité des données

Composante 2 de MicroScope : Procaryotic Genome DataBase

Page 23: Séminaire Genopole d’Evry du 17 Juin 2005

PkGDB

Pre-matrix building up

Compare_Annotation‘valids’ CDSs

‘valid’ CDSs (1)

• Check/correction of erroneous CDSs

• Pseudogenes annotation

PkGDB

Databank_AnnotationSet of original

annotations

All the annotated genes :‘valid’ CDSs (1)

+Automatically corrected

CDSs and CDSs which need to be manually corrected

Model gene used to compute coding

prediction curves

Databank file

Integration des données publiques dans PkGDB

Databank_AnnotationSet of original

annotations

Page 24: Séminaire Genopole d’Evry du 17 Juin 2005

Annotation des pseudogènes dans PkGDB

‘fragment’ of CDSs (‘fCDS’ type in PkGDB)

‘complex’ CDS (‘cCDS’ type in PkGDB)

Error type = ‘No3multiple’

kdpB

kdpC

kdpD kdpE speF

gene 622524..624571 /gene="kdpB" /locus_tag="S0610" /note="frameshift" /pseudo /db_xref="GeneID:1077039" gene 624580..625152 /gene="kdpC" /locus_tag="S0611" CDS 624580..625152 /gene="kdpC" /locus_tag="S0611" /function="enzyme; Transport of

small molecules: Cations" /codon_start=1 /transl_table=11 /product="potassium-transporting

ATPase" gene 625145..627825 /gene="kdpD" /locus_tag="S0612" /note="frameshift" /pseudo gene 627822..628507 /gene="kdpE" /locus_tag="S0613" /note="frameshift" /pseudo gene 629197..631394 /gene="speF" /locus_tag="S0614" /note="frameshift" /pseudo …

Page 25: Séminaire Genopole d’Evry du 17 Juin 2005

PkGDB

Compare_AnnotationAll the CDS with the

‘Checked’ Statut

Corrected and validCDSs (2)

AMIMat :Computation of gene

models using FCA and clustering methods

PkGDB

Pre-matrix building up

Compare_Annotation‘valid’ CDSs

‘valid’ CDSs (1)

• Check/correction of erroneous CDSs

• Pseudogenes annotation

PkGDB

Databank_AnnotationSet of original

annotations

All the annotated genes :‘valid’ CDSs (1)

+Automatically corrected

CDSs and CDSs which need to be manually corrected

Model gene used to compute coding

prediction curves

Databank file

Databank_AnnotationSet of original

annotations

Syntonizer :Computation of synteny

group using complete data set of annotations

Integration des données publiques dans PkGDB

Page 26: Séminaire Genopole d’Evry du 17 Juin 2005

• SGBD relationnel (MySQL)SGBD relationnel (MySQL)

Objectif : données d’annotation ‘propres’, cohérentes, à la source des méthodologies de génomique comparative

• Génomes completsGénomes complets (Refseq NCBI (Refseq NCBI + GR+ GR))

Intégration dans PkGDB

Gestion des ‘frameshifts’

Homogénéité des données

Ré-annotation syntaxique

Complétion /correction des données

• Résultats d’analysesRésultats d’analyses : : Intrinsèques : gènes, signaux, répétitions,…

• Génomes nouveauxGénomes nouveaux (projets d’annotation)(projets d’annotation)

Extrinsèques : Blast, InterPro, COG, synténies …

Composante 2 de MicroScope : Procaryotic Genome DataBase

Page 27: Séminaire Genopole d’Evry du 17 Juin 2005

PkGDB

AcinetoScope

YersiniaScope

RhizoScope

BacillusScope ColiScope

FrankiaScope

Composante 2 de MicroScope : bases thématiques

Projet : base de (re)annotation Neisseria

intégration des génomes séquencés disponibles : 2 Neisseria meningitidis serogroup A strain Z2491 + serogroup B MC58 (2000)

1 Neisseria gonorrhoeae (2005)

1 Neisseria meningitidis serogroup C strain FAM18 (en cours au Sanger)

1 Neisseria meningitidis NEM8013 (en cours à l’Institut Pasteur)

ColiScope

NeisseriaScope

NeisseriaScope

Séquences + (re)-annotations+ annotations automatiques+ synténies (> 230 génomes)

MetaCyc

DB objet Ocelot

ADP1Cyc

FalniCyc

BraORSCyc

CenarCyc

MultigénomesCyc

Page 28: Séminaire Genopole d’Evry du 17 Juin 2005

Composante 3 de MicroScope : interface d’annotation MaGe

Début du développement : Oct. 2002

Contexte : annotation du génome de Acinetobacter sp. ADP1 (été 2004)

Developpé par des biologistes impliqués eux même dans l’annotation experte (D. Vallenet)

Interface graphique permettant de visualiser les résultats de synténie entre protéomes bactériens.

Annotation réalisée avec contexte des gènes annotés

Editeur d’annotation ‘modulaire’

Les changements sont adaptés aux projets

Quelques originalité du système MaGe

Comparaison des annotations de plusieurs génomesen utilisant l’organisation des gènes

Page 29: Séminaire Genopole d’Evry du 17 Juin 2005

http://www.genoscope.cns.fr/agc/mage/project _name

Bacterial annotation projects in progress :

project _name = AcinetoScope (Acinetobacter sp. ADP1)

Login name and password are required.

Available re-annotation and annotation projects :

= YersiniaScope (Yersinia species)

= BacillusScope (Bacillus species)

Connection à MaGe

Page 30: Séminaire Genopole d’Evry du 17 Juin 2005

Carte graphique du génome en cours d’annotation

rRNA genes

tRNA genes

Coding prediction curvesobtained with Matrix number 1

CoDing Sequences

Repeat (DNA)

Page 31: Séminaire Genopole d’Evry du 17 Juin 2005

Carte graphique du génome en cours d’annotation

The overall DNA sequence is loaded

The annotation data corresponding to the vizualized region in MaGe (1 bp to 3001 bp) are loaded.

Applet JAVA

Page 32: Séminaire Genopole d’Evry du 17 Juin 2005

Carte graphique du génome en cours d’annotation

Where are the predicted enzymes in theKEGG pathways ?

(complete annotations or only those inthe visualized region)

Kanehisa(Kyoto University)

• Requête dynamique au serveur KEGG• Les enzymes sont coloriées selon le résultat du ‘mapping’ sur les voies métaboliques d’un génome de référence

Page 33: Séminaire Genopole d’Evry du 17 Juin 2005

Carte graphique du génome en cours d’annotations

Connection to the BioCyc metabolic database built in theAGC group (genomeCyc):

PathoLogic pathway analysis-> list of the identified metabolic pathways

In the annotator editor of a gene coding an enzyme-> link to the corresponding metabolic pathway(s)

Peter Karp (SRI International)

Pathway Hole Filler-> list of gene candidates for missing enzymes

Connection à BioCyc sur l’instance de la base du génome en cours d’annotation

Page 34: Séminaire Genopole d’Evry du 17 Juin 2005

Interface graphique des synténies dans MaGe

Page 35: Séminaire Genopole d’Evry du 17 Juin 2005

Low similarity results :from 16.5% to 23.5%

identity

High similarity results :From 52% to 73% identity

Interface graphique des synténies dans MaGe

Page 36: Séminaire Genopole d’Evry du 17 Juin 2005

ugd1.1.1.22

ACIAD0075

5.1.3.132.7.7.2

44.2.1.46

rmlB rmlD rmlArmlC0073

0074

1.1.1.133

Combinaison des synténies et des voies métaboliques

Page 37: Séminaire Genopole d’Evry du 17 Juin 2005

Enzymes encoded by genes in the MaGe region

Enzymes encoded by genes elsewhere in the Acinetobacter genomeAdditional enzymes in E. coli

Connectivité à la base métabolique KEGG

Page 38: Séminaire Genopole d’Evry du 17 Juin 2005

ugd1.1.1.22

ACIAD0075

5.1.3.132.7.7.2

44.2.1.46

rmlB rmlD rmlArmlC0073

0074

1.1.1.133

ACIAD0075

Expert annotation -> “Polysaccharide transport protein”(Automatic annotation -> “Putative transporter”)

Combinaison des synténies et des voies métaboliques

Page 39: Séminaire Genopole d’Evry du 17 Juin 2005

Search for Keywords Homologs and synteny groups Specific genes and regions

Acinetobacter genes in synteny with genes from

PkGDB organisms NCBI RefSeq organisms

AND having no hit with genes from PkGDB organisms NCBI RefSeq organims

(optional)

Exploration des données d’homologie/synténie

Page 40: Séminaire Genopole d’Evry du 17 Juin 2005

MicroScope : Rôle de l’AGC et de l’équipe informatique

Aujourd’hui : 16 projets en cours

Formation et suivit des utilisateurs(une journée : outils d’annotation et interface MaGe)

Développement et maintenance des bases thématiques

Analyse complète d’un génome nouvellement séquencé

Recherche de synténies avec l’ensemble des procaryotes complets

Mise à la disposition des données via l’interface MaGe

Construction de la base BioCyc

Intégration des génomes ‘proches’ dans PkGDB

Optimisation de l’architecture des bases et des ressources machines

Gestion efficace des mises à jour des données

Avancée du “Finishing” : reconstruction des bases

Mise à jour des banques de séquences et des comparaisons

Page 41: Séminaire Genopole d’Evry du 17 Juin 2005

Examples de projets MicroScope

Base deDonnées Bactérie(s) SéquençageCollaborateurs

ColiScopeEscherichia coli B

E. coli D & EEscherichiafergusoni

GenoscopeCommensales et Pathogènes

P. Daelegen (Genoscope, Evry)

E. Denamur (INSERM, Bichat)

LeptoScope

BurkholScope

Leptospira biflexa Pathogène/Saprophyte H.

M. Picardeau & C. Bouchier(IP, Paris)

InstitutPasteur

Burkholderiaspecies

Pathogène E. Fialho (Portugal) Sanger Center

FrankiaScopeFrankia alni

Symbiote de plantesP. Normand (Lyon) Genoscope

Frankia sp. CcI3DOE JGI

Frankia sp. EAN1D. Benson (Univ. Connect, USA)

NeisseriaScope Neisseriameningitidis NEM8013

Pathogène Humain C. Rusniok (LGMP, IP, Paris) InstitutPasteur

L. Tisa (Univ. New H, USA)

CenibaScope

BradyrhizoScope

Cenibacteriumarsenoxidans Environnement

(Métabolise l’arsenic)

P. Bertin(ULP, Strasbourg) Genoscope

Bradyrhizobiumsp. ORS278 Symbiote de plantes

E. Giraud (LSTM, Montpellier) Genoscope

Thiomonas spp.

Bradyrhizobiumsp. BTAi1

Consortium GDR Arsenic

DOE JGIG. Stacey (Univ. Missouri, USA)M. Sadovsky (Univ. Minnesota,USA)

Page 42: Séminaire Genopole d’Evry du 17 Juin 2005

Perspectives pour MicroScope

Interfaces de requêtes multigénomes : Interfaces génériques et spécifiques (requêtes pré-cablées) Interfaces graphiques -> accès à MaGe/BioCyc/Syntonizer

Améliorer l’annotation fonctionnelle automatique :

Détection automatique des évènements de fusion/fission Combinaison synténies/voies métaboliques Recherche automatique de candidats d’enzymes manquantes

Tirer profit de l’annotation experte : Interface permettant de propager l’annotation experte d’un gène aux orthologues ‘forts’.

Formation à l’annotation de génomes bactérienset à la plateforme d’annotation MaGe

4 journées organisées au Genoscope à partir de l’automne 2005 (préparation, au préalable, de la base liée au projet)

-> Les outils d’annotation-> Utilisation de MaGe autour du (des) génomes d’intérêt

Page 43: Séminaire Genopole d’Evry du 17 Juin 2005

Le site Web de MicroScope :

Page 44: Séminaire Genopole d’Evry du 17 Juin 2005

Les acteurs de MicroScope

David Vallenet

Stéphane Cruveiller

A l’Atelier de Génomique Comparative : Zoé Rouy

Aurélie Lajus

Dans le service informatique :

Laurent Sainte-Marthe

Claude Scarpelli

Sylvain Bonneval

… avec la complicité pour les bases BioCyc de : François Lefèvre (équipe de V. Schächter)

Et sans oublier les retours de nos collaborateurs biologistes !

Page 45: Séminaire Genopole d’Evry du 17 Juin 2005

Je vous remercie de votre attention !…

Et pour finir …

Paul Kersey de l’EBI vient nous parler des projets Genome Reviews et Integr8 Jeudi prochain à 11h

dans cette même salle (le 23 Juin)« Interg8 and Genome reviews: integrated views of complete

genomes and proteomes”