20
Manipulation et Manipulation et traitement de traitement de données massives données massives Scripts et Scripts et Pertinence des données Pertinence des données

Manipulation et traitement de données massives Scripts et Pertinence des données

Embed Size (px)

Citation preview

Page 1: Manipulation et traitement de données massives Scripts et Pertinence des données

Manipulation et traitement Manipulation et traitement de données massivesde données massives

Scripts et Scripts et

Pertinence des donnéesPertinence des données

Page 2: Manipulation et traitement de données massives Scripts et Pertinence des données

Traiter beaucoup de donnéesTraiter beaucoup de données

Ce n’est pas faisable manuellementCe n’est pas faisable manuellement– trop long, trop compliquétrop long, trop compliqué– risque d’erreurs (par ex. risque d’erreurs (par ex. coupé-collé)coupé-collé)

AutomatiserAutomatiser– Trouver l’outil idéal …Trouver l’outil idéal …– Utiliser les outils existantsUtiliser les outils existants– Tout faire soi-mêmeTout faire soi-même

Page 3: Manipulation et traitement de données massives Scripts et Pertinence des données

L’outil interactif L’outil interactif

Malheureusement beaucoup d’outils Malheureusement beaucoup d’outils nene sont utilisables sont utilisables ququ’à travers une interface ’à travers une interface graphiquegraphique– par ex. Seqlab de GCG par ex. Seqlab de GCG – sites websites web

Pourquoi ?Pourquoi ?– convivialconvivial– actions prédéfiniesactions prédéfinies– interrogationinterrogation– … … évite la fuite des données des sites webévite la fuite des données des sites web

Page 4: Manipulation et traitement de données massives Scripts et Pertinence des données

Gérer soi-même les donnéesGérer soi-même les données

Les trouverLes trouver Les rapatrierLes rapatrier

– en blocen bloc– à la voléeà la volée

Les traiterLes traiter Les stockerLes stocker Les rendre disponiblesLes rendre disponibles … … faire un site web.faire un site web.

Page 5: Manipulation et traitement de données massives Scripts et Pertinence des données

Bases de données Bases de données vs vs Données « à plat »Données « à plat »

Une base de données « bien faite » permet Une base de données « bien faite » permet un accès direct aux données un accès direct aux données – niveau de précision (par ex pour une protéine)niveau de précision (par ex pour une protéine)

Texte en vrac de la séquence et des infos concernant Texte en vrac de la séquence et des infos concernant fonction, organisme, biblio, etc.fonction, organisme, biblio, etc.

SequenceAA , TaxId, InterProSequenceAA , TaxId, InterPro

– Relations avec d’autres informationRelations avec d’autres information Localisation génomique, expressionLocalisation génomique, expression

– Facilité d’accèsFacilité d’accès Interactif, requête SQLInteractif, requête SQL

Page 6: Manipulation et traitement de données massives Scripts et Pertinence des données

Les formats des données « à plat »Les formats des données « à plat »

(hors « base de données »)(hors « base de données ») Les données sont dans des Les données sont dans des fichiersfichiers rangés dans rangés dans

une une arborescencearborescence

Généralement un Généralement un format de fichierformat de fichier est associé est associé à une applicationà une application– WordWord .doc,.doc, ExcellExcell .xls.xls, etc., etc.– Images Images .jpg.jpg, , .tif.tif, Sons , Sons .mp3.mp3, Vidéos , Vidéos

TexteTexte (Ascii) (Ascii)– lisible par l’humain et la machinelisible par l’humain et la machine– simple maissimple mais

pas agréable pour l’oeilpas agréable pour l’oeil pas rapide ni précis pas rapide ni précis

Web .Web .htmlhtml, , .xml.xml– Xml fédère tout le monde …Xml fédère tout le monde …

Page 7: Manipulation et traitement de données massives Scripts et Pertinence des données

Format Fasta d’une séquenceFormat Fasta d’une séquence

>PGS110 AaEcR-A Aedes aegypti Ecdysone receptor isoforme-A>PGS110 AaEcR-A Aedes aegypti Ecdysone receptor isoforme-AMYRLNIVSTNPSGSVQQQQQAQGQQVISSVVRPQQQQPPPQLALVQTGGSMYRLNIVSTNPSGSVQQQQQAQGQQVISSVVRPQQQQPPPQLALVQTGGSGGTTTTIIGLTSLNALNATTITGLVAGAAGSSTSAIAAAGASNSGSGPSTGGTTTTIIGLTSLNALNATTITGLVAGAAGSSTSAIAAAGASNSGSGPSTATTKHILKAATTNNNISIVKIVDDIMLKAVKVEPLPMDTGGGGGGVSMIPATTKHILKAATTNNNISIVKIVDDIMLKAVKVEPLPMDTGGGGGGVSMIPSSATTSGGVTVTAIPASVAPMPPVAAGTNVSSNGSVTVYASGKRRLESNESSATTSGGVTVTAIPASVAPMPPVAAGTNVSSNGSVTVYASGKRRLESNEEWISSPSPGSVPGSAPPLSPSPGSQSTTYTTTMSNGYSSPMSTGSYDPYSEWISSPSPGSVPGSAPPLSPSPGSQSTTYTTTMSNGYSSPMSTGSYDPYSPNGKMGREDLSPSSSLNGYTDGSDAKKQKKGPTPRQQEELCLVCGDRESGPNGKMGREDLSPSSSLNGYTDGSDAKKQKKGPTPRQQEELCLVCGDRESGYHYNALTCEGCKGFFRRSVTKNAVYCCKFGHACEMDMYMRRKCQECRLKKYHYNALTCEGCKGFFRRSVTKNAVYCCKFGHACEMDMYMRRKCQECRLKKCLAVGMRPECVVPENQCAIKRKEKKAQKEKDKVQTNATVSTTNSTYRSEICLAVGMRPECVVPENQCAIKRKEKKAQKEKDKVQTNATVSTTNSTYRSEILPILMKCDPPPHQAIPLLPEKLLQENRLRNIPLLTANQMAVIYKLIWYQDLPILMKCDPPPHQAIPLLPEKLLQENRLRNIPLLTANQMAVIYKLIWYQDGYEQPSEEDLKRIMIGSPNEEEDQHDVHFRHITEITILTVQLIVEFAKGLGYEQPSEEDLKRIMIGSPNEEEDQHDVHFRHITEITILTVQLIVEFAKGLPAFTKIPQEDQITLLKACSSEVMMLRMARRYDAATDSILFANNRSYTRDSPAFTKIPQEDQITLLKACSSEVMMLRMARRYDAATDSILFANNRSYTRDSYRMAGMADTIEDLLHFCRQMFSLTVDNVEYALLTAIVIFSDRPGLEQAELYRMAGMADTIEDLLHFCRQMFSLTVDNVEYALLTAIVIFSDRPGLEQAELVEHIQSYYIDTLRIYILNRHAGDPKCSVIFAKLLSILTELRTLGNQNSEMVEHIQSYYIDTLRIYILNRHAGDPKCSVIFAKLLSILTELRTLGNQNSEMCFSLKLKNRKLPRFLEEIWDVQDIPPSMQAQMHSHGTQSSSSSSSSSSSSCFSLKLKNRKLPRFLEEIWDVQDIPPSMQAQMHSHGTQSSSSSSSSSSSSSNGSSNGNSSSNSNSSQHGPHPHPHGQQLTPNQQQHQQQHSQLQQVHANGSNGSSNGNSSSNSNSSQHGPHPHPHGQQLTPNQQQHQQQHSQLQQVHANGSGSGGGSNNNSSSGGVVPGLGMLDQVLVSGSGGGSNNNSSSGGVVPGLGMLDQVLV

Page 8: Manipulation et traitement de données massives Scripts et Pertinence des données

Format Embl d’une séquenceFormat Embl d’une séquence

ID Q7UB09 PRELIMINARY; PRT; 391 AA.ID Q7UB09 PRELIMINARY; PRT; 391 AA.AC Q7UB09;AC Q7UB09;DT 01-OCT-2003 (TrEMBLrel. 25, Created)DT 01-OCT-2003 (TrEMBLrel. 25, Created)DT DT 01-MAR-2004 (TrEMBLrel. 26, Last annotation update)DT DT 01-MAR-2004 (TrEMBLrel. 26, Last annotation update)DE Putative xylanase.DE Putative xylanase.GN YIEL OR S4034.GN YIEL OR S4034.OS Shigella flexneri.OS Shigella flexneri.OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;OC Enterobacteriaceae; Shigella.OC Enterobacteriaceae; Shigella.OX NCBI_TaxID=623;OX NCBI_TaxID=623;DR EMBL; AE016991; AAP19014.1; -.DR EMBL; AE016991; AAP19014.1; -.DR GO; GO:0005975; P:carbohydrate metabolism; IEA.DR GO; GO:0005975; P:carbohydrate metabolism; IEA.DR InterPro; IPR000379; Ser_estrs.DR InterPro; IPR000379; Ser_estrs.DR Pfam; PF02922; Isoamylase_N; 1.DR Pfam; PF02922; Isoamylase_N; 1.KW Glycosidase; Hydrolase; Xylan degradation.KW Glycosidase; Hydrolase; Xylan degradation.SQ SEQUENCE 391 AA; 43049 MW; 0C6006A9977CFBC0 CRC64;SQ SEQUENCE 391 AA; 43049 MW; 0C6006A9977CFBC0 CRC64; MNIKIAALTL AIASGISAQW AIAADMPASP APTIPVKQYV TQVNADNSVT FRYFAPGAKNMNIKIAALTL AIASGISAQW AIAADMPASP APTIPVKQYV TQVNADNSVT FRYFAPGAKN VSVVVGVPVP DNIHPMTKDE AGVWSWRTPI LKGNLYEYFF NVDGVRSIDT GTAMTKPQRQVSVVVGVPVP DNIHPMTKDE AGVWSWRTPI LKGNLYEYFF NVDGVRSIDT GTAMTKPQRQ TFSGVTTTTV PDEGVAARLN DPAAINQQLR NFTVVVGDKD VVTGKDIAGL KTELEQKKIKTFSGVTTTTV PDEGVAARLN DPAAINQQLR NFTVVVGDKD VVTGKDIAGL KTELEQKKIK FDYQEYPGLN HEMDVWRPAY AAFVQKFKIR HFDYQEYPGLN HEMDVWRPAY AAFVQKFKIR H

Page 9: Manipulation et traitement de données massives Scripts et Pertinence des données

Format Genbank Format Genbank 1/21/2

LOCUS NC_003071 19643621 bp DNA PLN 13-AUG-2001LOCUS NC_003071 19643621 bp DNA PLN 13-AUG-2001DEFINITION Arabidopsis thaliana chromosome 2, complete sequence.DEFINITION Arabidopsis thaliana chromosome 2, complete sequence.ACCESSION NC_003071ACCESSION NC_003071SOURCE thale cress.SOURCE thale cress. ORGANISM Arabidopsis thalianaORGANISM Arabidopsis thaliana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;FEATURES Location/QualifiersFEATURES Location/Qualifiers source 1..19643621source 1..19643621 /organism="Arabidopsis thaliana"/organism="Arabidopsis thaliana" /cultivar="Columbia"/cultivar="Columbia" /db_xref="taxon:3702"/db_xref="taxon:3702" /chromosome="2"/chromosome="2" gene complement(64436..66139)gene complement(64436..66139) /gene="At2g01040"/gene="At2g01040" /note="F23H14.1; pseudogene, disease resistance protein"/note="F23H14.1; pseudogene, disease resistance protein" /pseudo/pseudo mRNA complement(<67337..>68884)mRNA complement(<67337..>68884) gene complement(67337..68884)gene complement(67337..68884) /gene="At2g01050"/gene="At2g01050" /note="F23H14.2; predicted by genscan"/note="F23H14.2; predicted by genscan" CDS complement(67337..68884)CDS complement(67337..68884) /gene="At2g01050"/gene="At2g01050"

Page 10: Manipulation et traitement de données massives Scripts et Pertinence des données

Format Genbank Format Genbank 2/22/2

mRNA complement(join(<72279..72950,73073..73142,73240..73297,mRNA complement(join(<72279..72950,73073..73142,73240..73297, 73383..73425,73509..73585,73785..73907,74190..74340))73383..73425,73509..73585,73785..73907,74190..74340)) /gene="At2g01060"/gene="At2g01060"

gene complement(67337..68884)gene complement(67337..68884) /gene="At2g01050"/gene="At2g01050" /note="F23H14.2; predicted by genscan"/note="F23H14.2; predicted by genscan" CDS complement(67337..68884)CDS complement(67337..68884) /gene="At2g01050"/gene="At2g01050" /codon_start=1/codon_start=1 /product="hypothetical protein"/product="hypothetical protein" /db_xref="GeneID:At2g01050"/db_xref="GeneID:At2g01050" /protein_id="NP_178215.1"/protein_id="NP_178215.1" /db_xref="GI:15226168"/db_xref="GI:15226168" /translation="MLDVGEKGRPPGDPPDKLESWATKVKGSAGGGILKPEDVIDDEF/translation="MLDVGEKGRPPGDPPDKLESWATKVKGSAGGGILKPEDVIDDEF VRERVGLEFPDGEDEEPVITIGEEVLEAMNGLWKKCMIVKVLGSQIPISVLNRKLRELVRERVGLEFPDGEDEEPVITIGEEVLEAMNGLWKKCMIVKVLGSQIPISVLNRKLREL WKPSGVMTVMDLPRQFFMIRFELEEEYMAALTGGPWRVLGNYLLVQDWSSRFDPLRDDWKPSGVMTVMDLPRQFFMIRFELEEEYMAALTGGPWRVLGNYLLVQDWSSRFDPLRDD IVTTPVWVRLSNIPYNYYHRCLLMEIARGLGRPLKVDMNTINFDKGRFARVCIEVNLAIVTTPVWVRLSNIPYNYYHRCLLMEIARGLGRPLKVDMNTINFDKGRFARVCIEVNLA KPLKGTVLINGDRYFVAYEGLSKICSSCGIYGHLVHSCPRNVVVKVSAGAETVTDRAVKPLKGTVLINGDRYFVAYEGLSKICSSCGIYGHLVHSCPRNVVVKVSAGAETVTDRAV VPVGMEGDDGFTVVQRTARRPAAPVQKMVFAVGASGGRSKQRLRELPKNQGVDLANRFVPVGMEGDDGFTVVQRTARRPAAPVQKMVFAVGASGGRSKQRLRELPKNQGVDLANRF GGLDGNGDLPDLREVAITEGPNKENEYHGRNVGKVMGVPLVKEARGSTQMEKGKGGSKGGLDGNGDLPDLREVAITEGPNKENEYHGRNVGKVMGVPLVKEARGSTQMEKGKGGSK GGFKWKRNGGMKALEPIGPKQKHGAANKPARGLIFGPTKDANSVPVGEDLLSNGKRLRGGFKWKRNGGMKALEPIGPKQKHGAANKPARGLIFGPTKDANSVPVGEDLLSNGKRLR VEQRDVGRPGGVYSSAMGSHAHEASFDLDSSSTLSQRFQREDLMSEIAVVSHEGSEVGVEQRDVGRPGGVYSSAMGSHAHEASFDLDSSSTLSQRFQREDLMSEIAVVSHEGSEVG NSSEGMA« NSSEGMA« mRNA complement(join(<72279..72950,73073..73142,73240..73297,mRNA complement(join(<72279..72950,73073..73142,73240..73297, 73383..73425,73509..73585,73785..73907,74190..74340))73383..73425,73509..73585,73785..73907,74190..74340)) /gene="At2g01060"/gene="At2g01060" gene complement(72279..74340)gene complement(72279..74340) /gene="At2g01060"/gene="At2g01060" /note="F23H14.3; similar to transfactor GB:BAA75684 from/note="F23H14.3; similar to transfactor GB:BAA75684 from (Nicotiana tabacum)"(Nicotiana tabacum)" CDS complement(join(72456..72950,73073..73142,73240..73297,CDS complement(join(72456..72950,73073..73142,73240..73297,

Page 11: Manipulation et traitement de données massives Scripts et Pertinence des données

… … il n’y a pas que des séquencesil n’y a pas que des séquences

BlastBlast AlignementsAlignements GoGo

Références bibliographiquesRéférences bibliographiques– Data miningData mining

Page 12: Manipulation et traitement de données massives Scripts et Pertinence des données

Où trouver les données ?Où trouver les données ?

Dans les banques de donnéesDans les banques de données– Ramener la banque en entierRamener la banque en entier– Traiter les fichiers ainsi stockés sur le Traiter les fichiers ainsi stockés sur le

disquedisque Chercher l’info pertinente … à la Chercher l’info pertinente … à la

volée volée Faire une requête ciblée dans une Faire une requête ciblée dans une

banque de donnéesbanque de données– SRS le permet …SRS le permet …

Page 13: Manipulation et traitement de données massives Scripts et Pertinence des données
Page 14: Manipulation et traitement de données massives Scripts et Pertinence des données
Page 15: Manipulation et traitement de données massives Scripts et Pertinence des données
Page 16: Manipulation et traitement de données massives Scripts et Pertinence des données
Page 17: Manipulation et traitement de données massives Scripts et Pertinence des données

Qu’est qu’un script ?Qu’est qu’un script ?

C’est un programme.C’est un programme.

Qui enchaîne une suite de programmesQui enchaîne une suite de programmes– (pris dans un boîte à outils)(pris dans un boîte à outils)

Écrit dans un langage Écrit dans un langage – sh, csh, tcsh, bashsh, csh, tcsh, bash– Perl, Tcl, Python, Perl, Tcl, Python, – C, C++, VisualBasic, Fortran, JavaC, C++, VisualBasic, Fortran, Java– ……

Page 18: Manipulation et traitement de données massives Scripts et Pertinence des données

Boîte à outilsBoîte à outils NCBI-toolboxNCBI-toolbox GcgGcg EmbossEmboss GscopeGscope ……

Page 19: Manipulation et traitement de données massives Scripts et Pertinence des données

Un exemple de traitement en localUn exemple de traitement en local

Page 20: Manipulation et traitement de données massives Scripts et Pertinence des données

Traitement à distance sur un site web …Traitement à distance sur un site web …

On simule par programme les actions On simule par programme les actions répétitives de l’utilisateurrépétitives de l’utilisateur– Ce n’est pas toujours possibleCe n’est pas toujours possible

ce n’est pas fait pour çace n’est pas fait pour ça il faut connaître l’organisation des donnéesil faut connaître l’organisation des données

– Le format des données est souvent difficile à Le format des données est souvent difficile à exploiterexploiter

Html, Xml, imagesHtml, Xml, images

– Problèmes de connexion et de gestion des Problèmes de connexion et de gestion des décrochagesdécrochages

– Attention aux mises à jour des sitesAttention aux mises à jour des sites