5
MISE AU POINT / UPDATE DOSSIER Apport de la bioinformatique dans le cadre de la médecine moléculaire The Contribution of Bioinformatics within the Context of Molecular Medicine G. Meurice Reçu le 28 novembre 2013 ; accepté le 24 janvier 2014 © Springer-Verlag France 2014 Résumé Les récents développements de la génomique per- mettent aujourdhui de disposer du profil moléculaire des patients. Ces données de génomiques personnelles ouvrent de nouvelles perspectives dans le cadre de la médecine per- sonnalisée, notamment par la recherche de relations entre ces données et les données phénotypiques, qui relèvent de la médecine traditionnelle (observations cliniques, patholo- gies). L analyse et lexploitation de ces données reposent sur le développement concomitant de méthodologies, en par- ticulier dans le domaine de la bioinformatique et de la bio- statistique. Cet article passe en revue les développements récents de la bioinformatique dans le cadre de la génomique personnelle. Mots clés Médecine personnalisée · Génomique personnelle · Bioinformatique Abstract Recent advances in genome science and techno- logy make available the molecular information of patients. This huge amount of information has the potential to aid in substantially improved determinations of individual disease susceptibilities (response to therapy, clinical outcomes). This potential relies on the development of new methods in the fields of biostatistics and bioinformatics. This article reviews the recent development in bioinformatics toward personal genomic profiling. Keywords Personalized medicine · Personal genomic · Bioinformatic Introduction Le concept de la médecine personnalisée consiste à mettre en place la stratégie optimale de traitement pour un patient donné à un temps donné. Ce concept a émergé des industries pharmaceutiques il y a une vingtaine dannées et a été suc- cessivement mis en œuvre au travers dapproches différentes telles que la médecine stratifiée, les vaccinations antitumo- rales (le système immunitaire du patient est programmé pour détruire spécifiquement les cellules tumorales), lingénierie tissulaire (avec limplantation de cellules capables de restau- rer un tissu endommagé), la thérapie génique (le génome du patient est modifié afin de corriger les mutations à lorigine de la maladie) et, plus récemment, le profilage moléculaire, qui sappuie sur la mise à disposition des données génomi- ques des patients. L analyse du profil moléculaire permet de déterminer les éventuelles prédispositions dun patient à une pathologie, à ses réactions vis-à-vis dun traitement et à des médicaments. Ces données, associées aux données cliniques, devraient per- mettre la mise en place de conduites de prévention ciblées et efficaces, et de traitements de laffection lorsquelle apparaî- tra avec le médicament présentant le meilleur rapport entre efficacité et effets secondaires. Le concept de médecine per- sonnalisée sétend donc aux notions de médecine prédictive et préventive. La demande des patients en matière dinfor- mation médicale va croissante. Cette demande est aujour- dhui proactive, et organisée en réseaux connectés, notam- ment sur Internet au travers de sites Web et de réseaux sociaux (WebMD, PatientLikeMe) et dapplications médica- les disponibles sur les plateformes de téléchargement pour Smartphone/tablette. Aux États-Unis, une initiative intéres- sante, portée par Leroy Hood [11], cherche à intégrer cette dimension participative du patient et à en faire la démons- tration avec un nouveau concept : la médecine 4P (préven- tive, prédictive, personnalisée et participative). La détermination du profil moléculaire dun patient est liée àlévolution des technologies dans le domaine de la géno- mique (science de létude des génomes). Des étapes impor- tantes ont jalonné lhistoire de la génomique. Dabord la démocratisation des méthodes du séquençage Sanger dans les années 1980. Puis le séquençage de génomes complets, avec le premier génome bactérien en 1995, suivi par des projets de séquençage de plus grande envergure. Les données issues G. Meurice (*) Plateforme de bioinformatique Gustave-Roussy, 114, rue Édouard-Vaillant, F-94805 Villejuif, France e-mail : [email protected] Oncologie DOI 10.1007/s10269-014-2375-1

Apport de la bioinformatique dans le cadre de la médecine moléculaire; The Contribution of Bioinformatics within the Context of Molecular Medicine;

  • Upload
    g

  • View
    219

  • Download
    5

Embed Size (px)

Citation preview

Page 1: Apport de la bioinformatique dans le cadre de la médecine moléculaire; The Contribution of Bioinformatics within the Context of Molecular Medicine;

MISE AU POINT / UPDATE DOSSIER

Apport de la bioinformatique dans le cadre de la médecine moléculaire

The Contribution of Bioinformatics within the Context of Molecular Medicine

G. Meurice

Reçu le 28 novembre 2013 ; accepté le 24 janvier 2014© Springer-Verlag France 2014

Résumé Les récents développements de la génomique per-mettent aujourd’hui de disposer du profil moléculaire despatients. Ces données de génomiques personnelles ouvrentde nouvelles perspectives dans le cadre de la médecine per-sonnalisée, notamment par la recherche de relations entre cesdonnées et les données phénotypiques, qui relèvent de lamédecine traditionnelle (observations cliniques, patholo-gies). L’analyse et l’exploitation de ces données reposentsur le développement concomitant de méthodologies, en par-ticulier dans le domaine de la bioinformatique et de la bio-statistique. Cet article passe en revue les développementsrécents de la bioinformatique dans le cadre de la génomiquepersonnelle.

Mots clés Médecine personnalisée · Génomiquepersonnelle · Bioinformatique

Abstract Recent advances in genome science and techno-logy make available the molecular information of patients.This huge amount of information has the potential to aid insubstantially improved determinations of individual diseasesusceptibilities (response to therapy, clinical outcomes). Thispotential relies on the development of new methods in thefields of biostatistics and bioinformatics. This article reviewsthe recent development in bioinformatics toward personalgenomic profiling.

Keywords Personalized medicine · Personal genomic ·Bioinformatic

Introduction

Le concept de la médecine personnalisée consiste à mettre enplace la stratégie optimale de traitement pour un patient

donné à un temps donné. Ce concept a émergé des industriespharmaceutiques il y a une vingtaine d’années et a été suc-cessivement mis enœuvre au travers d’approches différentestelles que la médecine stratifiée, les vaccinations antitumo-rales (le système immunitaire du patient est programmé pourdétruire spécifiquement les cellules tumorales), l’ingénierietissulaire (avec l’implantation de cellules capables de restau-rer un tissu endommagé), la thérapie génique (le génome dupatient est modifié afin de corriger les mutations à l’originede la maladie) et, plus récemment, le profilage moléculaire,qui s’appuie sur la mise à disposition des données génomi-ques des patients.

L’analyse du profil moléculaire permet de déterminer leséventuelles prédispositions d’un patient à une pathologie, àses réactions vis-à-vis d’un traitement et à des médicaments.Ces données, associées aux données cliniques, devraient per-mettre la mise en place de conduites de prévention ciblées etefficaces, et de traitements de l’affection lorsqu’elle apparaî-tra avec le médicament présentant le meilleur rapport entreefficacité et effets secondaires. Le concept de médecine per-sonnalisée s’étend donc aux notions de médecine prédictiveet préventive. La demande des patients en matière d’infor-mation médicale va croissante. Cette demande est aujour-d’hui proactive, et organisée en réseaux connectés, notam-ment sur Internet au travers de sites Web et de réseauxsociaux (WebMD, PatientLikeMe) et d’applications médica-les disponibles sur les plateformes de téléchargement pourSmartphone/tablette. Aux États-Unis, une initiative intéres-sante, portée par Leroy Hood [11], cherche à intégrer cettedimension participative du patient et à en faire la démons-tration avec un nouveau concept : la médecine 4P (préven-tive, prédictive, personnalisée et participative).

La détermination du profil moléculaire d’un patient est liéeà l’évolution des technologies dans le domaine de la géno-mique (science de l’étude des génomes). Des étapes impor-tantes ont jalonné l’histoire de la génomique. D’abord ladémocratisation des méthodes du séquençage Sanger dans lesannées 1980. Puis le séquençage de génomes complets, avecle premier génome bactérien en 1995, suivi par des projets deséquençage de plus grande envergure. Les données issues

G. Meurice (*)Plateforme de bioinformatique Gustave-Roussy,114, rue Édouard-Vaillant, F-94805 Villejuif, Francee-mail : [email protected]

OncologieDOI 10.1007/s10269-014-2375-1

Page 2: Apport de la bioinformatique dans le cadre de la médecine moléculaire; The Contribution of Bioinformatics within the Context of Molecular Medicine;

de ces projets furent structurées dans les premières bases dedonnées de séquence, comme GeneBank, European Molecu-lar Biology Laboratory Nucleotide Sequence Database(EMBL), DNA Data Bank of Japan (DDBJ), et de nouveauxalgorithmes furent développés de manière concomitante afinde pouvoir analyser ces séquences (recherche de similarité,prédiction de fonction et de structure). Ces progrès en géno-mique eurent un impact majeur sur la génération à haut débitd’informations biologiques comme les polymorphismes(SNPs). Ces avancées se sont poursuivies avec l’arrivée surle marché des puces à ADN, qui ont permis l’analyse à grandeéchelle de l’expression des gènes et de la structure dugénome, puis des séquenceurs de nouvelles générationsen 2005. Ces technologies ont rendu le séquençage d’ADNde plus en plus rapide et efficace : les particuliers peuvent dèsà présent obtenir un profil génétique établi sur 500 000 à1 000 000 points dans le génome [10]. Dans les prochainesannées, le coût de séquençage d’un génome complet de qua-lité (100×), aujourd’hui de l’ordre de 10 000 dollars, sera endeçà de 1 000 dollars [8]. Les avancés technologiques dans ledomaine de la génomique depuis deux décennies ont étéaccompagnées par le développement de la bioinformatique,science de la bioinformation, qui est aujourd’hui devenueindispensable à la recherche en biologie, y compris dans ledomaine médical.

Avec la démocratisation certaine dans les prochainesannées du profilage moléculaire dans le cadre de la médecinepersonnalisée, le monde de la bioinformatique va être inondéavec des données génomiques individuelles. Cet article passeen revue les principaux défis bioinformatiques soulevés parl’arrivée prochaine de cette masse de données génomiques.

Traiter des données génomiques à grandeéchelle

Depuis l’arrivée sur le marché des séquenceurs de nouvellegénération, le coût du séquençage a considérablementbaissé. Ces technologies sont désormais accessibles en rou-tine et sont en train de supplanter les puces à ADN (micro-array) utilisées jusqu’alors. Le séquençage avec une profon-deur moyenne de 100× d’une poignée de génomes completsou d’une cinquantaine d’exomes complets (soit environ1,5 % du génome) prend moins de deux semaines, avec untaux d’erreurs de l’ordre d’une erreur pour 100 000 basesséquencées [8]. Même avec un taux d’erreurs aussi faible,une séquence complète du génome humain de trois milliardsde bases aurait 30 000 variations relevant d’une erreur deséquençage.

Les erreurs de séquençage sont une source non négli-geable de difficultés, notamment dans la recherche devariants génomiques. Le projet 1 000 génomes [1] rapporteque chaque nouvelle séquence du génome humain pourrait

avoir entre 100 000 et 300 000 nouvelles variations poly-morphiques du type SNP (single nucleotide polymorphism),et un peu moins de 1 000 mutations somatiques. La questiond’identifier dans ces données les réelles variations revient àchercher une aiguille dans une botte de foin. Et cette ques-tion est encore plus compliquée lorsqu’il s’agit d’identifierd’autres types de variations comme les petites insertions–délétions, les variations du nombre de copies et les variantsstructuraux.

La première étape dans le traitement des données génomi-ques consiste à placer les séquences obtenues par les machi-nes dans leur contexte génomique. Ces séquences sont de trèscourts fragments de quelques centaines de bases (variableselon la technologie utilisée), produits en quantité gigan-tesque, de l’ordre de plusieurs millions. Cette étape, qui vagrandement conditionner la suite des analyses, fait doncl’objet de nombreux sujets de recherche en bioinformatique.Il existe pour cela deux approches : l’assemblage de novo,c’est-à-dire reconstruire la séquence complète du génome àpartir de ces millions de fragments et l’alignement de ces frag-ments contre un génome de référence. Comme les algorith-mes dédiés à l’assemblage de novo sont lents de par lacomplexité de la problématique [27], c’est la seconde stratégiequi est la plus couramment utilisée. Les algorithmes les plusconnus dans ce domaine sont BLAST, qui utilise l’algorithmede Needleman-Wunsh [2] et de Smith-Waterman [29]. Cesoutils sont très performants à faible échelle, et il ne faut quequelques secondes par processeur (CPU : central processingunit) pour aligner un fragment contre un génome de référence,mais en aligner 100 millions prendrait des années de CPU.Ainsi, de nouveaux algorithmes sont développés pour pallierce problème d’alignement, mettant en œuvre différentesapproches. Par exemple, certains algorithmes comme BLAT[12] ont optimisé l’alignement de fragments en utilisant desarbres de hashage, de suffixe ou de préfixe. L’algorithme leplus utilisé aujourd’hui utilise la transformée de Burrows-Wheeler, notamment dans des outils tels que BOWTIE [14]ou BWA [15]. BWA est très précis avec moins de 0,1 %d’erreur (sur des données simulées) et peut aligner sept mil-liards de bases en un jour CPU [15,16]. Même avec ces algo-rithmes, l’alignement des millions de fragments contre ungénome de référence humain peut prendre encore quelquesjours de CPU. Une bonne infrastructure informatique (serveurde stockage rapide, cluster de calcul, trafic réseaux à très hautdébit) permet de réduire encore ce délai, qui est un facteurcritique dans la mise en œuvre de la médecine personnalisée,car il faut pouvoir rendre rapidement un résultat aux praticienset aux patients. Toutefois, il reste un biais encore non traité parces nouveaux algorithmes : le biais de la séquence de réfé-rence. En effet, les fragments qui ressemblent le plus à laséquence de référence ont de plus grande chance de s’aligneravec succès que les fragments contenants des mésapparie-ments potentiels [24]. Il y a une contrepartie inévitable à

2 Oncologie

Page 3: Apport de la bioinformatique dans le cadre de la médecine moléculaire; The Contribution of Bioinformatics within the Context of Molecular Medicine;

autoriser ou non les mésappariements sur la prédiction devariations : il faut pouvoir permettre les mésappariements,sans quoi aucun variant génomique ne pourra être trouvé, sanspour autant créer de trop nombreux faux-positifs.

Une fois que les millions de fragments sont correctementalignés, la seconde étape consiste à identifier les variantsgénomiques. Cette étape est très sensible à la qualité duséquençage et de l’alignement, ce qui rend la prédiction devariants incertaine. Il est donc déterminant de tenir compte etde traiter cette incertitude, car elle conditionne les analysesqui exploitent les variants détectés, comme l’identificationde mutations rares ou encore le calcul de la fréquence allé-lique. Une pratique permettant de remédier à cette incerti-tude consiste à augmenter la profondeur du séquençage.Cependant, les algorithmes dédiés à l’identification desvariants, comme GATK [19], MuTECT [7], SOAPsnp[17], doivent également intégrer et traiter cette incertitudeafin de prédire efficacement les variants. Ces outils mettenten œuvre différentes stratégies, notamment la recalibrationdes scores de qualité attribués lors du séquençage afin qu’ilsreflètent le plus précisément possible le taux d’erreurs, unréalignement local (surtout dans le cas d’insertion et de délé-tion) et un filtrage des résultats, en utilisant des bases dedonnées ou des procédures heuristiques. Les algorithmesmis en œuvre se placent dans un cadre probabiliste et utili-sent des méthodes de vraisemblance ou des méthodes baye-siennes [22]. Afin d’évaluer la qualité de la prédiction desvariants, des métriques ont été mises en place. Pour unindividu, le ratio du nombre de transitions (purine/purineou pyrimidine/pyrimidine) sur le nombre de transversions(purine/pyrimidine) devrait être proche de 2 [34]. Dans lecas d’étude des génomes d’une famille, les erreurs peuventêtre estimées en utilisant les lois mendéliennes de l’hérédité.

Interpréter les effets fonctionnels et les impactsdes variations génomiques

Une fois les variants génomiques détectés, il faut analyser leschangements qu’ils occasionnent dans les protéines ainsi queleurs effets fonctionnels. La méthode la plus répandue pourétablir des associations statistiquement significatives entredes SNPs et des phénotypes (pathologie, réponse à un traite-ment) consiste en l’étude d’associations pangénomiques(GWAS) [32]. Ces méthodes ont apporté de nouveaux élé-ments dans la compréhension et le traitement de certainesmaladies, mais seul un nombre limité de variants ont pu êtrecaractérisés dans ce contexte. De plus, comprendre la rela-tion fonctionnelle entre un variant et la maladie, ou plusgénéralement les traits phénotypiques qu’il caractérise, estune tâche difficile.

La compréhension de l’impact des variants passe néces-sairement par la mise en place de base de connaissances de

référence, qui en structurant efficacement les données, per-mettent de retrouver facilement l’information. La base dedonnées de variants la plus répandue est la base dbSNP,maintenue par le NCBI [28]. Cette base de données traiteplusieurs types de variations : les SNPs, mais aussi les inser-tions–délétions, les microsatellites et les polymorphismesmultinucléotidiques. De plus, cette base de données n’im-pose pas de seuil sur la fréquence allélique d’une variationgénomique et peut donc contenir aussi bien des polymor-phismes neutres que des mutations rares à l’origine de patho-logies. Une autre source de données importantes est labase de données OMIM (Online Mendelian Inheritance inMan) [3], qui collectionne les SNPs et leur rôle dans lestroubles mendéliens. Il y a aussi des bases de données plusspécifiques, notamment COSMIC (Catalogue of SomatiqueMutation in Cancer) qui stocke environ 25 000 mutationssomatiques uniques associées à des cancers et extraites dela littérature.

En plus de ces bases de données, de nombreux algorith-mes ont été développés afin de prédire les effets délétères desvariants génomiques. Ces méthodes mettent en œuvre desalgorithmes très variés et ont des prérequis sensiblement dif-férents. Un certain nombre d’entre elles utilisent seulementles propriétés intrinsèques des séquences [4,5,9,21,30]. Parexemple SIFT (Sorting Intolerant from Tolerant), qui résultede la méthodologie développée par Ng et al. [21], utilise unalgorithme recherchant des homologies pour estimer la via-bilité d’une substitution selon le profil des acides aminésinclus dans l’alignement. D’autres méthodes vont au-delàdu simple alignement et utilisent les propriétés structuralesdes protéines prédites à partir de leurs séquences [4,9,21].Par exemple, Bromberg et Rost [4] ont entraîné des réseauxde neurones avec notamment des prédictions de structuressecondaires ainsi que l’accessibilité des résidus aux solvants.Les propriétés physicochimiques sont également utiliséesafin de différencier les acides aminés mutés des acides ami-nés de la séquence de référence. D’autres approches utilisentle nombre croissant de structures connues et validées, etleurs propriétés (accessibilité au solvant, distance du ligand,description du microenvironnement) améliorant ainsi lesprédictions. Par exemple PolyPhen [25] est un outil quimet en œuvre un système de règles qui intègrent les infor-mations provenant de Swiss-Prot, d’alignement de séquenceet de structures protéiques 3D.

La plupart des méthodes dédiées à l’analyse des SNPs selimitent toutefois aux SNPs conduisant à un changementd’acides aminés au niveau de la protéine (introduction decodon stop, faux-sens, frameshift). De nouvelles méthodesdoivent être développées afin de pouvoir prédire les effetsdes insertions–délétions et des mutations synonymes quipeuvent être également délétères. De plus, des standards denomenclature doivent être mis en place afin de pouvoircomparer plus facilement toutes ses méthodes. Il y a

Oncologie 3

Page 4: Apport de la bioinformatique dans le cadre de la médecine moléculaire; The Contribution of Bioinformatics within the Context of Molecular Medicine;

également un besoin de mieux caractériser les régions fonc-tionnelles du génome, ce qui permettrait d’intégrer aux ana-lyses les variants génomiques se situant dans des régionsintroniques (promoteur, site d’épissage).

Appréhender la complexité du systèmeen intégrant les données génomiques

Les phénotypes les plus pertinents sur le plan médical résul-tent bien souvent d’interactions complexes gènes–gènes etgènes–environnement. Cette complexité ne peut donc serésumer à vouloir associer un seul SNP à un phénotypedonné.

Si les GWAS ont pu avoir un succès certain dans le cadred’études pharmacogénomiques, elles présentent toutefoiscertaines limitations : cohortes de patients trop petites, biaisde sélection des variants génomiques, influence de l’envi-ronnement (ce qui peut biaiser les variables explicatives),et de nombreuses interactions entre les gènes pouvant avoirdes effets sous-jacents (synergie, inhibition).

Dans le cadre de la médecine personnalisée, la recherchedes anomalies moléculaires, qui peuvent être très rares, sefait à l’échelle d’un patient, ce qui conduit à un manque depuissance analytique qu’il faut pouvoir pallier.

Imaginez que vouloir évaluer toutes les combinaisons pos-sibles de deux SNPs choisis parmi un million de SNPs possi-bles pour un génome complet reviendrait à tester pas moins de500 milliards d’hypothèses. Un challenge de la bioinforma-tique et de la biostatistique est de traiter cette complexité endéveloppant des méthodes qui combinent des sources de don-nées multiples sans perte de puissance statistique. Plusieursgroupes ont essayé d’aborder cette complexité au traversd’études GWAS classiques, mais à chaque fois ces essais sesont soldés par une perte de puissance statistique ou encorepar une limitation des combinaisons testées [20]. L’utilisationde méthodes de sélection de modèles en amont d’étudesGWAS s’est montrée efficace [33], notamment en sélection-nant des modèles multifactoriels permettant de mettre enbalance le contrôle du taux de faux-positifs, la puissance sta-tistique requise et des temps de calculs raisonnables.

Étant donné la taille des jeux de données génomiques, lesméthodes de réduction de dimensions sont essentielles pourcontrôler la complexité des algorithmes. Ces méthodescomme l’analyse en composante principale ou encore l’ana-lyse multifactorielle ont fait l’objet d’une revue détaillée[26]. Si elles peuvent se montrer particulièrement efficacespour traiter des jeux de données volumineux, elles permet-tent difficilement d’intégrer d’autres types de connaissances,ni d’adresser clairement la biologie sous-jacente à ces jeuxde données.

La biologie des systèmes et la modélisation de réseauxbiologiques abordent la question de la complexité en combi-

nant les données moléculaires des différents niveaux hiérar-chiques de la biologie (génome, transcriptome, protéome,métabolome, réseaux de régulation fonctionnelle). Dans cetteoptique, un phénotype associé à une pathologie ou à uneréponse à un traitement correspond à une perturbation deces réseaux. La biologie des systèmes tente d’inférer quelsgènes, ou combinaisons de gènes, ou d’autres marqueursbiologiques sont les plus vraisemblablement associés à cesperturbations.

Des méthodes utilisant des sets de gènes et des voies derégulation (pathways) peuvent également être utilisées dansle cadre d’étude d’association pangénomique. Ces méthodesutilisent une stratégie similaire à GSEA [31], qui dans lecadre de l’analyse de données issues de puces à ADN uti-lise un test statistique classique pour établir la significativitéde l’association de set de gènes pour des données de micro-array. Pour cela, d’autres métriques ont été développéescomme le « SNP Ratio Test » [23] et la méthode « Prioriti-zing Risk Pathway » [6], qui combinent les voies de régula-tions et les données génétiques en une seule métrique.

Les approches systémiques sont encourageantes, mais lesbioinformaticiens doivent être bien conscients des écueilspossibles. Ces méthodes doivent utiliser des données debonne qualité, afin d’éviter de formuler de fausses hypothè-ses sur la base de données erronées, d’autant plus que ceserreurs, en percolant dans les nombreuses bases de donnéespubliques, se verraient amplifiées.

Mettre en œuvre ces méthodesdans un contexte clinique

Nous venons de décrire comment la bioinformatique pouvaittraiter les données issues de séquençages à haut débit afind’en extraire toute l’information nécessaire à des approchescliniques. Si les avancées prometteuses dans ce domaine sevoient confirmées, il faudra développer et investir rapide-ment dans le domaine de la santé, en poursuivant les déve-loppements de programmes de recherche et de technologie,mais aussi en développant la formation des praticiens dansce sens, en mettant en place des plateformes d’informationou des centres de références présentant des guides de « bonnepratique » pour la mise en œuvre de ces technologies. Deplus, des programmes de recherches en biologie médicale,établis dans un contexte de médecine personnalisée, sontd’ores et déjà mis en place et cherchent à démontrer la fai-sabilité de l’application de la médecine moléculaire au tra-vers de la pratique quotidienne [13].

Enfin, le développement de sociétés proposant aux parti-culiers de leur fournir leur profil génomique personnel, avec,sous couvert d’information et d’éducation, des informationsgénétiques sur le risque de développer telles ou telles patho-logies [18], pousse les particuliers à l’autodiagnostic. La

4 Oncologie

Page 5: Apport de la bioinformatique dans le cadre de la médecine moléculaire; The Contribution of Bioinformatics within the Context of Molecular Medicine;

prise en compte précoce de la dimension participative dupatient est donc un point critique que les autorités de la santédoivent considérer afin de garder ce type de démarche dansun cadre médical.

Conflit d’intérêt : l’auteur déclare ne pas avoir de conflitd’intérêt.

Références

1. 1000 Genomes Project Consortium, et al. (2010) A map of humangenome variation from population-scale sequencing. Nature 467:1061–73

2. Altschul SF, Gish W, Miller W, et al. (1990) Basic local align-ment search tool. J Mol Biol 215: 403–10

3. Amberger J, Bocchini CA, Scott AF, et al. (2009) McKusick’sOnline Mendelian Inheritance in Man (OMIM). Nucleic AcidsRes 37: D793–D6

4. Bromberg Y, Rost B (2007) SNAP: predict effect of non-synonymous polymorphisms on function. Nucleic Acids Res 35:3823–35

5. Capriotti E, Arbiza L, Casadio R, et al. (2008) Use of estimatedevolutionary strength at the codon level improves the predictionof disease-related protein mutations in humans. Hum Mutat 29:198–204

6. Chen L, Zhang L, Zhao Y, et al. (2009) Prioritizing risk path-ways: a novel association approach to searching for disease path-ways fusing SNPs and pathways. Bioinformatics 25: 237–42

7. Cibulskis K, Lawrence MS, Carter SL, et al. (2013) Sensitivedetection of somatic point mutations in impure and heteroge-neous cancer samples. Nat Biotechnol doi:10.1038/nbt.2514

8. Drmanac R, Sparks AB, Callow MJ, et al (2010) Human genomesequencing using unchained base reads on self-assembling DNAnanoarrays. Science 327:78–81

9. Ferrer-Costa C, Orozco M, de la Cruz X (2004) Sequence-basedprediction of pathological mutations. Proteins: 57: 811–9

10. Hindorff LA, Sethupathy P, Junkins HA, et al (2009) Potentialetiologic and functional implications of genome wide associationloci for human diseases and traits. Proc Natl Acad Sci U S A 106:9362–67

11. http://p4mi.org12. Kent WJ (2002) BLAT–the BLAST-like alignment tool. Genome

Res 12: 656–6413. Lacroix L, , Boichard A, André F, et al. (submitted) Genomes in

the clinic : The Gustave Roussy Cancer Center experience14. Langmead B, Trapnell C, Pop M, Salzberg SL (2009) Ultrafast

and memory-efficient alignment of short DNA sequences to thehuman genome. Genome Biol 10: R25

15. Li H, Durbin R (2009) Fast and accurate short read alignmentwith Burrows-Wheeler transform. Bioinformatics 25: 1754–60

16. Li H, Homer N (2010) A survey of sequence alignment algorithmsfor next-generation sequencing. Brief Bioinform 11: 473–83

17. Li R, Yu C, Li Y, et al. (2009) SOAP2: an improved ultrafast toolfor short read alignment. Bioinformatics 25: 1966–7

18. McGuire AL, Burke W (2008) An unwelcome side effect ofdirect-to-consumer personal genome testing: raiding the medicalcommons. JAMA 300: 2669–71

19. McKenna A, Hanna M, Banks E, et al (2010) The Genome Analy-sis Toolkit: a MapReduce framework for analyzing next-generationDNA sequencing data. Genome Res 20: 1297–303

20. Motsinger AA, Ritchie MD, Reif DM, et al. (2007) Novelmethods for detecting epistasis in pharmacogenomics studies.Pharmacogenomics 8: 1229–41

21. Ng PC, Henikoff S (2006) Predicting the effects of amino acidsubstitutions on protein function. Annu Rev Genomics HumGenet 7: 61–80

22. Nielsen R, Paul JS, Albrechtsen A, Song YS (2011) Genotypeand SNP calling from next-generation sequencing data. Nat RevGenet 12: 443–51

23. O’Dushlaine C, Kenny E, Heron EA, et al. (2009) The SNP ratiotest: pathway analysis of genome-wide association datasets.Bioinformatics 25: 2762–3

24. Pool JE, Hellmann I, Jensen JD, et al. (2010) Population geneticinference from genomic sequence variation. Genome Res 20:291–300

25. Ramensky V, Bork P, Sunyaev S (2002) Human non-synonymousSNPs: server and survey. Nucleic Acids Res 30: 3894–900

26. Saeys Y, Inza I, Larrañaga P., et al. (2007) A review of featureselection techniques in bioinformatics. Bioinformatics 23: 2507–17

27. Shendure J, Ji H (2008) Next-generation DNA sequencing. NatBiotechnol 26: 1135–45

28. Sherry ST, Ward MH, Kholodov M, et al. (2001) dbSNP: the NCBIdatabase of genetic variation. Nucleic Acids Res 29: 308–11

29. Smith TF, Waterman MS (1981) Identification of common mole-cular subsequences. J Mol Biol 147: 195–7

30. Stone EA, Sidow A (2005) Physicochemical constraint violationby missense substitutions mediates impairment of protein func-tion and disease severity. Genome Res 15: 978–86

31. Subramanian A, Tamayo P, Mootha VK, et al. (2005) Gene setenrichment analysis: a knowledge-based approach for interpretinggenome-wide expression profiles. Proc Natl Acad Sci U S A 102:15545–50

32. WTCC Consortium (2007) Genome-wide association study of14,000 cases of seven common diseases and 3000 shared controls.Nature 447: 661–78

33. Wu Z, Zhao H (2009) Statistical power of model selection stra-tegies for genome- wide association studies. PLoS Genet 5:e1000582

34. Zhang Z, Gerstein M (2003) Patterns of nucleotide substitu-tion, insertion anddeletion in the human genome inferred frompseudogenes. Nucleic Acids Res 31: 5338–48

Oncologie 5