advertisement

Bases du NCBI partie I - Sources de données brutes et BLAST

100 %
0 %
advertisement
Information about Bases du NCBI partie I - Sources de données brutes et BLAST
Education

Published on February 27, 2014

Author: nclairoux

Source: slideshare.net

Description

Survol des sources de données brutes au NCBI: Nucleotide, Protein, Geo. Recherche de séquences homologues avec BLAST. Séquences de référence RefSeq
advertisement

LES BASES DE DONNÉES DU Natalie Clairoux, M. Sc., M.S.I. Bibliothécaire Hiver 2014

PAR OÙ COMMENCER? Le labyrinthe de bases de données en bioinformatique L’INTÉGRATION DES BASES DU NCBI Permet la navigation entre les bases SOURCES DE DONNÉES BRUTES Nucleotide, Protein, RefSeq, GEO… RECHERCHE DE SÉQUENCES HOMOLOGUES BLAST, Blink, Related sequences Natalie Clairoux Bases du NCBI I Hiver 2014

Bio-informatique in silico: citer ses sources Source: Fritz-Laylin LK, Prochnik SE, Ginger ML, Dacks JB, Carpenter ML, Field MC, et al. The Genome of Naegleria gruberi Illuminates Early Eukaryotic Versatility. Cell. 2010;140(5):631-42. Natalie Clairoux Bases du NCBI I Hiver 2014

Ressources en bio-informatique Lien Natalie Clairoux Bases du NCBI I Hiver 2014

Croissance exponentielle des données Source: NLM Natalie Clairoux Bases du NCBI I Hiver 2014

Traitement des données au NCBI: permet de trouver de l’information de qualité Données brutes: •Nucleotide •Protein •GEO Valeur ajoutée: •RefSeq •Entrez Gene •OMIM Alignement déjà calculé au NCBI: •BLink •Related sequences Alignement de séquences par l’usager: •BLAST Natalie Clairoux Bases du NCBI I Hiver 2014

PAR OÙ COMMENCER? Le labyrinthe de bases de données en bioinformatique L’INTÉGRATION DES BASES DU NCBI Permet la navigation entre les bases SOURCES DE DONNÉES BRUTES Nucleotide, Protein, RefSeq, GEO… RECHERCHE DE SÉQUENCES HOMOLOGUES BLAST, Blink, Related sequences Natalie Clairoux Bases du NCBI I Hiver 2014

Bases de données du NCBI: page d’accueil Natalie Clairoux Bases du NCBI I Hiver 2014

Obtenir de l’aide  Section générale : NCBI Educational Resources  Document de référence: The NCBI Handbook  Modes d’emploi: How-To's  Résumés: NCBI Fact Sheets  Vidéos sur YouTube: NCBINLM Channel  Votre bibliothécaire Natalie Clairoux Bases du NCBI I Hiver 2014

Il y a beaucoup plus que des références d’articles dans PubMed… Natalie Clairoux Bases du NCBI I Hiver 2014

Bases de données du NCBI: classification Génomes Nucléotides Expression Protéines Structure Chimie Taxonomie Natalie Clairoux Bases du NCBI I Hiver 2014 Littérature

Taxonomy Browser  Classification qui gouverne toutes les autres bases au NCBI Natalie Clairoux Bases du NCBI I Hiver 2014

Liens entre les bases (Schéma date de 2008) Natalie Clairoux Bases du NCBI I Hiver 2014

Les liens entre les bdd du NCBI  Hard links: liens directs entre deux notices provenant de deux bdd distinctes (figure pécédente). • Exemples: lien entre l’article qui décrit une nouvelle séquence (PubMed) et sa notice dans GenBank (Nucleotide); lien entre la séquence d’une protéine (Protein) et une structure en 3D (Structure). • Tous les liens directs possibles ne sont pas nécessairement présents.  Neighbouring links: liens calculés par ordinateur entre deux notices d’une même bdd. • Critères de définition de la similarité varient d’une bdd à l’autre. • Exemples: similarité de structure 3D entre protéines, déterminée avec VAST; Related sequences et Blink. Natalie Clairoux Bases du NCBI I Hiver 2014

L’interface commune aux bases du NCBI  Fonctions: Limits, Advanced search, Clipboard • Exemple: recherche de séquences de gènes impliqués dans le cancer du côlon dans Nucleotide.  LinkOut: liens vers des ressources externes au NCBI (près de 3000), pertinentes à la notice affichée. Ex.: Medline Plus, Flybase, REBASE…  MyNCBI: espace personnel de stockage et d’organisation de l’information repêchée. • Possibilité de partage entre collègues. • Garde en mémoire les actions des 6 derniers mois. Natalie Clairoux Bases du NCBI I Hiver 2014

PAR OÙ COMMENCER? Le labyrinthe de bases de données en bioinformatique L’INTÉGRATION DES BASES DU NCBI Permet la navigation entre les bases SOURCES DE DONNÉES BRUTES Nucleotide, Protein, RefSeq, GEO… RECHERCHE DE SÉQUENCES HOMOLOGUES BLAST, Blink, Related sequences Natalie Clairoux Bases du NCBI I Hiver 2014

Séquences de nucléotides Exemple  Nucleotide contient :  Séquences en nt (avec annotations bibliographiques et biologiques) provenant de GenBank (Etats-Unis), EMBL (Europe) et DDBJ (Japon).  Sources de données: soumissions individuelles par les auteurs et soumissions en lot (EST, GSS, centres de séquençage, brevets)  No. d’accession: identificateur unique; demeure constant même si des changements sont apportés à la notice (no. de version peut changer). Il y a aussi un no. d’identification au NCBI (GI) pour chaque version.  Description des composantes d’une notice Natalie Clairoux Bases du NCBI I Hiver 2014

Séquences de protéines Exemple  Protein contient:  Traductions des séquences codantes de GenBank (GenPept)  Séquences en aa (avec annotations bibliographiques et biologiques) provenant de TPA, SwissProt, PIR, PRF et PDB.  Il peut y avoir plus d’une protéine associée à une notice de Nucleotide.  Les symboles <> indiquent qu’une partie de la séquence est manquante. Natalie Clairoux Bases du NCBI I Hiver 2014

Séquences de référence (RefSeq)  Collection exhaustive, intégrée et non-redondante de séquences d’ADN, d’ARN et de protéines.  Référence pour l’identification et la caractérisation de gènes, de mutations et l’analyse de polymorphismes.  UNE notice par molécule chez les principaux organismes.  >42 millions de séquences, représentant >33,000 organismes. Je veux toutes les séquences  BLAST, Nucleotide, Protein… Je veux la meilleure séquence  RefSeq Natalie Clairoux Bases du NCBI Hiver 2014

Nomenclature des nos d’accession des Exemple séquences de référence (RefSeq) Natalie Clairoux Bases du NCBI Hiver 2014

Données brutes d’expression Exemple  GEO (Gene Expression Omnibus) contient des données génomiques fonctionnelles générées par les technologies à puces (microarray) et de séquençage de nouvelle génération:  Données d’expression  Variation du nombre de copies de génome  Interactions génome-protéines  Études de profilage de méthylation  GEO Profile: mesures quantitatives d’expression pour un gène dans une expérience.  GEO Datasets: données complètes d’expériences.  Voir aussi: ArrayExpress (EBI) Natalie Clairoux Bases du NCBI I Hiver 2014

PAR OÙ COMMENCER? Le labyrinthe de bases de données en bioinformatique L’INTÉGRATION DES BASES DU NCBI Permet la navigation entre les bases SOURCES DE DONNÉES BRUTES Nucleotide, Protein, GEO… RECHERCHE DE SÉQUENCES HOMOLOGUES BLAST, Blink, Related sequences Natalie Clairoux Bases du NCBI I Hiver 2014

BLAST  Basic Local Alignment Search Tool – algorithme développé par Altschul et al. en 1990, révisé en 2007 (citez l’article si vous utilisez BLAST!)  Compare des séquences de nucléotides ou de protéines avec les séquences de bases de données et calcule la signification statistique des appariements obtenus.  Tient compte des substitutions possibles nt/aa qui ne modifient pas les fonctions du gène/protéine.  Utilisé (entre autres) pour:  Identifier les membres d’une famille de gènes;  Déduire des relations fonctionnelles et évolutives entre des séquences. Natalie Clairoux Bases du NCBI I Hiver 2014

BLAST - Définitions Et.alors,.de.jour.en.jour,.j’apprends.des.choses. ||| |||||||||||||||||||| | | |||||||||||||| Et.puis-,.de.jour.en.jour,.je.p--erds.des choses.  Alignement global: apparie deux séquences l’une avec l’autre. L’exemple illustre les non-appariements, les insertions et les délétions. The.cat.in.the.hat.----meowed--. The.cot.in.the.hut.----stank---. The.bat.in.the.cavern.flew.fast.  Alignement multiple: appariement de plusieurs séquences. Natalie Clairoux Bases du NCBI I Hiver 2014

BLAST – Fonctionnement 1. Séquence de la requête coupée en “mots” de 11nt ou 3 aa, sur 3 positions consécutives (puisque cadre de lecture inconnu) 2. Mots sont comparés avec les séquences des bases de données 3. Nucléotides: les paires (match) sont utilisées comme graines (seed) pour étendre l’alignement dans les deux directions. Si aucun “match” n’est trouvé sur 40 nt, le résultat est rejeté. Si un autre “match” est trouvé, assigne un pointage basé sur le degré de similarité. 4. Acides aminés: besoin d’une matrice de pointage pour tenir compte des substitutions fonctionnelles possibles. Par défaut: BLOSUM 62 5. Pointages compilés et normalisés. 6. Calcul de la probabilité que chaque résultat est aléatoire= e-value; plus petit le nombre, moins de chance que la similarité soit due au hasard. Natalie Clairoux Bases du NCBI I Hiver 2014

BLAST – interprétation des résultats  La “probabilité” que l’appariement ne soit pas dû au hasard  Utiliser les e-values pour comparer les résultats d’une MÊME requête  Résultats sont en log2 (binaire) PAS log10  Le plus près de 0.0, le moins probable que ce soit dû au hasard  E-value de 1e-32 est considérée non-aléatoire  Valeur >1.0 peut être aléatoire  Valeur >10 est probablement aléatoire (mais attention si les organismes sont très divergents, i.e. humain vs Tetrahymena) Natalie Clairoux Bases du NCBI I Hiver 2014

Basic BLAST: 5 façons de chercher Natalie Clairoux Bases du NCBI I Hiver 2014

Bases de données interrogées par BLAST Natalie Clairoux Bases du NCBI I Hiver 2014

Étapes d’utilisation de BLAST 1. Entrer la séquence à rechercher  Exemple 2 Copier/coller, fichier texte, sélection de l’intervalle  Exemple 1 Possibilité de comparer avec une autre séquence 2. Choisir l’ensemble de données à interroger  Ensemble des bdd, sous-ensembles, ou organismes précis 3. Sélectionner le programme (algorithme) 4. Ajuster les paramètres si désiré  Sensibilité de la recherche, longueur de mot, etc. 5. Envoi de la requête au serveur BLAST Natalie Clairoux Bases du NCBI I Hiver 2014

BLAST autres que Basic BLAST  Génomes complets (séquences connues vs séquences inconnues)  BLAST spécialisés: design d’amorces, recherche de mutations, immunoglobulines, alignement de séquences multiples, etc.  Disponibles sur la page d’accueil de BLAST Natalie Clairoux Bases du NCBI I Hiver 2014

Formatage des résultats  Options d’alignement  Reformater les résultats originaux pour filtrer selon des organismes précis –PLUS EFFICACE Natalie Clairoux Bases du NCBI I Hiver 2014

Recherche de séquences homologues Ai-je vraiment besoin de faire un BLAST?? Related sequences et BLink Natalie Clairoux Bases du NCBI I Hiver 2014

Lien Related sequences  Liste de séquences similaires, déjà identifiées par le NCBI en utilisant le programme BLAST.  Lien disponible pour toutes les séquences de Nucleotide et Protein.  Conditions plus stringentes que les paramètres par défaut de l’outil = moins de résultats qu’un BLAST conventionnel, mais souvent plus pertinents.  Permet de sauver du temps!  Conseil : utiliser la séquence fonctionnelle en acides aminés (si applicable) plutôt que la séquence en nucléotides pour identifier des séquences homologues. Natalie Clairoux Bases du NCBI I Hiver 2014 Exemple

Lien BLink (BLAST Link) Exemple  Comparaison de séquences de protéines, déjà effectuée par le NCBI avec BLAST, pour toutes les notices de Proteins.  Résultats non-redondants.  Présentation graphique des résultats, avec différentes options d’affichage et de tri.  Affiche plus de résultats que le BLAST par défaut (=100) Hum… à considérer! Natalie Clairoux Bases du NCBI I Hiver 2014

Add a comment

Related presentations

Related pages

All Resources - Site Guide - NCBI - National Center for ...

Third Party Annotation (TPA) Database. ... all other protein sequences at NCBI. BLAST ... of records in a source database to a ranked list of ...
Read more

National Center for Biotechnology Information — Wikipédia

... NCBI propose et contient une base de données NCBI taxonomie qui n'est qu'indicative. Le site internet du NCBI précise que cette base n'est pas une ...
Read more

Search "Panorama de sources de données" (171639 documents ...

search Panorama de sources de données. Docslide.fr. ... Les réseaux de chaleur et de froid : présentation technique, principes juridiques de base, ...
Read more

National Center for Biotechnology Information

Welcome to NCBI. The National Center for Biotechnology Information advances science and health by providing access to biomedical and genomic information.
Read more

Basic Local Alignment Search Tool — Wikipédia

BLAST recherche dans une base de données de séquence ... en amont et en aval du k ... Blast), programme utilisant comme source une ...
Read more

Pubmed - Guides par discipline - Bibliothèques ...

Citer ses sources et ... des notices pertinentes dans les bases de données du NCBI, ... à PMC en y déposant une partie ou l'ensemble des ...
Read more