Alignement de séquences: blastn
Objectif¶
Aligner un gène du cheval sur le génome de référence du cheval.
Pré-requis¶
Connection au cluster¶
Démarrez votre machine et ouvrez un terminal (sous Windows, utilisez mobaXterm). Connectez-vous au noeud de login genobioinfo de genotoul-bioinfo en utilisant ssh.
N'oubliez pas de remplacer <username> par votre nom d'utilisateur.
Mise en place de l'environnement de travail¶
-
Nous créons un dossier de travail sur
worket nous positionnons dedans.# Go into work storagecd ~/work# Create a projet directorymkdir TP_cluster# Go into the projet directorycd TP_cluster -
Nous lançons une session interactive sur le cluster de calcul.
# Connect to a compute nodesrun -t "04:00:00" --pty bash
Comportement social correct exigé
Ne jamais calculer sur un noeud de login! Ouvrez toujours une session interactive.
Récupération d'un gène sur NCBI¶
Nous allons utiliser la suite d'outils Entrez Direct: E-utilities pour récupérer la séquence d'un gène sur NCBI.
Les outils installés sur le cluster ne sont pas accessibles directement. Nous devons charger ceux qui nous intéressent:
bioinfo/NCBI_Edirect/10.3.20181024: loads the bioinfo/NCBI_Edirect/10.3.20181024 environment
bioinfo/NCBI_Edirect/20.5.20231007: loads the bioinfo/NCBI_Edirect/20.5.20231007 environment
# On charge la dernière versionmodule load bioinfo/NCBI_Edirect/20.5.20231007
Regarder l'aide des outils¶
Afin d'utiliser les outils, il est important de lire l'aide. Dans notre cas, nous utiliserons esearch pour récupérer l'identifiant d'un gène qui nous intéresse et efetch pour le télécharger.
Si ce n'est pas suffisant, il est d'usage de lire le manuel
Récupération de la séquence¶
Nous nous intéressons à la séquence de nucléotides du gène COX1 du cheval. Nous utilisons le programme esearch pour récupérer son ID en saisant une réquête utilisant sa description Equus caballus voucher MG-HR-07 cytochrome oxidase subunit I dans la base des nucléotides.
Nous pouvons visualiser le résultat de la recherche en affichant le contenu du fichier.
Nous téléchargeons ensuite la séquence en réutilisant le résultat de la recherche:
Les outils de la suite d'outils Entrez Direct sont conçus pour être enchainés avec le | (pipe). À l'avenir vous utiliserez les commandes de le façon suivante:
Nous vérifions que le fichier COX1_Cheval.fasta est bien créé et qu'il contient bien ce que nous voulons.
less COX1_Cheval.fasta
Alignement de séquences¶
Nous allons maintenant chercher où se situe le gène sur le génome de référence du cheval.
Quelle banque?¶
Nous devons identifier la banque de donnée à utiliser
Bos_taurus.nal
...
Question
Quelle banque devons nous choisir pour travailler sur le genome du cheval ?
Quel logiciel?¶
Nous allons utiliser blast pour faire l'alignement. Cherchons les modules qui nous le proposent et prenons la dernière version installée.
...module load bioinfo/NCBI_Blast+/2.15.0+
Sobriété numérique
Si vous travaillez sur des alignements de protéines, privilégez diamond (à utiliser avec les banques dans /bank/diamonddb) plutôt que blastp. Il est plus rapide et sobre pour des résultats équivalents.
Nous utiliserons blastn pour aligner deux séquences de nucléotides. Pour savoir comment l'utiliser, nous devons afficher son aide.
Le manual d'utilisation de blast est aussi une précieuse source d'information.
Warning
Faites bien attention, certains paramètres sont parfois contre intuitifs.
Calculer l'alignement¶
Alignons maintenant la séquence du gène que nous avons récupéré sur le génome du cheval:
Question
Regardez la sortie du blast? Que concluez-vous ?