Skip to content
hero

Alignement de séquences: blastn

Objectif

Aligner un gène du cheval sur le génome de référence du cheval.

Pré-requis

Connection au cluster

Démarrez votre machine et ouvrez un terminal (sous Windows, utilisez mobaXterm). Connectez-vous au noeud de login genobioinfo de genotoul-bioinfo en utilisant ssh.

ssh -X <username>@genobioinfo.toulouse.inrae.fr

N'oubliez pas de remplacer <username> par votre nom d'utilisateur.

Mise en place de l'environnement de travail

  • Nous créons un dossier de travail sur work et nous positionnons dedans.

    # Go into work storagecd ~/work# Create a projet directorymkdir TP_cluster# Go into the projet directorycd TP_cluster

  • Nous lançons une session interactive sur le cluster de calcul.

    # Connect to a compute nodesrun -t "04:00:00" --pty bash

Comportement social correct exigé

Ne jamais calculer sur un noeud de login! Ouvrez toujours une session interactive.

Récupération d'un gène sur NCBI

Nous allons utiliser la suite d'outils Entrez Direct: E-utilities pour récupérer la séquence d'un gène sur NCBI.

Les outils installés sur le cluster ne sont pas accessibles directement. Nous devons charger ceux qui nous intéressent:

# On recherche les modules proposant Entrez Directmodule search edirect------------------------------------ /tools/modulefiles ------------------------------------
bioinfo/NCBI_Edirect/10.3.20181024: loads the bioinfo/NCBI_Edirect/10.3.20181024 environment
bioinfo/NCBI_Edirect/20.5.20231007: loads the bioinfo/NCBI_Edirect/20.5.20231007 environment
# On charge la dernière versionmodule load bioinfo/NCBI_Edirect/20.5.20231007

Regarder l'aide des outils

Afin d'utiliser les outils, il est important de lire l'aide. Dans notre cas, nous utiliserons esearch pour récupérer l'identifiant d'un gène qui nous intéresse et efetch pour le télécharger.

esearch -h...efetch -h...

Si ce n'est pas suffisant, il est d'usage de lire le manuel

Récupération de la séquence

Nous nous intéressons à la séquence de nucléotides du gène COX1 du cheval. Nous utilisons le programme esearch pour récupérer son ID en saisant une réquête utilisant sa description Equus caballus voucher MG-HR-07 cytochrome oxidase subunit I dans la base des nucléotides.

esearch -query "Equus caballus voucher MG-HR-07 cytochrome oxidase subunit I" \ -db nucleotide > COX1_Cheval.esearch

Nous pouvons visualiser le résultat de la recherche en affichant le contenu du fichier.

cat COX1_Cheval.esearch

Nous téléchargeons ensuite la séquence en réutilisant le résultat de la recherche:

cat COX1_Cheval.esearch | efetch -format fasta > COX1_Cheval.fasta

Les outils de la suite d'outils Entrez Direct sont conçus pour être enchainés avec le | (pipe). À l'avenir vous utiliserez les commandes de le façon suivante:

esearch -query "Equus caballus voucher MG-HR-07 cytochrome oxidase subunit I" \ -db nucleotide | efetch -format fasta > COX1_Cheval.fasta

Nous vérifions que le fichier COX1_Cheval.fasta est bien créé et qu'il contient bien ce que nous voulons.

lsCOX1_Cheval.esearch COX1_Cheval.fasta
less COX1_Cheval.fasta

Alignement de séquences

Nous allons maintenant chercher où se situe le gène sur le génome de référence du cheval.

Quelle banque?

Nous devons identifier la banque de donnée à utiliser

ls /bank/blastdbAnas_platyrhynchos.nal
Bos_taurus.nal
...

Question

Quelle banque devons nous choisir pour travailler sur le genome du cheval ?

Quel logiciel?

Nous allons utiliser blast pour faire l'alignement. Cherchons les modules qui nous le proposent et prenons la dernière version installée.

module search blastbioinfo/Magic-BLAST/1.7.2: loads the bioinfo/Magic-BLAST/1.7.2 environment
...
module load bioinfo/NCBI_Blast+/2.15.0+

Sobriété numérique

Si vous travaillez sur des alignements de protéines, privilégez diamond (à utiliser avec les banques dans /bank/diamonddb) plutôt que blastp. Il est plus rapide et sobre pour des résultats équivalents.

Nous utiliserons blastn pour aligner deux séquences de nucléotides. Pour savoir comment l'utiliser, nous devons afficher son aide.

blastn -help...

Le manual d'utilisation de blast est aussi une précieuse source d'information.

Warning

Faites bien attention, certains paramètres sont parfois contre intuitifs.

Calculer l'alignement

Alignons maintenant la séquence du gène que nous avons récupéré sur le génome du cheval:

blastn -query COX1_Cheval.fasta -db ensembl_equus_caballus_genome \ -out KC693991.1_equus.blast

Question

Regardez la sortie du blast? Que concluez-vous ?

less KC693991.1_equus