L’indexation des données brutes de séquençage pour mieux déchiffrer le vivant

Océan Atmosphère

Les grands projets de séquençage sont fondamentaux pour mieux comprendre le vivant dans différents domaines (santé, agronomie, écologie). Les avancées technologiques ont permis d'atteindre une taille considérable de données brutes de séquençage (lectures de séquences). Le service européen « European Nucleotide Archive » contient actuellement près de 50 Petaoctets de données brutes publiques.

Une équipe de chercheurs du CNRS Terre & Univers, en collaboration avec plusieurs laboratoires de recherche, a utilisé des k-mers (mots de taille k) pour créer une notion de mot dans les données brutes de séquençage. Cette solution d’indexation a ainsi permis d’interroger plusieurs dizaines de téraoctets de données de séquence issues du projet Tara Oceans. Le serveur web public Ocean Read Atlas (ORA), développé pour ce propos, permet d’interroger directement plusieurs jeux de données du consortium Tara Oceans prélevés sur tous les océans du globe. À l’aide d'une ou plusieurs séquences, il est possible d’identifier la présence de séquences similaires sous forme de carte et de graphique interactifs (voir figure 1) dans les stations de prélèvement en fonction de leurs propriétés environnementales (température, salinité, oxygène, etc.).

Auparavant, une requête de 1000 séquences nécessitait plusieurs semaines de calculs sur des supercalculateurs, la réponse est désormais instantanée avec ORA sans compresser la structure des donnéesCette étude ouvre ainsi de nouvelles perspectives dans le domaine de la génomique et l’écologie numérique grâce à l’accès et l’exploitation des dizaines de téraoctets de données génétiques. Ce modèle d’indexation de données de séquençage sera utilisé pour les campagnes océanographiques BioSWOT-Med et APERO.

Carte de répartition biogéographique de séquences
Figure 1. Carte de la répartition biogéographique des séquences partageant les k-mers contenus dans la séquence du gène appelé nifH de l’espèce Pseudodesulfovibrio profundus.© Institut Méditerranéen d'Océanologie (MIO)

Laboratoires impliqués

Laboratoire CNRS Terre & Univers impliqué :

  • Institut Méditerranéen d'Océanologie (MIO - PYTHEAS)

Tutelles : CNRS / IRD / Aix-Marseille Université / Université de Toulon

Autres :

  • Génomique Métabolique (GM)

Tutelles : CNRS / CEA / Université d'Évry Val d'Essonne

  • Institut de recherche en informatique et systèmes aléatoires (IRISA)

Tutelles : CNRS / Université de Rennes

  • G5 Sequence Bioinformatics

Tutelles : Institut Pasteur / Université Paris Cité

Pour en savoir plus

Téo Lemane, Nolan Lezzoche, Julien Lecubin, Eric Pelletier, Magali Lescot, Rayan Chikhi, and Pierre Peterlongo. Indexing and real-time user-friendly queries in terabyte-sized complex genomic datasets with kmindex and ORA. Nature Computational Sciencehttps://doi.org/10.1038/s43588-024-00596-6

Contact

Magali Lescot
Ingénieure de recherche MIO
Cyrille Blanpain
Responsable du Service Informatique de l'OSU Pythéas