Aligner des séquences de lettres (ou plus précisément de nucléotides)

Francky033
Modifié (November 2023) dans Informatique théorique
Bonjour
Je développe un logiciel d'alignement de séquences génétiques sur un génome de référence. C'est une opération couramment utilisée par les biologistes et les généticiens pour repérer les différences d'expression des gènes lors d'une expérience sur des êtres vivants.
En pratique, Il s'agit de comparer un très grands [nombre] de lettres en elles pour trouver des correspondances. Il s'agit  d'un alphabet limité composé uniquement de 4 lettres. A(Adénine), C(cytosine), G(guanine) et enfin T(Thymine). Il faut prendre en compte que la comparaisons entre deux séquences peut comporter des erreurs, un décalage entre les lettres, une disparition ou l'ajout d'une lettre ou le fait qu'une lettre est indéterminée (on la nomme L dans ce cas-là).
Les logiciels utilisent la plupart du temps l'algorithme de Smith-Waterman (https://fr.wikipedia.org/wiki/Algorithme_de_Smith-Waterman ) ou dérivées mais peuvent également utiliser la méthode Needleman-Wunsch (https://fr.wikipedia.org/wiki/Algorithme_de_Needleman-Wunsch ) ou BLAST.
Tous ces algorithmes sont en fait des systèmes de notation qui cherchent à identifier la solution d'alignement la plus pertinente.
Je propose actuellement un logiciel fonctionnant sous CUDA sur des cartes nVidia pour paralléliser (et accélérer) le processus d'alignement. Les résultats sont très bons mais j'aimerais aller plus loin.
Ces algorithmes sont un peu anciens et datent des années 70, 80.
Aussi, ma question est celle-ci : est-ce que des mathématiciens s'intéressent à ce genre de problèmes ? Pas forcement dans le cadre de la biologie mais peut-être dans des recherches pouvant intéresser l'informatique comme la compression etc.
Le but serait d’accélérer l'alignement partiel ou total de deux chaînes de caractères.
Je ne suis pas du tout mathématicien (mais j'ai fait des études de physique) malheureusement aussi veuillez excuser ma requête un peu floue. Je tiens aussi à préciser que je ne suis pas un chercheur en biologie mais juste un passionné qui travaille depuis plusieurs années avec des professionnels de la physique, de l'astrophysique et aujourd'hui, de la biologie moléculaire et de la neurobiologie.
Avec mes remerciements,
Francky033

Réponses

  • En tant que physicien de formation moi aussi, je te suggère de contacter mon ancien condisciple Olivier Thomine, qui s'est illustré notamment en développant un algorithme de compression novateur, il en avait été fait mention sur futura-sciences. Par ailleurs je m'intéresse aussi à la biologie et à ses rapports avec les maths, je dois avoir quelque part dans ma caverne d'Ali Baba quelques livres qui te seraient certainement plus utiles qu'à moi. N'hésite pas à m'envoyer un MP.
  • Merci Sylvain !
Connectez-vous ou Inscrivez-vous pour répondre.