La vue la plus complète du génome humain à ce jour accélérera le diagnostic des maladies rares et du cancer.
Des chercheurs espagnols du Centre de régulation génomique ont participé à la création du catalogue de variations génétiques le plus complet à ce jour, décryptant certaines des régions les plus difficiles à identifier et les plus méconnues du génome humain . Cette avancée, publiée ce mercredi dans deux articles de la revue Nature, accélérera le diagnostic des maladies rares et du cancer .
« Chaque génome humain comporte environ 25 000 variants structurels, mais un seul est responsable de la maladie. Il est donc nécessaire de réduire l'espace de recherche et de dépister les variants. Avec les références actuelles, nous pouvons passer de 25 000 à quelques milliers, mais cela revient à chercher une aiguille dans une botte de foin. Grâce à cette nouvelle référence que nous publions avec ce travail , nous avons réduit l'espace de recherche à moins de 200 variants candidats , ce qui facilite grandement le diagnostic génétique en pratique clinique », a expliqué le Dr Bernardo Rodríguez-Martín, co-auteur correspondant de l'étude, lors de la conférence de presse de présentation des résultats.
« Ce travail constitue la référence la plus complète à ce jour sur la variation génétique structurelle du génome humain. Il s'agit d'une avancée vers la médecine personnalisée basée sur l'information génomique », a-t-il ajouté. L'expert a précisé que des hôpitaux comme Sant Joan de Deu, qui collabore avec le CGR, utilisent déjà ces technologies pour diagnostiquer des maladies rares chez les enfants.
De plus, ces nouvelles technologies peuvent être appliquées à l'étude des mutations cancérigènes . « Chez 15 % des patients, aucune mutation cancérigène n'est détectée, peut-être parce que les technologies précédentes n'ont pas permis de la détecter. Un autre défi majeur est de comprendre les mutations qui s'accumulent tout au long de notre vie. Cette technologie nous permet de comprendre comment nous accumulons des mutations avec l'âge et en raison de facteurs environnementaux et de mode de vie, avec une résolution sans précédent », ajoute le chercheur, qui reconnaît que l'une des limites est le coût encore élevé du séquençage. « Séquencer un génome coûte mille euros . Au cours des cinq dernières années, ce coût a considérablement diminué, environ quintuplé. On peut donc imaginer un avenir pas si lointain, dans environ cinq ans, où le prix aura suffisamment baissé et où, pour quelques centaines d'euros, nous pourrons séquencer un génome grâce à cette technologie », conclut-il.
En 2003, le génome humain a été séquencé pour la première fois. On a alors découvert que 60 % du génome est constitué d'ADN répétitif, mais les 8 % restants sont restés non résolus en raison de leur complexité. En 2015, le projet 1000 Génomes a séquencé plus de 1 000 génomes humains dans 26 populations à travers le monde. Cependant, les limites de ces technologies, capables de lire l'ADN uniquement en très courts fragments, ont laissé de vastes régions du génome inexplorées. Entre 2021 et 2023, l'intégralité du génome humain sera résolue grâce à la technologie des lectures longues, mais dans une seule référence, et le projet Pangenome voit le jour pour élargir le nombre de références, avec 47 individus provenant des 5 continents.
Des chercheurs ont désormais considérablement élargi le catalogue des variations génétiques humaines connues. Les données obtenues, publiées ce mercredi dans Nature, constituent l' aperçu le plus complet du génome humain à ce jour . Le premier article, co-dirigé par le Laboratoire européen de biologie moléculaire (EMBL), l'Université Heinrich Heine de Düsseldorf (HHU) et le Centre de régulation génomique (CRG) de Barcelone, a analysé les génomes de 1 019 individus issus de 26 populations réparties sur cinq continents.
Les chercheurs ont spécifiquement recherché des variantes structurelles dans le génome humain. Il s'agit de grands fragments d'ADN supprimés, dupliqués, insérés, inversés ou réorganisés. Les différences de variantes structurelles entre individus peuvent impliquer des modifications simultanées de milliers de lettres d'ADN, entraînant souvent l'inactivation de gènes et le développement de nombreuses maladies rares et de cancers.
L'équipe a identifié et catégorisé plus de 167 000 variantes structurelles chez 1 019 individus , doublant ainsi la quantité connue de variations structurelles dans le pangénome humain, une référence qui relie l'ADN de nombreuses personnes plutôt que de s'appuyer sur un génome unique. Chaque personne portait en moyenne 7,5 millions de lettres de modifications structurelles, ce qui met en évidence l'ampleur des modifications génomiques que la nature effectue d'elle-même.
« Nous avons découvert un véritable trésor de variations génétiques cachées dans ces populations, dont beaucoup étaient sous-représentées dans les ensembles de référence précédents. Par exemple, 50,9 % des insertions et 14,5 % des délétions que nous avons trouvées n'avaient pas été rapportées dans les catalogues de variations précédents. Il s'agit d'une étape importante vers la cartographie des zones d'ombre du génome humain et la réduction du biais qui a longtemps favorisé les génomes d'origine européenne, et cela ouvre la voie à des thérapies et des tests aussi efficaces chez les personnes du monde entier », déclare le Dr Bernardo Rodríguez-Martín.
Environ trois variants sur cinq (59 %) découverts concernaient moins de 1 % des individus, un niveau de rareté crucial pour le diagnostic des maladies génétiques, car il permet de filtrer plus efficacement les variations inoffensives . Lors des tests, le nouvel ensemble de référence réduit la liste des mutations suspectées de plusieurs dizaines de milliers à quelques centaines seulement, accélérant ainsi le diagnostic de syndromes génétiques rares et d'autres types de maladies comme le cancer.
Bernardo Rodríguez-Martín a commencé à travailler sur le projet dans le laboratoire de Jan Korbel à l'EMBL et l'a achevé après avoir rejoint le CRG pour fonder son propre groupe. Il a développé SVAN, un logiciel qui catégorise chaque modification de l'ADN en « morceau supplémentaire copié » ou « fragment supprimé », aidant ainsi l'équipe à analyser les données génétiques pour identifier de nouveaux modèles.
L'étude SVAN a révélé que plus de la moitié de la diversité nouvellement cartographiée du génome humain se situe dans des segments d'ADN hautement répétitifs, des parties du génome auparavant considérées comme indésirables ou trop difficiles à étudier. « Les éléments répétitifs représentent un réservoir riche et jusqu'alors ignoré de diversité génétique. Ils jouent un rôle clé dans la diversité humaine, les maladies et l'évolution », explique Emiliano Sotelo-Fonseca, doctorant au CRG et coauteur de la première étude.
Ces segments d'ADN répétitifs comprennent des éléments mobiles, également appelés « gènes sauteurs », en raison de leur capacité à se répliquer dans tout le génome. Les chercheurs ont découvert que, parmi les milliers d'éléments mobiles du génome humain, la plupart des mutagenèses germinales résultent de l'activité de quelques dizaines d'éléments hautement actifs.
Par exemple, on a découvert qu'un élément LINE-1 particulièrement hyperactif détournait un puissant interrupteur régulateur pour produire beaucoup plus de copies de lui-même que d'habitude, disséminant ainsi du matériel génétique supplémentaire dans l'ADN de nombreuses personnes. Les chercheurs ont observé un phénomène similaire avec une autre classe de gènes sauteurs, les SVA.
« Notre travail montre comment les éléments mobiles améliorent leur activité en détournant nos contrôles de régulation génomique, une stratégie sous-estimée qui pourrait contribuer au développement de maladies comme le cancer et mérite une enquête plus approfondie », explique le Dr Rodríguez-Martín.
Le deuxième article, mené conjointement par le Laboratoire européen de biologie moléculaire (EMBL) et l'Université Heinrich Heine de Düsseldorf (HHU), a utilisé un échantillon beaucoup plus petit de seulement 65 individus, mais a combiné plusieurs méthodes de séquençage puissantes pour reconstruire les génomes humains avec des détails sans précédent .
Cette approche a permis aux chercheurs de décoder les sections les plus difficiles à lire, notamment les centromères. L'assemblage quasi complet et sans lacunes de chaque chromosome de ces individus a permis aux chercheurs de détecter d'importantes variantes génétiques dans des régions qui n'avaient pas été détectées dans le premier article ni dans d'autres études.
Les résultats montrent que la combinaison de l’approche du premier article, avec de nombreux génomes séquencés à une profondeur modeste, avec l’approche du deuxième article, avec quelques génomes très détaillés, est le chemin le plus rapide vers une carte complète et inclusive de la diversité génétique humaine .
« Une étude utilise une puissance de séquençage moindre, mais une cohorte beaucoup plus importante. L'autre utilise une cohorte plus petite, mais une puissance de séquençage par échantillon beaucoup plus élevée. Cela a conduit à des conclusions complémentaires », note le Dr Jan Korbel, chef de groupe et directeur par intérim de l'EMBL Heidelberg, et co-auteur principal des deux études.
Les deux articles ont reséquencé des individus issus du Projet 1000 Génomes, l'initiative phare qui a cartographié la diversité génétique mondiale en 2015. Ce projet s'appuyait sur une technologie de séquençage à lecture courte , capable de lire uniquement de très petits fragments d'ADN à la fois. Ces fragments étaient trop courts pour révéler de larges fragments d'ADN manquants ou copiés, de longs segments changeant de direction ou des répétitions apparaissant presque identiques à de nombreux endroits.
Les progrès réalisés dans les nouvelles études ont été rendus possibles par le séquençage « à lecture longue » , une nouvelle technologie qui lit des milliers ou des dizaines de milliers de lettres d'ADN à la fois, aidant les chercheurs à trouver de grandes quantités de variations cachées indétectables avec les méthodes précédentes.
Ces deux articles représentent également des avancées importantes dans la construction d'un pangénome humain de référence. Depuis vingt ans, les scientifiques utilisent la séquence d'ADN d'un individu comme génome humain standard, mais ce pangénome serait plus utile à la médecine personnalisée, car il refléterait la diversité mondiale.
En développant des algorithmes innovants capables d'analyser 1 019 génomes divers en largeur et 65 génomes ultra-complets en profondeur, les chercheurs fournissent une feuille de route qui rend la possibilité d'un véritable pangénome humain plus pratique plutôt qu'aspirationnelle, d'autant plus que les coûts du séquençage à lecture longue sont en baisse.
« Grâce à ces études, nous avons créé une ressource complète et médicalement pertinente , désormais utilisable par les chercheurs du monde entier pour mieux comprendre l'origine des variations génomiques humaines et la manière dont elles sont influencées par une grande variété de facteurs », déclare Tobias Marschall, professeur à l'Université Heinrich Heine de Düsseldorf et co-auteur principal des deux études. « Il s'agit d'un excellent exemple de recherche collaborative qui ouvre de nouvelles perspectives en génomique et constitue un pas vers un pangénome humain plus complet », conclut-il.
abc