La visione più completa del genoma umano finora disponibile accelererà la diagnosi delle malattie rare e del cancro.
I ricercatori spagnoli del Center for Genomic Regulation hanno partecipato alla creazione del catalogo di varianti genetiche più completo mai realizzato, decifrando alcune delle regioni più difficili da identificare e trascurate del genoma umano . Questa scoperta, pubblicata mercoledì in due articoli sulla rivista Nature, accelererà la diagnosi di malattie rare e tumori .
"Ogni genoma umano ha circa 25.000 varianti strutturali, ma solo una causa una malattia, quindi è necessario restringere lo spazio di ricerca e analizzarne le varianti. Con i riferimenti attuali, possiamo passare da 25.000 a qualche migliaio, ma è ancora come cercare un ago in un pagliaio. Grazie a questo nuovo riferimento che stiamo pubblicando con questo lavoro , abbiamo ristretto lo spazio di ricerca a meno di 200 varianti candidate , il che facilita notevolmente la diagnosi genetica nella pratica clinica", ha spiegato il Dott. Bernardo Rodríguez-Martín, coautore corrispondente dello studio, durante la conferenza stampa di presentazione dei risultati.
"Questo lavoro costituisce il riferimento più completo sulla variazione genetica strutturale del genoma umano fino ad oggi. Rappresenta un passo avanti verso la medicina personalizzata basata sulle informazioni genomiche", ha aggiunto. L'esperto ha affermato che ospedali come il Sant Joan de Deu, che collabora con la CGR, stanno già utilizzando queste tecnologie per diagnosticare malattie rare nei bambini.
Inoltre, queste nuove tecnologie possono essere applicate allo studio delle mutazioni che causano il cancro . "Nel 15% dei pazienti non viene rilevata una mutazione cancerogena, e questo potrebbe essere dovuto al fatto che le tecnologie precedenti non sono state in grado di rilevarla. Un'altra grande sfida è comprendere le mutazioni che si accumulano nel corso della nostra vita. Questa tecnologia ci permette di capire come accumuliamo mutazioni con l'avanzare dell'età e a causa di fattori ambientali e di stile di vita con una risoluzione senza precedenti", aggiunge il ricercatore, che riconosce che uno dei limiti è il costo ancora elevato del sequenziamento. " Sequenziare un genoma costa mille euro . Negli ultimi cinque anni, il costo è diminuito significativamente, circa cinque volte, quindi possiamo immaginare un futuro non troppo lontano, tra circa cinque anni, in cui il prezzo sarà sceso a sufficienza e per poche centinaia di euro potremo sequenziare un genoma con questa tecnologia", conclude.
Nel 2003, il genoma umano è stato sequenziato per la prima volta. Si è scoperto allora che il 60% del genoma è costituito da DNA ripetitivo, ma il restante 8% è rimasto irrisolto a causa della sua complessità. Nel 2015, il progetto 1000 Genomes ha sequenziato più di 1.000 genomi umani in 26 popolazioni in tutto il mondo, ma i limiti di queste tecnologie, in grado di leggere il DNA solo in frammenti molto brevi, hanno lasciato inesplorate ampie regioni del genoma. Tra il 2021 e il 2023, l'intero genoma umano sarà risolto grazie alla tecnologia long-read, ma in un singolo riferimento, e il progetto Pangenome emerge per espandere il numero di riferimenti, con 47 individui provenienti da 5 continenti.
Ora, i ricercatori hanno ampliato significativamente il catalogo della variazione genetica umana nota. I set di dati risultanti, pubblicati questo mercoledì su Nature, costituiscono la panoramica più completa del genoma umano fino ad oggi . Il primo articolo, condotto congiuntamente dall'European Molecular Biology Laboratory (EMBL), dall'Università Heinrich-Heine di Düsseldorf (HHU) e dal Centro per la Regolazione Genomica (CRG) di Barcellona, ha analizzato i genomi di 1.019 individui provenienti da 26 popolazioni di cinque continenti.
I ricercatori hanno cercato specificamente varianti strutturali nel genoma umano. Si tratta di grandi frammenti di DNA che sono stati cancellati, duplicati, inseriti, invertiti o riorganizzati. Le differenze nelle varianti strutturali tra individui possono comportare modifiche simultanee a migliaia di lettere del DNA, spesso causando la soppressione di geni e portando allo sviluppo di molte malattie rare e tumori.
Il team ha trovato e categorizzato oltre 167.000 varianti strutturali nei 1.019 individui , raddoppiando la quantità nota di variazione strutturale nel pangenoma umano, un punto di riferimento che collega il DNA di molte persone anziché basarsi su un singolo genoma. Ogni persona presentava una mediana di 7,5 milioni di lettere di cambiamenti strutturali, evidenziando l'enorme quantità di editing genomico che la natura compie autonomamente.
"Abbiamo scoperto un tesoro di variazioni genetiche nascoste in queste popolazioni, molte delle quali erano sottorappresentate nei precedenti set di riferimento. Ad esempio, il 50,9% delle inserzioni e il 14,5% delle delezioni che abbiamo trovato non erano stati riportati nei precedenti cataloghi di variazioni. Questo è un passo importante verso la mappatura dei punti ciechi del genoma umano e la riduzione del bias che a lungo ha favorito i genomi di origine europea, e apre la strada a terapie e test che funzionano altrettanto bene nelle persone di tutto il mondo", afferma il Dott. Bernardo Rodríguez-Martín.
Circa tre su cinque (59%) delle varianti scoperte si sono verificate in meno dell'uno percento degli individui, un livello di rarità cruciale per la diagnosi di malattie genetiche, poiché può aiutare a filtrare le varianti innocue in modo più efficace . Durante i test, il nuovo set di riferimento riduce l'elenco delle mutazioni sospette da decine di migliaia a poche centinaia, accelerando la diagnosi di sindromi genetiche rare e altri tipi di malattie come il cancro.
Bernardo Rodríguez-Martín ha iniziato a lavorare al progetto nel laboratorio di Jan Korbel all'EMBL e lo ha completato dopo essersi trasferito al CRG per fondare il proprio gruppo. Ha sviluppato SVAN, un software che classifica ogni cambiamento nel DNA come "pezzo extra copiato" o "frammento cancellato", aiutando il team ad analizzare i dati genetici per identificare nuovi modelli.
SVAN ha rivelato che oltre la metà della diversità recentemente mappata nel genoma umano si trova in segmenti di DNA altamente ripetitivi, parti del genoma precedentemente considerate spazzatura o troppo difficili da studiare. "Gli elementi ripetitivi rappresentano una riserva ricca e precedentemente ignorata di diversità genetica. Sono attori chiave nella diversità umana, nelle malattie e nell'evoluzione", afferma Emiliano Sotelo-Fonseca, dottorando del CRG e coautore del primo studio.
Questi segmenti ripetitivi di DNA includono elementi mobili, noti anche come "geni saltanti" per la loro capacità di replicarsi in tutto il genoma. I ricercatori hanno scoperto che, tra le migliaia di elementi mobili presenti nel genoma umano, la maggior parte della mutagenesi germinale deriva dall'attività di poche decine di elementi altamente attivi.
Ad esempio, si è scoperto che un elemento LINE-1 particolarmente iperattivo dirottava un potente interruttore regolatorio per produrre molte più copie di se stesso del solito, disperdendo materiale genetico extra nel DNA di molte persone. I ricercatori hanno osservato un comportamento simile con un'altra classe di geni saltatori, chiamati SVA.
"Il nostro lavoro dimostra come gli elementi mobili aumentino la loro attività dirottando i nostri controlli regolatori genomici, una strategia sottovalutata che potrebbe contribuire allo sviluppo di malattie come il cancro e che merita ulteriori indagini", afferma il dott. Rodríguez-Martín.
Il secondo studio, condotto congiuntamente dall'European Molecular Biology Laboratory (EMBL) e dall'Università Heinrich Heine di Düsseldorf (HHU), ha utilizzato un campione molto più piccolo, composto da appena 65 individui, ma ha combinato diversi potenti metodi di sequenziamento per ricostruire i genomi umani con un livello di dettaglio senza precedenti .
Questo approccio ha aiutato i ricercatori a decodificare le sezioni più difficili da leggere, inclusi i centromeri. L'assemblaggio quasi completo e privo di lacune di ciascun cromosoma di questi individui ha permesso ai ricercatori di rilevare ampie varianti genetiche in regioni che non erano state individuate nel primo articolo o in altri studi.
I risultati dimostrano che combinare l'approccio del primo articolo, con numerosi genomi sequenziati a una profondità modesta, con l'approccio del secondo articolo, con pochi genomi sequenziati in grande dettaglio, rappresenta la strada più rapida per ottenere una mappa completa e inclusiva della diversità genetica umana .
"Uno studio utilizza una potenza di sequenziamento inferiore, ma una coorte molto più ampia. L'altro utilizza una coorte più piccola, ma una potenza di sequenziamento per campione molto maggiore. Questo ha portato a conclusioni complementari", osserva il Dott. Jan Korbel, responsabile del gruppo e direttore ad interim dell'EMBL di Heidelberg, nonché coautore senior di entrambi gli studi.
Entrambi gli articoli hanno risequenziato individui del Progetto 1000 Genomes, l'iniziativa storica che ha mappato la diversità genetica globale nel 2015. Il progetto si basava sulla tecnologia di sequenziamento "short-read" , in grado di leggere solo frammenti di DNA molto piccoli alla volta. Questi frammenti erano troppo corti per rivelare grandi porzioni di DNA mancanti o copiati, lunghi tratti che cambiano direzione o ripetizioni che appaiono quasi identiche in molti punti.
I progressi compiuti nei nuovi studi sono stati resi possibili dal sequenziamento "long-read" , una nuova tecnologia che legge migliaia o decine di migliaia di lettere del DNA alla volta, aiutando i ricercatori a trovare grandi quantità di variazioni nascoste non rilevabili con i metodi precedenti.
Entrambi gli articoli rappresentano anche importanti progressi nella costruzione di un pangenoma umano di riferimento. Negli ultimi vent'anni, gli scienziati hanno utilizzato la sequenza del DNA di un individuo come genoma umano standard, ma il pangenoma sarebbe più utile per la medicina personalizzata, poiché rifletterebbe la diversità globale.
Grazie allo sviluppo di algoritmi innovativi in grado di analizzare 1.019 genomi diversi in ampiezza e 65 genomi ultra-completi in profondità, i ricercatori forniscono una tabella di marcia che rende la possibilità di un vero pangenoma umano più pratica piuttosto che ambiziosa, soprattutto perché i costi del sequenziamento a lettura lunga stanno diminuendo.
"Grazie a questi studi, abbiamo creato una risorsa completa e clinicamente rilevante che ora può essere utilizzata dai ricercatori di tutto il mondo per comprendere meglio l'origine della variabilità genomica umana e come questa sia influenzata da un'ampia varietà di fattori", afferma Tobias Marschall, professore presso l'Università Heinrich Heine di Düsseldorf e coautore senior di entrambi gli studi. "Questo è un eccellente esempio di ricerca collaborativa che apre nuove prospettive nella scienza genomica e rappresenta un passo avanti verso un pangenoma umano più completo", conclude.
abc