L’EGA: repositori, distribuidor i accelerador de la ciència

L’EGA és el major repositori de dades genòmiques a Europa i està co-gestionat des de Cambridge i Barcelona. Arcadi Navarro, actual director de l’equip al CRG, ens explica com funciona, i com n’és d’important compartir aquestes dades a nivell mundial entre personal investigador, personal mèdic, pacients i voluntaris.

L'EGA (European Genome-Phenome Archive) és una mena d'aparador d’estudis genòmics a nivell mundial. Foto editada d'un original de Daniel von Appen via Unsplash.

L'EGA (European Genome-Phenome Archive) és una mena d'aparador d’estudis genòmics a nivell mundial. Foto editada d'un original de Daniel von Appen via Unsplash.

La genòmica té el potencial de revolucionar la medicina tal com la coneixem. Per a que això sigui una realitat, però és essencial compartir dades genòmiques a gran escala entre personal investigador, personal mèdic i, sobretot, pacients o voluntaris d’arreu del món. I per això calen infraestructures i eines que permetin emmagatzemar aquestes dades a llarg termini i distribuir-les amb les necessàries condicions de qualitat, seguretat, confidencialitat.

L’EGA (European Genome-Phenome Archive) és un d’aquests repositoris, gestionat col·laborativament des de l’European Bioninformatics Institute (EBI) a Hixton, Cambridge, Regne Unit, i des del Centre de Regulació Genòmica (CRG), al Parc de Recerca Biomèdica de Barcelona (PRBB) a Barcelona. L’EGA és la base de dades amb més estudis del món; conté actualment dades de més d’1 milió de persones, provinents de més de 2000 estudis d’arreu del món.

El passat 10 de desembre va tenir lloc a Madrid un acte, inaugurat per la directora del Carlos III, Raquel Yotti i dirigit a hospitals, metges, i centres de recerca, per parlar precisament de l’impacte des les dades genòmiques a la salut, i del paper que l’EGA hi pot jugar.

Parlem amb Arcadi Navarro, investigador ICREA a la Universitat Pompeu Fabra (UPF) i actual director de l’equip EGA a Barcelona.

Què és l’EGA?

Podríem dir que és un repositori de dades genòmiques i fenotípiques… però en realitat és molt més. És un custodi, un distribuidor però sobretot un promotor i accelerador de la recerca a nivell mundial.

Va sorgir d’una necessitat mundial de compaginar dos drets humans fonamentals; el dret a compartir les dades genòmiques, per tal d’ajudar a millorar el coneixement i la salut, i el dret a la privacitat.

M’explico: quan publiques un estudi, estàs obligat a dipositar les dades que has utilitzat en algun repositori públic, dels quals n’hi ha molts, i ho has de fer mantenint l’anonimitat de les persones. Això es fa normalment traient o codificant la informació identificable, com nom, edat, etc. Però en el cas de dades genòmiques humanes, no es poden anonimitzar perquè el genoma és únic! Per això cap a finals del 2000 es van crear dos repositoris molt especials, un a Estats Units –  el dbGAP  – i un a Europa – l’EGA.

 

“Les dades genòmiques no es poden anonimitzar, perquè el genoma és únic”

 

I què tenen d’especial?

Guarden dades d’estudis científics amb altíssima seguretat i les distribueixen a tot el món – a científics legítims, d’institutions reconegudes, i que s’avenen a acceptar les mateixes condicions que van acceptar els que van recollir les dades originalment.

Podríem dir que l’EGA és com un aparador a nivell mundial d’estudis genòmics. És a dir, les dades concretes només les pots obtenir si les demanes, passes per uns comités d’accés a les dades (Data Access Committees) on has d’explicar per a què les faras servir, etc. Està molt regulat. Però a la web pots veure les metadades (l’aparador), és a dir la descripció de tot el que hi ha; pots veure que hi ha estudis de diabetes o de càncer de mama i saber quin tipus d’estudi són (com és de gran, on s’ha fet, etc). Qualsevol pot veure tot el què hi ha i demanar el què li interessi.

 

També empreses privades?

Si, també! De fet empreses privades també hi aporten dades, i poden utilitzar les que hi ha, sempre que segueixin les condicions originals, igual que tothom. Si aquestes condicions, per exemple, inclouen que no es poden usar les dades amb ànim de lucre, doncs no es pot. Però si és permés, si que es pot, tant si ets una empresa com una universitat!

 

Quines diferències hi ha entre el repositori americà i l’europeu?

El dbGaP el va crear l’NIH, i tothom que està finançat pel NIH hi ha de dipositar les dades obligatòriament. Un cop allà, són gestionades pel propi repositori, així que els científics que han generat les dades ‘perden el control’ del què es fa amb les seves dades.

L’EGA funciona diferent, perquè és a nivell Europeu i depèn de moltes jurisdiccions. Per començar, dipositar-hi les dades és, de moment, voluntari (però molt recomanat per les agències finançadores). I cada institució que participa, és a dir que aporta dades, pot muntar-se el seu propi comité d’accès a les dades, i per tant poden saber a on del món estan utilitzant les dades, quantes vegades les han distribuides,… És un model més cooperatiu. I això fa que alguns estudis americans no finançats pel NIH, escullin l’EGA enlloc del dbGaP per a dipositar les seves dades. Per això ara l’EGA és la base de dades amb més estudis del món – tot i que segurament a nivell de nombre d’individus dels que provenen les dades a EEUU en tinguin més, perquè fan estudis molt grans.

 

“Cada institució que aporta dades a l’EGA té el seu propi comité d’accès a les dades, i controlen quantes vegades i a qui les distribueixen”

 

Qui gestiona l’EGA?

Al principi es gestionava tot des de l’EBI a Hixton, Cambridge (Regne Unit). Des del 2013 es co-gestiona des d’allà i des de Barcelona. Aquí, la gestió de l’EGA es fa entre el CRG, on en Jordi Rambla i el seu meravellós equip posen el know-how i la part administrativa, i el Barcelona Supercomputing Centre (BSC), que hi posa la capacitat d’emmagatzematge, de gestió i de distribució.

 

I qui ho paga?

Dipositar i utilitzar totes aquestes dades, pels científics, és gratis. Però òbviament té un cost, i molt alt. A Anglaterra està finançada pel propi EBI, que és una seu del Laboratori Europeu de Biologia Molecular (EMBL) i per tant una entitat europea. Aquí està finançada pel Carlos III, La Caixa, el CRG, el BSC i finançament competitiu que rebem de la Comissió Europea. Per a mí, l’EGA és la demostració que quan moltes institucions diferents es posen d’acord per fer una cosa col·laborativa, es pot tenir un impacte mundial enorme.

 

“Dipositar i utilitzar totes aquestes dades a l’EGA és gratuit per a la comunitat científica”

 

Com es gestiona l’ús de les dades pel que fa al consentiment informat?

Aquest és un tema interessant… Un consentiment informat és un text que els voluntaris signen i que explicita el què es pot fer amb les seves dades. N’hi ha de molts tipus; des dels més ‘restrictius’ – que es puguin fer servir només per un estudi en concret – als més ‘oberts’ – que es puguin fer servir per qualsevol recerca, i que fins i tot es puguin fer públiques. Entre mig, hi ha tota la variació que et puguis imaginar.

Els més restrictius, que són els que més es feien servir antigament, per a mi són un error, perquè es desaprofita un munt de dades que ja existeixen… Per això ara hi ha un moviment internacional, en el qual participem, per a que els consentiments informats siguin més reconeixibles entre jurisdiccions i que, essent el màxim de respectuosos amb els drets del voluntari, beneficiin la societat tant com sigui possible. I en aquest sentit, junt amb el Broad Insitute a EEUU i altres institucions estem creant la primera ontologia de consentiments informats a nivell mundial, la DUO (Data Use Ontology). Hem agafat moltes plantilles de diferents consentiments informats, els hem analitzat i catalogat, i els hem traduit a un format machine-readable.

 

Quina és la relació entre els que generen les dades i els que les utilitzen posteriorment, a nivell de col·laboracions, co-autoría…?

En la inmensa majoria de casos, els investigadors originals no surten en l’estudi posterior. Però a vegades, sí que pot ser que col·laborin. Pensa-hi: si utilitzes unes dades molt valuoses que ha generat un grup molt bo potser t’interessa col·laborar-hi, perquè són els que millors coneixen les dades. Així que utilitzar les dades de l’EGA pot dur a col·laboracions, i al final és beneficiós tant pels que utilitzen les dades com per aquells que les han dipositat.

De fet, el 2018 hi va haver 18.000 articles que citen dades que tenim a l’EGA, i alguns d’ells van ser possibles només gràcies a l’existència de l’EGA, que agrega i distribueix les dades. Sense l’EGA, s’haguéssin trigat molts més anys o, simplement, no s’haguéssin pogut fer.

 

“Alguna recerca que es fa avui gràcies a l’EGA no es faria mai sense aquesta infraestructura”

 

Quin era l’objectiu de l’acte a Madrid? 

La gran majoria de dades genòmiques que tenim provenen de la recerca, de grans estudis que són els pilars sobre els que s’assenta la medicina personalitzada. Però el món està canviant. Es calcula que cap al 2023, el 80% de les dades genòmiques vindran del món clínic  o assistencial. I és molt important que aquestes dades siguin també compartides. La humanitat no es pot permetre que les dades quedin tancades dins de cada centre, és imprescindible que se’n faci el màxim d’ús possible! Que no es quedin, un cop fet el diagnòstic i utilitzades per fer algun projecte, en un calaix, en un disc dur,… aïllades i inútils.

 

“Cap al 2023, el 80% de les dades genòmiques vindran del món clínic  o assistencial. I és molt important que aquestes dades siguin també compartides”

 

Però compartir aquestes dades requereix de temps i esforços…

És clar, i per això és comprensible que sovint acabin oblidades en un disc dur. Si un metge té com a tasca una cosa tant important com la salut de les persones, el tracte amb el pacient i el seu benestar, el diagnòstic, el tractament, son les teves prioritats, i tota la resta són minúcies! Per això la nostra obligació des de l’EGA és facilitar-los aquesta part de publicitar les dades que tenen i, fins i tot, de compartir-es, sense que hi hagin de dedicar hores i molts recursos. Volem fer-ho el més automàtic possible, de forma que es pugui fer en poc temps. Si aconseguim donar als metges les eines per a que puguin compartir aquestes dades de forma efectiva, la quantitat d’informació que obtindriem per a millorar la salut humana seria fenomenal.

 

“Volem donar als metges les eines per a que puguin compartir aquestes dades de forma senzilla”

 

Quin és doncs el missatge als metges que recullen dades genòmiques?

Sostenim reunions amb hospitals, i hem començat pels de Catalunya i els de Madrid, per veure com podem treballar junts amb això. El nostre missatge és que tenim aquesta infraestructura i know how per avançar i facilitar-nos les coses! L’objectiu d’EGA és generar les eines necessàries per a que tots els centres de recerca i hospitals, grans i petits, puguin de forma fàcil compartir les seves dades. I jo crec que amb les bones intencions de tothom, hi haurà més col·laboració, millor recerca i millors diagnòstics.

 

Aquí podeu escoltar l’Arcadi Navarro fent una breu descripció de l’EGA i la seva importància:

Leave a Reply

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *