EGA: repositorio, distribuidor y acelerador de la ciencia

La genómica tiene el potencial de revolucionar la medicina tal y como la conocemos. Para que esto sea una realidad, sin embargo, es esencial compartir datos genómicos a gran escala entre personal investigador, médico y, sobre todo, pacientes o voluntarios de todo el mundo. Y para eso hacen falta infraestructuras y herramientas que permitan almacenar estos datos a largo plazo y distribuirlos con las condiciones de calidad, seguridad y confidencialidad necesarias.

EGA (European Genome-Phenome Archive) es uno de estos repositorios, gestionado colaborativamente desde el European Bioinformatics Institute (EBI), en Hixton, Cambridge, Reino Unido, y desde el Centro de Regulación Genómica (CRG), en el Parque de Investigación Biomédica de Barcelona (PRBB), en Barcelona. EGA es la base de datos con más estudios del mundo; contiene actualmente datos de más de 1 millón de personas, provenientes de más de 2000 estudios de todo el mundo.

El pasado 10 de diciembre tuvo lugar en Madrid un acto, inaugurado por la directora del Instituto Carlos III, Raquel Yotti y dirigido a hospitales, médicos y centros de investigación, para hablar precisamente del impacto de los datos genómicos en la salud, y del papel que EGA puede jugar.

Hablamos con Arcadi Navarro, investigador ICREA en la Universidad Pompeu Fabra (UPF) y actual director del equipo EGA en Barcelona.

¿Qué es EGA?

Podríamos decir que es un repositorio de datos genómicos y fenotípicos… Pero en realidad es mucho más. Es un custodio, un distribuidor pero sobre todo un promotor y un acelerador de la investigación a nivel mundial.

Surgió de una necesidad mundial de compaginar dos derechos humanos fundamentales; el derecho a compartir los datos genómicos, con el fin de ayudar a mejorar el conocimiento y la salud, y el derecho a la privacidad.

Me explico: cuando publicas un estudio, estás obligado a depositar los datos que has usado en algún repositorio público, de los cuales hay muchos, y lo has de hacer manteniendo el anonimato de las personas. Esto se hace normalmente extrayendo o codificando la información identificable, como el nombre, la edad, etc. Pero, en el caso de los datos genómicos humanos, ¡no se pueden anonimizar porque el genoma es único! Por eso, a finales del 2000 se crearon dos repositorios muy especiales, uno en Estados Unidos — el dbGAP — y uno en Europa — el EGA.

«Los datos genómicos no se pueden anonimizar, pues el genoma es único.»

¿Y qué tienen de especial?

Guardan datos de estudios científicos con altísima seguridad y los distribuyen por todo el mundo — a científicos legítimos, de instituciones reconocidas, y que aceptan las mismas condiciones que aceptaron los que recogieron los datos originalmente.

Podríamos decir que el EGA es como un escaparate a nivel mundial de estudios genómicos. Es decir, los datos concretos solo los puedes obtener si pasas por unos comités de acceso a los datos (Data Access Committees) donde has de explicar para qué los usarás, como, etc. Está muy regulado. Pero en la web puedes ver los metadatos (el ‘escaparate’), es decir, la descripción de todo lo que hay; puedes ver que hay estudios de diabetes o de cáncer de mama y saber qué tipo de estudios son (cómo de grande es, dónde se ha llevado a cabo, etc.). Cualquiera puede ver todo lo que hay que hay y pedir lo que le interese.

¿También empresas privadas?

¡Sí, también! De hecho, empresas privadas también aportan datos, y pueden usar los que hay, siempre que sigan las condiciones de uso originales, igual que todo el mundo. Si estas condiciones, por ejemplo, incluyen que no se pueden usar los datos con ánimo de lucro, pues no se puede. Pero si está permitido, sí se puede, ¡tanto si eres una empresa como una universidad!

¿Qué diferencias hay entre el repositorio americano y el europeo?

El dbGaP lo creó la NIH, y todo el mundo que está financiado por el NIH debe depositar los datos obligatoriamente en este repositorio. Una vez allí, los datos son gestionados por el propio repositorio, de modo que los científicos que han generado los datos ‘pierden el control’ de lo que se hace con ellos.

El EGA funciona de forma distinta, porque es a nivel europeo y depende de muchas jurisdicciones. Para empezar, depositar los datos es, de momento, voluntario (aunque ¡muy recomendado por las agencias financieras!). Y cada institución que participa, es decir, que aporta datos, puede montarse su propio comité de acceso a los datos y, por tanto, pueden saber en qué lugar del mundo están usando los datos, cuantas veces los han distribuido… Es un modelo más cooperativo. Y esto hace que algunos estudios americanos, no financiados por el NIH, escojan el EGA en vez del dbGaP para depositar sus datos. Por eso, ahora el EGA es la base de datos con más estudios del mundo — a pesar de que a nivel de cantidad de individuos la dbGaP probablemente tendrá más, porque en EEUU llevan a cabo estudios muy grandes.

«Cada institución que aporta datos al EGA tiene su propio comité de acceso a los datos, y controlan cuántas veces y a quién los han distribuido»

¿Quién gestiona el EGA?

Al principio se gestionaba todo desde el EBI, en Hixton, Cambridge (Reino Unido). Desde el 2013 se co-gestiona desde allí y desde Barcelona. Aquí, la gestión del EGA se lleva a cabo entre el CRG, donde Jordi Rambla y su maravilloso equipo ponen el know-how y la parte administrativa, y el Barcelona Supercomputing Centre (BSC), que pone la capacidad de almacenaje, gestión y distribución.

¿Y quién lo paga?

Depositar y usar todos estos datos es gratis para los científicos. Pero, obviamente, tiene un coste, y muy elevado. En Inglaterra está financiado por el propio EBI, que es una sede del Laboratorio Europeo de Biología Molecular y, por tanto, una entidad europea. Aquí está financiado por el Carlos III, La Caixa, el CRG, el BSC y financiación competitiva que recibimos de la Comisión Europea. Para mí, el EGA es la demostración de que cuando muchas instituciones diferentes se ponen de acuerdo para hacer una cosa colaborativa, se puede tener un impacto mundial enorme.

«Depositar y usar todos estos datos en el EGA es gratuito para la comunidad científica»

¿Cómo se gestiona el uso de los datos en relación con el consentimiento informado?

Este es un tema interesante… Un consentimiento informado es un texto que los voluntarios firman y que explicita lo que se puede hacer con estos datos. Los hay de muchos tipos; desde los más ‘restrictivos’ — que se pueden usar solo para un estudio concreto — a los más ‘abiertos’ — que se pueden usar para cualquier investigación, e incluso pueden hacerse públicos. Entre medio, hay toda la variación que te puedas imaginar.

Los más restrictivos, que son los que más se usaban antiguamente, para mí son un error, porque se desaprovechan muchos datos que ya existen… Por eso hay un movimiento internacional, en el que participamos, para que los consentimientos informados sean más reconocibles entre jurisdicciones y que, siendo totalmente respetuosos con los derechos del voluntario, beneficien a la sociedad tanto como sea posible. Y en este sentido, junto con el Broad Institute en EEUU y otras instituciones estamos creando la primera ontología de consentimientos informados a nivel mundial, la DUO (Data Use Ontology). Hemos cogido muchas plantillas de diferentes consentimientos informados, los hemos analizado y catalogado, y los hemos traducido en un formato machine-readable, es decir, un formato que los ordenadores pueden entender.

¿Y cuál es la relación entre los que generan los datos y los que los usan posteriormente, a nivel de colaboraciones, co-autoría…?

En la inmensa mayoría de casos, los investigadores originales no salen en el estudio posterior. A veces, sin embargo, sí que puede ser que colaboren. Piensa en ello: si usas unos datos muy valiosos que han sido generados por un grupo muy bueno, quizás te interesa colaborar, porque son los que mejor conocen los datos. Así que usar los datos del EGA puede traer colaboraciones, y al final es beneficioso tanto para los que usan los datos como para aquellos que los han depositado.

De hecho, en 2018 hubo 18.000 artículos que citaban datos que tenemos en el EGA, y algunos de ellos fueron posibles solo gracias a la existencia del EGA, que agrega y distribuye los datos. Sin el EGA, se hubiese tardado muchos más años o, simplemente, no se hubiesen podido hacer.

«Alguna investigación que se lleva a cabo a día de hoy gracias al EGA no se haría nunca sin esta infraestructura»

¿Cuál era el objetivo del acto en Madrid?

La gran mayoría de datos genómicos que tenemos actualmente provienen de la investigación, de grandes estudios que son los pilares sobre los que descansa la medicina personalizada. Pero el mundo está cambiando. Se calcula que hacia el 2023, el 80% de los datos genómicos vendrán del mundo clínico o asistencial. Y es muy importante que estos datos sean también compartidos. La humanidad no se puede permitir que los datos queden cerrados dentro de cada centro, ¡es imprescindible que se haga el máximo uso posible! Que no se queden, una vez hecho el diagnóstico y usados para llevar a cabo algún proyecto, en un cajón o disco duro… Aislados e inútiles.

«Hacia el 2023, el 80% de los datos genómicos vendrán del mundo clínico o asistencial. Y es muy importante que estos datos sean también compartidos»

Pero compartir estos datos requiere tiempo y esfuerzo…

Por supuesto, y por eso es comprensible que, a menudo, acaben olvidados en un disco duro. Si un médico tiene como tarea principal algo tan importante como la salud de las personas, el trato con el paciente y su bienestar, el diagnóstico y el tratamiento, son sus prioridades, ¡y el resto son minucias! Por eso nuestra obligación desde el EGA es facilitarles la parte de publicitar los datos que tienen e incluso de compartirlos, sin que tengan que dedicar horas y muchos recursos. Queremos hacerlo lo más automático posible, de manera que se pueda hacer en poco tiempo. Si conseguimos dar a los médicos las herramientas para que puedan compartir estos datos de forma efectiva, la cantidad de información que obtendríamos para mejorar la salud humana sería fenomenal.

«Queremos dar a los médicos las herramientas para que puedan compartir estos datos de forma sencilla»

¿Cuál es, pues, el mensaje a los médicos que recogen datos genómicos?

Nos estamos reuniendo con hospitales, y hemos empezado por los de Cataluña y Madrid, para ver cómo podemos trabajar juntos en esto. Nuestro mensaje es que tenemos esta infraestructura y know-how para avanzar y facilitarnos las cosas. El objetivo de EGA es generar las herramientas necesarias para que todos los centros de investigación y hospitales, grandes y pequeños, puedan de forma fácil compartir sus datos. Y yo creo que con las buenas intenciones de todo el mundo habrá más colaboración, mejor investigación y mejores diagnósticos.

Podéis escuchar (en catalán) a Arcadi Navarro explicando cómo funciona EGA y su importancia aquí:

Sobre el autor/a

Maruxa Martínez-Campos es bióloga. Después de su doctorado en la Universidad de Cambridge se pasó al "otro lado" de la investigación. Fue editora de Genome Biology y, durante casi dos décadas, formó parte del departamento de comunicación del PRBB, donde lideró El·lipse como editora jefa hasta 2025. También coordinó el Grupo de trabajo de Buenas Prácticas Científicas y el Comité de Igualdad, Diversidad e Inclusión del PRBB.