Para los humanos, la historia del ADN comenzó hace poco más de 150 años cuando Friedrich Miescher descubrió accidentalmente la nucleína, una molécula rica en fosfatos que no se comportaba como una proteína y que, con los años, acabaríamos llamando ADN. Pero en esta breve historia destacan dos grandes hitos más. El primero, cuando hace casi setenta años Rosalind Franklin, y más tarde James Watson y Francis Crick, descubrieron a través de imágenes hechas con rayos X, que el ADN tenía estructura de doble hélice. Y el segundo llegó hace tan sólo 20 años, cuando dos equipos de científicos de todo el mundo lograron publicar la primera secuencia del genoma humano.
El proyecto para secuenciar el genoma humano fue extremadamente largo y costoso. Pero los cerca de tres mil millones de dólares que se invirtieron, quedaban avalados por la posibilidad de conocer mejor las enfermedades de origen genético, que en aquel momento se podían contar con los dedos de una mano. Por eso en palabras de Roderic Guigó, jefe del grupo de biología computacional del procesamiento del ARN, coordinador del programa de bioinformática en el Centre de Regulació Genòmica (CRG) y catedrático en la Universitat Pompeu Fabra, «el conocimiento del genoma humano contribuyó de manera crucial a entender la biología humana«.
Biología computacional y tecnología
Este proyecto titánico no hubiera sido posible sin la biología computacional, la ciencia que aplica modelos teóricos a analizar datos biológicos. Y el avance de la biología computacional ha ido ligado al de la tecnología.
«Los primeros cursos de programación que hice en el laboratorio de cálculo de la Universidad de Barcelona los hice con fichas perforadas. En ese momento los ordenadores no tenían pantallas, y cuando te querías comunicar con el ordenador, ponías la ficha y el resultado se imprimía en una hoja», explica Guigó cuando recuerda cómo hacía la carrera a mediados de los años ochenta.
Roderic recuerda que años más tarde en la Universidad, tuvieron el primer ordenador con tres pantallas conectadas. Aunque la informática todavía no estaba al alcance de todos. «Durante la tesis yo ya tenía un correo electrónico. El problema es que, como nadie más tenía… ¡no servía de mucho! «. Por eso, para Roderic la verdadera revolución tecnológica fue tener un ordenador personal y poder trabajar desde casa.
Una revolución que David Comas, jefe del grupo de investigación en la diversidad del genoma humano en el Institut de Biologia Evolutiva (IBE: CSIC-UPF) y actual director del Departament de Ciències Experimentals i de la Salut, Universitat Pompeu Fabra (DCEXS-UPF) vivió de manera similar: «Con el conocimiento y la técnica que tenemos hoy en día, ¡mi tesis doctoral la haría en quince días en vez de tres o cuatro años! Tardaría una semana en producir y genotipar los datos, y el análisis lo tendría hecho en cuatro días».
Identificar y visualizar los genes
A Roderic siempre la han motivado los retos técnicos. «Yo quería desarrollar programas para saber dónde estaban los genes dentro de la secuencia del ADN. Quería entender cuáles eran las señales y las combinaciones de letras que la maquinaria celular reconocía y utilizaba para fabricar proteínas». Por eso se fue a Boston a hacer el posdoctorado en el laboratorio de Temple Smith, uno de los primeros bioinformáticos en desarrollar algoritmos para comparar y alinear secuencias de ADN.
Yo quería desarrollar programas para saber dónde estaban los genes dentro de la secuencia del ADN.
Roderic Guigó – CRG
El año 94, el bioinformático catalán volvió a Barcelona y estableció su propio grupo en el Institut Hospital del Mar d’Investigacions Mèdiques (IMIM), con el que siguió identificando estas pequeñísimas regiones del genoma (2%) que se corresponden con los genes. «Terminamos siendo conocidos dentro del campo por nuestra experiencia en la identificación de genes y por nuestro software que permitía visualizar las diferentes regiones anotadas del genoma«, cuenta Guigó.
El proyecto genoma humano
El proyecto público para secuenciar el genoma humano comenzó en 1990, pero los primeros años no fueron muy provechosos. En 1998, el bioquímico norteamericano Craig Venter cuestionó el funcionamiento del proyecto público. Era caro, costoso y utilizaba una tecnología poco eficiente. Y su empresa, Celera Genomics se sumó a la carrera aplicando la tecnología ‘Shotgun’ con la que se podían secuenciar varios fragmentos de ADN a la vez.
«Celera era una empresa muy abierta en el sentido en que enseguida contó con la participación de científicos expertos en la materia, y nos contactaron para utilizar nuestro software para visualizar el genoma de la mosca de la fruta«, explica Guigó . Este primer trabajo hizo que pocos meses antes de publicar la secuencia del genoma humano, Celera los volviera a contactar para ver la secuencia, en este caso de nuestra especie.
«Mientras desarrollábamos el software, aquí en Barcelona, yo pensaba que estaba trabajando en algo que era importante, igual que lo piensan muchos investigadores. Ahora bien, en el momento que con Josep Abril, mi estudiante de doctorado, fuimos a Celera Genomics para trabajar en el primer borrador de la secuencia del genoma humano,… ahí tuvimos la conciencia de que estábamos participando en una proyecto que pasaría a la historia«.
Finalmente, el 12 de febrero del 2001, Nature y Science anunciaban la publicación de la secuencia del genoma humano, con los resultados de las iniciativas pública y privada.
La enciclopedia del Genoma
Más allá del hito histórico, tener la secuencia del genoma humano no causó ninguna revolución. «Después de 2001 hubo dos campos en los que la genómica fue avanzando. Por un lado surgieron proyectos para saber cómo el genoma cambia entre diferentes individuos y poblaciones y por el otro, había que saber qué regiones del genoma eran funcionales«. Para afrontar este último reto, en 2003 se inició el proyecto para generar la enciclopedia funcional del ADN (ENCODE); un proyecto que aún está en marcha y en el que el grupo del Roderic participó desde el inicio.
«Pensábamos que gran parte del genoma era ADN basura que no tenía ninguna función y había quedado allí como resultado de transposones de virus», explica Guigó. Ahora, se sabe que sólo el 2% de la secuencia del genoma son genes, pero se han identificado otras regiones funcionales que aunque no codifican para proteínas, regulan la expresión de los genes o tienen otras funciones celulares. El biólogo David Comas confirma que «el término de ADN basura está muy cuestionado porque aún nos queda mucho por conocer sobre las funciones de las regiones del ADN y sus variantes«.
Estudiar la diversidad y el problema del sesgo
Con la secuencia en las manos se ha podido averiguar que el 99,9% del genoma es común entre todos los humanos. Pero ¿conocemos el 0,1% restante? En 2008 comenzó el Proyecto 1000 genomas para secuenciar el genoma de personas de diferentes regiones del planeta. Sin embargo, en opinión de Comas, experto en diversidad del genoma humano, «conocemos las variantes más comunes de nuestro genoma, pero hemos olvidado algunas poblaciones pequeñas que están menos representadas».
“Conocemos las variantes más comunes de nuestro genoma, pero hemos olvidado algunas poblaciones pequeñas que están menos representadas”
David Comas – UPF-DCEXS y IBE
Para conocer con más detalle la diversidad, con los años, «se ha secuenciado el genoma de poblaciones muy concretas que tenían algunas enfermedades asociadas«. También han surgido nuevas y mayores iniciativas a nivel nacional como la secuenciación del genoma de toda la población de Islandia o el de 100.000 genomas de habitantes del Reino Unido. Proyectos que tienen un alcance más local pero que «también tienen en cuenta los datos fenotípicos de los individuos estudiados, lo que permite correlacionar lo que se ve con las variantes genómicas», explica Comas.
Pero a pesar de estos esfuerzos, tenemos un conocimiento sesgado de la diversidad del genoma. Y esto tiene consecuencias. En palabras de Comas, «las variantes poco frecuentes, que son específicas de poblaciones pequeñas poco representadas, a menudo están implicadas en aspectos biomédicos«. Y desconocer esta diversidad o tener una baja representación hace que cuando se analizan los datos «las variantes menos frecuentes, a menudo queden eliminadas de los análisis porque los algoritmos las toman como errores de la secuencia». Y no sólo eso. También hay sesgos técnicos ya que «es mucho más fácil estudiar variaciones que afectan a un único nucleótido de la secuencia que estudiar variantes estructurales que generan grandes cambios, así que sabemos menos sobre estas últimas».
Encaminando el futuro de la genómica humana
El futuro de la genómica pasa por entender las implicaciones funcionales que tienen los cambios en la secuencia. «Históricamente, hemos visto el genoma como algo muy frío y estático, como una secuencia lineal. Y aunque no conocemos cómo interaccionan diferentes regiones de una misma secuencia», explica Comas.
Este futuro ya ha empezado con repositorios de datos genómicos como el EGA (European Genome-Phenome Archive) – que tiene uno de sus dos nodos en el Parc de Recerca Biomèdica de Barcelona (PRBB) con un equipo dirigido por Arcadi Navarro – y con proyectos como el genotype-tissue expresión (GTEx) donde participa el grupo del Roderic. Este proyecto intenta entender las relaciones entre la variación en la secuencia del genoma entre individuos y la expresión de los genes en diferentes tejidos. Aunque todavía nos falta poder explicar «como la variación genómica de las personas tiene un impacto en su función y resulta en diferencias como, por ejemplo, la predisposición a tener determinadas enfermedades«, concluye Guigó.