Pels humans, la història de l’ADN va començar fa poc més de 150 anys quan Friedrich Miescher va descobrir accidentalment la nucleïna, una molècula rica en fosfats que no es comportava com una proteïna i que, amb els anys, acabaríem anomenant ADN. Però en aquesta breu història hi destaquen dues grans fites més. La primera, quan fa gairebé setanta anys Rosalind Franklin, i més tard James Watson i Francis Crick, van descobrir a través d’imatges fetes amb raigs X, que l’ADN tenia forma de doble hèlix. I la segona va arribar fa tan sols 20 anys, quan dos equips de científics d’arreu del món van aconseguir publicar la primera seqüència del genoma humà.
El projecte per a seqüenciar el genoma humà va ser extremadament llarg i costós. Però els prop de tres mil milions de dòlars que es van invertir, quedaven avalats per la possibilitat de conèixer millor les malalties d’origen genètic, que en aquell moment es podien comptar amb els dits d’una mà. En paraules del Roderic Guigó, cap del grup de biologia computacional del processament de l’ARN, coordinador del programa de bioinformàtica al Centre de Regulació Genòmica (CRG) i catedràtic a la Universitat Pompeu Fabra, “el coneixement del genoma humà va contribuir de manera crucial a entendre la biologia humana”.
Biologia computacional i tecnologia
Aquest projecte titànic no hagués estat possible sense la biologia computacional, la ciència que aplica models teòrics a analitzar dades biològiques. I l’avenç de la biologia computacional ha anat lligat al de la tecnologia.
“Els primers cursos de programació que vaig fer al laboratori de càlcul de la Universitat de Barcelona els vaig fer amb fitxes perforades. En aquell moment els ordinadors no tenien pantalles, i quan et volies comunicar amb l’ordinador, hi posaves la fitxa i el resultat s’imprimia en un full”, explica Guigó quan recorda com feia la carrera a mitjans dels anys vuitanta.
El Roderic recorda que anys més tard a la Universitat, van tenir el primer ordinador amb tres pantalles connectades. Tot i que la informàtica encara no era a l’abast de tothom. “Durant la tesi jo ja tenia un correu electrònic. El problema és que, com que ningú en tenia… no servia de massa!”. Per això, pel Roderic la vertadera revolució tecnològica va ser tenir un ordinador personal i poder treballar des de casa.
Una revolució que en David Comas, cap del grup de recerca en la diversitat del genoma humà a l’Institut de Biologia Evolutiva (IBE: CSIC-UPF) i actual director del Departament de Ciències Experimentals i de la Salut, Universitat Pompeu Fabra (DCEXS-UPF) va viure de manera similar: “Amb el coneixement i la tècnica que tenim avui en dia, la meva tesi doctoral la faria en quinze dies en comptes de tres o quatre anys! Trigaria una setmana en produir i genotipar les dades, i l’anàlisi el tindria fet en quatre dies”.
Identificar i visualitzar els gens
Al Roderic sempre l’han motivat les qüestions tècniques. “Jo volia desenvolupar programes per saber on eren els gens dins la seqüència de l’ADN. Volia entendre quins eren els senyals i les combinacions de lletres que la maquinària cel·lular reconeixia i utilitzava per a fabricar proteïnes”. Per això se’n va anar a Boston a fer el postdoctorat al laboratori del Temple Smith, un dels primers bioinfomàtics en desenvolupar algoritmes per a comparar i alinear seqüències d’ADN.
Jo volia desenvolupar programes per saber on eren els gens dins la seqüència de l’ADN.
Roderic Guigó – CRG
L’any 94, el bioinformàtic català va tornar a Barcelona i va establir el seu propi grup a l’Institut Hospital del Mar d’Investigacions Mèdiques (IMIM), amb el que va seguir identificant aquestes petitíssimes regions del genoma (2%) que es corresponen amb els gens. “Vam acabar sent coneguts dins el camp per la nostra experiència en la identificació de gens i pel nostre software que permetia visualitzar les diferents regions anotades del genoma”, explica Guigó.
El projecte genoma humà
El projecte públic per seqüenciar el genoma humà va començar l’any 1990, però els primers anys no van ser gaire profitosos. L’any 1998, el bioquímic nord americà Craig Venter va qüestionar el funcionament del projecte públic. Era car, costós i utilitzava una tecnologia poc eficient. I la seva empresa, Celera Genomics es va sumar a la carrera aplicant la tecnologia ‘Shotgun’ amb la que seqüenciaven varis fragments d’ADN a la vegada.
“Celera era una empresa molt oberta en el sentit en que de seguida va comptar amb la participació de científics experts en la matèria, i ens van contactar per fer servir el nostre software per visualitzar el genoma de la mosca de la fruita”, explica Guigó. Aquest primer treball va fer que pocs mesos abans de publicar la seqüència del genoma humà, Celera els tornés a contactar per a visualitzar la seqüència, en aquest cas de la nostra espècie.
“Mentre desenvolupavem el software, aquí a Barcelona, jo pensava que estava treballant en una cosa que era important, però, de la mateixa manera que ho pensen molts investigadors. Ara bé, en el moment que amb el Josep Abril, el meu estudiant de doctorat, vam anar a Celera Genomics per treballar en el primer esborrany de la seqüència del genoma humà, sí que vam tenir la consciència de que estàvem participant en una projecte que passaria a la història”.
Finalment, el 12 de febrer del 2001, Nature i Science anunciaven la publicació de la seqüència del genoma humà, amb els resultats de les iniciatives pública i privada.
L’enciclopèdia del Genoma
Més enllà de la fita històrica, tenir la seqüència del genoma humà no va causar cap revolució. “Després del 2001 hi va haver dos camps en els quals la genòmica va anar avançant. Per una banda van sorgir projectes per saber com el genoma canvia entre diferents individus i poblacions i de l’altra, calia saber quines regions del genoma eren funcionals”. Per afrontar aquest últim repte, l’any 2003 es va iniciar el projecte per generar l’enciclopèdia funcional de l’ADN (ENCODE); un projecte que encara està en marxa i en el que el grup del Roderic hi va participar des de l’inici.
“Ens pensàvem que gran part del genoma era ADN brossa que no tenia cap funció i havia quedat allà com a resultat de transposons de virus”, explica Guigó. Ara, se sap que només el 2% de la seqüència del genoma són gens, però s’han identificat altres regions funcionals que tot i que no codifiquen per proteïnes, regulen l’expressió dels gens o tenen altres funcions cel·lulars. El biòleg David Comas confirma que “el terme d’ADN brossa està molt qüestionat perquè encara ens queda molt per a conèixer sobre les funcions de les regions de l’ADN i les seves variants”.
Estudiar la diversitat i l’evidència del biaix
Amb la seqüència a les mans s’ha pogut esbrinar que el 99,9% del genoma és comú entre tots els humans. Però coneixem el 0,1% restant? L’any 2008 va començar el projecte 1000 genomes per a seqüenciar el genoma de persones de diferents regions del planeta. Tot i això, en opinió de Comas, expert en diversitat del genoma humà, “coneixem les variants més comuns del nostre genoma, però hem oblidat algunes poblacions petites que estan menys representades”.
“Coneixem les variants més comuns del nostre genoma, però hem oblidat algunes poblacions petites que estan menys representades”
David Comas – UPF-DCEXS i IBE
Per a conèixer amb més detall la diversitat, amb els anys, “s’ha seqüenciat el genoma de poblacions molt concretes que tenien algunes malalties associades”. També han sorgit noves iniciatives a nivell nacional com la seqüenciació del genoma de tota la població d’Islàndia o el de 100.000 genomes d’habitants del Regne Unit. Projectes que tenen un abast més local però que “també tenen en compte les dades fenotípiques dels individus estudiats, cosa que permet correlacionar allò que es veu amb les variants genòmiques”, explica Comas.
Però malgrat aquests esforços, tenim un coneixement esbiaixat de la diversitat del genoma. I això té conseqüències. En paraules de Comas, “les variants poc freqüents, que són específiques de poblacions petites poc representades, sovint estan implicades en aspectes biomèdics”. I desconèixer aquesta diversitat o tenir-ne una baixa representació fa que quan s’analitzen les dades “les variants menys freqüents, sovint quedin eliminades de les anàlisis perquè els algoritmes les prenen com a errors de la seqüència”. I no només això, també hi ha biaixos tècnics ja que “és molt més fàcil estudiar variacions que afecten un únic nucleòtid de la seqüència que no pas variants estructurals que generen grans canvis”.
Encaminant el futur de la genòmica humana
El futur de la genòmica passa per entendre les implicacions funcionals que tenen els canvis en la seqüència. “Històricament, hem vist el genoma com una cosa molt freda i estàtica, com una seqüència lineal. I encara no coneixem com interaccionen diferents regions d’una mateixa seqüència”, explica Comas.
Aquest futur ja ha començat amb repositoris de dades genòmiques com l’EGA (European Genome-Phenome Archive) – que té un dels seus dos nodes al Parc de Recerca Biomèdica de Barcelona (PRBB) amb un equip dirigit per l’Arcadi Navarro – i amb projectes com el genotype-tissue expression (GTEx) on hi participa el grup del Roderic. Aquest projecte intenta entendre les relacions entre la variació en la seqüència del genoma entre individus i l’expressió dels gens en diferents teixits. Tot i que encara ens falta poder explicar “com la variació genòmica de les persones té un impacte en la seva funció i resulta en diferències com, per exemple, la predisposició a tenir determinades malalties”, conclou Guigó.