Tots els éssers vius fan proteïnes a partir del seu ADN, però no totes es coneixen. D’algunes no se’n sap la forma ni la funció, però sí que se’n pot tenir la seqüència d’ADN que les codifica. Aquesta seqüència ha estat la base d’una col·laboració entre el Centre Andalús de Biologia del Desenvolupament (CABD) i l’Institut de Biologia Evolutiva (IBE: CSIC-UPF) per analitzar proteïnes amb intel·ligència artificial.
L’estudi ha analitzat seqüències d’organismes model (llevat, ratolí i mosca de la fruita) a través del deep learning o aprenentatge profund i s’han pogut determinar i classificar amb gran detall les funcions de proteïnes de les quals no se’n tenia informació prèvia.
A través d’aprenentatge profund, els grups de recerca han pogut determina la funció de proteïnes de les que no s’en tenia més informació que la sequüència d’ADN que les codifica.
Els i les autores també han vist que, d’entre els dos mètodes de deep learning utilitzats, els models de llenguatge o transformers són més eficients que les xarxes convolucionals. Aquest darrer mètode es basa en el processament per imatges, mentre que els transformers processen seqüències i llenguatge, fet que els fa ser més informatius i precisos, a més de poder recuperar informació a partir de seqüències d’ARN.
Aquesta recerca resulta vital per abordar la problemàtica del proteoma fosc, format per totes aquelles proteïnes de les quals no se’n té informació. Així, es poden analitzar proteïnes i identificar funcions de gens amb potencial biomèdic i biotecnològic, sobretot en organismes poc estudiats fins ara, diu Rosa Fernández, co-líder de l’estudi a l’IBE (CSIC-UPF). Això és d’especial rellevància ara que s’estan seqüenciant organismes desconeguts en grans quantitats, donant lloc a milions de seqüències, de les quals no podem predir la funció usant mètodes tradicionals.
Israel Barrios-Núñez, Gemma I Martínez-Redondo, Patricia Medina-Burgos, Ildefonso Cases, Rosa Fernández, Ana M Rojas, Decoding functional proteome information in model organisms using protein language models, NAR Genomics and Bioinformatics, Volume 6, Issue 3, September 2024, lqae078, https://doi.org/10.1093/nargab/lqae078