Posant llum a la foscor (del proteoma) amb intel·ligència artificial

El proteoma fosc comprèn les proteïnes de les quals no se’n coneix la seva estructura ni funció. Ara, un estudi on ha participat l’IBE (CSIC-UPF), posa de manifest que és possible determinar-ne la seva funció gràcies a l’aprenentatge profund o deep learning.

Proteïna

Seqüències de ratolins, llevats i mosques de la fruita han estat el material de partida perquè la IA, amb deep learning, desxifri la funció de proteïnes que fins ara no es coneixien. Imatge adaptada de Trim via Wellcome Collection.

Tots els éssers vius fan proteïnes a partir del seu ADN, però no totes es coneixen. D’algunes no se’n sap la forma ni la funció, però sí que se’n pot tenir la seqüència d’ADN que les codifica. Aquesta seqüència ha estat la base d’una col·laboració entre el Centre Andalús de Biologia del Desenvolupament (CABD) i l’Institut de Biologia Evolutiva (IBE: CSIC-UPF) per analitzar proteïnes amb intel·ligència artificial

L’estudi ha analitzat seqüències d’organismes model (llevat, ratolí i mosca de la fruita) a través del deep learning o aprenentatge profund i s’han pogut determinar i classificar amb gran detall les funcions de proteïnes de les quals no se’n tenia informació prèvia.

A través d’aprenentatge profund, els grups de recerca han pogut determina la funció de proteïnes de les que no s’en tenia més informació que la sequüència d’ADN que les codifica.

Els i les autores també han vist que, d’entre els dos mètodes de deep learning utilitzats, els models de llenguatge o transformers són més eficients que les xarxes convolucionals. Aquest darrer mètode es basa en el processament per imatges, mentre que els transformers processen seqüències i llenguatge, fet que els fa ser més informatius i precisos, a més de poder recuperar informació a partir de seqüències d’ARN. 

Aquesta recerca resulta vital per abordar la problemàtica del proteoma fosc, format per totes aquelles proteïnes de les quals no se’n té informació. Així, es poden analitzar proteïnes i identificar funcions de gens amb potencial biomèdic i biotecnològic, sobretot en organismes poc estudiats fins ara, diu Rosa Fernández, co-líder de l’estudi a l’IBE (CSIC-UPF). Això és d’especial rellevància ara que s’estan seqüenciant organismes desconeguts en grans quantitats, donant lloc a milions de seqüències, de les quals no podem predir la funció usant mètodes tradicionals. 

Leave a Reply

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *