Descodificar els agregats proteïcs amb intel·ligència artificial

Equips científics han desenvolupat una nova eina d’IA capaç de desentranyar el “llenguatge” que hi ha darrere de les agregacions de proteïnes, un segell distintiu de malalties com l’Alzheimer. L’eina ajudarà a predir quines combinacions d’aminoàcids fomenten o impedeixen l’agregació de proteïnes.

Agregació amiloide a l'interior de les cèl·lules. Crèdit: Benedetta Bolognesi (IBEC).

En un gran avenç científic, equips investigadors han desenvolupat una nova Eina d’Intel·ligència Artificial, anomenada CANYA, que pot descodificar el “llenguatge” que utilitzen les proteïnes per formar grups nocius, un procés implicat en malalties com l’Alzheimer i dotzenes d’altres trastorns. CANYA permet als científics veure exactament quines combinacions d’aminoàcids (els blocs de construcció de les proteïnes) fomenten o impedeixen l’agrupació de proteïnes coneguda com a agregació amiloide, que pot alterar la funció cel·lular normal.

Els investigadors han estat liderats per Benedetta Bolognesi (Institut de Bioenginyeria de Catalunya (IBEC)) i Ben Lehner (Centre de Regulació Genòmica (CRG) i Wellcome Sanger Institute), en col·laboració amb científics del Cold Spring Harbor Laboratory (CSHL).

Per construir CANYA, l’equip va crear el conjunt de dades més gran sobre l’agregació de proteïnes, generant més de 100.000 fragments de proteïnes completament aleatoris, incloses moltes versions que no es troben a la natura. Després van introduir cada fragment en cèl·lules de llevat per comprobar el seu comportament. Aquest enfocament innovador els va donar una visió molt més àmplia dels comportaments potencials de les proteïnes que altres estudis que només analitzen conjunts naturals o petits de seqüències.

Les dades es van utilitzar per entrenar CANYA mitjançant una combinació de mètodes d’IA extrets del reconeixement d’imatges i del reconeixement del llenguatge. Aquests dos mecanismes permeten al sistema ampliar els petits detalls de les cadenes de proteïnes i alhora entendre la seva importància en un context més ampli. Com a resultat, CANYA no només va predir si una proteïna formaria agregats, sinó que també va explicar el per què, revelant noves regles sobre com es comporten les proteïnes.

Aplicacions en el desenvolupament de fàrmacs

La importància d’aquest treball s’estén més enllà de la investigació de malalties. L’agrupació de proteïnes és un repte important en la biotecnologia, especialment en la fabricació de fàrmacs, que sovint són proteïnes i que poden esdevenir inutilitzables si aquestes s’agreguen. La capacitat de CANYA per identificar seqüències propenses a l’agregació podria ajudar els enginyers i enginyeres a dissenyar proteïnes més estables, estalviant temps i diners.

Tot i que actualment l’eina classifica les proteïnes en tipus amb o sense tendencia a agrupar-se, els investigadors pretenen ampliar-la per predir la rapidesa amb què s’agreguen les proteïnes, un factor clau en la progressió de les malalties neurodegeneratives.

La importància de la transparència en IA

A diferència dels típics sistemes d’IA que produeixen resultats sense que se sàpiga ben bé com (la famosa “caixa negra”), CANYA és “explicable“, és a dir, va ser construïda específicament per revelar les regles químiques que hi ha darrere de les seves decisions, fent-les transparents i comprensibles per als humans. “Volem poder confiar en que el model està fent les seves prediccions per raons que tenen sentit, i no en base a una cosa que simplement es correlaciona amb el resultat però que en realitat no està en absolut relacionada amb ell”, explica Mike Thompson, primer autor de l’article.

“A mesura que més investigadors i investigadores recorren a la IA per analitzar i modelar les seves dades, és fonamental comprendre les conclusions i prediccions fetes pel model”
Mike Thompson (CRG), primer autor de l’article

Respecte als desafiaments de fer que la IA sigui explicable, Thompson diu: “No és tan difícil per als contextos biològics, però generalment comporta el risc d’una pèrdua de poder predictiu. Això es deu al fet que com més complexa és l’arquitectura del model – com més paràmetres utilitza – més eficient és, però també menys entenem com funciona”.

Tot i que fer que CANYA fos explicable significava sacrificar una mica del seu poder predictiu, va valer la pena per millorar la seva confiabilitat. A més, l’eina ha demostrat ser un 15% més precisa que els models existents.

Els autors esperen que aquest treball serveixi com a exemple de formes de seleccionar i interpretar arquitectures de models predictius, i estan explorant escenaris i guies per a desenvolupar aquestes pràctiques.

En definitiva, aquest estudi demostra com la combinació d’experiments de laboratori a gran escala amb IA explicable pot fer que la biologia sigui més predictible, un pas essencial per a les innovacions tant en salut com en biologia sintètica.

Leave a Reply

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *