L’intelligenza artificiale prevede il meccanismo di ripiegamento delle proteine

Si tratta di un progresso straordinario nella comprensione della “macchina della vita”. Un sofisticato algoritmo di intelligenza artificiale (AI) creato dalla divisione DeepMind di Google è riuscito a determinare la forma di una proteina, con risultati di elevata affidabilità in tempi di calcolo rapidi (fino a 30 minuti) rispetto ai risultati ottenuti con metodi sperimentali, che arrivano a decenni di studio.
Il mondo della ricerca è pronto ad accogliere questa rivoluzionaria tecnologia: la conoscenza del meccanismo di ripiegamento delle proteine potrebbe infatti accelerare la diagnosi e la cura di molte malattie, portando alla scoperta di nuovi farmaci e trattamenti specifici.

La correlazione tra forma e funzione

Ormai da decenni si ipotizza che malattie degenerative come Alzheimer, Parkinson e fibrosi cistica siano causate da un ripiegamento non funzionale di specifiche proteine. Poter prevedere la forma di una proteina consentirebbe quindi una maggiore comprensione del suo ruolo all’interno del corpo.

Quasi tutte le proteine hanno dimensioni comprese tra 1 e 100 nm. Ciò rende difficile lo studio della struttura proteica stessa, date le nano-dimensioni da cui è caratterizzata. Per questo motivo i ricercatori si sono ultimamente focalizzati su tecniche e metodi all’avanguardia per capire il motivo per cui le proteine si ripieghino su se stesse.

Per poter infatti descrivere in maniera completa la singola proteina, in biologia molecolare se ne distinguono la struttura primaria, secondaria, terziaria e quaternaria della stessa (Figura 1).

Proteina 3D struttura conformazione — Figura 1. Conformazione 3D di una proteina, determinata dalla struttura primaria, secondaria, terziaria e quaternaria della singola proteina stessa. Credits: DeepMind.com

La struttura di una proteina ne definisce l’interazione con altre proteine (e, più in generale, altre molecole) dell’organismo, determinandone quindi la sua stessa funzione. Solo per citarne alcune, una proteina può trasmettere impulsi nervosi, trasportare molecole, fungere da catalizzatore e gestire l’evoluzione delle cellule. Qualsiasi cambiamento strutturale, come anche solo un singolo ripiegamento, può determinarne una funzione differente.

La ricostruzione 3D di forma e funzione: dalle tecniche sperimentali ai modelli informatici

Risonanza magnetica nucleare, cristallografia a raggi X e microscopia crioelettronica sono tra le tecniche ad oggi disponibili per determinare la struttura delle proteine. Tuttavia le tecniche sperimentali richiedono molto tempo e la precisione dell’informazione a cui si arriva è spesso insoddisfacente.

I metodi computazionali hanno fatto da spartiacque tra la scorsa generazione di tecnologie e AlphaFold, l’intelligenza artificiale sviluppata da Google che viene in aiuto alla biologia molecolare così come la conosciamo. Negli anni sono aumentate velocità di calcolo e riproducibilità, nonostante i primi tentativi di modellizzazione naufragarono proprio a causa di quello che oggi è considerato il principale vantaggio della computazione: l’affidabilità della modellizzazione.

AlphaFold: rapidità e precisione nella ricostruzione proteica

Nel 1994 prese luogo il primo CASP, Critical Assessment of Structure Prediction (CASP). Fondato da John Moult, biologo computazionale, il CASP organizza competizioni biennali rivolte ai centri di ricerca che lavorano sulla predizione computazionale della struttura delle proteine, al fine di individuare nuove tecnologie efficaci a questo scopo.

Siamo rimasti bloccati sul problema del ripiegamento delle proteine per quasi 50 anni. Vedere DeepMind produrre una soluzione per questo, avendo lavorato personalmente su questo problema per così tanto tempo e dopo così tante fermate e ripartenze, chiedendoci se ci saremmo mai arrivati, è un momento molto speciale.
Co-fondatore e presidente di CASP, Università del Maryland

Proprio qualche mese fa, al CASP14-2020, il sistema di intelligenza artificiale sviluppato da DeepMind ha raggiunto l’obiettivo a lungo ricercato: prevedere con precisione la forma delle proteine solo dalla loro sequenza. Un passo fondamentale per comprendere come funziona il meccanismo della vita.

DeepMind partecipò già nel 2018 al CASP13 con una versione precedente di AlphaFold, un modello di apprendimento automatico (il cosiddetto “deep learning”) per elaborare e prevedere la distanza tra coppie di amminoacidi nelle catene proteiche, sovrapponendo il risultato con quello ottenuto dai metodi sperimentali.

La società britannica orientò la successiva ricerca di AlphaFold verso un’altra strada in previsione del CASP14, concentrandosi sui meccanismi fisico-geometrici (e sui loro limiti) di ripiegamento proteico, che riportano a forme e funzioni a noi già conosciute. Tra 146 gruppi in competizione, AlphaFold2 (per distinguerlo dall’AI del 2018) ha ottenuto la miglior valutazione (Figura 2).

Accuratezza categoria precisione modello modellazione folding ripiegamento — Figura 2. Accuratezza nella precisione mediana delle previsioni nella categoria di modellazione libera per la migliore squadra in ogni CASP, tenendo conto dei risultati ottenuti dai migliori 5 gruppi partecipanti (“Best-of-5-GDT”). Credits: DeepMind.com

Accuratezza e velocità ne hanno determinato la vittoria. L’intelligenza artificiale elaborata ha impiegato circa mezz’ora per ottenere la forma finale di una proteina batterica, sulla quale i ricercatori avevano lavorato per una decina di anni senza ottenere risultati rilevanti (Figura 3). In casi più complessi, i tempi di elaborazione raggiungono l’ordine dei giorni.

Per darvi un’idea più precisa del successo di AlphaFold in numeri: al CASP12 (tenutosi nel 2016) la miglior squadra ottenne un punteggio medio di circa 40 nella categoria più difficile della competizione. Al CASP13 la prima versione di AlphaFold ha ottenuto un punteggio medio di quasi 60 nella stessa categoria. Quest’anno AlphaFold ha ottenuto un punteggio medio di 87. Tra tutte le categorie, ha ottenuto un punteggio di 92.4 per due terzi delle proteine analizzate.

RNA polimerasi modello sperimentale computazionale alpha proteine — Figura 3. Due esempi di target proteici nella categoria di modellazione libera. AlphaFold prevede strutture altamente accurate misurate rispetto ai risultati sperimentali. Credits: DeepMind.com

Come funziona l’intelligenza artificiale AlphaFold

Il team di ricerca ha sviluppato AlphaFold pensando alla proteina piegata come un “grafico spaziale”: i residui sono i nodi, i bordi collegano i residui in stretta vicinanza tra loro. La rete neurale sviluppata prova a interpretare la struttura del grafico spaziale, apprendendo implicitamente dal grafico in costruzione e utilizzando, ad esempio, sequenze evolutivamente correlate, allineamento di sequenze multiple (MSA) e una rappresentazione delle coppie di residui di amminoacidi. La re-iterazione di tale processo ha portato a previsioni robuste della struttura della proteina.

Per arrivare a ciò, il sistema di intelligenza artificiale è stato addestrato con dati – reperibili e disponibili pubblicamente – di circa 170 000 strutture proteiche dalla banca dati delle proteine, uniti alle informazioni ricavate da database contenenti sequenze proteiche di struttura ignota. AlphaFold utilizza ed elabora dati per un totale di 16 TPUv3 (l’equivalente di ~ 100-200 GPUs) in poche settimane (Figura 4).

Proteina genetica sequenza residuo residui struttura mode architettura rete neurale aminoacidi amminoacidi evolutivo modo — Figura 4. Una panoramica dei principali modelli di architettura di rete neurale. Il modello funziona su sequenze proteiche relative in modo evolutivo e coppie di residui di aminoacidi, trasmettendo iterativamente informazioni tra entrambe le rappresentanze per generare una struttura. Credits: DeepMind.com

Conclusioni e prospettive future

Ad oggi DeepMind ha rivelato solo alcuni dettagli su AlphaFold, ma a breve pubblicherà ulteriori dati su una rivista di settore, garantendo ampio accesso a tale tecnologia da parte della comunità scientifica con l’obiettivo di rendere l’algoritmo il più fruibile possibile.

Si apre pertanto una incredibile strada verso la determinazione della struttura delle proteine in tempi brevi. Una quantità limitata di dati potrebbe infatti essere sufficiente per elaborare la complessità di una qualsiasi proteina in poco tempo, proprio grazie al potente algoritmo sviluppato da DeepMind. Migliaia di proteine già individuate potrebbero essere a breve capite, studiate e analizzate, portando alla luce meccanismi ancora nascosti del nostro organismo e di malattie come tumori.

Fonti e approfondimenti:

DeepMind.com – AlphaFold: a solution to a 50-year-old grand challenge in biology
DeepMind.com – AlphaFold Open Source
NewScientist.com – DeepMind’s AI biologist can decipher secrets of the machinery of life
NewScientist.com – DeepMind found an AI learning technique also works in human brains
Biochemistry, 5th Edition, Chapter 3 – Protein Structure and Function

L’intelligenza artificiale prevede il meccanismo di ripiegamento delle proteine

La correlazione tra forma e funzione

La ricostruzione 3D di forma e funzione: dalle tecniche sperimentali ai modelli informatici

AlphaFold: rapidità e precisione nella ricostruzione proteica

Come funziona l’intelligenza artificiale AlphaFold

Conclusioni e prospettive future

Fonti e approfondimenti:

Informazioni autore

Alessia Paradiso

Registrati alla nostra newsletter

Commenta l'argomento nel forum

La correlazione tra forma e funzione

La ricostruzione 3D di forma e funzione: dalle tecniche sperimentali ai modelli informatici

AlphaFold: rapidità e precisione nella ricostruzione proteica

Come funziona l’intelligenza artificiale AlphaFold

Conclusioni e prospettive future

Fonti e approfondimenti:

Informazioni autore

Alessia Paradiso

Registrati alla nostra newsletter

Ti potrebbe anche interessare..

Commenta l'argomento nel forum