Si tratta di un progresso straordinario nella comprensione della “macchina della vita”. Un sofisticato algoritmo di intelligenza artificiale (AI) creato dalla divisione DeepMind di Google è riuscito a determinare la forma di una proteina, con risultati di elevata affidabilità in tempi di calcolo rapidi (fino a 30 minuti) rispetto ai risultati ottenuti con metodi sperimentali, che arrivano a decenni di studio.
Il mondo della ricerca è pronto ad accogliere questa rivoluzionaria tecnologia: la conoscenza del meccanismo di ripiegamento delle proteine potrebbe infatti accelerare la diagnosi e la cura di molte malattie, portando alla scoperta di nuovi farmaci e trattamenti specifici.
La correlazione tra forma e funzione
Ormai da decenni si ipotizza che malattie degenerative come Alzheimer, Parkinson e fibrosi cistica siano causate da un ripiegamento non funzionale di specifiche proteine. Poter prevedere la forma di una proteina consentirebbe quindi una maggiore comprensione del suo ruolo all’interno del corpo.
Quasi tutte le proteine hanno dimensioni comprese tra 1 e 100 nm. Ciò rende difficile lo studio della struttura proteica stessa, date le nano-dimensioni da cui è caratterizzata. Per questo motivo i ricercatori si sono ultimamente focalizzati su tecniche e metodi all’avanguardia per capire il motivo per cui le proteine si ripieghino su se stesse.
Per poter infatti descrivere in maniera completa la singola proteina, in biologia molecolare se ne distinguono la struttura primaria, secondaria, terziaria e quaternaria della stessa (Figura 1).
La struttura di una proteina ne definisce l’interazione con altre proteine (e, più in generale, altre molecole) dell’organismo, determinandone quindi la sua stessa funzione. Solo per citarne alcune, una proteina può trasmettere impulsi nervosi, trasportare molecole, fungere da catalizzatore e gestire l’evoluzione delle cellule. Qualsiasi cambiamento strutturale, come anche solo un singolo ripiegamento, può determinarne una funzione differente.
La ricostruzione 3D di forma e funzione: dalle tecniche sperimentali ai modelli informatici
Risonanza magnetica nucleare, cristallografia a raggi X e microscopia crioelettronica sono tra le tecniche ad oggi disponibili per determinare la struttura delle proteine. Tuttavia le tecniche sperimentali richiedono molto tempo e la precisione dell’informazione a cui si arriva è spesso insoddisfacente.
I metodi computazionali hanno fatto da spartiacque tra la scorsa generazione di tecnologie e AlphaFold, l’intelligenza artificiale sviluppata da Google che viene in aiuto alla biologia molecolare così come la conosciamo. Negli anni sono aumentate velocità di calcolo e riproducibilità, nonostante i primi tentativi di modellizzazione naufragarono proprio a causa di quello che oggi è considerato il principale vantaggio della computazione: l’affidabilità della modellizzazione.
AlphaFold: rapidità e precisione nella ricostruzione proteica
Nel 1994 prese luogo il primo CASP, Critical Assessment of Structure Prediction (CASP). Fondato da John Moult, biologo computazionale, il CASP organizza competizioni biennali rivolte ai centri di ricerca che lavorano sulla predizione computazionale della struttura delle proteine, al fine di individuare nuove tecnologie efficaci a questo scopo.
Siamo rimasti bloccati sul problema del ripiegamento delle proteine per quasi 50 anni. Vedere DeepMind produrre una soluzione per questo, avendo lavorato personalmente su questo problema per così tanto tempo e dopo così tante fermate e ripartenze, chiedendoci se ci saremmo mai arrivati, è un momento molto speciale.
Co-fondatore e presidente di CASP, Università del Maryland
Proprio qualche mese fa, al CASP14-2020, il sistema di intelligenza artificiale sviluppato da DeepMind ha raggiunto l’obiettivo a lungo ricercato: prevedere con precisione la forma delle proteine solo dalla loro sequenza. Un passo fondamentale per comprendere come funziona il meccanismo della vita.
DeepMind partecipò già nel 2018 al CASP13 con una versione precedente di AlphaFold, un modello di apprendimento automatico (il cosiddetto “deep learning”) per elaborare e prevedere la distanza tra coppie di amminoacidi nelle catene proteiche, sovrapponendo il risultato con quello ottenuto dai metodi sperimentali.
La società britannica orientò la successiva ricerca di AlphaFold verso un’altra strada in previsione del CASP14, concentrandosi sui meccanismi fisico-geometrici (e sui loro limiti) di ripiegamento proteico, che riportano a forme e funzioni a noi già conosciute. Tra 146 gruppi in competizione, AlphaFold2 (per distinguerlo dall’AI del 2018) ha ottenuto la miglior valutazione (Figura 2).
Accuratezza e velocità ne hanno determinato la vittoria. L’intelligenza artificiale elaborata ha impiegato circa mezz’ora per ottenere la forma finale di una proteina batterica, sulla quale i ricercatori avevano lavorato per una decina di anni senza ottenere risultati rilevanti (Figura 3). In casi più complessi, i tempi di elaborazione raggiungono l’ordine dei giorni.
Per darvi un’idea più precisa del successo di AlphaFold in numeri: al CASP12 (tenutosi nel 2016) la miglior squadra ottenne un punteggio medio di circa 40 nella categoria più difficile della competizione. Al CASP13 la prima versione di AlphaFold ha ottenuto un punteggio medio di quasi 60 nella stessa categoria. Quest’anno AlphaFold ha ottenuto un punteggio medio di 87. Tra tutte le categorie, ha ottenuto un punteggio di 92.4 per due terzi delle proteine analizzate.
Come funziona l’intelligenza artificiale AlphaFold
Il team di ricerca ha sviluppato AlphaFold pensando alla proteina piegata come un “grafico spaziale”: i residui sono i nodi, i bordi collegano i residui in stretta vicinanza tra loro. La rete neurale sviluppata prova a interpretare la struttura del grafico spaziale, apprendendo implicitamente dal grafico in costruzione e utilizzando, ad esempio, sequenze evolutivamente correlate, allineamento di sequenze multiple (MSA) e una rappresentazione delle coppie di residui di amminoacidi. La re-iterazione di tale processo ha portato a previsioni robuste della struttura della proteina.
Per arrivare a ciò, il sistema di intelligenza artificiale è stato addestrato con dati – reperibili e disponibili pubblicamente – di circa 170 000 strutture proteiche dalla banca dati delle proteine, uniti alle informazioni ricavate da database contenenti sequenze proteiche di struttura ignota. AlphaFold utilizza ed elabora dati per un totale di 16 TPUv3 (l’equivalente di ~ 100-200 GPUs) in poche settimane (Figura 4).
Conclusioni e prospettive future
Ad oggi DeepMind ha rivelato solo alcuni dettagli su AlphaFold, ma a breve pubblicherà ulteriori dati su una rivista di settore, garantendo ampio accesso a tale tecnologia da parte della comunità scientifica con l’obiettivo di rendere l’algoritmo il più fruibile possibile.
Si apre pertanto una incredibile strada verso la determinazione della struttura delle proteine in tempi brevi. Una quantità limitata di dati potrebbe infatti essere sufficiente per elaborare la complessità di una qualsiasi proteina in poco tempo, proprio grazie al potente algoritmo sviluppato da DeepMind. Migliaia di proteine già individuate potrebbero essere a breve capite, studiate e analizzate, portando alla luce meccanismi ancora nascosti del nostro organismo e di malattie come tumori.
Fonti e approfondimenti:
- DeepMind.com – AlphaFold: a solution to a 50-year-old grand challenge in biology
- DeepMind.com – AlphaFold Open Source
- NewScientist.com – DeepMind’s AI biologist can decipher secrets of the machinery of life
- NewScientist.com – DeepMind found an AI learning technique also works in human brains
- Biochemistry, 5th Edition, Chapter 3 – Protein Structure and Function