Menu
Tecnologie omiche | Biochronicles

Tecnologie “omiche” e integrazione dei dati

La diffusione e il miglioramento delle tecnologie di caratterizzazione molecolare a cui abbiamo assistito in questi ultimi anni (in particolare con l’introduzione dei sequenziatori di seconda generazione) ci permette di studiare contemporaneamente i diversi livelli del flusso di informazione biologica. Si va dal sequenziamento di tutto il DNA (genomica), alla valutazione dei livelli di RNA (trascrittomica), ai processi di metilazione (epigenomica) fino alle studio delle interazioni tra proteine (proteomica); queste tecnologie vengono nel loro insieme definite “omiche”. La necessità di analizzare l’enormequantità di dati generata da queste tecnologie ha dato un forte impulso alla creazione di nuovi strumenti e metodi bioinformatici. Attualmente la ricerca in questo campo è particolarmente indirizzata allo sviluppo di metodologie che permettano l’integrazione dei dati di diverse omiche, in modo da eseguire una caratterizzazione molecolare più completa del fenomeno biologico in esame. Così diventa più semplice individuare sottoclassi differenti di pazienti o marcatori biologici che rivestano un ruolo fondamentale nella patogenesi, in modo da programmare interventi farmacologici mirati ed essere in grado di migliorare le capacità diagnostiche e prognostiche.

VARIAZIONE NEI LIVELLI DI INFORMAZIONE BIOLOGICA

Ognuno dei livelli biologici menzionati sopra (genomica, trascrittomica, epigenetica e proteomica) presenta delle variazioni tra individuo ed individuo, possibilmente associabili all’insorgenza di una specifica patologia o anche a tratti fisiologici specifici.

Per variazione genetica intendiamo le variazioni dei nucleotidi, i singoli componenti del DNA, o più ampie modifiche come acquisizioni o perdite di DNA (ma anche riarrangiamenti), che possono alterare la funzionalità o l’espressione di un gene. Lo studio dell’espressione genica (trascrittomica) consiste invece nella valutazione quantitativa degli RNA messaggeri (mRNA) relativi ai geni di un individuo o un di qualsiasi organismo vivente. Gli RNA messaggeri hanno il compito di trasportare le informazioni contenute nei geni che sono necessarie per la produzione delle proteine. Lo studio dell’espressione genica ci fornisce quindi una panoramica su quali geni sono funzionanti o meno in quel dato momento e in quel particolare distretto o tessuto dell’organismo. L’espressione genica viene anche modulata mediante piccole molecole di RNA (microRNA) o da fenomeni epigenetici, che sono delle modifiche temporanee del DNA.

Figura -1

La regolazione dell’espressione genica si ripercuote nella distribuzione, quantità e funzionamento delle proteine nei vari distretti corporei e nel corso dello sviluppo dell’organismo.

L’insieme di queste valutazioni, e l’indagine di come un livello può influenzare l’altro (ad esempio, come i fenomeni epigenetici e le variazioni nel DNA modificano l’espressione di un particolare gene), ci permettono di eseguire una caratterizzazione molecolare accurata della patologia.

Figura 1. Schema dei diversi livelli di regolazione del flusso di informazione biologica (Amaral et al., 2008).

ALTERAZIONI GENETICHE, FUNZIONALI E PATOLOGICHE

Ma perché è necessario considerare simultaneamente i diversi livelli dell’informazione biologica? Esistono svariate strategie che permettono di studiare il DNA o l’RNA e di mettere in relazione la loro variabilità con una patologia.

Un approccio consiste nel confrontare un gruppo di individui che hanno una determinata patologia con individui sani, detti «controllo». A questo punto si caratterizza il loro DNA e si individuano eventuali variazioni specifiche nel gruppo di pazienti, non presenti nel gruppo di controllo. Se, ad esempio, individuassimo che l’80% dei pazienti ha una particolare variazione in uno specifico gene, e che questa variazione è assente negli individui di controllo, potremmo ipotizzare che questa variazione genetica sia responsabile dell’insorgenza della patologia. Ovviamente l’applicazione di metodi statistici ci aiuta in questa valutazione, suggerendoci quanto più prevalente deve essere una variazione genetica nei pazienti rispetto agli individui sani per considerarla come potenziale causa di malattia.

Questo è solo il punto di partenza: dobbiamo poi essere in grado di valutare quanto questa variazione influenzi l’espressione genica; in aggiunta, come abbiamo visto prima, l’espressione del gene può anche essere influenzata dai fenomeni epigenetici e da microRNA.

Infine, si può anche studiare se queste variazioni hanno un effetto sulle interazioni tra proteine: una variazione può alterare la conformazione di una proteina con il risultato finale di distruggere l’interazione con un’altra proteina e alterando così un processo cellulare.

METODI E STRUMENTI PER L’INTEGRAZIONE DI DIVERSI DATI “OMICI”

A questo punto,  è estremamente importante sviluppare delle procedure computazionali che prendano in considerazione i diversi livelli e siano in grado di integrarli, mettendo in evidenza meccanismi non osservabili quando i livelli biologici sono analizzati in maniera indipendente. Uno dei principali limiti a questo sviluppo è il fatto che i dati provenienti dai diversi livelli biologici sono eterogenei, e hanno differenti scale e unità di misura, con la conseguenza che una comparazione diretta risulta impossibile o estremamente complicata.

Un metodo matematico che sembra doveroso riportare è il sMBPLS (acronimo di Multi-Block Partial Least Squares): si tratta essenzialmente di un metodo di regressione che permette di includere e analizzare simultaneamente almeno tre diverse tipologie di dati, utilizzabile su MATLAB.

Senza entrare nei dettagli del modello matematico, prendiamo in considerazione dei campioni analizzati per varianti geniche, espressione genica, epigenetica e microRNA.

In questo esempio, lo scopo è di identificare varianti geniche, pattern epigenetici e di microRNA che simultaneamente influenzino l’espressione genica di un sottogruppo di geni, eventualmente in un sottogruppo di pazienti. La figura 2 indica graficamente un esempio di quello che si può ottenere, ma il tutto è corredato da statistiche che permettono di valutare quale siano i geni e il sottogruppo di pazienti che sono associati con dei profili concordanti.

Figura 2. Output creato con il metodo sMBPLS per valutare come le variazioni genomiche, epigenetiche e i microRNA (riquadri: CNV, DM, ME) influenzino l’espressione genica (GE) (Li et al., 2012).

Figura 2

Un altro interessante strumento è R-OmicCircos, basato sull’ambiente di calcolo open source R, che permette la visualizzazione di grafici circolari per confrontare i dati provenienti dall’analisi di diverse omiche.

Figura 3

In figura 3 si può vedere un tipico esempio di output: in sintesi, si tratta di cerchi concentrici ognuno dei quali contiene delle informazioni sui diversi livelli biologici: variazioni nel DNA, espressione genica, epigenetica e metilazione. Questo strumento non solo permette una visualizzazione grafica ma anche una statistica tra i diversi livelli, permettendo di evidenziare anche regioni genomiche che interagiscono tra di loro.

Figura 3. Esempio di un diagramma creato con R-OmicCircus (Hu et al., 2014).

Come ultimo esempio si può citare il 3-MDI, acronimo di “Multistate 3-state model for multidimensional data integration”. I dati provenienti da ciascuna omica (come varianti geniche, dati di espressione genica ed epigenetici) vengono analizzati prima separatamente e poi integrati con un metodo basato sull’analisi combinatoria, riuscendo ad individuare una serie di geni che hanno dei profili concordanti nei diversi livelli. In figura 4 vediamo i risultati ottenuti con i tre tipi di dati menzionati sopra.

Figura 4. Esempio di output grafico ottenuto con il metodo 3-MDI. Sono stati utilizzati dati da RNA (colonna a sinistra), DNA (colonna centrale) e dati epigenetici (colonne a destra).

Figura 4 | Biochronicles

Talvolta è utile avere a disposizione grosse quantità di dati pubblicati messi a disposizione da altri ricercatori, ma spesso i database disponibili sono monotematici, per cui possiamo usufruire nello stesso database di dati di una sola tipologia (e.g.: solo genomici o trascrittomici). Recentemente la tendenza è quella di sviluppare nuovi database (o ampliare quelli già esistenti) collezionando dati di diverso tipo. Inoltre, il valore aggiunto di questi software è la possibilità di visualizzare il risultato con grafici costruiti ad hoc rendendo l’analisi dei dati fruibile anche da chi non ha specifiche competenze di bioinformatica, in genere con l’ausilio di specifiche piattaforme web.

Il primo esempio da riportare è BioMiner, che permette l’analisi e la visualizzazione contemporanea di dati di genomica, trascrittomica e proteomica contenuti nel database SystherDB, in particolare focalizzato su dati che provegono da studi eseguiti sui tumori. Il database MOPED, acronimo di “Multi-Omics Profiling Expression Database”, inizialmente utilizzato come database per dati proteici, è stato recentemente implementato con l’inserimento di dati sull’espressione genica umana e di altri organismi. I dati presenti sono poi connessi con informazioni relative ai geni e alle proteine, che ne facilitano l’analisi. Inoltre il database contiene una serie di funzioni per l’analisi e la visualizzazione dei dati, con la possibilità di analizzare anche dati caricati dall’utente.

TECNOLOGIE “OMICHE” PER LA MEDICINA PERSONALIZZATA

In conclusione, l’utilizzo di queste metodologie per la caratterizzazione e l’analisi dei diversi livelli biologici consente di indirizzare meglio la conoscenza dei meccanismi patogenetici a livello molecolare permettendo, dove possibile, di individuare dei sottogruppi di pazienti o biomarcatori che consentano di migliorare la diagnosi o addirittura pianificare delle terapie personalizzate. Anche da un punto di vista più teorico, riveste una particolare importanza la conoscenza e lo studio di come i diversi livelli di informazione biologica interagiscano tra loro: conoscenza che ci permette di ampliare sempre di più il “libretto di istruzioni” dell’organismo umano e animale, consentendoci di intervenire in modo più mirato e raffinato per migliorare la salute dei pazienti e l’utilizzo delle cure attualmente disponibili.

BIBLIOGRAFIA

A cura di Ignazio Piras. Revisionato da Gabriele Girelli.


About the Author : Biochronicles

Associazione di Promozione Sociale per la divulgazione scientifica.

1 Comment
  1. […] questo motivo gli stessi ricercatori hanno individuato, negli ultimi anni, tramite diverse simulazioni software, la parte della molecola più sensibile al calore e, quindi, alla perdita di efficacia, una volta […]

Leave a Comment

Your email address will not be published.

Related post

  TOP