Uno degli usi principali del GO è quello di eseguire analisi di arricchimento su gruppi di geni. Per esempio, dato un set di geni che sono up-regolati in certe condizioni, un’analisi di arricchimento troverà quali termini GO sono sovra-rappresentati (o sotto-rappresentati) usando le annotazioni per quel set di geni.
Strumento di analisi di arricchimento
Gli utenti possono eseguire analisi di arricchimento direttamente dalla home page del sito web del GOC. Questo servizio si collega allo strumento di analisi dal PANTHER Classification System, che è mantenuto aggiornato con le annotazioni GO. Il sistema di classificazione PANTHER è spiegato in dettaglio in Mi H et al, PMID: 23868073. L’elenco degli ID dei geni supportati è disponibile sul sito web PANTHER.
Utilizzando gli strumenti di analisi di arricchimento GO
1. Incollare o digitare i nomi dei geni da analizzare, uno per riga o separati da una virgola. Lo strumento può gestire sia i nomi di geni specifici MOD che gli ID UniProt (per esempio Rad54 o P38086).
2. Seleziona l’aspetto GO (funzione molecolare, processo biologico, componente cellulare) per la tua analisi (processo biologico è il default).
3. Seleziona la specie da cui provengono i tuoi geni (Homo sapiens è il default).
4. Premi il pulsante submit. Nota che sarai in grado di caricare una LISTA DI RIFERIMENTO (alias “sfondo”) in una fase successiva.
5. Sarete reindirizzati ai risultati sul sito web PANTHER. Questi risultati si basano sull’arricchimento relativo all’insieme di tutti i geni codificanti proteine nel genoma che avete selezionato al punto 3.
6. (facoltativo ma ALTAMENTE RACCOMANDATO) Aggiungete una REFERENCE LIST personalizzata e ripetete l’analisi. Premete il pulsante “change” sulla riga “Reference list” del riepilogo dell’analisi PANTHER in cima alla pagina dei risultati, caricate il file della lista di riferimento e premete il pulsante “Launch analysis” per eseguire nuovamente l’analisi. L’elenco di riferimento dovrebbe essere l’elenco di tutti i geni da cui è stato selezionato il vostro elenco di analisi più piccolo. Per esempio, in un elenco di geni differenzialmente espressi, l’elenco di riferimento dovrebbe contenere solo i geni che sono stati rilevati nell’esperimento, e quindi potenzialmente avrebbero potuto essere in un elenco di geni derivati dall’esperimento.
Interpretare la tabella dei risultati
La pagina dei risultati visualizza una tabella che elenca i termini GO significativi condivisi (o i genitori dei termini GO) utilizzati per descrivere l’insieme di geni che gli utenti hanno inserito nella pagina precedente, la frequenza di fondo, la frequenza del campione, il valore p atteso, un’indicazione di sovra/sotto-rappresentazione per ogni termine e il valore p. Inoltre, la pagina dei risultati visualizza tutti i criteri utilizzati nell’analisi. Qualsiasi nome di gene non risolto sarà elencato in cima alla tabella.
Frequenza di fondo e frequenza del campione
La frequenza di fondo è il numero di geni annotati a un termine GO nell’intero set di fondo, mentre la frequenza del campione è il numero di geni annotati a quel termine GO nella lista di input. Per esempio, se la lista di input contiene 10 geni e l’arricchimento è fatto per il processo biologico in S. cerevisiae il cui set di sfondo contiene 6442 geni, allora se 5 dei 10 geni di input sono annotati al termine GO: Riparazione del DNA, allora la frequenza del campione per la riparazione del DNA sarà 5/10. Mentre se ci sono 100 geni annotati alla riparazione del DNA in tutto il genoma di S. cerevisiae, allora la frequenza di fondo sarà 100/6442.
Soprappresentato o sottorappresentato
I simboli + e – indicano la sovrarappresentazione o sottorappresentazione di un termine.
Valore P
Il valore P è la probabilità o la possibilità di vedere almeno x numero di geni sul totale di n geni nella lista annotati a un particolare termine GO, data la proporzione di geni nell’intero genoma che sono annotati a quel termine GO. Cioè, i termini GO condivisi dai geni nella lista dell’utente sono confrontati con la distribuzione di fondo dell’annotazione. Più il p-value è vicino a zero, più è significativo il particolare termine GO associato al gruppo di geni (cioè meno è probabile che l’annotazione osservata del particolare termine GO a un gruppo di geni avvenga per caso).
In altre parole, quando si cerca nell’ontologia dei processi, se tutti i geni di un gruppo fossero associati alla “riparazione del DNA”, questo termine sarebbe significativo. Tuttavia, poiché tutti i geni nel genoma (con annotazioni GO) sono indirettamente associati al termine di primo livello “processo_biologico”, questo non sarebbe significativo se tutti i geni di un gruppo fossero associati a questo termine di altissimo livello.
Strumenti esterni
Ci sono diversi strumenti che forniscono capacità di arricchimento. Alcuni di questi sono basati sul web mentre altri possono richiedere all’utente di scaricare un’applicazione o installare un ambiente locale. Gli strumenti differiscono negli algoritmi che usano, nei test statistici che eseguono e nella frequenza con cui vengono aggiornati i dati GO sottostanti. Gli utenti dovrebbero quindi prestare attenzione quando utilizzano strumenti esterni, soprattutto se la versione di GO non è immediatamente identificabile.
Alcuni strumenti di arricchimento GO approvati sono:
- BiNGO
- GeneWeaver
- gProfiler
- GOrilla
- Ontologizer