GO-verrijkingsanalyse | Organic Articles

Een van de belangrijkste toepassingen van GO is het uitvoeren van verrijkingsanalyses op genensets. Als bijvoorbeeld een reeks genen onder bepaalde omstandigheden wordt verhoogd, kan met een verrijkingsanalyse worden nagegaan welke GO-termen oververtegenwoordigd (of ondervertegenwoordigd) zijn in de annotaties voor die genenset.

Analyse-tool voor verrijking
Gebruik van de GO verrijkingsanalyse tools
Interpretatie van de resultatentabel
Grondfrequentie en samplefrequentie
Over- of ondervertegenwoordigd
P-waarde
Externe tools

Analyse-tool voor verrijking

Gebruikers kunnen verrijkingsanalyses rechtstreeks vanaf de startpagina van de GOC-website uitvoeren. Deze dienst maakt verbinding met de analysetool van het PANTHER-classificatiesysteem, dat up-to-date wordt gehouden met GO-annotaties. Het PANTHER-classificatiesysteem wordt zeer gedetailleerd uitgelegd in Mi H et al, PMID: 23868073. De lijst van ondersteunde gen-ID’s is beschikbaar op de PANTHER website.

Gebruik van de GO verrijkingsanalyse tools

1. Plak of typ de namen van de genen die geanalyseerd moeten worden, één per rij of gescheiden door een komma. De tool kan zowel MOD-specifieke gennamen als UniProt ID’s verwerken (bijv. Rad54 of P38086).

2. Selecteer het GO-aspect (moleculaire functie, biologisch proces, cellulaire component) voor uw analyse (biologisch proces is standaard).

3. Selecteer de soort waarvan uw genen afkomstig zijn (Homo sapiens is standaard).

4. Druk op de submit-knop. Merk op dat u in een latere stap een REFERENCE (aka “achtergrond”) LIST kunt uploaden.

5. U wordt doorverwezen naar de resultaten op de PANTHER website. Deze resultaten zijn gebaseerd op verrijking ten opzichte van de set van alle eiwit-coderende genen in het genoom die je in stap 3 hebt geselecteerd.

6. (optioneel maar TEN ZEERSTE AANBEVOLEN) Voeg een aangepaste REFERENCE LIST toe en voer de analyse opnieuw uit. Druk op de “wijzig” knop op de “Referentielijst” regel van het PANTHER analyse overzicht bovenaan de resultaten pagina, upload het referentielijst bestand, en druk op de “Start analyse” knop om de analyse opnieuw uit te voeren. De referentielijst moet de lijst zijn van alle genen waaruit uw kleinere analyselijst is geselecteerd. Bijvoorbeeld, in een lijst van differentieel geëxpresseerde genen, moet de referentielijst alleen genen bevatten die überhaupt in het experiment zijn gedetecteerd, en dus mogelijk op een lijst van genen hadden kunnen staan die van het experiment zijn afgeleid.

Interpretatie van de resultatentabel

De resultatenpagina toont een tabel met significante gedeelde GO-termen (of ouders van GO-termen) die zijn gebruikt om de verzameling genen te beschrijven die gebruikers op de vorige pagina hebben ingevoerd, de achtergrondfrequentie, de monsterfrequentie, de verwachte p-waarde, een indicatie van over-/ondervertegenwoordiging voor elke term, en de p-waarde. Bovendien toont de resultatenpagina alle criteria die in de analyse zijn gebruikt. Eventuele onopgeloste gennamen worden bovenaan de tabel vermeld.

Grondfrequentie en samplefrequentie

Grondfrequentie is het aantal genen dat geannoteerd is aan een GO term in de gehele achtergrondset, terwijl samplefrequentie het aantal genen is dat geannoteerd is aan die GO term in de inputlijst. Bijvoorbeeld, als de inputlijst 10 genen bevat en de verrijking wordt uitgevoerd voor biologisch proces in S. cerevisiae waarvan de achtergrondset 6442 genen bevat, dan als 5 van de 10 inputgenen geannoteerd zijn aan de GO-term: DNA repair, dan zal de sample-frequentie voor DNA repair 5/10 zijn. Maar als er in het gehele genoom van S. cerevisiae 100 genen zijn geannoteerd voor DNA-reparatie, dan zal de achtergrondfrequentie 100/6442 zijn.

Over- of ondervertegenwoordigd

De symbolen + en – geven over- of ondervertegenwoordiging van een term aan.

P-waarde

P-waarde is de waarschijnlijkheid of kans dat ten minste x aantal genen op het totaal van n in de lijst geannoteerd is aan een bepaalde GO-term, gegeven het aandeel genen in het hele genoom dat aan die GO-term is geannoteerd. Dat wil zeggen dat de GO-termen die door de genen in de lijst van de gebruiker worden gedeeld, worden vergeleken met de achtergrondverdeling van de annotatie. Hoe dichter de p-waarde bij nul ligt, hoe significanter de specifieke GO-term is die met de groep genen is geassocieerd (d.w.z. hoe kleiner de kans dat de waargenomen annotatie van de specifieke GO-term bij een groep genen toevallig is).

Met andere woorden, als bij het zoeken in de procesontologie alle genen in een groep geassocieerd zouden zijn met “DNA repair”, zou deze term significant zijn. Maar omdat alle genen in het genoom (met GO annotaties) indirect geassocieerd zijn met de top-level term “biologisch_proces”, zou dit niet significant zijn als alle genen in een groep geassocieerd zouden zijn met deze zeer high-level term.

Externe tools

Er zijn een aantal verschillende tools die verrijkingsmogelijkheden bieden. Sommige zijn webgebaseerd, terwijl andere de gebruiker kunnen verplichten een applicatie te downloaden of een lokale omgeving te installeren. Tools verschillen in de algoritmen die ze gebruiken, de statistische tests die ze uitvoeren, en de frequentie waarmee de onderliggende GO-gegevens worden bijgewerkt. Gebruikers moeten daarom voorzichtig zijn met het gebruik van externe tools, vooral als de versie van GO niet direct te achterhalen is.

Enkele GO-goedgekeurde verrijkingstools zijn:

BiNGO
GeneWeaver
gProfiler
GOrilla
Ontologizer