GO-anrikningsanalys | Organic Articles

En av de viktigaste användningsområdena för GO är att utföra anrikningsanalyser på genuppsättningar. Om man till exempel ger en uppsättning gener som är uppreglerade under vissa förhållanden, kommer en anrikningsanalys att hitta vilka GO-termer som är överrepresenterade (eller underrepresenterade) med hjälp av annotationer för den genuppsättningen.

Verktyg för anrikningsanalys
Användning av analysverktygen för GO-anrikning
Tolkning av resultattabellen
Bakgrundsfrekvens och provfrekvens
Över- eller underrepresenterad
P-värde
Externa verktyg

Verktyg för anrikningsanalys

Användare kan utföra anrikningsanalyser direkt från hemsidan på GOC:s webbplats. Denna tjänst ansluter till analysverktyget från PANTHER Classification System, som hålls uppdaterat med GO-annotationer. PANTHER-klassificeringssystemet förklaras i detalj i Mi H et al, PMID: 23868073. Listan över stödda gen-ID:n finns på PANTHER-webbplatsen.

Användning av analysverktygen för GO-anrikning

1. Klistra in eller skriv namnen på de gener som ska analyseras, en per rad eller separerade med ett kommatecken. Verktyget kan hantera både MOD-specifika gennamn och UniProt-ID:n (t.ex. Rad54 eller P38086).

2. Välj GO-aspekt (molekylär funktion, biologisk process, cellulär komponent) för din analys (biologisk process är standard).

3. Välj den art som dina gener kommer från (Homo sapiens är standard).

4. Tryck på knappen skicka. Observera att du kommer att kunna ladda upp en REFERENSLISTA (även kallad ”bakgrundslista”) i ett senare steg.

5. Du kommer att omdirigeras till resultaten på webbplatsen PANTHER. Dessa resultat är baserade på anrikning i förhållande till uppsättningen av alla proteinkodande gener i genomet som du valde i steg 3.

6. (valfritt, men MYCKET REKOMMENDERAT) Lägg till en anpassad REFERENSLISTA och kör analysen på nytt. Tryck på knappen ”Change” (ändra) på raden ”Reference list” (referenslista) i sammanfattningen av PANTHER-analysen högst upp på resultatsidan, ladda upp filen med referenslistan och tryck på knappen ”Launch analysis” (starta analysen) för att köra analysen på nytt. Referenslistan bör vara en lista över alla gener från vilken din mindre analyslista valdes. I en lista över differentiellt uttryckta gener bör referenslistan till exempel endast innehålla gener som överhuvudtaget upptäcktes i försöket och som därför potentiellt kunde ha funnits med på en lista över gener som härrör från försöket.

Tolkning av resultattabellen

Resultatsidan visar en tabell som listar signifikanta delade GO-termer (eller föräldrar till GO-termer) som används för att beskriva den uppsättning gener som användarna angav på föregående sida, bakgrundsfrekvensen, provfrekvensen, förväntat p-värde, en indikation på över-/underrepresentation för varje term och p-värde. På resultatsidan visas dessutom alla kriterier som använts i analysen. Eventuella olösta gennamn listas överst i tabellen.

Bakgrundsfrekvens och provfrekvens

Bakgrundsfrekvensen är antalet gener som annoterats till en GO-term i hela bakgrundsmängden, medan provfrekvensen är antalet gener som annoterats till den GO-termen i inmatningslistan. Om t.ex. ingångslistan innehåller 10 gener och anrikningen görs för en biologisk process i S. cerevisiae, vars bakgrundsuppsättning innehåller 6442 gener, så om 5 av de 10 ingående generna är annoterade till GO-termen: DNA-reparation, kommer provfrekvensen för DNA-reparation att vara 5/10. Om det däremot finns 100 gener som är annoterade till DNA-reparation i hela S. cerevisiae-genomet kommer bakgrundsfrekvensen att vara 100/6442.

Över- eller underrepresenterad

Symbolerna + och – anger över- eller underrepresentation av en term.

P-värde

P-värdet är sannolikheten eller chansen att se minst x antal gener av de totala n generna i listan som är annoterade till en viss GO-term, givet andelen gener i hela genomet som är annoterade till den GO-termen. Det vill säga de GO-termer som delas av generna i användarens lista jämförs med bakgrundsfördelningen av annoteringar. Ju närmare p-värdet ligger noll, desto mer signifikant är den särskilda GO-term som är associerad med gruppen av gener (dvs. desto mindre sannolikt är det att den observerade annoteringen av den särskilda GO-termen till en grupp av gener sker av en slump).

Med andra ord, vid sökning i processontologin, om alla gener i en grupp var associerade med ”DNA-reparation”, skulle denna term vara signifikant. Men eftersom alla gener i genomet (med GO-annotationer) indirekt är associerade med termen ”biological_process” på högsta nivå, skulle detta inte vara signifikant om alla gener i en grupp var associerade med denna term på mycket hög nivå.

Externa verktyg

Det finns ett antal olika verktyg som ger berikningsmöjligheter. Vissa av dessa är webbaserade medan andra kan kräva att användaren laddar ner ett program eller installerar en lokal miljö. Verktygen skiljer sig åt när det gäller vilka algoritmer de använder, vilka statistiska tester de utför och hur ofta de underliggande GO-data uppdateras. Användarna bör därför vara försiktiga när de använder externa verktyg, särskilt om GO-versionen inte är omedelbart identifierbar.

Några GO-godkända anrikningsverktyg är:

BiNGO
GeneWeaver
gProfiler
GOrilla
Ontologizer