Analiza wzbogacania GO | Organic Articles

Jednym z głównych zastosowań GO jest wykonywanie analizy wzbogacania na zestawach genów. Na przykład, biorąc pod uwagę zestaw genów, które są wyregulowane w pewnych warunkach, analiza wzbogacenia znajdzie, które terminy GO są nadreprezentowane (lub niedoreprezentowane) używając anotacji dla tego zestawu genów.

Narzędzie analizy wzbogacenia
Używanie narzędzi do analizy wzbogacenia GO
Interpretacja tabeli wyników
Częstotliwość tła i częstotliwość próbki
Nadreprezentowane lub niedoreprezentowane
Wartość P
Narzędzia zewnętrzne

Narzędzie analizy wzbogacenia

Użytkownicy mogą wykonywać analizy wzbogacenia bezpośrednio z głównej strony witryny GOC. Serwis ten łączy się z narzędziem analizy z Systemu Klasyfikacji PANTHER, który jest na bieżąco aktualizowany o adnotacje GO. System klasyfikacji PANTHER jest bardzo szczegółowo wyjaśniony w Mi H et al, PMID: 23868073. Lista obsługiwanych identyfikatorów genów jest dostępna na stronie PANTHER.

Używanie narzędzi do analizy wzbogacenia GO

1. Wklej lub wpisz nazwy genów, które mają być analizowane, po jednym w wierszu lub oddzielone przecinkiem. Narzędzie może obsługiwać zarówno nazwy genów specyficzne dla MOD, jak i identyfikatory UniProt (np. Rad54 lub P38086).

2. Wybierz aspekt GO (funkcja molekularna, proces biologiczny, składnik komórkowy) do analizy (domyślnie proces biologiczny).

3. Wybierz gatunek, z którego pochodzą geny (domyślnie Homo sapiens).

4. Naciśnij przycisk wyślij. Zauważ, że będziesz mógł przesłać LISTĘ REFERENCYJNĄ (aka „tło”) w późniejszym etapie.

5. Zostaniecie Państwo przekierowani do wyników na stronie PANTHER. Wyniki te są oparte na wzbogaceniu względem zestawu wszystkich genów kodujących białka w genomie wybranym w kroku 3.

6. (opcjonalnie, ale WYSOKO ZALECANE) Dodaj niestandardową LISTĘ ODNIESIENIA i ponownie uruchom analizę. Naciśnij przycisk „change” w linii „Reference list” w podsumowaniu analizy PANTHER na górze strony z wynikami, załaduj plik z listą referencyjną i naciśnij przycisk „Launch analysis”, aby ponownie uruchomić analizę. Lista referencyjna powinna być listą wszystkich genów, z których została wybrana mniejsza lista analiz. Na przykład, w przypadku listy genów ulegających różnej ekspresji, lista referencyjna powinna zawierać tylko te geny, które w ogóle zostały wykryte w eksperymencie, a więc potencjalnie mogły znaleźć się na liście genów pochodzących z eksperymentu.

Interpretacja tabeli wyników

Strona wyników wyświetla tabelę, która zawiera listę znaczących wspólnych terminów GO (lub rodzica terminów GO) użytych do opisu zestawu genów, które użytkownicy wprowadzili na poprzedniej stronie, częstotliwość tła, częstotliwość próbki, oczekiwaną wartość p, wskazanie nadreprezentacji/niedoreprezentacji dla każdego terminu i wartość p. Ponadto na stronie wyników wyświetlane są wszystkie kryteria użyte w analizie. Wszelkie nierozwiązane nazwy genów będą wymienione na górze tabeli.

Częstotliwość tła i częstotliwość próbki

Częstotliwość tła jest liczbą genów przypisanych do terminu GO w całym zbiorze tła, podczas gdy częstotliwość próbki jest liczbą genów przypisanych do tego terminu GO na liście wejściowej. Na przykład, jeśli lista wejściowa zawiera 10 genów, a wzbogacanie odbywa się dla procesu biologicznego w S. cerevisiae, którego zestaw tła zawiera 6442 geny, to jeśli 5 z 10 genów wejściowych jest adnotowanych do terminu GO: DNA repair, wówczas częstość próbkowania dla naprawy DNA wyniesie 5/10. Jeśli natomiast w całym genomie S. cerevisiae znajduje się 100 genów przypisanych do naprawy DNA, wówczas częstość tła wyniesie 100/6442.

Nadreprezentowane lub niedoreprezentowane

Symbole + i – oznaczają nadreprezentację lub niedoreprezentację terminu.

Wartość P

Wartość P jest prawdopodobieństwem lub szansą zobaczenia co najmniej x liczby genów z całkowitej liczby n genów na liście przypisanych do danego terminu GO, biorąc pod uwagę proporcję genów w całym genomie, które są przypisane do tego terminu GO. Oznacza to, że terminy GO współdzielone przez geny z listy użytkownika są porównywane z rozkładem adnotacji w tle. Im wartość p jest bliższa zeru, tym bardziej znaczący jest dany termin GO związany z grupą genów (tj. tym mniej prawdopodobne jest, że obserwowana adnotacja danego terminu GO do grupy genów jest przypadkowa).

Innymi słowy, podczas przeszukiwania ontologii procesów, jeśli wszystkie geny w grupie byłyby związane z „naprawą DNA”, termin ten byłby znaczący. Jednakże, ponieważ wszystkie geny w genomie (z adnotacjami GO) są pośrednio związane z terminem najwyższego poziomu „biologiczny_proces”, nie byłoby to znaczące, gdyby wszystkie geny w grupie były związane z tym terminem bardzo wysokiego poziomu.

Narzędzia zewnętrzne

Istnieje wiele różnych narzędzi, które zapewniają możliwości wzbogacania. Niektóre z nich są oparte na sieci, podczas gdy inne mogą wymagać od użytkownika pobrania aplikacji lub zainstalowania lokalnego środowiska. Narzędzia różnią się algorytmami, które wykorzystują, testami statystycznymi, które wykonują oraz częstotliwością, z jaką uaktualniane są podstawowe dane GO. Dlatego użytkownicy powinni zachować ostrożność podczas korzystania z zewnętrznych narzędzi, zwłaszcza jeśli wersja GO nie jest natychmiast rozpoznawalna.

Niektóre narzędzia do wzbogacania danych GO to:

BiNGO
GeneWeaver
gProfiler
GOrilla
Ontologizer