Analýza obohacení GO

Jedním z hlavních využití GO je provádění analýzy obohacení genových souborů. Pokud je například zadán soubor genů, které jsou za určitých podmínek regulovány, analýza obohacení zjistí, které termíny GO jsou nadměrně (nebo nedostatečně) zastoupeny pomocí anotací pro tento soubor genů.

Nástroj pro analýzu obohacení

Uživatelé mohou provádět analýzy obohacení přímo z domovské stránky webu GOC. Tato služba se připojuje k analytickému nástroji z klasifikačního systému PANTHER, který je udržován v aktuálním stavu s anotacemi GO. Klasifikační systém PANTHER je velmi podrobně vysvětlen v článku Mi H et al, PMID: 23868073. Seznam podporovaných identifikátorů genů je k dispozici na webových stránkách PANTHER.

Použití nástrojů pro analýzu obohacení GO

1. Vložte nebo zadejte názvy genů, které chcete analyzovat, po jednom na řádek nebo oddělené čárkou. Nástroj si poradí jak s názvy genů specifickými pro MOD, tak s ID UniProt (např. Rad54 nebo P38086).

2. Vyberte aspekt GO (molekulární funkce, biologický proces, buněčná komponenta) pro vaši analýzu (výchozí je biologický proces).

3. Vyberte druh, ze kterého vaše geny pocházejí (výchozí je Homo sapiens).

4. Stiskněte tlačítko odeslat. Všimněte si, že v pozdějším kroku budete moci nahrát REFERENČNÍ (neboli „podkladový“) SEZNAM.

5. Tlačítko pro odeslání genů. Budete přesměrováni na výsledky na webové stránce PANTHER. Tyto výsledky jsou založeny na obohacení vzhledem k souboru všech genů kódujících proteiny v genomu, který jste vybrali v kroku 3.

6. (nepovinné, ale VELMI DOPORUČENÉ) Přidejte vlastní REFERENČNÍ SEZNAM a znovu spusťte analýzu. Stiskněte tlačítko „Změnit“ na řádku „Referenční seznam“ v souhrnu analýzy PANTHER v horní části stránky s výsledky, nahrajte soubor referenčního seznamu a stisknutím tlačítka „Spustit analýzu“ znovu spusťte analýzu. Referenční seznam by měl být seznam všech genů, z nichž byl vybrán váš menší seznam analýzy. Například v seznamu diferenciálně exprimovaných genů by měl referenční seznam obsahovat pouze geny, které byly v experimentu vůbec zjištěny, a tedy potenciálně mohly být na seznamu genů odvozeném z experimentu.

Interpretace tabulky výsledků

Na stránce s výsledky se zobrazí tabulka, která obsahuje seznam významných společných termínů GO (nebo rodičů termínů GO) použitých k popisu sady genů, které uživatelé zadali na předchozí stránce, frekvenci pozadí, frekvenci vzorku, očekávanou p-hodnotu, údaj o nadměrném/podměrném zastoupení pro každý termín a p-hodnotu. Kromě toho jsou na stránce s výsledky zobrazena všechna kritéria použitá při analýze. Všechny nevyřešené názvy genů budou uvedeny v horní části tabulky.

Frekvence pozadí a frekvence vzorku

Frekvence pozadí je počet genů anotovaných k termínu GO v celém souboru pozadí, zatímco frekvence vzorku je počet genů anotovaných k tomuto termínu GO ve vstupním seznamu. Například pokud vstupní seznam obsahuje 10 genů a obohacení se provádí pro biologický proces v S. cerevisiae, jehož soubor pozadí obsahuje 6442 genů, pak pokud je 5 z 10 vstupních genů anotováno k termínu GO: DNA, pak bude četnost vzorků pro opravu DNA 5/10. Zatímco pokud je v celém genomu S. cerevisiae 100 genů anotovaných k termínu oprava DNA, pak bude frekvence pozadí 100/6442.

Příliš zastoupený nebo nedostatečně zastoupený

Symboly + a – označují nadměrné nebo nedostatečné zastoupení termínu.

P-value

P-value je pravděpodobnost nebo šance, že z celkového počtu n genů v seznamu bude alespoň x genů anotováno k určitému termínu GO, vzhledem k podílu genů v celém genomu, které jsou anotovány k tomuto termínu GO. To znamená, že GO termíny sdílené geny v uživatelově seznamu se porovnávají s rozložením anotací na pozadí. Čím blíže je p-hodnota nule, tím významnější je konkrétní termín GO spojený se skupinou genů (tj. tím menší je pravděpodobnost, že pozorovaná anotace konkrétního termínu GO ke skupině genů vznikla náhodou).

Jinými slovy, pokud by při vyhledávání v ontologii procesů byly všechny geny ve skupině spojeny s „opravou DNA“, byl by tento termín významný. Protože však všechny geny v genomu (s anotacemi GO) jsou nepřímo spojeny s termínem nejvyšší úrovně „biologický_proces“, nebylo by významné, kdyby všechny geny ve skupině byly spojeny s tímto termínem velmi vysoké úrovně.

Externí nástroje

Existuje řada různých nástrojů, které poskytují možnosti obohacování. Některé z nich jsou založeny na webu, zatímco jiné mohou vyžadovat, aby si uživatel stáhl aplikaci nebo nainstaloval místní prostředí. Nástroje se liší algoritmy, které používají, statistickými testy, které provádějí, a frekvencí aktualizace podkladových dat GO. Uživatelé by proto měli být při používání externích nástrojů obezřetní, zejména pokud není verze GO okamžitě identifikovatelná.

Některé nástroje pro obohacování GO jsou schválené:

  • BiNGO
  • GeneWeaver
  • gProfiler
  • GOrilla
  • Ontologizer

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *