Eine der Hauptanwendungen von GO ist die Durchführung von Anreicherungsanalysen für Gensätze. Bei einer Gruppe von Genen, die unter bestimmten Bedingungen hochreguliert sind, kann eine Anreicherungsanalyse herausfinden, welche GO-Terme überrepräsentiert (oder unterrepräsentiert) sind, indem Annotationen für diese Gengruppe verwendet werden.
Anreicherungsanalyse-Tool
Nutzer können Anreicherungsanalysen direkt von der Startseite der GOC-Website aus durchführen. Dieser Dienst stellt eine Verbindung zum Analysetool des PANTHER-Klassifikationssystems her, das mit GO-Annotationen auf dem neuesten Stand gehalten wird. Das PANTHER-Klassifizierungssystem wird in Mi H et al, PMID: 23868073 ausführlich erläutert. Die Liste der unterstützten Gen-IDs ist auf der PANTHER-Website verfügbar.
Verwendung der GO-Anreicherungsanalyse-Tools
1. Fügen Sie die Namen der zu analysierenden Gene ein oder geben Sie sie ein, entweder pro Zeile oder getrennt durch ein Komma. Das Tool kann sowohl MOD-spezifische Gennamen als auch UniProt-IDs (z. B. Rad54 oder P38086) verarbeiten.
2. Wählen Sie den GO-Aspekt (molekulare Funktion, biologischer Prozess, zellulärer Bestandteil) für Ihre Analyse aus (biologischer Prozess ist Standard).
3. Wählen Sie die Spezies aus, von der Ihre Gene stammen (Homo sapiens ist Standard).
4. Drücken Sie die Schaltfläche „Senden“. Beachten Sie, dass Sie zu einem späteren Zeitpunkt eine REFERENZLISTE (auch „Hintergrundliste“ genannt) hochladen können.
5. Sie werden zu den Ergebnissen auf der PANTHER-Website weitergeleitet. Diese Ergebnisse basieren auf der Anreicherung im Verhältnis zu allen proteinkodierenden Genen in dem Genom, das Sie in Schritt 3 ausgewählt haben.
6. (optional, aber SEHR EMPFOHLEN) Fügen Sie eine benutzerdefinierte REFERENZLISTE hinzu und führen Sie die Analyse erneut durch. Drücken Sie die Schaltfläche „Ändern“ in der Zeile „Referenzliste“ der PANTHER-Analysezusammenfassung oben auf der Ergebnisseite, laden Sie die Referenzlistendatei hoch und drücken Sie die Schaltfläche „Analyse starten“, um die Analyse erneut auszuführen. Die Referenzliste sollte die Liste aller Gene sein, aus der Ihre kleinere Analyseliste ausgewählt wurde. Bei einer Liste von differenziell exprimierten Genen sollte die Referenzliste beispielsweise nur Gene enthalten, die im Experiment überhaupt nachgewiesen wurden und somit potenziell in einer aus dem Experiment abgeleiteten Genliste hätten enthalten sein können.
Interpretation der Ergebnistabelle
Auf der Ergebnisseite wird eine Tabelle angezeigt, die signifikante gemeinsame GO-Begriffe (oder Eltern von GO-Begriffen) auflistet, die zur Beschreibung der von den Nutzern auf der vorherigen Seite eingegebenen Gengruppe verwendet wurden, sowie die Hintergrundhäufigkeit, die Probenhäufigkeit, den erwarteten p-Wert, einen Hinweis auf Über- oder Unterrepräsentation für jeden Begriff und den p-Wert. Darüber hinaus werden auf der Ergebnisseite alle in der Analyse verwendeten Kriterien angezeigt.
Häufigkeit im Hintergrund und Häufigkeit in der Stichprobe
Die Häufigkeit im Hintergrund ist die Anzahl der Gene, die mit einem GO-Term im gesamten Hintergrundsatz annotiert sind, während die Häufigkeit in der Stichprobe die Anzahl der Gene ist, die mit diesem GO-Term in der Eingabeliste annotiert sind. Wenn die Eingabeliste beispielsweise 10 Gene enthält und die Anreicherung für einen biologischen Prozess in S. cerevisiae durchgeführt wird, dessen Hintergrundmenge 6442 Gene enthält, dann sind, wenn 5 der 10 Eingabegene mit dem GO-Term annotiert sind: DNA-Reparatur, dann ist die Probenhäufigkeit für DNA-Reparatur 5/10. Wenn hingegen 100 Gene im gesamten S. cerevisiae-Genom für DNA-Reparatur annotiert sind, beträgt die Hintergrundhäufigkeit 100/6442.
Über- oder unterrepräsentiert
Die Symbole + und – zeigen die Über- oder Unterrepräsentation eines Begriffs an.
P-Wert
Der P-Wert ist die Wahrscheinlichkeit oder Chance, dass mindestens x Gene von den insgesamt n Genen in der Liste mit einem bestimmten GO-Term annotiert sind, wenn man den Anteil der Gene im gesamten Genom betrachtet, die mit diesem GO-Term annotiert sind. Das heißt, die GO-Terme, die von den Genen in der Liste des Nutzers verwendet werden, werden mit der Hintergrundverteilung der Annotation verglichen. Je näher der p-Wert bei Null liegt, desto signifikanter ist der bestimmte GO-Begriff, der mit der Gruppe von Genen assoziiert ist (d. h. desto unwahrscheinlicher ist es, dass die beobachtete Annotation des bestimmten GO-Begriffs für eine Gruppe von Genen zufällig erfolgt).
Mit anderen Worten: Wenn bei der Suche in der Prozess-Ontologie alle Gene einer Gruppe mit „DNA-Reparatur“ assoziiert wären, wäre dieser Begriff signifikant. Da jedoch alle Gene im Genom (mit GO-Annotationen) indirekt mit dem Top-Level-Term „biological_process“ assoziiert sind, wäre dies nicht signifikant, wenn alle Gene in einer Gruppe mit diesem sehr hochrangigen Term assoziiert wären.
Externe Tools
Es gibt eine Reihe verschiedener Tools, die Anreicherungsmöglichkeiten bieten. Einige davon sind webbasiert, bei anderen muss der Benutzer eine Anwendung herunterladen oder eine lokale Umgebung installieren. Die Tools unterscheiden sich in den von ihnen verwendeten Algorithmen, den statistischen Tests, die sie durchführen, und der Häufigkeit, mit der die zugrunde liegenden GO-Daten aktualisiert werden. Benutzer sollten daher bei der Verwendung externer Tools Vorsicht walten lassen, insbesondere wenn die GO-Version nicht sofort erkennbar ist.
Einige von GO unterstützte Anreicherungs-Tools sind:
- BiNGO
- GeneWeaver
- gProfiler
- GOrilla
- Ontologizer