Analyse d’enrichissement GO

L’une des principales utilisations du GO est de réaliser des analyses d’enrichissement sur des ensembles de gènes. Par exemple, étant donné un ensemble de gènes qui sont régulés à la hausse dans certaines conditions, une analyse d’enrichissement trouvera quels termes GO sont surreprésentés (ou sous-représentés) en utilisant les annotations pour cet ensemble de gènes.

Outil d’analyse d’enrichissement

Les utilisateurs peuvent effectuer des analyses d’enrichissement directement à partir de la page d’accueil du site Web du GOC. Ce service se connecte à l’outil d’analyse à partir du système de classification PANTHER, qui est maintenu à jour avec les annotations GO. Le système de classification PANTHER est expliqué en détail dans Mi H et al, PMID : 23868073. La liste des identifiants de gènes pris en charge est disponible sur le site web de PANTHER.

Utilisation des outils d’analyse d’enrichissement GO

1. Collez ou tapez les noms des gènes à analyser, un par ligne ou séparés par une virgule. L’outil peut gérer à la fois les noms de gènes spécifiques au MOD et les ID UniProt (par exemple Rad54 ou P38086).

2. Sélectionnez l’aspect GO (fonction moléculaire, processus biologique, composant cellulaire) pour votre analyse (processus biologique est par défaut).

3. Sélectionnez l’espèce dont proviennent vos gènes (Homo sapiens est par défaut).

4. Appuyez sur le bouton soumettre. Notez que vous pourrez télécharger une LISTE DE RÉFÉRENCE (alias « fond ») à une étape ultérieure.

5. Vous serez redirigé vers les résultats sur le site web de PANTHER. Ces résultats sont basés sur l’enrichissement relatif à l’ensemble de tous les gènes codant pour des protéines dans le génome que vous avez sélectionné à l’étape 3.

6. (facultatif mais HAUTEMENT RECOMMANDÉ) Ajoutez une LISTE DE RÉFÉRENCE personnalisée et relancez l’analyse. Appuyez sur le bouton « modifier » sur la ligne « Liste de référence » du résumé de l’analyse PANTHER en haut de la page des résultats, téléchargez le fichier de la liste de référence et appuyez sur le bouton « Lancer l’analyse » pour relancer l’analyse. La liste de référence doit être la liste de tous les gènes à partir desquels votre plus petite liste d’analyse a été sélectionnée. Par exemple, dans une liste de gènes différentiellement exprimés, la liste de référence ne devrait contenir que les gènes qui ont été détectés du tout dans l’expérience, et qui auraient donc potentiellement pu être sur une liste de gènes dérivés de l’expérience.

Interprétation du tableau des résultats

La page des résultats affiche un tableau qui répertorie les termes GO partagés significatifs (ou parents de termes GO) utilisés pour décrire l’ensemble des gènes que les utilisateurs ont saisis à la page précédente, la fréquence de fond, la fréquence de l’échantillon, la valeur p attendue, une indication de sur/sous-représentation pour chaque terme et la valeur p. En outre, la page des résultats affiche tous les critères utilisés dans l’analyse. Tout nom de gène non résolu sera listé en haut du tableau.

Fréquence de fond et fréquence d’échantillon

La fréquence de fond est le nombre de gènes annotés à un terme GO dans l’ensemble du fond, tandis que la fréquence d’échantillon est le nombre de gènes annotés à ce terme GO dans la liste d’entrée. Par exemple, si la liste d’entrée contient 10 gènes et que l’enrichissement est effectué pour un processus biologique dans S. cerevisiae dont l’ensemble de base contient 6442 gènes, si 5 des 10 gènes d’entrée sont annotés au terme GO : Réparation de l’ADN, alors la fréquence de l’échantillon pour la réparation de l’ADN sera de 5/10. Alors que si 100 gènes sont annotés à la réparation de l’ADN dans l’ensemble du génome de S. cerevisiae, alors la fréquence de fond sera de 100/6442.

Surreprésenté ou sous-représenté

Les symboles + et – indiquent la sur ou sous-représentation d’un terme.

P-value

La valeur P est la probabilité ou la chance de voir au moins un nombre x de gènes sur le total de n gènes de la liste annotés à un terme GO particulier, étant donné la proportion de gènes dans le génome entier qui sont annotés à ce terme GO. Autrement dit, les termes GO partagés par les gènes de la liste de l’utilisateur sont comparés à la distribution de fond de l’annotation. Plus la valeur p est proche de zéro, plus le terme GO particulier associé au groupe de gènes est significatif (c’est-à-dire que l’annotation observée du terme GO particulier à un groupe de gènes est moins probable par hasard).

En d’autres termes, lors d’une recherche dans l’ontologie des processus, si tous les gènes d’un groupe étaient associés à la « réparation de l’ADN », ce terme serait significatif. Cependant, étant donné que tous les gènes du génome (avec des annotations GO) sont indirectement associés au terme de niveau supérieur « processus_biologique », cela ne serait pas significatif si tous les gènes d’un groupe étaient associés à ce terme de très haut niveau.

Outils externes

Il existe un certain nombre d’outils différents qui fournissent des capacités d’enrichissement. Certains d’entre eux sont basés sur le Web, tandis que d’autres peuvent nécessiter que l’utilisateur télécharge une application ou installe un environnement local. Les outils diffèrent par les algorithmes qu’ils utilisent, les tests statistiques qu’ils effectuent et la fréquence à laquelle les données GO sous-jacentes sont mises à jour. Les utilisateurs doivent donc faire preuve de prudence lorsqu’ils utilisent des outils externes, en particulier si la version de GO n’est pas immédiatement identifiable.

Certains outils d’enrichissement approuvés par GO sont :

  • BiNGO
  • GeneWeaver
  • gProfiler
  • GOrilla
  • Ontologizer

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *