Análisis de enriquecimiento del GO

Uno de los principales usos del GO es realizar análisis de enriquecimiento en conjuntos de genes. Por ejemplo, dado un conjunto de genes que están regulados al alza bajo ciertas condiciones, un análisis de enriquecimiento encontrará qué términos GO están sobrerrepresentados (o infrarrepresentados) usando anotaciones para ese conjunto de genes.

Herramienta de análisis de enriquecimiento

Los usuarios pueden realizar análisis de enriquecimiento directamente desde la página principal del sitio web de GOC. Este servicio conecta con la herramienta de análisis del sistema de clasificación PANTHER, que se mantiene actualizado con las anotaciones GO. El sistema de clasificación PANTHER se explica con gran detalle en Mi H et al, PMID: 23868073. La lista de IDs de genes soportados está disponible en el sitio web de PANTHER.

Usando las herramientas de análisis de enriquecimiento GO

1. Pegue o escriba los nombres de los genes a analizar, uno por fila o separados por una coma. La herramienta puede manejar tanto nombres de genes específicos de MOD como IDs de UniProt (por ejemplo, Rad54 o P38086).

2. Seleccione el aspecto de GO (función molecular, proceso biológico, componente celular) para su análisis (proceso biológico es el predeterminado).

3. Seleccione la especie de la que provienen sus genes (Homo sapiens es el predeterminado).

4. Pulse el botón de enviar. Tenga en cuenta que podrá cargar una LISTA DE REFERENCIA (también conocida como «fondo») en un paso posterior.

5. Será redirigido a los resultados en el sitio web de PANTHER. Estos resultados se basan en el enriquecimiento relativo del conjunto de todos los genes codificadores de proteínas en el genoma que seleccionó en el paso 3.

6. (opcional pero MUY RECOMENDADO) Añada una LISTA DE REFERENCIA personalizada y vuelva a ejecutar el análisis. Pulse el botón «cambiar» en la línea «Lista de referencia» del resumen del análisis PANTHER en la parte superior de la página de resultados, cargue el archivo de la lista de referencia y pulse el botón «Iniciar análisis» para volver a ejecutar el análisis. La lista de referencia debe ser la lista de todos los genes de los que se seleccionó su lista de análisis más pequeña. Por ejemplo, en una lista de genes expresados diferencialmente, la lista de referencia debe contener sólo los genes que se detectaron en absoluto en el experimento, y por lo tanto potencialmente podría haber estado en una lista de genes derivados del experimento.

Interpretación de la tabla de resultados

La página de resultados muestra una tabla que enumera los términos GO compartidos significativos (o los padres de los términos GO) utilizados para describir el conjunto de genes que los usuarios introdujeron en la página anterior, la frecuencia de fondo, la frecuencia de la muestra, el valor p esperado, una indicación de sobrerrepresentación/subrepresentación para cada término y el valor p. Además, la página de resultados muestra todos los criterios utilizados en el análisis. Cualquier nombre de gen no resuelto aparecerá en la parte superior de la tabla.

Frecuencia de fondo y frecuencia de muestra

La frecuencia de fondo es el número de genes anotados a un término GO en todo el conjunto de fondo, mientras que la frecuencia de muestra es el número de genes anotados a ese término GO en la lista de entrada. Por ejemplo, si la lista de entrada contiene 10 genes y el enriquecimiento se realiza para el proceso biológico en S. cerevisiae cuyo conjunto de fondo contiene 6442 genes, entonces si 5 de los 10 genes de entrada están anotados al término GO Reparación del ADN, entonces la frecuencia de la muestra para la reparación del ADN será de 5/10. Mientras que si hay 100 genes anotados a la reparación del ADN en todo el genoma de S. cerevisiae, entonces la frecuencia de fondo será 100/6442.

Sobre-representados o sub-representados

Los símbolos + y – indican sobre o sub-representación de un término.

Valor P

El valor P es la probabilidad o posibilidad de ver al menos x número de genes del total de n genes en la lista anotados a un término GO particular, dada la proporción de genes en el genoma completo que están anotados a ese término GO. Es decir, los términos GO compartidos por los genes de la lista del usuario se comparan con la distribución de fondo de la anotación. Cuanto más se acerque el valor p a cero, más significativo es el término GO concreto asociado al grupo de genes (es decir, menos probable es que la anotación observada del término GO concreto a un grupo de genes se produzca por casualidad).

En otras palabras, al buscar en la ontología de procesos, si todos los genes de un grupo estuvieran asociados a la «reparación del ADN», este término sería significativo. Sin embargo, dado que todos los genes del genoma (con anotaciones GO) están asociados indirectamente con el término de nivel superior «proceso_biológico», esto no sería significativo si todos los genes de un grupo estuvieran asociados con este término de muy alto nivel.

Herramientas externas

Hay una serie de herramientas diferentes que proporcionan capacidades de enriquecimiento. Algunas de ellas están basadas en la web, mientras que otras pueden requerir que el usuario descargue una aplicación o instale un entorno local. Las herramientas difieren en los algoritmos que utilizan, las pruebas estadísticas que realizan y la frecuencia con la que se actualizan los datos GO subyacentes. Por lo tanto, los usuarios deben tener cuidado al utilizar herramientas externas, especialmente si la versión de GO no es inmediatamente identificable.

Algunas herramientas de enriquecimiento avaladas por GO son:

  • BiNGO
  • GeneWeaver
  • gProfiler
  • GOrilla
  • Ontologizer

.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *