Um dos principais usos do GO é realizar análise de enriquecimento em conjuntos de genes. Por exemplo, dado um conjunto de genes que são super-representados sob certas condições, uma análise de enriquecimento irá encontrar quais termos GO estão sobre-representados (ou sub-representados) usando anotações para aquele conjunto de genes.
Ferramenta de análise de enriquecimento
Os usuários podem realizar análises de enriquecimento diretamente da página inicial do site GOC. Este serviço liga-se à ferramenta de análise do Sistema de Classificação PANTHER, que é mantido em dia com as anotações GO. O sistema de classificação PANTHER é explicado em grande detalhe em Mi H et al, PMID: 23868073. A lista de IDs de genes suportados está disponível no site PANTHER.
Usando as ferramentas de análise de enriquecimento GO
1. Colar ou digitar os nomes dos genes a serem analisados, um por linha ou separado por vírgula. A ferramenta pode manipular tanto nomes de genes específicos de MOD quanto IDs UniProt (por exemplo, Rad54 ou P38086).
2. Selecione o aspecto GO (função molecular, processo biológico, componente celular) para sua análise (processo biológico é o padrão).
3. Selecione as espécies de onde seus genes vêm (Homo sapiens é o padrão).
4. Pressione o botão submeter. Note que você será capaz de carregar uma LISTA DE REFERÊNCIA (aka “background”) em um passo posterior.
5. Você será redirecionado para os resultados no site da PANTHER. Estes resultados são baseados no enriquecimento relativo do conjunto de genes codificadores de proteínas no genoma selecionado no passo 3.
6. (opcional mas ALTAMENTE RECOMENDADO) Adicione uma LISTA DE REFERÊNCIA personalizada e execute novamente a análise. Pressione o botão “mudar” na linha “Lista de referência” do resumo da análise PANTHER no topo da página de resultados, carregue o arquivo da lista de referência e pressione o botão “Iniciar análise” para executar novamente a análise. A lista de referência deve ser a lista de todos os genes a partir dos quais a sua lista de análise menor foi selecionada. Por exemplo, em uma lista de genes expressos de forma diferente, a lista de referência deve conter apenas genes que foram detectados no experimento, e assim potencialmente poderiam estar em uma lista de genes derivados do experimento.
Interpretando a tabela de resultados
A página de resultados exibe uma tabela que lista termos GO compartilhados significativos (ou pais de termos GO) usados para descrever o conjunto de genes que os usuários inseriram na página anterior, a freqüência de fundo, a freqüência da amostra, o valor de p esperado, uma indicação de sobre/subrepresentação para cada termo e o valor de p. Além disso, a página de resultados exibe todos os critérios utilizados na análise. Quaisquer nomes de genes não resolvidos serão listados no topo da tabela.
Frequência de fundo e frequência de amostra
Frequência de fundo é o número de genes anotados a um termo GO em todo o conjunto de fundo, enquanto frequência de amostra é o número de genes anotados a esse termo GO na lista de entrada. Por exemplo, se a lista de entrada contém 10 genes e o enriquecimento é feito para o processo biológico em S. cerevisiae cujo conjunto de fundo contém 6442 genes, então se 5 dos 10 genes de entrada são anotados para o termo GO: reparação do ADN, então a frequência da amostra para reparação do ADN será 5/10. Enquanto que se existem 100 genes anotados para o reparo do DNA em todo o genoma de S. cerevisiae, então a frequência de fundo será 100/6442.
Overrepresentação ou sub-representação
Os símbolos + e – indicam sobre ou subrepresentação de um termo.
Valor P
Valor P é a probabilidade ou chance de ver pelo menos x número de genes fora do total de n genes da lista anotados a um determinado termo GO, dada a proporção de genes em todo o genoma que são anotados a esse termo GO. Ou seja, os termos GO compartilhados pelos genes da lista do usuário são comparados com a distribuição de fundo da anotação. Quanto mais próximo do valor p estiver de zero, mais significativo é o termo GO particular associado ao grupo de genes (isto é, quanto menos provável a anotação observada do termo GO particular a um grupo de genes ocorre por acaso).
Em outras palavras, ao pesquisar a ontologia do processo, se todos os genes de um grupo estivessem associados ao “reparo do DNA”, este termo seria significativo. Entretanto, como todos os genes do genoma (com anotações GO) estão indiretamente associados ao termo de nível superior “processo_biológico”, isto não seria significativo se todos os genes de um grupo estivessem associados a este termo de nível muito alto.
Ferramentas externas
Existem várias ferramentas diferentes que fornecem capacidades de enriquecimento. Algumas delas são baseadas na web, enquanto outras podem exigir que o usuário baixe um aplicativo ou instale um ambiente local. As ferramentas diferem nos algoritmos que utilizam, nos testes estatísticos que realizam e na frequência com que os dados GO subjacentes são actualizados. Portanto, os usuários devem ter cuidado ao usar ferramentas externas, especialmente se a versão de GO não for imediatamente identificável.
algumas ferramentas de enriquecimento endossadas por GO são:
- BiNGO
- GeneWeaver
- gProfiler
- GOrilla
- Ontologizer