GOエンリッチメント分析

GOの主な用途の1つは、遺伝子セットに対してエンリッチメント分析を行うことです。

エンリッチメント解析ツール
GO濃縮解析ツールの使い方
結果表の解釈
バックグラウンド頻度とサンプル頻度
過剰発現・過小発現
P値
外部ツール

エンリッチメント解析ツール

ユーザーはGOCウェブサイトのトップページから直接エンリッチメント解析を行うことができます。このサービスは、GOアノテーションで最新に維持されているPANTHER分類システムから解析ツールに接続する。 PANTHER分類システムについては、Mi H et al, PMID: 23868073で詳しく説明されています。対応する遺伝子IDのリストはPANTHERのホームページから入手可能です。

GO濃縮解析ツールの使い方

1.GO濃縮解析ツールの使い方を説明します。解析する遺伝子名を1行に1つずつ、またはカンマで区切って貼り付けるか入力する。

2.解析するGOアスペクト（分子機能、生物学的プロセス、細胞成分）を選択します（生物学的プロセスがデフォルト）

3.遺伝子が由来する種を選択します（Homo sapiensがデフォルト）

4.送信ボタンをクリックします。

5.後のステップで、参照（別名「バックグラウンド」）リストをアップロードできるようになることに注意してください。 PANTHERのウェブサイト上の結果にリダイレクトされます。

6.カスタムリファレンスリストを追加して、解析を再実行します。結果ページ上部のPANTHER解析サマリーの「Reference list」行の「change」ボタンを押し、Reference listファイルをアップロードして「Launch analysis」ボタンを押し、解析を再実行します。 Reference listは、小さい方の解析リストが選択されたすべての遺伝子のリストである必要があります。例えば、差分発現遺伝子のリストでは、参照リストには、実験で全く検出されなかった遺伝子、つまり、実験から得られた遺伝子リストに含まれる可能性のある遺伝子のみを含める必要があります。

結果表の解釈

結果ページには、前のページでユーザーが入力した遺伝子セットを説明するために使用される重要な共有 GO 用語 (または GO 用語の親) 、バックグラウンド頻度、サンプル頻度、予想 p 値、各語の過剰/過小発現の表示、p 値が一覧表示される表が表示されます。また、結果ページには、解析に使用されたすべての基準が表示されます。

バックグラウンド頻度とサンプル頻度

バックグラウンド頻度は、バックグラウンドセット全体でGOタームに注釈された遺伝子の数であり、サンプル頻度は、入力リストでそのGOタームに注釈された遺伝子の数である。例えば、入力リストに10個の遺伝子があり、バックグラウンドセットが6442個の遺伝子を含むS. cerevisiaeの生物学的プロセスに対して濃縮が行われた場合、10個の入力遺伝子のうち5個がGOタームに注釈されているとする。 10個の入力遺伝子のうち5個がGO用語：DNA修復にアノテーションされている場合、DNA修復のサンプル頻度は5/10となる。

過剰発現・過小発現

記号の＋と-は、用語の過剰発現と過小発現を示します。

P値

P値とは、あるGOタームに注釈された全ゲノム中の遺伝子の割合から、リスト中の全n個の遺伝子のうち、少なくともx個の遺伝子がそのGOタームに注釈される確率または確率のことである。つまり、ユーザーのリスト中の遺伝子が共有するGOタームは、アノテーションのバックグラウンド分布と比較される。

言い換えれば、プロセスオントロジーを検索する場合、グループ内のすべての遺伝子が「DNA 修復」に関連していれば、この用語は有意となります。しかし、ゲノム内のすべての遺伝子 (GO 注釈付き) は、トップレベルの用語「biological_process」と間接的に関連しているので、グループ内のすべての遺伝子がこの非常に高いレベルの用語と関連していても、有意ではないでしょう。

外部ツール

濃縮機能を提供するさまざまなツールが存在します。これらの中には、Web ベースのものもあれば、ユーザーがアプリケーションをダウンロードしたり、ローカル環境をインストールしたりする必要があるものもあります。ツールは、使用するアルゴリズム、実行する統計テスト、基礎となるGOデータが更新される頻度において異なります。

いくつかのGO推奨エンリッチメントツールは以下の通りです：

BiNGO
GeneWeaver
gProfiler
GOrilla
Ontologizer

GOのバージョンによって、エンリッチメントツールは異なる。