GEO(Gene Expression Omnibus)へのデータ登録とその利用
マイクロアレイやNGSなどの網羅的な遺伝子発現データを含めた論文を投稿する際には、そのデータをデータベースに登録して公開することを求められることが多くなっています。公開データベースとしてはNCBIのGEOが一般的であり、GEOの登録フォーマットに従えば、MIAMI (Minimum Information About a Microarray Experiment)に準拠したデータ方式で登録することができます。また、全てのデータが同じ形式で登録されていますので、世界中で登録されたデータを取得して解析を行うことも可能です。以下GEOへのデータ登録の方法とデータの検索、利用方法について紹介させていただきます。
MIAMIガイドライン:https://www.ncbi.nlm.nih.gov/geo/info/MIAME.html
GEOの概要
GEOの概要:https://www.ncbi.nlm.nih.gov/geo/info/overview.html
GEOの概要:GEOはNCBIが提供・維持管理している遺伝子発現情報のデータベースで研究者から提出されたマイクロアレイ、NGSなどから得られた機能ゲノミクスデータを蓄積し、自由に配布する国際公開リポジトリです。以下の3つの目的をもっています。
・機能的ゲノムデータを汎用性の高いデータベースとして提供する
・研究者からデータ提供をサポートするため簡単な提出手順と形式を提供する
・研究者が関心のある研究や遺伝子発現データを検索、ダウンロードできる手段を提供する。
データの登録には(1)プラットフォーム(2)個別サンプルデータ(3)実験シリーズ の提出が必要です(図1)。以下マイクロアレイデータの登録を例にして登録方法を説明します。
図1 GEOの登録データの概要
GEOへのデータ登録について(2023.10月現在)
データの登録内容は以下の3つとなります。
- (1)プラットフォーム:アレイの概要とデータテーブル(アレイ搭載遺伝子IDとアノテーション)を提出します。通常はプラットフォームを提供しているメーカーが登録しています。登録されるとアクセッション番号 (GPLxxx) が割り当てられます。
- (2)個別サンプルデータ:個別サンプルが取り扱われた条件、操作、測定値(生データ)を提出。 サンプル毎にプラットフォームを参照でき、複数のサンプルを実験シリーズとしてまとめて提出することができます。GEO事務局が受理するとアクセッション番号 (GSMxxx)が付与されます。
- (3)実験シリーズ:関連するサンプルのグループを作成し、研究全体の要約、結論、実験デザイン等と解析用データ(補正データ等)を提出します。 GEO事務局が受理するとアクセッション番号 (GSExxx)が付与されます。
登録はGEOで準備されているエクセルのテンプレート(GEO archive形式 図2)に指定内容を記述し、生データファイルを添付して圧縮ファイルを提出サイトから提出するだけです。
GEOサイトに研究者情報を登録すればIDが発行されます。このIDにGoogleアカウントなど3rd Partyのアカウントを紐づけ、そのアカウントでログインする必要がありますのでご注意ください。
データは不備がなければ1週間以内に登録され、実験シリーズのアクセッション番号が発行されます。不備があれば、GEO事務局から丁寧な問い合わせメールが来ますので、回答します。登録された番号を論文に記載し、Reviewerへ登録連絡をすることができます。データの公開時期は設定することができますし、未公開の段階でもReviewer用の非公開リンクが発行できますのでご安心ください。
提出内容説明:https://www.ncbi.nlm.nih.gov/geo/info/submission.html
テンプレートサイト:https://www.ncbi.nlm.nih.gov/geo/info/spreadsheet.html
提出サイト:https://submit.ncbi.nlm.nih.gov/geo/submission/
図2 GEO archive形式の登録用スプレッドシート
記述する内容の説明やExampleシートが添付されている。
GEOデータの探索について
GEO に登録されているデータは自由にダウンロードして解析することができます。以下のGEO登録データの検索サイトから「Series」「Platforms」「Samples」「Organism」「History」条件を選択し、その後検索ウインド(図3)からキーワードを用いて目的のアレイデータを検索することができます。
検索サイト:https://www.ncbi.nlm.nih.gov/geo/summary/?type=series
このサイトでは、提出者が提供したオリジナルの登録データ (シリーズ、サンプル、プラットフォーム) とGEOの方で精選されたDataSetがキーワード、生物種、タイプ、作成者など様々な属性を使用して検索できます。DataSetを選択した場合、遺伝子発現レベルの違いやクラスター解析、ヒートマップ作成ツールなど高度なデータ表示や分析を実施することができます。 詳細は以下のサイトをご覧ください。
DataSetの説明サイト:https://www.ncbi.nlm.nih.gov/geo/info/datasets.html
図4 GEO DataSetの検索結果
GEO上でのデータ解析(GEO2R)について
GEO2Rは、ユーザーが GEO シリーズ内の 2つ以上のサンプルグループ(群)を比較して、群間で発現差がある遺伝子を特定できるWebツールです。ブラウザを使用して探索した実験シリーズについて、GEO上の解析ボタンを押すことによりデータ解析を実施することができます。
図5 探索結果の例(結果の一部分)
「Analyze with GEO2R」ボタンを押すとサンプル表が展開されるので、サンプルを定義した各群に割り当てます。 その後「Analyze」ボタンをクリックして解析を実行します。[Option] タブで解析設定を変更できます。
図6 GEO2R解析結果の例
GEO2R使用方法:https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html
GEO2Rの解析結果について
GEO2Rの解析結果は、設定したグループ間で発現差のある遺伝子を探索し、p値順に並べた遺伝子の表、また各種のRパッケージを使用して発現差のある遺伝子を視覚化し、データセットの品質を評価するために以下のようないくつかのグラフデータが生成されます。 各データの詳細な説明は以下のサイトをご確認ください。
グラフデータの説明:https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html
図7 GEO2R解析結果で示されるグラフデータ