本研究室では、シロイヌナズナをはじめ様々な植物のオミックスデータの解析法、公共データの再解析・利活用方法、関連データベースの開発等の生物情報科学(バイオインフォマティクス)※研究を進めています。「植物」をメインとした生物情報科学研究(=植物ゲノム情報学)は日本の中でもきわめて数少なく、ユニークな研究室になります。
大雑把にいうとピペットは使わず、コンピュータを利活用して植物科学をエンジョイしています!
※バイオインフォマティクス(bioinformatics)とは、バイオ(生物 bio)+インフォマティクス(情報科学 informatics)の意味です。文脈によって日本語訳の候補はさまざまありますが、ここでは高木利久(監)(2004)にならい生物情報科学を採用しています。
※※ゲノムという用語は、遺伝子(gene)と全体を意味するオーム(ome)を組み合わせた造語であり(gene + ome = genome)、遺伝子の総体を表します。ゲノム自体を研究する分野のことをゲノミクス(genomics)と呼びます。
データサイエンスと生物情報科学とは部分的に同じ知識や技術を使っており、それを端的に示しているのが図1になります。
データサイエンスの対象は幅広く、その一部が生物情報科学と呼ばれる分野になっているとみなせます。歴史的に振り返りますと生物情報科学は主にアミノ酸配列データ、DNA塩基配列データ、そしてゲノムDNA配列データの解析を進める過程で高度に発展してきました。現在ではゲノムDNA配列のみならず遺伝子発現(例. mRNA)やタンパク質発現、タンパク質間相互作用、低分子化合物(代謝物)や、その他さまざまな生体分子間相互作用に関する大量かつ網羅的なデータを対象としております(図2)。
※ゲノムやゲノミクス同様に、転写物(transcript)ならばそれぞれトランスクリプトーム(transcript + ome = transcriptome)とトランスクリプトミクス(transcriptomics)と呼ばれ、例えば、他の細胞内レベルでも同様にプロテオーム=タンパク質の総体、メタボローム=代謝物の総体となります。
このような状況は近年の計測機器(高速DNAシーケンサ、NMR、質量分析計など)の発展によるもので、日々大量のマルチオミクスデータが蓄積していっています。このような生体由来の大量データをうまく処理し、生物学的に意義のある結果を抽出する(データマイニング)手法の開発やデータ管理・データ共有のための情報基盤技術の研究開発を進める方向(生物学のための情報科学)と、情報技術を駆使して生物学研究を進める方向(情報科学による生物学)との両輪で生物情報科学は進展しています。
参考文献
高木 利久 (監修)、東京大学理学部生物情報科学学部教育特別プログラム (編集)“東京大学バイオインフォマティクス集中講義”、羊土社(2004)
さまざまなオミックスデータを俯瞰的に見る、情報統合する上で鍵となる考え方がネットワーク(点と線、ノードとエッジという言い方もします)です。これまでオミックスデータに広く適用できるネットワーク解析手法の開発を行ってきました(Fukushima, 2013; Fukushima and Nishida, 2016; Ichihashi, Fukushima et al. 2018)。下図は福島が開発したDiffCorrというアプローチの概念図です。例えば、網羅的な遺伝子発現データ(トランスクリプトームデータとも呼ばれます)において、通常条件とストレス条件の2群の間で、それぞれ構築した相関ネットワークの違いを見ることで、2群間で重要な因子へのヒントが得られます。このようなネットワーク解析手法の開発はまだまだ発展の余地がありますので、ご興味がある方はぜひ研究をご一緒しましょう!
DiffCorr package https://cran.r-project.org/web/packages/DiffCorr/index.html
劣悪環境下で植物は多数の環境耐性遺伝子群を働かせ適応しています。ストレス耐性作物の作出に向けた遺伝子制御ネットワークの解明、特にこれら耐性遺伝子群の発現調節に関わる新規転写因子を同定するには、さらなるデータマイニング手法の開発と情報整備とが重要です。昨今では、これまでに蓄積された公共データを利活用し、新たな知識発見につなげる機運も高まっています。
本研究室ではモデル植物シロイヌナズナの公共トランスクリプトームデータをメタ解析し、遺伝子機能ネットワークの再構築による機能予測手法を開発しています。一例として、公共データベースから収集した複数の環境ストレスデータセット各々で得られたストレス応答遺伝子群の情報を統合したメタ解析によるストレス応答遺伝子群のアトラス AtSRGA(Arabidopsis thaliana Stress Responsive Gene Atlas)を公開・共有しています。
Fukuda et al. Plant Physiol, in press.
プレス発表はコチラ
これまで質量分析による植物メタボロミクスデータの情報解析と共有に関する研究を行ってまいりました。
メタボローム(=生体内の低分子化合物の総体)のみならずゲノム研究およびポストゲノム研究のもたらした重要な成果の一つはデータの共有です。メタボロミクス分野ではコミュニティ主導のMetabolomics Standards Initiative (MSI) による標準化の提案に伴い、欧州ではMetaboLights および米国ではMetabolomics Workbench といった生データリポジトリデータベースが構築されてきました [1]。
とはいえ、公開されたデータの再解析や再利用性、再現性の確保といった観点から再考、解決すべき問いは依然として横たわっています。これまでに私たちは質量分析計による植物メタボロームデータの共有を促すために、計算機にも人間にも優しい(構造化され機械可読な)形式で記述された実験メタデータおよび生データを格納した理研植物メタボロームメタデータベースを開発してきました [2]。メタデータはウェブ国際標準規格に沿ったResource Description Framework(RDF)形式とし、サンプル情報、分析プロトコル、データ解析手法等が統制語彙(オントロジー)を用いて記述され、対応する生データと共に提供されています(Linked Open Data (LOD) として公開)。
DiffCorrを始め、本研究室ではいくつかオミックスデータ解析用のRパッケージを開発しています。
ディファレンシャルネットワーク解析をするパッケージ。
https://cran.r-project.org/web/packages/DiffCorr/index.html
Regulatory Impact Factor (RIF)を計算するパッケージ。※
※オリジナル論文(Reverter et al. Bioinformatics 2010)とは異なり、単純な相関係数によるDCの計算とfoldchange(倍率)による計算でDEを求めています
https://github.com/afukushima/rRIF
トランスクリプトームデータから発現上昇および抑制した遺伝子のリストに基づき、どの転写因子が調節され、抑制または活性化されているかを予測するツールTFactSのR版。
https://cran.r-project.org/web/packages/TFactSR/index.html
植物メタボロームデータベースRIKEN PMM (RPMM)のアクセッサパッケージ。
https://github.com/afukushima/rRPMM
単純なORA(Over-Representation Analysis)に基づくMetabolite set enrichment analysisを行うパッケージ。特に植物代謝マップ情報を内包(開発中)。