Summary
LEfSe(LDA Effect Size)は、マイクロバイオームデータ内の2つ以上のグループを有意に特徴付けるゲノム特徴(遺伝子、経路、分類法など)を特定するための高次元バイオマーカーマイニング用のツールです。
Abstract
環境や健康における閉鎖的な生物学的ゲノムに対する関心が高まっています。異なるサンプルまたは環境間のグループ間の差異を調査および明らかにするためには、グループ間で統計的な差異を有するバイオマーカーを発見することが極めて重要である。線形判別分析の効果サイズ(LEfSe)の適用は、優れたバイオマーカーを見つけるのに役立ちます。元のゲノムデータに基づいて、品質管理、分類群または遺伝子に基づく異なる配列の定量化が行われる。まず、クラスカル-ウォリス順位検定を用いて、統計群と生物学的群の特定の差異を区別した。次に、前のステップで得られた2つのグループ間でウィルコクソン順位検定を実施し、差が一貫しているかどうかを評価しました。最後に、線形判別分析(LDA)を実施し、LDAスコアに基づいて有意に異なるグループに対するバイオマーカーの影響を評価した。要約すると、LEfSeは、生物学的グループ間の統計的差異を特徴付けるゲノムバイオマーカーを同定するための利便性を提供しました。
Introduction
バイオマーカーは、測定可能な生物学的特性であり、感染、疾患、または環境などのいくつかの現象を示すことができる。その中で、機能的バイオマーカーは、遺伝子、タンパク質、代謝産物および経路などの単一種の特定の生物学的機能、またはいくつかの種に共通するものであり得る。さらに、分類学的バイオマーカーは、異常な種、生物群(王国、門、クラス、秩序、家族、属、種)、アンプリコン配列可変量(ASV)1、または運用分類学単位(OTU)2を示す。バイオマーカーをより迅速かつ正確に見つけるためには、生体データを解析するためのツールが必要です。クラス間の違いは、LEfSeと統計的有意性の標準検定、および生物学的一貫性および効果関連性をコードする追加検定と組み合わせることによって説明することができます3。LEfSeは、銀河モジュール、コンダ式、ドッカー画像として利用可能で、bioBakery(VMおよびクラウド)4に含まれています。一般に、微生物多様性の分析では、サンプルコミュニティの不確実な分布に対してノンパラメトリック検定が使用されることがよくあります。ランク合計検定はノンパラメトリック検定法で、サンプルのランクを使用してサンプルの値を置き換えます。サンプルグループの違いに応じて、ウィルコクソン順位和検定では2つのサンプルに、クラスカル・ウォリス検定では複数のサンプルに分けることができます5,6。特に、複数のサンプルグループ間に有意差がある場合は、複数のサンプルのペアワイズ比較のランク和検定を実行する必要があります。1936年にロナルド・フィッシャーによって発明されたLDA(線形判別分析の略)は、教師あり学習の一種であり、フィッシャーの線形判別式7としても知られています。これは、機械学習データマイニングの現在の分野で古典的で人気のあるアルゴリズムです。
ここでは、LEfSeアッセイはCondaおよびGalaxyサーバーによって最適化されています。16S rRNA遺伝子配列の3つのグループを解析して、微生物群集のLDAスコアおよび可視化結果を有する異なるグループ間の有意差を実証する。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
注:プロトコルは、Segata et al.3の研究から供給され、修正されました。このメソッドは、https://bitbucket.org/biobakery/biobakery/wiki/lefse で提供されます。
1. 解析用入力ファイルの準備
- LEfSeの入力ファイル(表1)を準備します。これは、元のファイル(サンプルファイルと対応する種アノテーションファイル)を使用して、多くのワークフロー8 または以前のプロトコル9 で簡単に生成できます。
2. LEfSe ネイティブ分析 (Linux サーバーに限定されます)
- LEfSe のインストール
注: LEfSe パイプラインは、Conda10 と共にインストールすることをお勧めします。- 次のコマンドを実行して、依存関係の競合の可能性を排除します。LEfSe 用の conda 環境を作成します (この手順は推奨されますが、必須ではありません)。-n は環境名を表します。
$ conda create -n LEfSe-env - 作成された LEfSe 環境をアクティブ化するには、次のコマンドを実行します。
$ ソースは LEfSe-env をアクティブにします。 - LEfSe をチャネル bioBakery (-c はチャネル名の略) でインストールするには、次のコマンドを実行します。
$ conda install -c biobakery lefse
- 次のコマンドを実行して、依存関係の競合の可能性を排除します。LEfSe 用の conda 環境を作成します (この手順は推奨されますが、必須ではありません)。-n は環境名を表します。
- LEfSe のデータの書式設定
- 次のコマンドを実行して、元のファイルを LEfSe の内部形式にフォーマットします。表.txt は入力ファイルで、Table-reformat.in は出力ファイルです。-c は、クラス (デフォルト 1) として使用されるフィーチャーの設定に使用され、-o は正規化値の設定に使用されます (デフォルト -1.0 は正規化なしを意味します)。
$ format_input.py 表.txt Table-reformat.in -c 1 -o 1000000
- 次のコマンドを実行して、元のファイルを LEfSe の内部形式にフォーマットします。表.txt は入力ファイルで、Table-reformat.in は出力ファイルです。-c は、クラス (デフォルト 1) として使用されるフィーチャーの設定に使用され、-o は正規化値の設定に使用されます (デフォルト -1.0 は正規化なしを意味します)。
- 線形判別分析(LDA)効果サイズの計算
- 次のコマンドを実行します。この手順の目的は、前の結果の LDA を実行し、ビジュアライゼーションの結果ファイルを生成することです。Table-reformat.in は前のステップを使用して生成され、このステップでは入力ファイルとして使用されます。Table-reformat.res は結果ファイルです。
$ run_lefse.py Table-reformat.in Table-reformat.res
- 次のコマンドを実行します。この手順の目的は、前の結果の LDA を実行し、ビジュアライゼーションの結果ファイルを生成することです。Table-reformat.in は前のステップを使用して生成され、このステップでは入力ファイルとして使用されます。Table-reformat.res は結果ファイルです。
- プロットによる可視化
- LEfSe の結果をプロットします。バイオマーカーの効果サイズをPDFファイルにプロットするには、.Table-reformat.res は前のステップを使用して生成され、LDA.pdf はプロット ファイルです。–format は、出力ファイル形式を設定するために使用されます。
$ plot_res.py Table-reformat.res LDA.pdf --format pdf - クラドグラムをプロットします。種の木を描き、バイオマーカーをクラドグラムに表示する。クラドグラム.pdfは出力ファイルです。
$ plot_cladogram.py Table-reformat.res cladogram.pdf --format pdf -
1 つのフィーチャをプロットする (オプション) 異なるグループ間での単一のバイオマーカーの違いをプロットする。-f はプロットの特徴を設定するために使用されます。1 つを設定した場合は、–feature_nameを指定する必要があります。
$ plot_features.py -f one --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf - 差分特徴 (オプション) をプロットしてすべての特徴を描画しますが、注意して行うべきことが多すぎます。--archive は、結果を圧縮するかどうかを選択するために使用されます。./ は結果のパスを意味します。
$ plot_features.py -f diff --archive none --format pdf Table-reformat.in Table-reformat.res ./
- LEfSe の結果をプロットします。バイオマーカーの効果サイズをPDFファイルにプロットするには、.Table-reformat.res は前のステップを使用して生成され、LDA.pdf はプロット ファイルです。–format は、出力ファイル形式を設定するために使用されます。
3. LEfSeオンライン分析(銀河)
- ハッテンハワー銀河サーバー1 1:http://huttenhower.sph.harvard.edu/galaxy に移動します。
- ファイルをアップロードします。左側のペイン の上 矢印ボタンを押して、ファイルをアップロードします。[ ローカルファイルの選択 ]をクリックして入力ファイルを選択し、 形式を表形式で選択し、[ スタート ]ボタンをクリックします。
注:ウェブページ(https://bitbucket.org/biobakery/biobakery/wiki/lefse を参照し、スクリプト(taxonomy_summaryを使用してください。R)LEfSeの入力ファイルを生成するには、 表1に示すようにフォーマット(各列にグループ名、各行に異なるレベルの注釈を「|」で区切る)が必要です。アップロード・プロセスの概略的な概要を 図 1 に示します。 - LEfSe 用にデータをフォーマットします。 LEfSe|をクリックします。左側のペインの[LEfSe用にデータをフォーマット ]リンクをクリックし、ファイル内のクラスの特定の行を選択し、[ 実行] ボタンをクリックします。操作プロセスと使用されるパラメータの概略概要を 図2に示します。
- LDA 効果のサイズを計算します。 LEfSe|をクリックします。左側のペインの LDA 効果サイズ(LEfSe) リンクをクリックし、解析要件に従ってパラメータ値を選択します。 「実行」をクリックします。操作プロセスと使用されるパラメータの概略概要を 図3に示します。
- LEfSe の結果をプロットします。 LEfSe |をクリックします。左側のペインにLEfSe結果 リンクをプロットし、[ 実行] ボタンをクリックします。操作プロセスと使用されるパラメータの概略概要を 図4に示します。
- クラドグラムをプロットします。左側のペインで[ クラドグラムのプロット ]をクリックし、パラメータ値を選択した後に [実行] ボタンをクリックします。操作プロセスと使用されるパラメータの概略概要を 図5に示します。
- 左側のペインで [1 つの特徴をプロット] をクリックし、パラメーター値を選択した後に [実行] ボタンをクリックして、1 つの特徴をプロットします。操作プロセスと使用されるパラメータの概略概要を図6に示します。
- 左ペインの[差分フィーチャのプロット]をクリックし、パラメータ値を選択した後に[実行]ボタンをクリックして、差分フィーチャをプロットします。操作プロセスと使用されるパラメータの概略概要を図7に示します。
注: これらの生成された数値は、右側のペインで結果の出力に対して視覚化およびダウンロードできます。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
3つのサンプルの16S rRNA遺伝子配列を解析して各群において有意差を有する微生物群集のLDAスコアを 図8に示す。ヒストグラムの色は異なるグループを表し、長さはLDAスコアを表し、これは異なるグループ間で有意な差がある種の影響です。ヒストグラムは、LDA スコアが事前設定された値より大きい有意差のある種を示します。デフォルトのプリセット値は 2.0 であるため、2.0 より大きい LDA スコア (横軸) の絶対値のみがプロットに表示されます。
異なる分類レベル間で有意差および種ツリーを有するバイオマーカーを 図9に示す。内側から外側に放射状に広がる円は、門から属への分類レベルを表します(最も内側の黄色い円は王国です)。異なる分類レベルでの各小さな円の直径は、相対的な存在量のサイズを表します。有意差のない種は均一に黄色に着色され、有意に異なる種のバイオマーカーは対応する基で着色される。クラス A、B、C は、収集された微生物サンプルのグループ名です。赤色の節は、赤色の群(A)において重要な役割を果たす微生物群を表す。緑色のノードは、緑色のグループ(B)において重要な役割を果たす微生物群を表す。青色の節は、青色のグループ(C)において重要な役割を果たす微生物群を表す。プロットに示されていないバイオマーカーの対応する種名が右側に示されており、文字番号はプロット内のそれに対応しています(審美的な目的のために、デフォルトでは系統から家族への異なる種のみを示しています)。
LEfSeの結果に従って異なるグループ間で差異を有する1つのバイオマーカーの存在量を 図10に示す。相対存在量バープロットにおいて、実線は平均相対存在量を表し、点線は相対存在量の中央値を表し、各列は異なるグループにおける各サンプルの相対存在量を表す。
表 1: オンラインでの LEfSe 分析のサンプル・ファイル。このテーブルをダウンロードするには、ここをクリックしてください。
図1:アップロードプロセスの概略概要 図の赤い数字を順番にクリックします。 この図の拡大版を表示するには、ここをクリックしてください。
図2:データ形式を変更するための運用プロセスの概略概要。 図の赤い数字を順番にクリックします。 この図の拡大版を表示するには、ここをクリックしてください。
図 3: LDA 効果サイズを計算するための操作プロセスの概略概要。 図の赤い数字を順番にクリックします。 この図の拡大版を表示するには、ここをクリックしてください。
図4:LEfSe結果をプロットするための運用プロセスの概略概要。 図の赤い数字を順番にクリックします。 この図の拡大版を表示するには、ここをクリックしてください。
図5:クラドグラムをプロットするための操作プロセスの概略概要。 図の赤い数字を順番にクリックします。 この図の拡大版を表示するには、ここをクリックしてください。
図 6: 1 つの特徴をプロットするための操作プロセスの概略概要。 図の赤い数字を順番にクリックします。 この図の拡大版を表示するには、ここをクリックしてください。
図7:微分特徴をプロットするための操作プロセスの概略概要。 図の赤い数字を順番にクリックします。 この図の拡大版を表示するには、ここをクリックしてください。
図 8: LDA 値の分布のヒストグラム。 各群で有意差のある微生物群集のLDAスコアを、それらの影響および相関に従ってLDA効果サイズによって分析した。 この図をダウンロードするには、ここをクリックしてください。
図9:クラドグラム プロトコルによって得られたクラドグラムの典型的なプロットは、3つのグループの異なる分類レベル間の差の表現を可能にする。 この図の拡大版を表示するには、ここをクリックしてください。
図 10: 1 つの特徴プロット LEfSe results.is に従って異なるグループ間で差異を有する1つのバイオマーカーの存在量バープロットが示されている。 この図の拡大版を表示するには、ここをクリックしてください。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
ここでは、異なるグループ内のバイオマーカーの同定および特性評価のためのプロトコルが記載されている。このプロトコルは、微生物のOTUなどの他のサンプルタイプに容易に適合させることができます。LEfSeによる統計的方法は、各群に特徴的な微生物(デフォルトはLDA>2)、すなわち、他の群と比較してこの群においてより豊富に存在する微生物を見出すことができる12。LEfSe はネイティブ Linux バージョンと Web Linux バージョンの両方で利用でき、ユーザーは Web ページで LEfSe 分析を実行することもできます。LEfSe は LDA アルゴリズムに基づいており、種ツリーを描画するには種レベルが必要です。ツールの適用により、グループ間の相対的な存在量を比較することができます。すべての鑑別バイオマーカーを1つのグラフにプロットすることができた。また、単一のバイオマーカーまたはすべてのバイオマーカーをバッチでプロットすることができる。
LEfSe がネイティブ サーバーまたはオンライン サイトを介して実行されるかどうかにかかわらず、必要な画像を描画するための調整可能なパラメーターが多数あります。入力ファイルの複雑な構造と、LEfSeのさらなる分析のためにそれらを好みのデータ形式に変換する必要があるため、いくつかのワンストップサービスも開発されています。したがって、より簡単な操作の最適化は困難な場合があります。一方、LEfSeを使用して複雑なデータを分析する場合、いくつかの制限があります。LDA は、カテゴリより 1 次元小さいフィーチャを投影し、さらに多くのフィーチャが必要な場合は、他のメソッドが導入されます。LDA の亜種は、いくつかの問題を解決する可能性があります。たとえば、カーネルLDAは、投影後に元のデータを分離できない場合の解決策です。LDA の計算量はデータの次元に関連しているため、2DLDA は LDA の計算量を大幅に削減できます。LDA と PCA はどちらも、一般的に使用される次元削減手法です。PCA(主成分分析)次元削減はデータ次元に直接関係し、投影座標系は直交しています。ただし、LDA はカテゴリのラベル付けに従って分類する機能に焦点を当てているため、投影座標系は一般に直交しません。
LEfSeはバイオマーカーの選択を支援します。多くの利点(例えば、調整可能なパラメータ、様々な部分の詳細な結果、2つ以上のグループ間の適用)と共に、広く使用されている13。高次元データ解析の需要が高まるにつれて、この方法の適用は、ヒトの健康および疾患に影響を与える特徴(生物、クレード、操作分類学的単位、遺伝子、または機能)のバイオマーカーを探索するためにますます広範になる。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
著者らは開示するものは何もありません。
Acknowledgments
本研究は、中央公共福祉研究所基礎研究費(TKS170205)と科学技術振興財団、天津水交通工学研究所(TIWTE)M.O.T.(KJFZJJ170201)の助成を受けて実施されました。
Materials
Name | Company | Catalog Number | Comments |
No materials used |
References
- Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
- Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
- Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
- McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
- Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
- Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
- Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
- Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
- Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
- Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
- Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
- Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
- Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).