Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

마이크로바이옴 데이터에서 선형 판별 분석 효과 크기(LEfSe)에 의한 바이오마커 보조 선택

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA 효과 크기)는 미생물 데이터에서 둘 이상의 그룹을 유의하게 특성화하는 게놈 특징 (예 : 유전자, 경로 및 분류법)을 확인하기 위해 고차원 바이오마커 마이닝을위한 도구입니다.

Abstract

환경과 건강에서 폐쇄 된 생물학적 게놈에 대한 관심이 커지고 있습니다. 서로 다른 샘플 또는 환경 간의 그룹 간 차이를 탐구하고 밝히기 위해서는 그룹 간의 통계적 차이가있는 바이오마커를 발견하는 것이 중요합니다. 선형 판별 분석 효과 크기 (LEfSe)의 적용은 좋은 바이오 마커를 찾는 데 도움이 될 수 있습니다. 원래의 게놈 데이터에 기초하여, 품질 관리, 및 탁사 또는 유전자에 기초한 상이한 서열의 정량화가 수행된다. 첫째, Kruskal-Wallis 순위 검정을 사용하여 통계적 그룹과 생물학적 그룹 간의 특정 차이를 구별하였다. 그 후, Wilcoxon 순위 검정을 이전 단계에서 얻은 두 그룹 사이에서 수행하여 차이가 일관적인지 여부를 평가하였다. 마지막으로, LDA 점수에 기초하여 유의하게 상이한 그룹에 대한 바이오마커의 영향을 평가하기 위해 선형 판별 분석(LDA)이 수행되었다. 요약하면, LEfSe는 생물학적 그룹 간의 통계적 차이를 특성화하는 게놈 바이오마커를 식별하기 위한 편리함을 제공했다.

Introduction

바이오마커는 측정될 수 있고 감염, 질병 또는 환경과 같은 일부 현상을 나타낼 수 있는 생물학적 특성이다. 그 중에서도, 기능적 바이오마커는 단일 종의 특정 생물학적 기능이거나 유전자, 단백질, 대사산물 및 경로와 같은 일부 종에 공통적일 수 있다. 게다가, 분류학적 바이오마커는 특이한 종, 유기체 그룹(왕국, 계통, 부류, 질서, 가족, 속, 종), 앰플리콘 서열 변종(ASV)1 또는 운영 분류 단위(OTU)2를 나타낸다. 바이오마커를 보다 빠르고 정확하게 찾기 위해서는 생물학적 데이터를 분석하기 위한 도구가 필요하다. 클래스 간의 차이는 LEfSe가 통계적 유의성에 대한 표준 테스트 및 생물학적 일관성 및 효과 관련성을 인코딩하는 추가 테스트와 결합하여 설명 할 수 있습니다3. LEfSe는 은하 모듈, 콘다 공식, 도커 이미지로 제공되며 bioBakery (VM 및 클라우드)4에 포함되어 있습니다. 일반적으로, 미생물 다양성의 분석은 종종 샘플 군집의 불확실한 분포에 대해 비모수 검정을 사용한다. 순위 합계 테스트는 표본의 순위를 사용하여 표본 값을 대체하는 비모수 테스트 방법입니다. 샘플 그룹의 차이에 따라 Wilcoxon 순위 합계 테스트가있는 두 개의 샘플과 Kruskal-Wallis 테스트 5,6을 사용하여 여러 샘플로 나눌 수 있습니다. 특히, 여러 표본 그룹 간에 상당한 차이가 있는 경우, 여러 샘플의 쌍 비교에 대한 순위-합계 테스트가 수행되어야 합니다. LDA (선형 판별 분석의 약자)는 1936 년 로널드 피셔 (Ronald Fisher)가 발명 한 것으로, 피셔의 선형 판별 7 (Fisher's Linear Discriminant7)으로도 알려진 감독 학습의 한 유형입니다. 현재 기계 학습 데이터 마이닝 분야에서 고전적이고 인기있는 알고리즘입니다.

여기서 LEfSe 분석은 Conda와 Galaxy 서버에 의해 최적화되었습니다. 16S rRNA 유전자 서열의 세 그룹을 분석하여 미생물 군집의 LDA 점수와 시각화 결과를 갖는 상이한 그룹 간의 유의한 차이를 입증한다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

참고 : 프로토콜은 Segata et al.3의 연구에서 공급되고 수정되었습니다. 이 방법은 https://bitbucket.org/biobakery/biobakery/wiki/lefse 에서 제공됩니다.

1. 분석을 위한 입력파일 준비

  1. LEfSe의 입력 파일(표 1)을 준비합니다. 이 파일은 원본 파일(샘플 파일 및 해당 종 주석 파일)을 사용하여 많은 워크플로우8 또는 이전 프로토콜(9 )에서 쉽게 생성할 수 있습니다.

2. LEfSe 네이티브 분석 (리눅스 서버로 제한)

  1. LEfSe 설치
    참고: LEfSe 파이프라인은 Conda10과 함께 설치하는 것이 좋습니다.
    1. 다음 명령을 실행하여 종속성 충돌 가능성을 제외합니다. LEfSe에 대한 conda 환경을 만듭니다(이 단계는 권장되지만 필수는 아닙니다.). -n은 환경 이름을 나타냅니다.
      $ 콘다 생성 -n LEfSe-env
    2. 생성된 LEfSe 환경을 활성화하려면 다음을 실행합니다.
      $ 소스 활성화 LEfSe-env
    3. -c가 채널 이름을 나타내는 채널 bioBakery와 함께 LEfSe를 설치하려면 다음을 실행하십시오.
      $ 콘다 설치 -c 바이오 베이커리 레프스
  2. LEfSe에 대한 데이터 형식 지정
    1. 다음 명령을 실행하여 원본 파일을 LEfSe의 내부 형식으로 포맷합니다. 테이블.txt는 입력 파일이고 Table-reformat.in 는 출력 파일입니다. -c는 클래스 (기본값 1)로 사용되는 기능을 설정하는 데 사용되며 -o는 정규화 값 (기본값 -1.0은 정규화가 없음을 의미)을 설정하는 데 사용됩니다.
      $ format_input.py 테이블 .txt Table-reformat.in -c 1 -o 1000000
  3. 선형 판별 분석(LDA) 효과 크기 계산
    1. 다음 명령을 실행합니다. 이 단계의 목적은 이전 결과의 LDA를 수행하고 시각화를 위한 결과 파일을 생성하는 것입니다. Table-reformat.in 는 이전 단계를 사용하여 생성되며 이 단계에서 입력 파일로 사용됩니다. Table-reformat.res는 결과 파일입니다.
      $ run_lefse.py Table-reformat.in 테이블 재 포맷.res
  4. 플롯에 의한 시각화
    1. LEfSe 결과를 플로팅합니다. 바이오마커의 효과 크기를 pdf 파일로 플로팅하려면,. table-reformat.res는 이전 단계를 사용하여 생성되며 LDA.pdf는 플롯 파일입니다. –format은 출력 파일 형식을 설정하는 데 사용됩니다.
      $ plot_res.py 테이블 재 포맷.res LDA.pdf --format pdf
    2. 클라도그램을 플로팅합니다. 종 트리를 그리고 클라도그램에 바이오마커를 표시한다. cladogram.pdf는 출력 파일입니다.
      $ plot_cladogram.py 테이블 - 재 포맷.res cladogram.pdf --format pdf
    3. 하나의 기능 플로팅(선택 사항) 상이한 그룹들 사이의 단일 바이오마커의 차이를 플롯팅한다. -f는 플롯의 피쳐를 설정하는 데 사용됩니다. 하나가 설정된 경우 –feature_name을 제공해야 합니다.
      $ plot_features.py -f one --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. 모든 피쳐를 그리기 위해 차등 피쳐(선택 사항)를 플로팅하지만 주의해서 수행해야 할 작업이 너무 많습니다. --archive는 결과를 압축할지 여부를 선택하는 데 사용됩니다. ./ 는 결과의 경로를 의미합니다.
      $ plot_features.py -f diff --archive none --format pdf Table-reformat.in Table-reformat.res ./

3. LEfSe 온라인 분석 (갤럭시)

  1. huttenhower 은하 서버1 1: http://huttenhower.sph.harvard.edu/galaxy 로 이동하십시오.
  2. 파일을 업로드합니다. 왼쪽 창에서 위쪽 화살표 단추를 누르고 파일을 업로드합니다. 로컬 파일 선택을 클릭하여 입력 파일을 선택하고 테이블 형식을 선택한 다음 시작 버튼을 클릭하십시오.
    참고: 웹 페이지(https://bitbucket.org/biobakery/biobakery/wiki/lefse)를 참조하고, 스크립트를 사용합니다(taxonomy_summary. R) LEfSe의 입력 파일을 생성하기 위해, 표 1에 나타낸 바와 같이 포맷(그룹 이름을 갖는 각 열, "|"로 구분된 주석의 상이한 레벨을 갖는 각 라인)이 요구된다. 업로드 프로세스의 개략적인 개요는 그림 1에 나와 있습니다.
  3. LEfSe에 대한 데이터의 서식을 지정합니다. LEfSe |를 클릭하십시오. 왼쪽 창에서 LEfSe 링크에 대한 데이터 형식을 지정 하고 파일에서 클래스에 대한 특정 행을 선택한 다음 실행 단추를 클릭합니다. 운영 프로세스 및 사용된 파라미터에 대한 개략적인 개요가 그림 2에 나와 있습니다.
  4. LDA 효과 크기를 계산합니다. LEfSe |를 클릭하십시오. 왼쪽 창의 LDA 효과 크기(LEfSe) 링크를 클릭하고 분석 요구 사항에 따라 매개변수 값을 선택합니다. 실행을 클릭하십시오. 운영 프로세스 및 사용된 파라미터에 대한 개략적인 개요가 그림 3에 나와 있습니다.
  5. LEfSe 결과를 플로팅합니다. LEfSe |를 클릭하십시오. 왼쪽 창에 LEfSe 결과 링크를 플로팅 하고 실행 단추를 클릭합니다. 작동 프로세스 및 사용된 파라미터에 대한 개략적인 개요가 그림 4에 나와 있습니다.
  6. 클라도그램을 플로팅합니다. 왼쪽 창에서 플롯 클라도그램 을 클릭하고 매개 변수 값을 선택한 후 실행 버튼을 클릭하십시오. 작동 프로세스 및 사용된 파라미터에 대한 개략적인 개요가 그림 5에 나와 있습니다.
  7. 왼쪽 창에서 Plot One Feature를 클릭하고 매개변수 값을 선택한 후 실행 단추를 클릭하여 하나의 피쳐를 플로팅합니다. 작동 프로세스 및 사용된 파라미터에 대한 개략적인 개요가 그림 6에 나와 있습니다.
  8. 왼쪽 창에서 플롯 차등 피쳐를 클릭하고 매개변수 값을 선택한 후 실행 버튼을 눌러 차등 피쳐를 플로팅합니다. 작동 프로세스 및 사용된 파라미터에 대한 개략적인 개요가 그림 7에 나와 있습니다.
    참고: 이러한 생성된 수치는 오른쪽 창의 결과 출력에 대해 시각화 및 다운로드할 수 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

세 샘플의 16S rRNA 유전자 서열을 분석하여 각 군에서 유의한 차이를 갖는 미생물 군집의 LDA 점수를 도 8에 나타내었다. 히스토그램의 색상은 서로 다른 그룹을 나타내는 반면, 길이는 LDA 점수를 나타내며, 이는 다른 그룹간에 상당한 차이가있는 종의 영향입니다. 히스토그램은 LDA 점수가 사전 설정된 값보다 큰 유의한 차이를 가진 종을 보여줍니다. 기본 사전 설정 값은 2.0이므로 LDA 점수(abscissa)가 2.0보다 큰 절대값만 그림에 표시됩니다.

상이한 분류 수준 사이의 유의한 차이 및 종 트리를 갖는 바이오마커를 도 9에 나타내었다. 내부에서 외부로 방사되는 원은 계통에서 속으로의 분류 수준을 나타냅니다 (가장 안쪽의 노란색 원은 왕국입니다). 서로 다른 분류 수준에서 각 작은 원의 지름은 상대적 풍부도의 크기를 나타냅니다. 유의한 차이가없는 종은 균일하게 노란색으로 착색되고, 유의하게 다른 종 바이오마커는 상응하는 그룹으로 착색된다. 클래스 A, B 및 C는 수집된 미생물 샘플의 그룹 이름입니다. 적색 노드는 적색 그룹(A)에서 중요한 역할을 하는 미생물 그룹을 나타내고; 녹색 노드는 녹색 그룹 (B)에서 중요한 역할을하는 미생물 그룹을 나타내고; 청색 노드는 청색 그룹(C)에서 중요한 역할을 하는 미생물 그룹을 나타낸다. 플롯에 표시되지 않은 바이오마커의 해당 종 이름이 오른쪽에 표시되고 문자 번호는 플롯의 해당 종 이름과 일치합니다 (미적 목적을 위해 기본적으로 계통에서 가족으로 차등 종 만 표시).

LEfSe 결과에 따라 상이한 그룹들 간에 차이를 갖는 하나의 바이오마커의 풍부도가 도 10에 도시되어 있다. 상대적 풍부도 막대 그림에서 실선은 평균 상대 풍부도를 나타내고, 점선은 중앙값 상대 풍부도를 나타내며, 각 열은 서로 다른 그룹에 있는 각 표본의 상대적 풍부도를 나타냅니다.

표 1: 온라인 LEfSe 분석을 위한 예제 파일. 이 표를 다운로드하려면 여기를 클릭하십시오.

Figure 1
그림 1: 업로드 프로세스의 개략적인 개요. 그림에서 빨간색 숫자를 순차적으로 클릭합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 2
그림 2: 데이터 형식 변경을 위한 운영 프로세스의 개략적인 개요. 그림에서 빨간색 숫자를 순차적으로 클릭합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 3
그림 3: LDA 효과 크기를 계산하기 위한 운영 프로세스의 개략적인 개요. 그림에서 빨간색 숫자를 순차적으로 클릭합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 4
그림 4: LEfSe 결과를 플로팅하기 위한 운영 프로세스의 개략적인 개요. 그림에서 빨간색 숫자를 순차적으로 클릭합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 5
그림 5: 클라도그램을 플로팅하기 위한 작동 프로세스의 개략적인 개요. 그림에서 빨간색 숫자를 순차적으로 클릭합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 6
그림 6: 하나의 피쳐를 플로팅하기 위한 운영 프로세스의 개략적인 개요. 그림에서 빨간색 숫자를 순차적으로 클릭합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 7
그림 7: 차등 피쳐를 플로팅하기 위한 운영 프로세스의 개략적인 개요. 그림에서 빨간색 숫자를 순차적으로 클릭합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 8
그림 8: LDA 값 분포의 히스토그램. 각 그룹에서 유의한 차이를 갖는 미생물 군집의 LDA 스코어를 그들의 영향 및 상관관계에 따라 LDA 효과 크기에 의해 분석하였다. 이 그림을 다운로드하려면 여기를 클릭하십시오.

Figure 9
그림 9: 클라도그램. 프로토콜에 의해 획득 된 클라도그램의 전형적인 플롯은 세 그룹의 서로 다른 분류 수준 간의 차이를 나타낼 수있게합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 10
그림 10: 하나의 특징 플롯. LEfSe에 따른 상이한 그룹들 간에 차이를 갖는 하나의 바이오마커의 풍부 바플롯이 results.is 도시되어 있다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

여기에서, 상이한 그룹 내의 바이오마커의 확인 및 특성화를 위한 프로토콜이 기재되어 있다. 이 프로토콜은 미생물의 OTU와 같은 다른 샘플 유형에 쉽게 적용 할 수 있습니다. LEfSe에 의한 통계적 방법은 각 그룹에서 특징적인 미생물(디폴트는 LDA >2), 즉 다른12에 비해 이 그룹에서 더 풍부한 미생물을 찾을 수 있다. LEfSe는 사용자가 웹 페이지에서 LEfSe 분석을 수행 할 수있는 네이티브 및 웹 Linux 버전 모두에서 사용할 수 있습니다. LEfSe는 LDA 알고리즘을 기반으로하며 종 트리를 그리기 위해 종 수준이 필요합니다. 도구를 적용하면 그룹 간의 상대적 풍부도를 비교할 수 있습니다. 모든 차등 바이오마커는 단일 그래프로 플롯팅될 수 있었다. 또한, 단일 바이오마커 또는 모든 바이오마커는 배치로 플롯팅될 수 있다.

LEfSe가 네이티브 서버를 통해 수행되는지 온라인 사이트를 통해 수행되든 관계없이 필요한 그림을 그리기 위해 조정 가능한 매개 변수가 많이 있습니다. 입력 파일의 복잡한 구조와 LEfSe의 추가 분석을 위해 선호하는 데이터 형식으로 변환해야 하기 때문에 일부 원스톱 서비스도 개발되었습니다. 따라서 더 쉬운 작업의 최적화는 어려울 수 있습니다. 반면, LEfSe를 사용하여 복잡한 데이터를 분석할 때는 몇 가지 한계가 있습니다. LDA는 범주보다 한 차원 작은 피쳐를 투영하며, 더 많은 기능이 필요한 경우 다른 방법이 도입됩니다. LDA의 변종은 몇 가지 어려움을 해결할 수 있습니다. 예를 들어, 커널 LDA는 프로젝션 후 원본 데이터를 잘 분리 할 수없는 경우 솔루션입니다. LDA의 계산량은 데이터 차원과 관련이 있기 때문에 2DLDA는 LDA의 계산량을 크게 줄일 수 있습니다. LDA와 PCA는 모두 일반적으로 사용되는 차원 감소 기술입니다. PCA (Principal Component Analysisis) 치수 감소는 데이터 차원과 직접 관련이 있으며 투영 좌표계는 직교합니다. 그러나 LDA는 범주의 레이블링에 따른 분류 능력에 중점을 두므로 투영 좌표계는 일반적으로 직교하지 않습니다.

LEfSe는 바이오마커의 선택을 위한 도움을 제공한다. 많은 이점들(예를 들어, 조정 가능한 파라미터들, 다양한 부분들의 상세한 결과들, 둘 이상의 그룹들 사이의 적용)으로, 널리 이용되고 있다(13). 고차원 데이터 분석에 대한 수요가 증가함에 따라이 방법의 적용은 인간의 건강과 질병에 영향을 미치는 특징 (유기체, 클래드, 운영 분류 단위, 유전자 또는 기능)의 바이오 마커를 탐구하기 위해 점점 더 광범위해질 것입니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 공개 할 것이 없습니다.

Acknowledgments

이 사업은 중앙공공복지연구소(TKS170205)와 과학기술개발재단, 천진수자원연구소(TIWTE), M.O.T.(KJFZJJ170201)의 보조금으로 지원받았다.

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

유전학 문제 183 LEfSe 바이오마커 게놈 생물다양성 통계학적 차이 생물학적 상관관계
마이크로바이옴 데이터에서 선형 판별 분석 효과 크기(LEfSe)에 의한 바이오마커 보조 선택
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter