Summary

비전문가를위한 계통 발생에 대한 실용 가이드

Published: February 05, 2014
doi:

Summary

여기에서 우리는 뉴클레오티드 또는 아미노산 서열 데이터 세트에서 안정적인 계통 발생을 생성하기위한 단계별 파이프 라인을 설명합니다. 이 가이드는 연구자 또는 계통 발생 학적 분석에 새로운 학생 서비스를 제공하는 것을 목표로하고있다.

Abstract

많은 연구자들은 믿을 수 없을만큼 다양한 초점을 통해, 자신의 연구 질문 (들) 계통 발생학을 적용하고있다. 그러나 많은 연구자들은이 주제에 새로운 그리고 그것은 고유의 문제를 제시한다. 여기에서 우리는 비전문가에 대한 계통 발생에 대한 실질적인 소개를 컴파일합니다. 우리는 단계별 방식으로, 유전자 서열 데이터 세트에서 안정적인 계통을 발생 파이프 라인 개요. 우리는 온라인 인터페이스뿐만 아니라 지역의 실행을 통해 유사성 검색 도구를위한 사용자 가이드와 함께 시작합니다. 다음으로, 우리는 진화의 가장 적합한 모델을 결정하기 위해 소프트웨어를 사용하는 프로토콜에 따라 여러 순서 정렬을 생성하기위한 프로그램을 탐구한다. 우리는 최대의 가능성과 베이지안 기준을 통해 계통 발생 학적 관계를 재구성 프로토콜 개요 마지막으로 계통 발생 수를 시각화하기위한 도구에 대해 설명합니다. 어떤 계통 발생 학적 접근 방법의 완전한 설명을 의미하여이 아니지만, 그것은 실제 시작 INFORMAT으로 독자를 제공한다일반적으로 phylogeneticists으로 활용 키 소프트웨어 응용 프로그램에 이온. 이 기사에 대한 비전은 계통 발생 학적 연구에 착수 연구자를위한 실습 도구로 봉사하고 또한 교실이나 교사 실험실에 통합 될 수있는 교육 자원으로 역할을 할 수 있다는 것입니다.

Introduction

두 개 (또는 그 이상)의 종 진화 방법을 이해하기 위해서는, 각각의 샘플로부터 서열 또는 형태 학적 데이터를 구하는 것이 우선 필요하다, 이러한 데이터는 우리가 공간을 통해 진화 관계를 측정하는 데 사용할 수있는 수량을 나타낸다. (예를 들어, 마일, 인치, 마이크론) 사용 가능한 더 많은 데이터를보다 정확한 측정으로 간주됩니다 데, 직선 거리를 측정 할 때 그냥 좋아. 에르고는 연구자가 진화 거리를 추론 할 수있는 정확도는 크게 관계를 측정하는 것이 가능한 정보 데이터의 양에 의해 영향을 받는다. 다른 샘플은 다른 속도 및 다른 메커니즘에 의해 발전하기 때문에 또한, 우리는이 분류군 사이의 관계를 측정하기 위해 사용하는 방법은 직접적 진화 측정의 정확도에 영향을 미친다. 따라서 진화론 적 관계는 직접 관측되지 않고 대신에 순서 나 형태 학적 데이터, 진화를 추론의 문제로 추정되기 때문에관계는 통계 중 하나가됩니다. 계통 발생 최적 분류군 간의 진화의 역사를 재구성하기 위해 진화의 패턴을 통계 모델을 적용과 관련된 생물학의 지점입니다. 분류군 간의 재건은 분류군의 계통이라고합니다.

우리가 여기 시퀀스의 집합에서 계통 발생을 추론하기위한 단계 파이프 라인에 의해 단계를 설명하는 분자 생물 학자와 진화 생물 학자 사이의 전문 지식의 격차를 해소하는 데 도움이. 첫째, 우리는 세부 사항 웹 기반 인터페이스를 통해 또한 지역 실행 파일을 사용하여 기본 지역 정렬 검색 도구 (BLAST 1) 알고리즘을 사용하여 데이터베이스 심문하는 단계;이 종종 알 수없는 유사한 시퀀스의 목록을 얻는 첫 번째 단계입니다 쿼리, 일부 연구자는 또한 Phylota (http://www.phylota.net/)와 같은 웹 인터페이스를 통해 하나의 그룹에 대한 데이터를 수집에 관심이있을 수도있다. BLAST는 C에 대한 알고리즘질의 시퀀스를 닮은 "히트"에 대한 검색 시퀀스를 데이터베이스에 대해 일차 아미노산 또는 뉴클레오티드 서열 데이터를 omparing. BLAST 프로그램은 스티븐 Altschul 등에 의해 설계되었습니다. 국립 보건원 (NIH)에서 1. BLAST 서버는 다른 프로그램들로 구성되어 있으며, 여기에 가장 일반적인 BLAST 프로그램의 일부 목록입니다 :

ⅰ) 뉴클레오티드 염기 BLAST (BLASTN) :이 프로그램은 DNA 서열의 입력을 요구하고 DNA 데이터베이스로부터 가장 유사한 DNA 서열을 반환하는 사용자를 지정하는 특정 유기체 (예를 들면).

ⅱ) 단백질 – 단백질 BLAST (BLASTP) : 여기서 사용자는 단백질 서열을 입력하고, 프로그램은 사용자가 지정하는 단백질 데이터베이스에서 가장 유사한 단백질 서열을 반환한다.

III) 위치 별 반복 BLAST (PSI-BLAST) (blastpgp) : 사용자 입력은 PROTE입니다밀접한 관련이 단백질의 집합을 반환 순서,이 데이터 집합의 보존 프로파일이 생성됩니다. 다음 새로운 쿼리 단백질 데이터베이스를 심문하는 데 사용되는 이들 보존 된 "모티프"를 사용하여 생성되고 이는 보존 된 "모티프"의 새로운 세트를 추출하고 단백질 데이터베이스까지 심문하는 데 사용되는 단백질의 큰 그룹을 반환한다 단백질의 더 큰 세트 재곡 것으로 다른 프로파일이 생성되어 처리를 반복한다. 각 단계에서 검색어에 관련된 단백질을 포함함으로써이 프로그램은 사용자가 더 발산 아르 시퀀스를 식별 할 수있다.

ⅳ) 뉴클레오티드 6 – 프레임 번역 단백질 (BLASTX) : 여기서 사용자는 여섯 프레임 개념적 번역 제품 (즉,로 변환된다 뉴클레오티드 서열 입력을 제공하는 두 가닥) 단백질 서열 데이터베이스에 대해..

V) 6 프레임 번역 염기를 염기6 – 프레임 변환 (tblastx) :이 프로그램은 DNA 염기 서열의 입력을 받아,이 염기 서열 데이터베이스의 여섯 프레임 변환에 대하여 비교 여섯 프레임 개념적 번역 제품에 입력을 변환한다.

ⅵ) 단백질 – 뉴클레오티드 6 프레임 변환 (tblastn) :이 프로그램은 뉴클레오티드 서열 데이타베이스의 여섯 판독 범위에 대하여 비교하는 단백질 시퀀스 입력을 사용한다.

다음으로, 우리는 일련의 데이터 집합의 여러 순서 정렬 (MSA)를 생성하기 위해 일반적으로 사용되는 프로그램을 설명하고 이것은 일련의 데이터 집합에 대한 진화에 가장 적합한 모델을 결정하는 프로그램에 대한 사용자 설명서를 따른다. 계통 발생 학적 재구성은 통계 문제이며,이 때문에, 계통 발생 방법은 통계적인 프레임 워크를 통합 할 필요가있다. 이 통계 프레임 워크는 데이터 집합 내에서 일련의 변화를 통합하는 진화 모델이됩니다. 이 진화 개월델은 뉴클레오티드 또는 아미노산 치환의 과정에 대한 가정의 집합으로 구성되며, 특정 데이터 세트에 대한 최적의 모델은 통계적인 테스트를 통해 선택할 수 있습니다. 다른 모델의 데이터에 적합 가능한 것들의 집합 내에서 가장 적합한 모델을 선택하는 우도 비 테스트 (LRTs) 또는 정보 기준을 통해 비교할 수 있습니다. 두 공통 정보 기준은 아카 이케 정보 기준 (AIC) (2) 및 베이지안 정보 기준 (BIC) 3이다. 최적 얼라인먼트가 생성되면, 정렬 된 데이터로부터 계통을 생성하는 다양한 방법이있다. 진화 적 관계를 추론하는 수많은 방법이 있습니다, 광범위하게, 그들은 두 가지 범주로 나눌 수 있습니다 : 거리 기반의 방법과 순서 기반의 방법. 거리 기반 방법은 시퀀스의 페어의 거리를 계산하고 나무를 얻기 위해이 거리를 사용합니다. 시퀀스 기반의 방법은 직접 서열 정렬을 사용하여, 통상 t 검색최적 성 기준을 사용하여 REE 공간. 우리는 계통 발생 학적 관계를 재구성 두 시퀀스 기반의 방법을 간략하게 설명이 최대 우도 프레임 워크를 구현 PhyML 4, 그리고 베이지안 마르코프 체인 몬테카를로 유추를 사용 MrBayes 5. 가능성과 베이지안 방법은 계통 발생 학적 재구성을위한 통계적인 프레임 워크를 제공합니다. 일반적으로 사용되는 트리 구축 도구에 사용자 정보를 제공함으로써, 우리는 계통 발생 학적 관계를 추론하는 데 필요한 필요한 데이터에 독자를 소개합니다.

Protocol

1. 기본 지역 정렬 검색 도구 (BLAST) : 온라인 인터페이스 생명 공학 정보를위한 국립 센터 (NCBI)의 BLAST 1 웹 서버를 방문하려면이 링크를 클릭하십시오. – http://blast.ncbi.nlm.nih.gov/Blast.cgi (그림 1). 쿼리 상자에 입력 FASTA 포맷의 텍스트 시퀀스 (예를 들어 그림 2 참조). 검색에 사용하고 "BLAST"을 클?…

Representative Results

쿼리에 유사성을 발견하는 것은 연구자가 새로운 순서에 잠재적 인 정체성을 돌리는 또한 시퀀스 사이의 관계를 유추 할 수 있습니다. BLAST 1의 파일 입력 유형은 FASTA 포맷의 텍스트 순서 나 GenBank 액 번호입니다. FASTA 형식의 시퀀스는 ">"기호 (그림 2)에 의해 표시되는 설명 라인으로 시작한다. 설명은 ">"기호 순서 (예. 뉴클레오티드 또는 아미노산) ?…

Discussion

이 기사에 대한 우리의 희망은 계통 발생에 새로운 연구자 또는 학생들을 안내하는 출발점이 될 것입니다. 게놈 시퀀싱 프로젝트는 지난 몇 년 동안 저렴하게하고 결과적으로이 기술에 대한 사용자의 수요가 증가하고 있으며, 현재 많은 시퀀스 데이터 세트의 생산은 소규모 실험실에서 일반적이다. 이 데이터 세트는 종종 자신의 기능을 이해하기 시작하는 계통 발생 학적 프레임 워크를 필요로?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

우리는 원고에 대한 의견에 대한 오할로 랜 실험실의 구성원을 감사드립니다. 우리는 D. 오할로 랜에 자금 조달을위한 생명 과학의 조지 워싱턴 대학학과 및 예술과 과학의 콜롬비아 대학을 감사합니다.

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/cn/50975?article_type=t

Play Video

Cite This Article
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video