Summary

빼기 게놈에 의해 소설 시퀀스 검색

Published: January 25, 2019
doi:

Summary

이 프로토콜의 목적은 계산의 조합 및 벤치 연구를 사용 하 여 부분적 으로만 알려져 있을 수 있습니다 공동 정화 시퀀스에서 쉽게 분리 될 수 없는 새로운 시퀀스를 찾을 것입니다.

Abstract

빼기 게놈 유전자, 단백질, 또는 일반 지역 큰 게놈 맥락에 포함 되는 시퀀스를 식별 하는 목표는 어떤 연구에 사용할 수 있습니다. 빼기 유전체학 포괄적인 시퀀싱 및 알려진 유전 요소 (참조, R) 빼서 (T)의 대상 시퀀스를 분리 하는 연구원을 수 있습니다. 미토 콘 드리 아, 엽록체, 바이러스, 소설 시퀀스를 식별 하는 메서드를 사용할 수 있습니다 또는 생식 염색체, 제한 및 T R. 포괄적인 게놈 데이터 (R + T) 메서드를 사용 하면 시작에서 쉽게 분리 될 수 없을 때 특히 유용 일치 알려진된 시퀀스 (R), 대상 (T) 뒤에 남겨두고 제거 참조 시퀀스 또는 시퀀스에 대 한 기본적인 현지 줄 맞춤 검색 도구 (폭발)을 사용 합니다. 가장 잘 작동 하도록 빼기, R t. 없는 비교적 완전 한 초안 이어야 합니다. 빼기를 통해 정량적 중 합 효소 연쇄 반응 (정량) 테스트 후 나머지 시퀀스 이후 R 않습니다 필요가 없습니다 작동 방법에 대 한 완전 한 수 없습니다. 순차적으로 여러 참조 시퀀스를 제거 하 고 t.에 대 한 검색을 정제 실험 단계 필요에 따라 반복 수 사이클로 계산 단계 여기 링크 빼기 유전체학의 장점은 실제 정화는 어려운, 불가능 한, 또는 비싼 경우에도 완전히 소설 대상 시퀀스를 확인할 수 있습니다. 방법의 단점은 빼기에 대 한 적절 한 참조를 찾는 이며 T-긍정을 얻는 정량 테스트용 샘플을 제외 하 고. 얼룩말 피리 새 류의 생식 제한 염색체에서 첫 번째 유전자의 식별에서 방법의 우리의 구현을 설명합니다. 이 경우 3 참조 (R), 3 주기를 순차적으로 제거 관련 전산 필터링: 불완전 한 게놈 집합, 원시 게놈 데이터 및 transcriptomic 데이터.

Introduction

이 방법의 목적은 소설 대상 (T) 게놈 시퀀스, DNA 또는 RNA 게놈 컨텍스트나 참조 (R) (그림 1)에서 식별 하는 것입니다. 대상 물리적으로 분리 될 수 없다, 또는 그것은 그렇게 비싼 것 하는 경우 메서드를 사용 하면 가장 유용 합니다. 약간 유기 체만 완벽 하 게 마친 게놈 빼기, 그래서 우리의 방법의 주요 혁신은 때 참조 완벽 하지 않습니다, 대상 시퀀스를 분리 하는 연구원을 활성화 주기 또는 초안에 계산의 조합 방법과 벤치 비 모델 유기 체에서의 게놈 사이클의 끝에, 정량 시험 더 빼기가 필요한 지 여부를 결정 하는 데 사용 됩니다. 검증 된 후보 T 시퀀스 정량으로 알려진된 T-양성 샘플에 통계적으로 더 큰 감지를 표시 됩니다.

호스트 homologs,12,,34 가 없는 새로운 세균 약물 목표의 발견에 감염 된 호스트 에서에서 새로운 바이러스의 식별 방법의 화신 구현 되었습니다. 5,6. T의 식별, 뿐만 아니라 방법 연구: 우리는 최근 얼룩말 피리 새 류 참조 게놈에서 936 누락 된 유전자와 생식 전용 염색체 (T)7에서 새로운 유전자를 식별 하는 방법을 사용을 개선할 수 있습니다. T는 매우 알려진된 시퀀스에서 분기 될 가능성이 있거나 T의 정체성은 얼룩말 피리 새 류 생식 제한 염색체7에서 광범위 하 게 정의 된 빼기 유전체학은 특히 중요 합니다.

여 하지 미리 T의 긍정적인 식별, 빼기 유전체학의 주요 장점은 그것이 편견입니다. 최근 연구에서 Readhead 외. 알 츠 하이 머 병 및 4 개의 두뇌 영역에서 바이러스 성 풍부 사이 관계를 검사합니다. 바이러스 성 식별을 위해 Readhead 그 외 여러분 515 바이러스8, 그들의 연구를 식별할 수 있는 바이러스 성 대리인을 가혹 하 게 제한 하는 데이터베이스를 만들었습니다. 빼기 게놈 수 사용 되었습니다 건강 한와 츠의 게놈을 비교 하 알려진된 전염 성 요원 그들의 유사성에 질병와 관련 된 가능한 새로운 바이러스를 분리 하기 위하여. 263 알려진된 인간을 대상으로 바이러스 그러나 그것 추정 되었다는 대략 1.67 백만 알려지지 않은 바이러스 종이 존재, 인간9감염 가능성이 그들의 631,000 827,000와 함께.

새로운 바이러스의 고립은 빼기 있는 지역 유전체학은 특히 효과적입니다 하지만 일부 연구 엄격한 방법 필요 하지 않을 수 있습니다. 예를 들어 연구 식별 소설 바이러스 추출 하 고 반전 반전 녹음 방송 BLASTx 바이러스 시퀀스5 에 이어서 편견된 높은 처리량 시퀀싱 또는 바이러스 성 핵 산의 풍부 사용 바이러스 시퀀스 녹음 6. 이러한 연구 고용 드 노 보 시퀀싱 및 어셈블리, 빼기는 대상 시퀀스 폭발을 통해 긍정적으로 확인 되었습니다 있기 때문에 사용 되지 않았습니다. 만약 바이러스 완전히 소설과 관련이 없는 (또는 먼 관련) 다른 바이러스를 빼기 유전체학 되었을 것 이다 유용한 기술. 빼기 유전체학의 혜택은 완전히 새로운 시퀀스를 얻을 수 있습니다. 생물의 게놈은 알려져 경우 그것은 어떤 바이러스 시퀀스를 떠나 밖으로 공제 수 있습니다. 예를 들어 우리의 출판된 연구에서 우리는 우리의 원래 의도7아니었지만 빼기 유전체학을 통해 얼룩말 피리 새 류에서 소설 바이러스 시퀀스 고립.

빼기 유전체학 또한 세균 백신 대상, 극적인 상승 항생제 저항1,2,,34에 의해 동기의 식별에 유용한 입증 했다. 면역 반응의 위험을 최소화 하기 위해 연구팀은 인간의 호스트에서 homologs 있는 어떤 단백질을 빼서 잠재적인 백신 대상 좁혀. Corynebacterium pseudotuberculosis, 보고 한 특정 연구 가능한 약물 목표 부작용을 선도 하는 호스트에 있는 단백질에는 영향을 미치지 것을 보장 하기 위해 여러 가지 세균성 게놈에서 척추 호스트 게놈의 빼기 수행 1. 세균성 프로테옴 다운로드, 중요 한 단백질 결정, 중복 단백질 제거 호스트 homologs와 어떤 단백질을 제거 하려면 호스트 프로테옴에 대 한 필수적인 단백질을 분리 하는 BLASTp 및 BLASTp를 사용 하는 것입니다 이러한 연구의 기본 작업 흐름 1 , 2 , 3 , 4.이 경우 빼기 게놈 확인 백신 개발 호스트1,2,,34에서 어떤 대상에서 효과 없을 것 이다.

우리는 생식 제한 염색체 (강선) (이 경우, T)에 germlines에서 발견 되는 첫 번째 단백질 코딩 유전자를 식별 하기 위해 빼기 게놈을 사용 하지만 하지 체세포 조직 둘 다의 남녀10. 이 연구를 하기 전에 그리스에 대 한 알려진 유일한 게놈 정보 반복 지역11했다. 드 노 보 어셈블리 성인 얼룩말 피리 새 류에서 난소와 버 조직 (R + T)에서 시퀀싱 하는 RNA에서 수행 되었다. 시퀀스의 계산 제거 게시 된 체세포 (근육) 게놈 시퀀스 (R1)12를 사용 하 여 수행 되었다, 그것의 원시 (생어) 읽을 데이터 (R2), 그리고 체세포 (뇌) transcriptome (R3)13. 3 참조의 연속 사용을 필요로 했다 추가 필터링을 보여주는 각 주기는그림 2(A)의 단계 5에서 테스트 하는 정량에 의해 주도 되었다. 검색 된 α-스냅 유전자 DNA와 RNA, 그리고 복제 및 시퀀싱에서 정량 통해 확인 됐다. 우리는 우리의 예제에서는이 메서드는 유연에 표시: 그것은 일치 하는 핵 산 (DNA vs RNA)에 의존 하 고 그 빼기 어셈블리 또는 원시 읽기로 구성 된 참조 (R) 수행할 수 있습니다.

Protocol

1. 노 보 드 조립 시작 시퀀스 참고: 다음-세대 시퀀스 (NGS) 데이터 사용할 수 있습니다로 그 데이터에서 어셈블리를 생성할 수 있다. 적합 한 입력된 데이터 포함 Illumina, PacBio, 또는 옥스포드 Nanopore 읽습니다 fasta 파일에 조립. Concreteness에 대 한 설명 Illumina 기반 transcriptomic 어셈블리 얼룩말 피리 새 류 연구에 우리 수행7. 그러나 구체적인 프로젝트에 의?…

Representative Results

폭발을 실행 한 후 출력 파일 데이터베이스를 일치 하는 쿼리에서 시퀀스의 목록을 해야한다. Python 빼기 후 일치 하지 않는 시퀀스 수, 고 정량에 의해 테스트 됩니다. 이 결과 및 다음 단계를 아래에 설명 되어 있습니다. 결과 부정. 폭발 후 참조 시퀀스를 볼 수 있는 두 가지 가능한 부정적인 결과 있다. 폭발 결과,…

Discussion

빼기 유전체학 강력한 동안, 몇 가지 주요 단계, 및 참조 시퀀스 및 테스트 샘플의 주의 깊은 선택에서 사용자 지정을 요구 하는 쿠키 커터 접근 아니다. 쿼리 어셈블리 품질의 경우 필터링 단계 어셈블리 유물만 격리 수 있습니다. 따라서, 그것은 철저 하 게 노 보 드 어셈블리를 특정 프로젝트에 적절 한 유효성 검사 프로토콜을 사용 하 여 유효성을 검사 하는 것이 중요입니다. RNA-seq, 트리?…

Declarações

The authors have nothing to disclose.

Acknowledgements

저자 미셸 Biederman, Alyssa 페데르센, 그리고 콜린 J. Saldanha 얼룩말 피리 새 류 게놈 프로젝트와 다양 한 단계에서 그들의 지원에 대 한 인정합니다. 우리는 또한 컴퓨팅 클러스터 시스템 관리 및 NIH 그랜트 1K22CA184297 (J.R.B.)를 및 NIH NS 042767 (C.J.S)를 위한 Evgeny Bisk를 인정 합니다.

Materials

Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

Referências

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer’s Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics’ GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).
check_url/pt/58877?article_type=t

Play Video

Citar este artigo
Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

View Video