Summary

메지노믹 데이터의 생물학적 시퀀스를 분류하기 위해 딥 러닝을 사용하기 위한 비컴퓨터 전문가를 위한 가상 머신 플랫폼

Published: September 25, 2021
doi:

Summary

이 자습서는 메타게노믹 데이터의 2클래스 시퀀스 분류를 수행하기 위한 딥 러닝 알고리즘을 구성하는 간단한 방법을 설명합니다.

Abstract

종 분류, 유전자 기능 분류 및 바이러스 숙주 분류와 같은 다양한 생물학적 서열 분류 작업은 많은 메타게놈 데이터 분석에서 예상되는 과정이다. 메막뇨 데이터는 많은 수의 새로운 종과 유전자를 포함하고 있기 때문에, 많은 연구 결과에서 고성과 분류 알고리즘이 필요합니다. 생물학자는 종종 특정 작업에 적합한 서열 분류 및 어노칭 도구를 찾는 데 어려움을 겪고 있으며 필요한 수학 및 계산 지식이 부족하여 자체적으로 해당 알고리즘을 구성할 수 없습니다. 딥 러닝 기술은 최근 인기있는 주제가되었고 많은 분류 작업에서 강력한 이점을 보여줍니다. 현재까지 많은 고도로 포장된 딥 러닝 패키지로 생물학자들이 알고리즘 세부 사항에 대한 심층적인 지식 없이 자신의 필요에 따라 딥 러닝 프레임워크를 구축할 수 있도록 개발되었습니다. 이 자습서에서는 충분한 수학적 지식이나 프로그래밍 기술 없이 시퀀스 분류를 위한 사용하기 쉬운 딥 러닝 프레임워크를 구성하는 지침을 제공합니다. 모든 코드는 사용자가 자신의 데이터를 사용하여 코드를 직접 실행할 수 있도록 가상 시스템에 최적화됩니다.

Introduction

메타게놈 시퀀싱 기술은 균주 격리 과정을 우회하고 환경 샘플에서 총 DNA를 직접 서열시합니다. 따라서, 메막뇨 데이터는 다른 유기체로부터의 DNA를 포함하고, 대부분의 생물학적 서열은 현재 데이터베이스에 존재하지 않는 새로운 유기체에서 온 것이다. 상이한 연구 목적에 따르면, 생물학자들은 분류학 분류1,바이러스 박테리아 분류2,3,4,염색체 플라스미드 분류3,5,6,7및 유전자 기능 성(예: 항생 저항 유전자 분류8 및 독성 인자 분류 9)과 같은 다른 관점에서 이러한 서열을 분류해야 합니다. ). 메막뇨 데이터는 많은 수의 새로운 종과 유전자를 포함하기 때문에, 서열 분류를 위한 알려진 데이터베이스에 의존하지 않는 ab initio 알고리즘(DNA 분류 및 단백질 분류 포함), metagenomic 데이터 분석에 있는 중요한 접근입니다. 그러나 이러한 알고리즘의 설계에는 전문 수학 지식과 프로그래밍 기술이 필요합니다. 따라서 많은 생물학자와 알고리즘 설계 초보자는 자신의 요구에 맞게 분류 알고리즘을 구성하는 데 어려움을 가지고 있습니다.

인공 지능의 발달과 함께, 딥 러닝 알고리즘은 생물 정보학 분야에서 널리 사용되어 메막뇨 분석에서 서열 분류와 같은 작업을 완료했습니다. 초보자가 딥 러닝 알고리즘을 이해할 수 있도록 아래의 이해하기 쉬운 방식으로 알고리즘을 설명합니다.

딥 러닝 기술에 대한 개요는 그림 1에표시됩니다. 딥 러닝 알고리즘의 핵심 기술은 인간의 뇌의 구조에서 영감을 얻은 인공 신경망입니다. 수학적 관점에서 인공 신경망은 복잡한 기능으로 간주될 수 있다. 각 개체(예: DNA 서열, 사진 또는 비디오)가 먼저 디지털화됩니다. 그런 다음 디지털화된 개체를 함수로 가져옵니다. 인공 신경망의 임무는 입력 데이터에 따라 올바른 응답을 제공하는 것입니다. 예를 들어 2클래스 분류 작업을 수행하기 위해 인공 신경망이 생성되는 경우 네트워크는 각 개체에 대해 0-1 사이의 확률 점수를 출력해야 합니다. 신경망은 음수 물체에게 낮은 점수를 주면서 양수 객체에게 더 높은 점수(예: 0.5보다 높은 점수)를 제공해야 합니다. 이 목표를 달성하기 위해 인공 신경망은 교육 및 테스트 프로세스로 구성됩니다. 이러한 프로세스 중에 알려진 데이터베이스의 데이터를 다운로드한 다음 교육 집합 및 테스트 집합으로 나뉩니다. 각 개체는 적절한 방식으로 디지털화되고 레이블(양수 개체의 경우 “1”, 음수 객체의 경우 “0”)이 지정됩니다. 교육 과정에서 교육 집합의 디지털화된 데이터가 신경망에 입력됩니다. 인공 신경망은 입력 개체의 출력 점수와 개체의 해당 레이블 간의 유사성을 나타내는 손실 함수를 생성합니다. 예를 들어 입력 개체의 레이블이 “1”인 경우 출력 점수가 “0.1”인 경우 손실 함수가 높습니다. 출력 점수가 “0.1”인 동안 입력 개체의 레이블이 “0”인 경우 손실 함수가 낮습니다. 인공 신경망은 손실 기능을 최소화하기 위해 신경망의 매개 변수를 조정하는 특정 반복 알고리즘을 사용합니다. 손실 기능이 분명히 더 감소할 수 없을 때 교육 프로세스가 끝납니다. 마지막으로, 테스트 세트의 데이터는 고정 신경망을 테스트하는 데 사용되며, 신경망이 새 개체에 대한 올바른 라벨을 계산하는 기능이 평가된다. 딥 러닝 알고리즘의 더 많은 원칙은 LeCun 등의 검토에서 찾을 수 있습니다. 10.

딥 러닝 알고리즘의 수학적 원칙은 복잡할 수 있지만 최근에는 많은 고도로 포장된 딥 러닝 패키지가 개발되었으며 프로그래머는 몇 줄의 코드로 간단한 인공 신경망을 직접 구성할 수 있습니다.

생물학자와 알고리즘 설계 초보자가 딥 러닝을 보다 신속하게 사용하도록 돕기 위해 이 튜토리얼은 시퀀스 분류를 위한 사용하기 쉬운 딥 러닝 프레임워크를 구성하는 지침을 제공합니다. 이 프레임워크는 “1-hot” 인코딩 양식을 수학적 모델로 사용하여 생물학적 서열을 디지털화하고 컨볼루션 신경망을 사용하여 분류 작업을 수행합니다(보충 자료참조). 사용자가 이 지침을 사용하기 전에 수행해야 하는 유일한 방법은 “fasta” 형식으로 4개의 시퀀스 파일을 준비하는 것입니다. 첫 번째 파일에는 교육 프로세스에 대한 양수 클래스의 모든 시퀀스가 포함되어 있습니다(“p_train.fasta”라고 함); 두 번째 파일에는 교육 프로세스에 대한 음수 클래스의 모든 시퀀스가 포함되어 있습니다(“n_train.fasta”라고 함); 세 번째 파일에는 테스트 프로세스에 대한 양수 클래스의 모든 시퀀스가 포함되어 있습니다(“p_test.fasta”라고 함); 마지막 파일에는 테스트 프로세스에 대한 음수 클래스의 모든 시퀀스가 포함되어 있습니다(“n_test.fasta”라고 함). 이 자습서의 순서도 개요는 그림 2에제공되며 자세한 내용은 아래에 설명됩니다.

Protocol

1. 가상 시스템의 설치 (https://github.com/zhenchengfang/DL-VM)에서 가상 머신 파일을 다운로드합니다. https://www.virtualbox.org 버추얼 박스 소프트웨어를 다운로드합니다. “7-Zip”, “WinRAR” 또는 “WinZip”과 같은 관련 소프트웨어를 사용하여 “.7z” 파일의 압축을 풀수 있습니다. 각 단계에서 다음 단추를 클릭하여 VirtualBox 소프트웨어를 설치합니다. 버추얼박스 소프트…

Representative Results

이전 작업에서는 이 자습서3,11, 12와유사한 접근 방식을 사용하여 메타게놈 데이터에 대한 일련의 서열 분류 도구를개발했습니다. 예를 들어, 우리는 가상 머신에서 이전 작업3,11에서 교육 세트 및 테스트 세트의 순서 파일을 증착했습니다. 팡 & 저우<sup class="xref…

Discussion

이 자습서에서는 생물학자 및 알고리즘 설계 초보자에게 메라지노믹 데이터에서 생물학적 서열 분류를 위한 사용이 간편한 딥 러닝 프레임워크를 구성하는 방법에 대한 개요를 제공합니다. 이 자습서는 딥 러닝에 대한 직관적인 이해를 제공하고 초보자가 딥 러닝 패키지를 설치하고 알고리즘에 대한 코드를 작성하는 데 어려움을 가지는 과제를 해결하는 것을 목표로 합니다. 몇 가지 간단한 분?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

이 조사는 중국 국립 자연 과학 재단 (81925026, 82002201, 81800746, 82102508)에 의해 재정적으로 지원되었습니다.

Materials

PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).
check_url/62250?article_type=t

Play Video

Cite This Article
Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

View Video