Genetics

En virtuell maskinplattform for ikke-datamaskin fagfolk for bruk av dyp læring for å klassifisere biologiske sekvenser av metagenomiske data

Published: September 25, 2021 doi: 10.3791/62250

¹Microbiome Medicine Center, Department of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, ²Center for Quantitative Biology, Peking University, ³State Key Laboratory of Organ Failure Research, Southern Medical University

Summary

Denne opplæringen beskriver en enkel metode for å konstruere en dyp læringsalgoritme for å utføre 2-klasse sekvensklassifisering av metagenomiske data.

Abstract

En rekke biologiske sekvensklassifiseringsoppgaver, som artsklassifisering, genfunksjonsklassifisering og virusvertsklassifisering, forventes prosesser i mange metagenomiske dataanalyser. Siden metagenomiske data inneholder et stort antall nye arter og gener, er det nødvendig med høypresterende klassifikasjonsalgoritmer i mange studier. Biologer møter ofte utfordringer med å finne egnede sekvensklassifiserings- og merknadsverktøy for en bestemt oppgave og er ofte ikke i stand til å konstruere en tilsvarende algoritme på egen hånd på grunn av mangel på nødvendig matematisk og beregningsmessig kunnskap. Dyplæringsteknikker har nylig blitt et populært tema og viser sterke fordeler i mange klassifikasjonsoppgaver. Til dags dato er mange svært pakkede dyplæringspakker, som gjør det mulig for biologer å konstruere dype læringsrammer i henhold til egne behov uten inngående kunnskap om algoritmedetaljene. I denne opplæringen gir vi en retningslinje for å konstruere et brukervennlig rammeverk for dyp læring for sekvensklassifisering uten behov for tilstrekkelig matematisk kunnskap eller programmeringsferdigheter. All koden er optimalisert i en virtuell maskin slik at brukere kan kjøre koden direkte ved hjelp av sine egne data.

Introduction

Den metagenomiske sekvenseringsteknikken omgår belastningsisolasjonsprosessen og sekvenserer direkte det totale DNA-et i en miljøprøve. Dermed inneholder metagenomiske data DNA fra forskjellige organismer, og de fleste biologiske sekvenser er fra nye organismer som ikke er til stede i den nåværende databasen. I henhold til ulike forskningsformål må biologer klassifisere disse sekvensene fra forskjellige perspektiver, for eksempel taksonomisk klassifisering¹, virusbakterieklassifisering²^,³^,⁴, kromosom-plasmidklassifisering^3,^5,⁶^,⁷og genfunksjonsmerknad (for eksempel genklassifisering av antibiotikaresistens⁸ og virulensfaktorklassifisering⁹). Fordi metagenomiske data inneholder et stort antall nye arter og gener, er ab initio-algoritmer, som ikke er avhengige av kjente databaser for sekvensklassifisering (inkludert DNA-klassifisering og proteinklassifisering), en viktig tilnærming i metagenomisk dataanalyse. Imidlertid krever utformingen av slike algoritmer profesjonell matematikkkunnskap og programmeringsferdigheter; Derfor har mange biologer og algoritmedesign nybegynnere problemer med å konstruere en klassifiseringsalgoritme som passer deres egne behov.

Med utviklingen av kunstig intelligens har dyplæringsalgoritmer blitt mye brukt innen bioinformatikk for å fullføre oppgaver som sekvensklassifisering i metagenomisk analyse. For å hjelpe nybegynnere med å forstå dype læringsalgoritmer, beskriver vi algoritmen på en lettfattelig måte nedenfor.

En oversikt over en dyplæringsteknikk vises i figur 1. Kjerneteknologien til en dyp læringsalgoritme er et kunstig nevralt nettverk, som er inspirert av strukturen i den menneskelige hjerne. Fra et matematisk synspunkt kan et kunstig nevralt nettverk betraktes som en kompleks funksjon. Hvert objekt (for eksempel en DNA-sekvens, et bilde eller en video) digitaliseres først. Det digitaliserte objektet importeres deretter til funksjonen. Oppgaven til det kunstige nevrale nettverket er å gi riktig respons i henhold til inngangsdataene. Hvis for eksempel et kunstig nevralt nettverk er konstruert for å utføre en klassifiseringsoppgave i to klasser, skal nettverket gi en sannsynlighetspoengsum på mellom 0 og 1 for hvert objekt. Det nevrale nettverket bør gi det positive objektet en høyere poengsum (for eksempel en poengsum høyere enn 0,5) samtidig som det negative objektet får en lavere poengsum. For å oppnå dette målet er et kunstig nevralt nettverk konstruert med opplærings- og testprosessene. Under disse prosessene lastes data fra den kjente databasen ned og deretter deles inn i et opplæringssett og testsett. Hvert objekt digitaliseres på riktig måte og gis en etikett ("1" for positive objekter og "0" for negative objekter). I treningsprosessen legges de digitaliserte dataene i treningssettet inn i nevralnettverket. Det kunstige nevrale nettverket konstruerer en tapsfunksjon som representerer ulikheten mellom utdataresultatet til inndataobjektet og den tilsvarende etiketten til objektet. Hvis for eksempel etiketten for inndataobjektet er "1" mens utdataresultatet er "0,1", vil tapsfunksjonen være høy. og hvis etiketten til inndataobjektet er "0" mens utdataresultatet er "0,1", vil tapsfunksjonen være lav. Det kunstige nevrale nettverket bruker en spesifikk iterativ algoritme som justerer parametrene til nevralnettverket for å minimere tapsfunksjonen. Treningsprosessen avsluttes når tapsfunksjonen ikke kan reduseres ytterligere. Til slutt brukes dataene i testsettet til å teste det faste nevrale nettverket, og nevralnettverkets evne til å beregne de riktige etikettene for de nye objektene evalueres. Flere prinsipper for dyplæringsalgoritmer finnes i gjennomgangen i LeCun et al. ¹⁰.

Selv om de matematiske prinsippene for dyplæringsalgoritmer kan være komplekse, har mange svært pakkede dyplæringspakker nylig blitt utviklet, og programmerere kan direkte konstruere et enkelt kunstig nevralt nettverk med noen få kodelinjer.

For å hjelpe biologer og algoritmedesign nybegynnere med å komme i gang med å bruke dyp læring raskere, gir denne opplæringen en retningslinje for å konstruere et brukervennlig rammeverk for dyp læring for sekvensklassifisering. Dette rammeverket bruker den "en-hot" kodingsformen som den matematiske modellen for å digitalisere de biologiske sekvensene og bruker et konvolusjons nevralt nettverk for å utføre klassifiseringsoppgaven (se tilleggsmaterialet). Det eneste brukerne trenger å gjøre før de bruker denne retningslinjen, er å forberede fire sekvensfiler i "fasta" -format. Den første filen inneholder alle sekvenser av den positive klassen for treningsprosessen (referert til "p_train.fasta"); den andre filen inneholder alle sekvenser av den negative klassen for treningsprosessen (referert til "n_train.fasta"); den tredje filen inneholder alle sekvenser av den positive klassen for testprosessen (referert til "p_test.fasta"); og den siste filen inneholder alle sekvenser av den negative klassen for testprosessen (referert til "n_test.fasta"). Oversikten over flytskjemaet for denne opplæringen er gitt i figur 2, og flere detaljer vil bli nevnt nedenfor.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Installasjonen av den virtuelle maskinen

Last ned filen for den virtuelle maskinen fra (https://github.com/zhenchengfang/DL-VM).
Last ned VirtualBox-programvaren fra https://www.virtualbox.org.
Dekomprimer ".7z" -filen ved hjelp av relatert programvare, for eksempel "7-Zip", "WinRAR" eller "WinZip".
Installer VirtualBox-programvaren ved å klikke neste knapp i hvert trinn.
Åpne VirtualBox-programvaren og klikk på Ny-knappen for å opprette en virtuell maskin.
Trinn 6: Skriv inn det angitte virtuelle maskinnavnet i "Navn" -rammen, velg Linux som operativsystem i "Type" -rammen, velg Ubuntu i "Versjon" -rammen og klikk på Neste-knappen.
Tildel minnestørrelsen på den virtuelle maskinen. Vi anbefaler at brukerne trekker knappen til høyre meste av den grønne linjen for å tilordne så mye minne som mulig til den virtuelle maskinen, og deretter klikker neste knapp.
Velg valget Bruk en eksisterende virtuell harddiskfil , velg filen "VM_Bioinfo.vdi" lastet ned fra trinn 1.1, og klikk deretter Opprett-knappen.
Klikk stjerneknappen for å åpne den virtuelle maskinen.
MERK: Figur 3 viser skjermbildet av skrivebordet på den virtuelle maskinen.

2. Opprett delte mapper for filer som utveksler mellom den fysiske verten og den virtuelle maskinen

I den fysiske verten oppretter du en delt mappe med navnet "shared_host", og på skrivebordet til den virtuelle maskinen oppretter du en delt mappe med navnet "shared_VM".
I menylinjen på den virtuelle maskinen klikker du på Enheter, Delt mappe, Innstillinger for delte mapper etter hvert.
Klikk knappen øverst til høyre.
Velg den delte mappen i den fysiske verten som ble opprettet i trinn 2.1, og velg alternativet Automatisk montering. Klikk OK .
Start den virtuelle maskinen på nytt.
Klikk på høyre klikk på skrivebordet på den virtuelle maskinen og åpne terminalen.
Kopier følgende kommando til terminalen:
sudo mount -t vboxsf shared_host ./Desktop/shared_VM
1. Når du blir bedt om et passord, skriver du inn "1" og trykker på "Enter" -tasten, som vist i figur 4.

3. Forbered filene for treningssettet og testsettet

Kopier alle fire sekvensfilene i "fasta" -format for opplærings- og testprosessen til "shared_host" -mappen til den fysiske verten. På denne måten vil alle filene også forekomme i "shared_VM" -mappen på den virtuelle maskinen. Kopier deretter filene i "shared_VM" -mappen til "DeepLearning" -mappen på den virtuelle maskinen.

4. Digitaliser de biologiske sekvensene ved hjelp av "one-hot" kodingsform

Gå til "DeepLearning" -mappen, klikk på høyreklikket og åpne terminalen. Skriv inn følgende kommando:
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
(for aminosyresekvenser)
eller
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
(for nukleinsyresekvenser)
MERK: Et skjermbilde av denne prosessen finnes i figur 5.

5. Tren og test det kunstige nevrale nettverket

I terminalen skriver du inn følgende kommando, som vist i figur 6:
python train.py
MERK: Treningsprosessen begynner.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

I vårt tidligere arbeid utviklet vi en rekke sekvensklassifiseringsverktøy for metagenomiske data ved hjelp av en tilnærming som ligner på denne opplæringen³^,¹¹^,¹². Som et eksempel deponerte vi sekvensfilene til delsettet av treningssett og testsett fra vårt forrige arbeid³^,¹¹ i den virtuelle maskinen.

Fang &Zhou¹¹ hadde som mål å identifisere de komplette og delvise prokaryote virusvirionproteinene fra viromdata. Filen "p_train.fasta" inneholder virusvirionproteinfragmenter for treningssettet; filen "n_train.fasta" inneholder virus nonvirion protein fragmenter for treningssettet; filen "p_test.fasta" inneholder virus virion protein fragmenter for testsettet; og filen "n_test.fasta" inneholder virus nonvirion protein fragmenter for testsettet. Brukeren kan direkte utføre følgende to kommandoer for å konstruere nevralnettverket:
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
og
python train.py

Ytelsen vises i figur 7.

Fang et al.³ hadde som mål å identifisere phage DNA-fragmenter fra bakterielle kromosom-DNA-fragmenter i metagenomiske data. Filen "phage_train.fasta" inneholder phage DNA-fragmenter for treningssettet; filen "chromosome_train.fasta" inneholder kromosom DNA-fragmenter for treningssettet; filen "phage_test.fasta" inneholder phage DNA-fragmenter for testsettet; og filen "chromosome_test.fasta" inneholder kromosom-DNA-fragmentene for testsettet. Brukeren kan direkte utføre følgende to kommandoer for å konstruere nevralnettverket:
./onehot_encoding phage_train.fasta chromosome_train.fasta phage_test.fasta chromosome_test.fasta nt
og
python train.py

Ytelsen vises i figur 8.

Det er verdt å merke seg at fordi algoritmen inneholder noen prosesser som har tilfeldighet, kan resultatene ovenfor være litt forskjellige hvis brukerne kjører skriptet på nytt.

Figur 1. Oversikt over dyplæringsteknikken. Klikk her for å se en større versjon av denne figuren.

Figur 2. Oversikten over flytskjemaet for denne opplæringen. Klikk her for å se en større versjon av denne figuren.

Figur 3. Skjermbildet av skrivebordet til den virtuelle maskinen. Klikk her for å se en større versjon av denne figuren.

Figur 4. Skjermbildet av aktiveringen av de delte mappene. Klikk her for å se en større versjon av denne figuren.

Figur 5. Skjermbildet av prosessen med sekvens digitalisering. Klikk her for å se en større versjon av denne figuren.

Figur 6. Tren og test det kunstige nevrale nettverket. Klikk her for å se en større versjon av denne figuren.

Figur 7. Ytelsen til prokaryote virus virion protein fragmenter identifikasjon. Evalueringskriteriene er Sn=TP/(TP+FN), Sp=TN/(TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) og AUC. Klikk her for å se en større versjon av denne figuren.

Figur 8. Utførelsen av phage DNA fragmenter identifikasjon. Evalueringskriteriene er Sn=TP/(TP+FN), Sp=TN/(TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) og AUC. Klikk her for å se en større versjon av denne figuren.

Tilleggsmateriale: Klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Denne opplæringen gir en oversikt for biologer og algoritmedesign nybegynnere om hvordan man konstruerer et brukervennlig rammeverk for dyp læring for biologisk sekvensklassifisering i metagenomiske data. Denne opplæringen tar sikte på å gi intuitiv forståelse av dyp læring og adressere utfordringen som nybegynnere ofte har problemer med å installere den dype læringspakken og skrive koden for algoritmen. For noen enkle klassifiseringsoppgaver kan brukere bruke rammeverket til å utføre klassifiseringsoppgavene.

Tatt i betraktning at mange biologer ikke er kjent med kommandolinjen til Linux-operativsystemet, forhåndsinstallerte vi all avhengig programvare i en virtuell maskin. På denne måten kan brukeren direkte kjøre koden i den virtuelle maskinen etter protokollen nevnt ovenfor. I tillegg, hvis brukere er kjent med Linux-operativsystemet og Python-programmering, kan de også kjøre denne protokollen direkte på serveren eller den lokale PCen. På denne måten bør brukeren forhåndsinstallere følgende avhengige programvare:

Python 2.7.12 (https://www.python.org/)
Python pakker:
numpy 1,13,1 (http://www.numpy.org/)
h5py 2,6,0 (http://www.h5py.org/)
TensorFlow 1.4.1 (https://www.tensorflow.org/)
Keras 2.0.8 (https://keras.io/)
KJØRETID FOR MATLAB-komponent (MCR) R2018a (https://www.mathworks.com/products/compiler/matlab-runtime.html)

Håndboken for vårt tidligere arbeid³ har en kort beskrivelse av installasjonen. Vær oppmerksom på at versjonsnummeret for hver pakke tilsvarer versjonen vi brukte i koden. Fordelen med å kjøre koden på serveren eller den lokale PCen uten den virtuelle maskinen er at koden kan øke hastigheten med en GPU på denne måten, noe som kan spare mye tid i treningsprosessen. På denne måten bør brukeren installere GPU-versjonen av TensorFlow (se manualen for tidligere arbeid³).

Noen av de kritiske trinnene i protokollen er beskrevet som følger. I trinn 4.1 skal filnavnene "p_train.fasta", "n_train.fasta", "p_test.fasta" og "n_test.fasta" erstattes av de brukte filnavnene. Rekkefølgen på disse fire filene i denne kommandoen kan ikke endres. Hvis filene inneholder aminosyresekvenser, bør den siste parameteren være "aa"; Hvis filene inneholder nukleinsyresekvenser, bør den siste parameteren være "nt". Denne kommandoen bruker kodingsskjemaet "one-hot" til å digitalisere de biologiske sekvensene. En introduksjon av "one-hot" kodingsskjemaet er gitt i tilleggsmaterialet. I trinn 5.1, fordi den virtuelle maskinen ikke kan sped opp med GPU, kan denne prosessen ta noen timer eller flere dager, avhengig av datastørrelsen. Fremdriftslinjene for hver gjentakelsese epoke vises i terminalen. Vi setter antall epoker til 50, og dermed vises totalt 50 fremdriftsstenger når treningsprosessen er ferdig. Når testprosessen er fullført, vises nøyaktigheten for testsettet i terminalen. I "DeepLearning" -mappen på den virtuelle maskinen vil det bli opprettet en fil som heter "forutsi.csv". Denne filen inneholder alle prediksjonsresultatene for testdataene. Rekkefølgen på disse poengsummene tilsvarer sekvensrekkefølgen i "p_test.fasta" og "n_test.fasta" (den første halvdelen av disse poengsummene tilsvarer "p_test.fasta", mens andre halvdel av disse poengsummene tilsvarer "n_test.fatsa"). Hvis brukere vil lage prediksjoner for sekvensene hvis sanne klasser er ukjente, kan de også deponere disse ukjente sekvensene enten i filen "p_test.fasta" eller "n_test.fasta". På denne måten vil poengsummene til disse ukjente sekvensene også vises i "forutsi.csv" -filen, men "nøyaktighet" -skjermen i terminalen gir ikke mening. Dette skriptet bruker et konvolusjonelt nevralt nettverk for å utføre klassifiseringen. Strukturen til nevralnettverket og koden for nevralnettverket er vist i tilleggsmaterialet.

En av egenskapene til dyp læring er at mange parameterinnstillinger krever litt erfaring, noe som kan være en stor utfordring for nybegynnere. For å unngå nybegynnerforståelse forårsaket av et stort antall formler, fokuserer vi ikke på de matematiske prinsippene for dyp læring, og i den virtuelle maskinen gir vi ikke et spesielt parameterinnstillingsgrensesnitt. Selv om dette kan være et godt valg for nybegynnere, kan upassende parametervalg også føre til en nedgang i presisjon. For å tillate nybegynnere å bedre oppleve hvordan man endrer parametrene, legger vi i skriptet "train.py", noen kommentarer til den relaterte koden, og brukere kan endre de relaterte parametrene, for eksempel antall konvolusjonskjerner, for å se hvordan disse parametrene påvirker ytelsen.

I tillegg bør mange dyplæringsprogrammer kjøres under en GPU. Konfigurering av GPU krever imidlertid også noen datamaskinferdigheter som kan være vanskelige for ikke-datamaskinfagfolk; Derfor velger vi å optimalisere koden i en virtuell maskin.

Når du løser andre sekvensklassifiseringsoppgaver basert på denne retningslinjen, trenger brukerne bare å erstatte de fire sekvensfilene med sine egne data. For eksempel, hvis brukerne trenger å skille plasmid-avledede og kromosom-avledede sekvenser i metagenomiske data, kan de direkte laste ned plasmidgenomer (https://ftp.ncbi.nlm.nih.gov/refseq/release/plasmid/) og bakterielle kromosomgenomer (https://ftp.ncbi.nlm.nih.gov/refseq/release/bacteria/) fra RefSeq-databasen og skille genomene i et treningssett og testsett. Det er verdt å merke seg at DNA-sekvenser i metagenomiske data ofte fragmenteres i stedet for komplette genomer. I slike tilfeller kan brukere bruke MetaSim^{13-verktøyet} til å trekke ut DNA-fragmentet fra hele genomet. MetaSim er et brukervennlig verktøy med et GUI-grensesnitt, og brukere kan fullføre de fleste operasjoner ved hjelp av musen uten å skrive noen kommando på tastaturet. For å forenkle driften for nybegynnere, er opplæringen vår designet for en to-klasse klassifiseringsoppgave. Vi må imidlertid utføre multiklassifisering i mange oppgaver. I slike tilfeller kan nybegynnere prøve å skille multiklassifiseringsoppgaven i flere toklasses klassifiseringsoppgaver. For eksempel, for å identifisere phage-verten, konstruerte Zhang et al. 9 toklasseklassifiserere for å identifisere om en gitt phage-sekvens kan infisere en bestemt vert.

Hjemmesiden til denne opplæringen er deponert på GitHub-nettstedet https://github.com/zhenchengfang/DL-VM. Enhver oppdatering av opplæringen vil bli beskrevet på nettstedet. Brukere kan også stille spørsmål om denne opplæringen på nettstedet.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne erklærer at det ikke er noen interessekonflikter.

Acknowledgments

Denne undersøkelsen ble økonomisk støttet av National Natural Science Foundation of China (81925026, 82002201, 81800746, 82102508).

Materials

Name	Company	Catalog Number	Comments
PC or server	NA	NA	Suggested memory: >6GB
VirtualBox software	NA	NA	Link: https://www.virtualbox.org

DOWNLOAD MATERIALS LIST

References

Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Genetics

En virtuell maskinplattform for ikke-datamaskin fagfolk for bruk av dyp læring for å klassifisere biologiske sekvenser av metagenomiske data

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.