Summary

En virtuell maskinplattform för icke-datorproffs för att använda djupinlärning för att klassificera biologiska sekvenser av metagenomiska data

Published: September 25, 2021
doi:

Summary

Den här självstudien beskriver en enkel metod för att konstruera en djup inlärningsalgoritm för att utföra 2-klassssekvensklassificering av metagenomiska data.

Abstract

En mängd olika biologiska sekvensklassificeringsuppgifter, såsom artklassificering, genfunktionsklassificering och viral värdklassificering, förväntas processer i många metagenomiska dataanalyser. Eftersom metagenomiska data innehåller ett stort antal nya arter och gener behövs högpresterande klassificeringsalgoritmer i många studier. Biologer stöter ofta på utmaningar i att hitta lämpliga sekvensklassificerings- och anteckningsverktyg för en viss uppgift och kan ofta inte konstruera en motsvarande algoritm på egen hand på grund av brist på nödvändig matematisk och beräkningskunskap. Djupinlärningstekniker har nyligen blivit ett populärt ämne och visar starka fördelar i många klassificeringsuppgifter. Hittills har många mycket paketerade djupinlärningspaket, som gör det möjligt för biologer att konstruera djupinlärningsramverk enligt sina egna behov utan djupgående kunskap om algoritmdetaljerna, utvecklats. I den här självstudien tillhandahåller vi en riktlinje för att konstruera ett lättankänt ramverk för djupinlärning för sekvensklassificering utan att behöva tillräckliga matematiska kunskaper eller programmeringsfärdigheter. All kod är optimerad i en virtuell dator så att användare direkt kan köra koden med sina egna data.

Introduction

Den metagenomiska sekvenseringstekniken kringgår stamisoleringsprocessen och sekvenserar direkt det totala DNA:t i ett miljöprov. Således innehåller metagenomiska data DNA från olika organismer, och de flesta biologiska sekvenser kommer från nya organismer som inte finns i den nuvarande databasen. Enligt olika forskningsändamål måste biologer klassificera dessa sekvenser ur olika perspektiv, såsom taxonomiskklassificering 1,virusbakterieklassificering2,3,4, kromosomplasmidklassificering3, 5,6,7och genfunktionsanteckning (såsom antibiotisk resistensgenklassificering 8 och virulensfaktorklassificering9 ). Eftersom metagenomiska data innehåller ett stort antal nya arter och gener är ab initio-algoritmer, som inte förlitar sig på kända databaser för sekvensklassificering (inklusive DNA-klassificering och proteinklassificering), ett viktigt tillvägagångssätt i metagenomisk dataanalys. Utformningen av sådana algoritmer kräver dock professionell matematikkunskap och programmeringsförmåga; Därför har många biologer och algoritmdesign nybörjare svårt att konstruera en klassificeringsalgoritm som passar deras egna behov.

Med utvecklingen av artificiell intelligens har djupinlärningsalgoritmer använts i stor utsträckning inom bioinformatik för att slutföra uppgifter som sekvensklassificering i metagenomisk analys. För att hjälpa nybörjare att förstå djupinlärningsalgoritmer beskriver vi algoritmen på ett lättförståeande sätt nedan.

En översikt över en djupinlärningsteknik visas i figur 1. Kärntekniken i en djupinlärningsalgoritm är ett artificiellt neuralt nätverk, som är inspirerat av den mänskliga hjärnans struktur. Ur matematisk synvinkel kan ett artificiellt neuralt nätverk betraktas som en komplex funktion. Varje objekt (till exempel en DNA-sekvens, ett foto eller en video) digitaliseras först. Det digitaliserade objektet importeras sedan till funktionen. Uppgiften för det artificiella neurala nätverket är att ge ett korrekt svar enligt indata. Om till exempel ett artificiellt neuralt nätverk är konstruerat för att utföra en klassificeringsuppgift med två klasser, bör nätverket mata ut en sannolikhetspoäng som är mellan 0-1 för varje objekt. Det neurala nätverket bör ge det positiva objektet en högre poäng (till exempel en poäng högre än 0,5) samtidigt som det negativa objektet får en lägre poäng. För att uppnå detta mål är ett artificiellt neuralt nätverk konstruerat med tränings- och testprocesserna. Under dessa processer hämtas data från den kända databasen och delas sedan in i en träningsuppsättning och testuppsättning. Varje objekt digitaliseras på rätt sätt och får en etikett (“1” för positiva objekt och “0” för negativa objekt). I träningsprocessen matas de digitaliserade data i tränings uppsättningen in i det neurala nätverket. Det artificiella neurala nätverket konstruerar en förlustfunktion som representerar skillnaden mellan utdatapoängen för indataobjektet och motsvarande etikett för objektet. Om till exempel etiketten på indataobjektet är “1” medan utdatapoängen är “0,1” blir förlustfunktionen hög. och om etiketten på indataobjektet är “0” medan utdatapoängen är “0,1” blir förlustfunktionen låg. Det artificiella neurala nätverket använder en specifik iterativ algoritm som justerar parametrarna för det neurala nätverket för att minimera förlustfunktionen. Träningsprocessen avslutas när förlustfunktionen uppenbarligen inte kan minskas ytterligare. Slutligen används data i test uppsättningen för att testa det fasta neurala nätverket, och neurala nätverkets förmåga att beräkna rätt etiketter för de nya objekten utvärderas. Fler principer för djupinlärningsalgoritmer finns i översynen i LeCun et al. 10.

Även om de matematiska principerna för djupinlärningsalgoritmer kan vara komplexa, har många högt paketerade djupinlärningspaket nyligen utvecklats, och programmerare kan direkt konstruera ett enkelt artificiellt neuralt nätverk med några rader kod.

För att hjälpa biologer och algoritmdesign nybörjare att komma igång med att använda djupinlärning snabbare, ger den här handledningen en riktlinje för att konstruera ett lättan nyttigt djupinlärningsramverk för sekvensklassificering. Detta ramverk använder kodningsformuläret “one-hot” som matematisk modell för att digitalisera de biologiska sekvenserna och använder ett invecklad neuralt nätverk för att utföra klassificeringsuppgiften (se tilläggsmaterialet). Det enda som användarna behöver göra innan de använder denna riktlinje är att förbereda fyra sekvensfiler i “fast” -format. Den första filen innehåller alla sekvenser av den positiva klassen för träningsprocessen (se “p_train.fast”); Den andra filen innehåller alla sekvenser av den negativa klassen för träningsprocessen (se “n_train.fasta”). Den tredje filen innehåller alla sekvenser av den positiva klassen för provningsprocessen (se “p_test.fast”). och den sista filen innehåller alla sekvenser av den negativa klassen för testprocessen (se “n_test.fast”). Översikten över flödesschemat för denna handledning finns i figur 2, och mer information kommer att nämnas nedan.

Protocol

1. Installation av den virtuella datorn Hämta filen för den virtuella datorn från (https://github.com/zhenchengfang/DL-VM). Hämta VirtualBox-programvaran från https://www.virtualbox.org. Dekomprimera filen “.7z” med relaterad programvara, till exempel “7-Zip”, “WinRAR” eller “WinZip”. Installera VirtualBox-programvaran genom att klicka på knappen Nästa i varje steg. Öppna VirtualBox-programvaran och klicka på knappen Ny för att …

Representative Results

I vårt tidigare arbete utvecklade vi en serie sekvensklassificeringsverktyg för metagenomiska data med hjälp av en metod som liknar denna handledning3,11,12. Som ett exempel satte vi in sekvensfilerna i delmängden av träningsuppsättningen och testuppsättningen från vårt tidigare arbete3,11 i den virtuella datorn. Fang & Zhou<sup class…

Discussion

Den här självstudien ger en översikt för biologer och algoritmdesign nybörjare om hur man konstruerar ett lättanrikt ramverk för djupinlärning för biologisk sekvensklassificering i metagenomiska data. Denna handledning syftar till att ge intuitiv förståelse för djupinlärning och ta itu med utmaningen att nybörjare ofta har svårt att installera djupinlärningspaketet och skriva koden för algoritmen. För vissa enkla klassificeringsuppgifter kan användare använda ramverket för att utföra klassificerings…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Denna undersökning stöddes ekonomiskt av National Natural Science Foundation of China (81925026, 82002201, 81800746, 82102508).

Materials

PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).
check_url/62250?article_type=t

Play Video

Cite This Article
Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

View Video