Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Een virtueel machineplatform voor niet-computerprofessionals voor het gebruik van deep learning om biologische sequenties van metagenomische gegevens te classificeren

Published: September 25, 2021 doi: 10.3791/62250

Summary

Deze zelfstudie beschrijft een eenvoudige methode om een deep learning-algoritme te construeren voor het uitvoeren van 2-klasse sequentieclassificatie van metagenomische gegevens.

Abstract

Een verscheidenheid aan biologische sequentieclassificatietaken, zoals soortenclassificatie, genfunctieclassificatie en virale gastheerclassificatie, zijn verwachte processen in veel metagenomic data-analyses. Aangezien metagenomische gegevens een groot aantal nieuwe soorten en genen bevatten, zijn in veel studies hoogwaardige classificatiealgoritmen nodig. Biologen komen vaak uitdagingen tegen bij het vinden van geschikte sequentieclassificatie- en annotatietools voor een specifieke taak en zijn vaak niet in staat om zelf een overeenkomstig algoritme te construeren vanwege een gebrek aan de nodige wiskundige en computationele kennis. Deep learning technieken zijn sinds kort een populair onderwerp en laten sterke voordelen zien in veel classificatietaken. Tot op heden zijn er veel sterk verpakte deep learning-pakketten ontwikkeld, die het voor biologen mogelijk maken om deep learning-frameworks te bouwen volgens hun eigen behoeften zonder diepgaande kennis van de algoritmedetails. In deze zelfstudie bieden we een richtlijn voor het bouwen van een eenvoudig te gebruiken deep learning-raamwerk voor sequentieclassificatie zonder dat er voldoende wiskundige kennis of programmeervaardigheden nodig zijn. Alle code is geoptimaliseerd in een virtuele machine, zodat gebruikers de code rechtstreeks kunnen uitvoeren met hun eigen gegevens.

Introduction

De metagenomic sequencing techniek omzeilt het stamisolatieproces en sequenties direct het totale DNA in een omgevingsmonster. Metagenomische gegevens bevatten dus DNA van verschillende organismen en de meeste biologische sequenties zijn van nieuwe organismen die niet aanwezig zijn in de huidige database. Volgens verschillende onderzoeksdoeleinden moeten biologen deze sequenties classificeren vanuit verschillende perspectieven, zoals taxonomische classificatie1,virus-bacterieclassificatie2, 3,4,chromosoom-plasmideclassificatie3,5,6,7, en genfunctieannotatie (zoals antibioticaresistentiegenclassificatie8 en virulentiefactorclassificatie9 ). Omdat metagenomische gegevens een groot aantal nieuwe soorten en genen bevatten, zijn ab initio-algoritmen, die niet vertrouwen op bekende databases voor sequentieclassificatie (inclusief DNA-classificatie en eiwitclassificatie), een belangrijke benadering in metagenomic data-analyse. Het ontwerp van dergelijke algoritmen vereist echter professionele wiskundekennis en programmeervaardigheden; daarom hebben veel biologen en beginners in algoritmeontwerp moeite om een classificatiealgoritme te construeren dat aan hun eigen behoeften voldoet.

Met de ontwikkeling van kunstmatige intelligentie zijn deep learning-algoritmen veel gebruikt op het gebied van bioinformatica om taken zoals sequentieclassificatie in metagenomische analyse te voltooien. Om beginners te helpen deep learning-algoritmen te begrijpen, beschrijven we het algoritme hieronder op een gemakkelijk te begrijpen manier.

Een overzicht van een deep learning-techniek is te zien in figuur 1. De kerntechnologie van een deep learning-algoritme is een kunstmatig neuraal netwerk, dat is geïnspireerd op de structuur van het menselijk brein. Vanuit wiskundig oogpunt kan een kunstmatig neuraal netwerk worden beschouwd als een complexe functie. Elk object (zoals een DNA-sequentie, een foto of een video) wordt eerst gedigitaliseerd. Het gedigitaliseerde object wordt vervolgens geïmporteerd naar de functie. De taak van het kunstmatige neurale netwerk is om een juiste reactie te geven op basis van de invoergegevens. Als er bijvoorbeeld een kunstmatig neuraal netwerk is gemaakt om een classificatietaak van 2 klassen uit te voeren, moet het netwerk een waarschijnlijkheidsscore uitvoeren die tussen 0-1 ligt voor elk object. Het neurale netwerk moet het positieve object een hogere score geven (zoals een score hoger dan 0,5) terwijl het negatieve object een lagere score krijgt. Om dit doel te bereiken, wordt een kunstmatig neuraal netwerk opgebouwd met de trainings- en testprocessen. Tijdens deze processen worden gegevens uit de bekende database gedownload en vervolgens onderverdeeld in een trainingsset en testset. Elk object wordt op de juiste manier gedigitaliseerd en krijgt een label ("1" voor positieve objecten en "0" voor negatieve objecten). In het trainingsproces worden de gedigitaliseerde gegevens in de trainingsset ingevoerd in het neurale netwerk. Het kunstmatige neurale netwerk construeert een verliesfunctie die de verschillen vertegenwoordigt tussen de uitvoerscore van het invoerobject en het bijbehorende label van het object. Als het label van het invoerobject bijvoorbeeld "1" is terwijl de uitvoerscore "0,1" is, is de verliesfunctie hoog; en als het label van het invoerobject "0" is terwijl de uitgangsscore "0,1" is, zal de verliesfunctie laag zijn. Het kunstmatige neurale netwerk maakt gebruik van een specifiek iteratief algoritme dat de parameters van het neurale netwerk aanpast om de verliesfunctie te minimaliseren. Het trainingsproces eindigt wanneer de verliesfunctie niet duidelijk verder kan worden verminderd. Ten slotte worden de gegevens in de testset gebruikt om het vaste neurale netwerk te testen en wordt het vermogen van het neurale netwerk om de juiste labels voor de nieuwe objecten te berekenen geëvalueerd. Meer principes van deep learning algoritmes zijn te vinden in de review in LeCun et al. 10.

Hoewel de wiskundige principes van deep learning-algoritmen complex kunnen zijn, zijn er onlangs veel sterk verpakte deep learning-pakketten ontwikkeld en kunnen programmeurs direct een eenvoudig kunstmatig neuraal netwerk bouwen met een paar regels code.

Om biologen en algoritmeontwerpers te helpen sneller aan de slag te gaan met deep learning, biedt deze zelfstudie een richtlijn voor het bouwen van een eenvoudig te gebruiken deep learning-framework voor sequentieclassificatie. Dit framework gebruikt de "one-hot" coderingsvorm als wiskundig model om de biologische sequenties te digitaliseren en gebruikt een convolutie-neuraal netwerk om de classificatietaak uit te voeren (zie het aanvullende materiaal). Het enige dat de gebruikers moeten doen voordat ze deze richtlijn gebruiken, is om vier reeksbestanden in "fasta"-formaat voor te bereiden. Het eerste bestand bevat alle sequenties van de positieve klasse voor het trainingsproces (verwezen naar "p_train.fasta"); het tweede bestand bevat alle sequenties van de negatieve klasse voor het trainingsproces (verwezen naar "n_train.fasta"); het derde bestand bevat alle sequenties van de positieve klasse voor het testproces (verwezen naar "p_test.fasta"); en het laatste bestand bevat alle sequenties van de negatieve klasse voor het testproces (verwezen naar "n_test.fasta"). Het overzicht van het stroomdiagram van deze zelfstudie is opgenomen in figuur 2, en meer details zullen hieronder worden vermeld.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. De installatie van de virtuele machine

  1. Download het bestand van de virtuele machine van (https://github.com/zhenchengfang/DL-VM).
  2. Download de VirtualBox software van https://www.virtualbox.org.
  3. Decomprimeert het bestand ".7z" met behulp van gerelateerde software, zoals "7-Zip", "WinRAR" of "WinZip".
  4. Installeer de VirtualBox-software door in elke stap op de knop Volgende te klikken.
  5. Open de VirtualBox-software en klik op de knop Nieuw om een virtuele machine te maken.
  6. Stap 6: Voer de opgegeven naam van de virtuele machine in het frame "Naam" in, selecteer Linux als besturingssysteem in het frame "Type", selecteer Ubuntu in het frame "Versie" en klik op de knop Volgende.
  7. Wijs de geheugen grootte van de virtuele machine toe. We raden gebruikers aan de knop naar het meest rechtse deel van de groene balk te trekken om zoveel mogelijk geheugen toe te wijzen aan de virtuele machine en vervolgens op de knop Volgende te klikken.
  8. Kies de selectie van een bestaand bestand op een virtuele schijf gebruiken, selecteer het bestand "VM_Bioinfo.vdi" gedownload van stap 1.1 en klik vervolgens op de knop Maken.
  9. Klik op de knop Ster om de virtuele machine te openen.
    OPMERKING: Figuur 3 toont de schermafbeelding van het bureaublad van de virtuele machine.

2. Maak gedeelde mappen voor bestanden die worden uitgewisseld tussen de fysieke host en de virtuele machine

  1. Maak in de fysieke host een gedeelde map met de naam 'shared_host' en maak op het bureaublad van de virtuele machine een gedeelde map met de naam 'shared_VM'.
  2. Klik in de menubalk van de virtuele machine achtereenvolgens op Instellingen voor apparaten, Gedeelde map en gedeelde mappen.
  3. Klik op de knop in de rechterbovenhoek.
  4. Selecteer de gedeelde map in de fysieke host die is gemaakt in stap 2.1 en selecteer de optie Automatisch koppelen. Klik op de knop OK.
  5. Start de virtuele machine opnieuw op.
  6. Klik met de rechtermuisknop op het bureaublad van de virtuele machine en open de terminal.
  7. Kopieer de volgende opdracht naar de terminal:
    sudo mount -t vboxsf shared_host ./Desktop/shared_VM
    1. Wanneer u om een wachtwoord wordt gevraagd, voert u "1" in en klikt u op de toets "Enter", zoals weergegeven in figuur 4.

3. Bereid de bestanden voor op de trainingsset en testset

  1. Kopieer alle vier de sequentiebestanden in "fasta"-indeling voor het training- en testproces naar de map "shared_host" van de fysieke host. Op deze manier komen alle bestanden ook voor in de map "shared_VM" van de virtuele machine. Kopieer vervolgens de bestanden in de map "shared_VM" naar de map "DeepLearning" van de virtuele machine.

4. Digitaliseer de biologische sequenties met behulp van "one-hot" coderingsformulier

  1. Ga naar de map "DeepLearning", klik met de rechtermuisknop en open de terminal. Typ de volgende opdracht:
    ./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
    (voor aminozuursequenties)
    of
    ./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
    (voor nucleïnezuursequenties)
    OPMERKING: Een screenshot van dit proces is te vinden in figuur 5.

5. Train en test het kunstmatige neurale netwerk

  1. Typ in de terminal de volgende opdracht zoals weergegeven in figuur 6:
    python train.py
    OPMERKING: Het trainingsproces begint.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

In ons vorige werk ontwikkelden we een reeks sequentieclassificatietools voor metagenomic data met behulp van een benadering vergelijkbaar met deze tutorial3,11,12. Als voorbeeld hebben we de reeks bestanden van de subset van trainingsset en testset van ons vorige werk3,11 in de virtuele machine gedeponeerd.

Fang &Zhou11 was gericht op het identificeren van de volledige en gedeeltelijke prokaryote virus virion eiwitten uit viroom gegevens. Het bestand "p_train.fasta" bevat de virus virion eiwitfragmenten voor de trainingsset; het bestand "n_train.fasta" bevat de virus-niet-virale eiwitfragmenten voor de trainingsset; het bestand "p_test.fasta" bevat de virus virion eiwitfragmenten voor de testset; en het bestand "n_test.fasta" bevat de virus niet-virale eiwitfragmenten voor de testset. De gebruiker kan de volgende twee opdrachten rechtstreeks uitvoeren om het neurale netwerk te bouwen:
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
en
python train.py

De prestaties worden weergegeven in figuur 7.

Fang et al.3 streefden ernaar om faag-DNA-fragmenten uit bacteriële chromosoom-DNA-fragmenten in metagenomic-gegevens te identificeren. Het bestand "phage_train.fasta" bevat de faag DNA fragmenten voor de trainingsset; het bestand "chromosome_train.fasta" bevat de chromosoom-DNA-fragmenten voor de trainingsset; het bestand "phage_test.fasta" bevat de faag-DNA-fragmenten voor de testset; en het bestand "chromosome_test.fasta" bevat de chromosoom DNA fragmenten voor de testset. De gebruiker kan de volgende twee opdrachten rechtstreeks uitvoeren om het neurale netwerk te bouwen:
./onehot_encoding phage_train.fasta chromosome_train.fasta phage_test.fasta chromosome_test.fasta nt
en
python train.py

De prestaties zijn weergegeven in figuur 8.

Het is vermeldensgetrouw dat omdat het algoritme enkele processen bevat die willekeur hebben, de bovenstaande resultaten enigszins kunnen verschillen als gebruikers het script opnieuw uitvoeren.

Figure 1
Figuur 1. Overzicht van de deep learning techniek. Klik hier om een grotere versie van deze afbeelding te bekijken.

Figure 2
Figuur 2. Het overzicht van het stroomdiagram van deze zelfstudie. Klik hier om een grotere versie van deze afbeelding te bekijken.

Figure 3
Figuur 3. De schermafbeelding van het bureaublad van de virtuele machine. Klik hier om een grotere versie van deze afbeelding te bekijken.

Figure 4
Figuur 4. De schermafbeelding van de activering van de gedeelde mappen. Klik hier om een grotere versie van deze afbeelding te bekijken.

Figure 5
Figuur 5. De schermafbeelding van het proces van sequentiedigitalisatie. Klik hier om een grotere versie van deze afbeelding te bekijken.

Figure 6
Figuur 6. Train en test het kunstmatige neurale netwerk. Klik hier om een grotere versie van deze afbeelding te bekijken.

Figure 7
Figuur 7. De prestaties van prokaryote virus virion eiwit fragmenten identificatie. De beoordelingscriteria zijn Sn=TP/(TP+FN), Sp=TN/(TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) en AUC. Klik hier om een grotere versie van deze afbeelding te bekijken.

Figure 8
Figuur 8. De prestaties van de identificatie van faag-DNA-fragmenten. De beoordelingscriteria zijn Sn=TP/(TP+FN), Sp=TN/(TN+FP), Acc=(TP+TN)/(TP+TN+FN+FP) en AUC. Klik hier om een grotere versie van deze afbeelding te bekijken.

Aanvullend materiaal: Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Deze zelfstudie biedt een overzicht voor biologen en beginners in algoritmeontwerp over het bouwen van een eenvoudig te gebruiken deep learning-raamwerk voor biologische sequentieclassificatie in metagenomische gegevens. Deze tutorial is bedoeld om intuïtief inzicht te geven in deep learning en de uitdaging aan te gaan die beginners vaak moeilijk hebben om het deep learning-pakket te installeren en de code voor het algoritme te schrijven. Voor sommige eenvoudige classificatietaken kunnen gebruikers het framework gebruiken om de classificatietaken uit te voeren.

Gezien het feit dat veel biologen niet bekend zijn met de opdrachtregel van het Linux-besturingssysteem, hebben we alle afhankelijke software vooraf geïnstalleerd in een virtuele machine. Op deze manier kan de gebruiker de code rechtstreeks uitvoeren op de virtuele machine volgens het hierboven genoemde protocol. Bovendien, als gebruikers bekend zijn met het Linux-besturingssysteem en Python-programmering, kunnen ze dit protocol ook rechtstreeks op de server of lokale pc uitvoeren. Op deze manier moet de gebruiker de volgende afhankelijke software vooraf installeren:

Python 2.7.12 (https://www.python.org/)
Python pakketten:
numpy 1.13.1 (http://www.numpy.org/)
h5py 2.6.0 (http://www.h5py.org/)
TensorFlow 1.4.1 (https://www.tensorflow.org/)
Keras 2.0.8 (https://keras.io/)
MATLAB Component Runtime (MCR) R2018a (https://www.mathworks.com/products/compiler/matlab-runtime.html)

De handleiding van ons vorige werk3 heeft een korte beschrijving van de installatie. Houd er rekening mee dat het versienummer van elk pakket overeenkomt met de versie die we in de code hebben gebruikt. Het voordeel van het uitvoeren van de code op de server of lokale pc zonder de virtuele machine is dat de code op deze manier kan versnellen met een GPU, wat veel tijd kan besparen in het trainingsproces. Op deze manier moet de gebruiker de GPU-versie van TensorFlow installeren (zie de handleiding van eerder werk3).

Enkele van de kritieke stappen binnen het protocol worden als volgt beschreven. In stap 4.1 moeten de bestandsnamen "p_train.fasta", "n_train.fasta", "p_test.fasta" en "n_test.fasta" worden vervangen door de gebruikte bestandsnamen. De volgorde van deze vier bestanden in deze opdracht kan niet worden gewijzigd. Als de bestanden aminozuursequenties bevatten, moet de laatste parameter "aa" zijn; als de bestanden nucleïnezuursequenties bevatten, moet de laatste parameter "nt" zijn. Deze opdracht gebruikt het coderingsformulier "one-hot" om de biologische sequenties te digitaliseren. Een introductie van het "one-hot" coderingsformulier is opgenomen in het aanvullende materiaal. In stap 5.1, omdat de virtuele machine niet kan worden versneld met de GPU, kan dit proces enkele uren of enkele dagen duren, afhankelijk van de gegevensgrootte. De voortgangsbalken voor elk iteratietijdvak worden weergegeven in de terminal. We stellen het aantal tijdperken in op 50 en dus worden er in totaal 50 voortgangsbalken weergegeven wanneer het trainingsproces is voltooid. Wanneer het testproces is voltooid, wordt de nauwkeurigheid voor de testset weergegeven in de terminal. In de map "DeepLearning" van de virtuele machine wordt een bestand met de naam "predict.csv" gemaakt. Dit bestand bevat alle voorspellingsscores voor de testgegevens. De volgorde van deze partituren komt overeen met de volgorde in "p_test.fasta" en "n_test.fasta" (de eerste helft van deze scores komt overeen met "p_test.fasta", terwijl de tweede helft van deze scores overeenkomt met "n_test.fatsa"). Als gebruikers voorspellingen willen doen voor de reeksen waarvan de werkelijke klassen onbekend zijn, kunnen ze deze onbekende sequenties ook deponeren in het bestand "p_test.fasta" of "n_test.fasta". Op deze manier worden de scores van deze onbekende sequenties ook weergegeven in het bestand "voorspellen.csv", maar de weergave "nauwkeurigheid" in de terminal heeft geen zin. Dit script maakt gebruik van een convolutioneel neuraal netwerk om de classificatie uit te voeren. De structuur van het neurale netwerk en de code voor het neurale netwerk worden weergegeven in het Aanvullende Materiaal.

Een van de kenmerken van deep learning is dat veel parameterinstellingen enige ervaring vereisen, wat een grote uitdaging kan zijn voor beginners. Om beginnersaanhouding veroorzaakt door een groot aantal formules te voorkomen, richten we ons niet op de wiskundige principes van deep learning, en in de virtuele machine bieden we geen speciale parameterinstellingsinterface. Hoewel dit een goede keuze kan zijn voor beginners, kan ongepaste parameterselectie ook leiden tot een afname van de precisie. Om beginners in staat te stellen beter te ervaren hoe ze de parameters kunnen wijzigen, voegen we in het script "train.py" enkele opmerkingen toe aan de gerelateerde code en kunnen gebruikers de gerelateerde parameters wijzigen, zoals het aantal convolutiekorrels, om te zien hoe deze parameters de prestaties beïnvloeden.

Bovendien moeten veel deep learning-programma's worden uitgevoerd onder een GPU. Het configureren van de GPU vereist echter ook enige computervaardigheid die moeilijk kan zijn voor niet-computerprofessionals; daarom kiezen we ervoor om de code in een virtuele machine te optimaliseren.

Bij het oplossen van andere sequentieclassificatietaken op basis van deze richtlijn hoeven gebruikers de vier reeksbestanden alleen te vervangen door hun eigen gegevens. Als gebruikers bijvoorbeeld plasmide-afgeleide en chromosoom-afgeleide sequenties in metagenomic gegevens moeten onderscheiden, kunnen ze plasmide-genomen (https://ftp.ncbi.nlm.nih.gov/refseq/release/plasmid/) en bacteriële chromosoomgenomen (https://ftp.ncbi.nlm.nih.gov/refseq/release/bacteria/) rechtstreeks downloaden van de RefSeq-database en de genomen scheiden in een trainingsset en testset. Het is vermeldensgevald dat DNA-sequenties in metagenomische gegevens vaak gefragmenteerd zijn in plaats van volledige genomen. In dergelijke gevallen kunnen gebruikers de MetaSim13-tool gebruiken om het DNA-fragment uit het volledige genoom te extraheren. MetaSim is een gebruiksvriendelijke tool met een GUI-interface en gebruikers kunnen de meeste bewerkingen met de muis voltooien zonder een opdracht op het toetsenbord te typen. Om de bediening voor beginners te vereenvoudigen, is onze tutorial ontworpen voor een classificatietaak van twee klassen. We moeten echter in veel taken multiclassificatie uitvoeren. In dergelijke gevallen kunnen beginners proberen de multiclassificatietaak te scheiden in verschillende classificatietaken met twee klassen. Om bijvoorbeeld de faaggastheer te identificeren, bouwden Zhang et al. 9 twee-klasse classificaties om te bepalen of een bepaalde faagsequentie een bepaalde gastheer kan infecteren.

De startpagina van deze zelfstudie wordt https://github.com/zhenchengfang/DL-VM op de GitHub-site geplaatst. Elke update van de tutorial wordt beschreven op de website. Gebruikers kunnen ook hun vragen over deze tutorial op de website stellen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs verklaren dat er geen belangenconflicten zijn.

Acknowledgments

Dit onderzoek werd financieel ondersteund door de National Natural Science Foundation of China (81925026, 82002201, 81800746, 82102508).

Materials

Name Company Catalog Number Comments
PC or server NA NA Suggested memory: >6GB
VirtualBox software NA NA Link: https://www.virtualbox.org

DOWNLOAD MATERIALS LIST

References

  1. Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
  2. Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
  3. Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
  4. Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
  5. Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
  6. Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
  7. Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
  8. Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
  9. Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
  10. LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
  11. Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
  12. Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
  13. Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
  14. Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Tags

Genetica Metagenoom Microbioom Sequence classification Artificial intelligence Deep learning Algorithm design
Een virtueel machineplatform voor niet-computerprofessionals voor het gebruik van deep learning om biologische sequenties van metagenomische gegevens te classificeren
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Fang, Z., Zhou, H. A Virtual Machine More

Fang, Z., Zhou, H. A Virtual Machine Platform for Non-Computer Professionals for Using Deep Learning to Classify Biological Sequences of Metagenomic Data. J. Vis. Exp. (175), e62250, doi:10.3791/62250 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter