Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Een bioinformatica-pijpleiding om de MicroRNA Transcriptomes in fabrieken nauwkeurig en efficiënt te analyseren

Published: January 21, 2020 doi: 10.3791/59864
* These authors contributed equally

Summary

Een bioinformatica-pijpleiding, namelijk miRDeep-P2 (kortweg miRDP2), met bijgewerkte plant miRNA-criteria en een gereviseerd algoritme, kan microRNA transcriptomes nauwkeurig en efficiënt analyseren in planten, vooral voor soorten met complexe en grote Genomes.

Abstract

MicroRNAs (miRNAs) zijn 20-tot 24-nucleotide (NT) endogene kleine Rna's (Srna's) uitgebreid bestaande in planten en dieren die krachtige rollen spelen bij het reguleren van genexpressie op het post-transcriptional niveau. Sequentiëren sRNA-bibliotheken door Next generation sequencing (NGS) methoden zijn op grote schaal gebruikt om miRNA transcriptomes in de afgelopen tien jaar te identificeren en te analyseren, wat resulteerde in een snelle toename van miRNA Discovery. Echter, twee grote uitdagingen ontstaan in plant miRNA annotatie als gevolg van toenemende diepte van gesequentieerde sRNA Bibliotheken, evenals de grootte en de complexiteit van plant Genomes. Ten eerste, vele andere soorten Srna's, in het bijzonder, korte interfererende Rna's (Sirna's) van sRNA Bibliotheken, worden foutief geannoeerd als miRNAs door veel computationele tools. Ten tweede wordt het een extreem tijdrovend proces voor het analyseren van miRNA transcriptomes in plantensoorten met grote en complexe Genomes. Om deze uitdagingen het hoofd te bieden, hebben we onlangs miRDeep-P (een populaire tool voor miRNA transcriptome-analyses) geüpgraded naar miRDeep-P2 (kortweg miRDP2) door gebruik te maken van een nieuwe filter strategie, het scorings algoritme te herzien en nieuw bijgewerkte plant miRNA te integreren annotatie criteria. We testten miRDP2 tegen geordend Srna populaties in vijf representatieve planten met toenemende genomische complexiteit, met inbegrip van Arabidopsis, rijst, tomaat, maïs en tarwe. De resultaten geven aan dat miRDP2 deze taken met zeer hoge efficiëntie verwerkt. Daarnaast presteerde miRDP2 beter dan andere Voorspellings hulpmiddelen met betrekking tot gevoeligheid en nauwkeurigheid. Samen met onze resultaten demonstreren we miRDP2 als een snel en nauwkeurig hulpmiddel voor het analyseren van plantaardige miRNA transcriptomes, dus een handig hulpmiddel om de Gemeenschap te helpen om miRNAs in planten beter te annoteren.

Introduction

Een van de meest opwindende ontdekkingen in de laatste twee decennia in de biologie is de prolifererende rol van sRNA-soorten bij het reguleren van diverse functies van het genoom1. In het bijzonder vormen miRNAs een belangrijke klasse van 20-tot 24-NT srna's in eukaryoten, en werken voornamelijk op post-transcriptional niveau als prominente genregulators gedurende de ontwikkelingsstadia van de levenscyclus, evenals in stimulus-en stress responsen2,3. In planten ontstaan mirna's uit primaire transcripten genaamd pri-miRNAs, die over het algemeen worden getranscribeerd door RNA polymerase II als individuele transcriptie eenheden4,5. Verwerkt door evolutionair geagglomereerde cellulaire machines (drosha RNase III in dieren, Dicer-achtige in planten), worden pri-miRNAs in de onmiddellijke Mirna-precursoren, pre-miRNAs, opgenomen die sequenties vormen die intra-moleculaire stamlusconstructies6,7bevatten. Pre-miRNAs worden vervolgens verwerkt tot dubbel gestrande tussen producten, namelijk Mirna duplexen, bestaande uit het functionele strand, mature Mirna, en de minder vaak functionele partner, Mirna *2,8. Nadat ze in het RNA-geïnduceerde geluids dempings complex (RISC) zijn geladen, konden de volwassen miRNAs hun mRNA-doelen herkennen op basis van sequentie complementariteit, wat resulteerde in een negatieve regelgevende functie van2,8. miRNAs kan ofwel hun doel transcripten destabiliseren of doel vertaling voorkomen, maar de vroegere manier wordt gedomineerd in planten8,9.

Sinds de toevallige ontdekking van de eerste Mirna in de nematode Caenorhabditis elegans10,11, is veel onderzoek toegewijd aan de identificatie van Mirna en de functionele analyse ervan, vooral na de beschikbaarheid van ngs-methode. De brede toepassing van de NGS-methode heeft het gebruik van computationele tools die zijn ontworpen om het unieke kenmerk van miRNAs vast te leggen, sterk bevorderd, zoals de structuur van de stamlus van precursoren en hun preferentiële opeenhoping van sequentie leest op volwassen miRNA en miRNA *. Als gevolg daarvan hebben onderzoekers opmerkelijk succes geboekt bij het identificeren van miRNAs in verschillende soorten. Op basis van een eerder beschreven kansmodel12ontwikkelden we mirdeep-P13, de eerste computationele tool voor het ontdekken van installatie miRNAs van ngs data. mirdeep-P was specifiek gericht op het veroveren van de uitdagingen van het decoderen van planten miRNAs met een meer variabele precursor lengte en grote paralogous families13,14,15. Na de release is dit programma duizenden malen gedownload en gebruikt voor het annoteren van miRNA transcriptomes in meer dan 40 plantensoorten16. Aangedreven door NGS-gebaseerde tools zoals miRDeep-P, is er een dramatische toename van het aantal geregistreerde miRNAs in de openbare miRNA-repository miRBase17, waar meer dan 38.000 Mirna-items momenteel worden gehost (Release 22,1) in vergelijking met alleen ~ 500 Mirna-items (Release 2,0) in 200818.

Er zijn echter twee nieuwe uitdagingen ontstaan uit de annotatie van plant miRNA. Eerste, hoge verhoudingen van valse-positieven hebben sterk beïnvloed de kwaliteit van plant Mirna aantekeningen16,19 om de volgende redenen: 1) een stortvloed van endogene korte storende rna's (sirna's) van ngs Srna-bibliotheken werd ten onrechte geannoteerd als miRNAs vanwege het ontbreken van een strenge Mirna-annotatie criteria; 2) voor soorten zonder a priori miRNA informatie, valse-positieven voorspeld op basis van NGS-gegevens zijn moeilijk te elimineren. Met behulp van miRBase als voorbeeld vond Taylor et al.20 een derde van de vermeldingen van plant Mirna in de openbare repository21 (Release 21) ontbrak overtuigend ondersteunend bewijs en zelfs drie-vierde van plant Mirna families waren twijfelachtig. Ten tweede wordt het een extreem tijdrovend proces voor het voorspellen van planten miRNAs met grote en complexe genomen16. Om deze uitdagingen te overwinnen, hebben we miRDeep-P bijgewerkt door een nieuwe filter strategie toe te voegen, het scorings algoritme te herzien en nieuwe criteria te integreren voor de installatie van miRNA annotatie, en de nieuwe versie miRDP2 uitgebracht. Daarnaast testten we miRDP2 met behulp van NGS-gegevenssets met geleidelijk toenemende genoom groottes: Arabidopsis, rijst, tomaat, maïs en tarwe. In vergelijking met andere vijf veelgebruikte tools en de oude versie, heeft miRDP2 deze sRNA-gegevens geparseerd en miRNA transcriptomes sneller geanalyseerd met verbeterde nauwkeurigheid en gevoeligheid.

Inhoud van het pakket miRDP2
Het miRDP2-pakket bestaat uit zes gedocumenteerde perl-scripts die opeenvolgend door het voorbereide bash-script moeten worden uitgevoerd. Van de zes scripts worden drie (convert_bowtie_to_blast. pl, filter_alignments. plen excise_candidate. pl) overgenomen van mirdeep-P. De andere scripts worden gewijzigd van de oorspronkelijke versie. Functies van de zes scripts worden beschreven in het volgende:

preprocess_reads. pl filters invoer leest, met inbegrip van leesbewerkingen die te lang of te kort zijn (< 19 nt of > 25 NT), en leest gecorreleerd met Rfam ncRNA sequenties, evenals leesbewerkingen met rpm (leesbewerkingen per miljoen) minder dan 5. Het script haalt vervolgens leesbewerkingen op die zijn gecorreleerd met bekende miRNA-volwassen sequenties. De invoerbestanden zijn originele leesbewerkingen in de FASTA/FASTQ-indeling en bowtie2-uitvoer van Lees toewijzing aan de reeksen miRNA en ncRNA.

De formule voor het berekenen van RPM is als volgt:

Equation 1

convert_bowtie_to_blast. pl verandert het bowtie formaat in Blast-geparseerde indeling. BLAST-parsed-indeling is een aangepaste in tabelvorm gescheiden indeling die is afgeleid van het standaard NCBI BLASToutput-formaat.

filter_alignments. pl filtert de overeenstemmingen van diepe sequentiëren naar een genoom. Het filtert gedeeltelijke overeenstemmingen en multi-uitgelijnde leesbewerkingen (door de gebruiker opgegeven frequentie cutoff). De basis invoer is een bestand in BLAST-parsed-indeling.

excise_candidate. pl snijdt potentiële voorloper sequenties uit een referentie reeks met behulp van uitgelijnde leesbewerkingen als richtlijnen. De basis invoer is een bestand in BLAST-parsed-indeling en een FASTA-bestand. De uitvoer is alle potentiële voorloper sequenties in FASTA formaat.

mod-miRDP.pl heeft twee invoerbestanden nodig, signatuurbestand en structuurbestand, die is gewijzigd van de kern mirdeep-P algoritme door het veranderen van het scoresysteem met specifieke parameters van de plant. De invoerbestanden zijn punt-bracket precursor structuurbestand en leest distributie handtekeningbestand.

mod-rm_redundant_meet_plant. pl heeft drie invoerbestanden nodig: chromosome_length, precursoren en original_prediction gegenereerd door mod-miRDP.pl. Het genereert twee uitvoerbestanden, niet-redundante voorspelde bestand en voorspelde bestand gefilterd door onlangs bijgewerkte plant miRNA criteria. Details over de indeling van het uitvoerbestand worden beschreven in paragraaf 1,4.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. installatie en testen

  1. Download vereiste afhankelijkheden: Bowtie222 en RNAfold23. Gecompileerde pakketten worden aanbevolen.
    1. Download Bowtie2, een lees mapping tool, van de HomeSite (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml).
    2. Download RNAfold, een tool van het Vienna-pakket gebruikt om RNA secundaire structuur te voorspellen, van http://www.TBI.univie.ac.at/~Ivo/RNA/.
    3. Voordat u miRDP2 installeert, zorg ervoor dat deze twee afhankelijkheden correct zijn geïnstalleerd en aanpassen van de bash-omgeving bestand (bijvoorbeeld,. bashrc) voor het instellen van een juiste pad voor deze twee afhankelijkheden.
      Opmerking: andere kaart tools zoals bowtie24 zijn ook geschikt voor miRDP2; Bowtie of Bowtie2 kan worden gebruikt na versie 1.1.3.
  2. Ga naar https://sourceforge.net/projects/mirdp2/files/latest_version/ om het miRDP2-pakket te downloaden en haal de tarball-bestanden op.
  3. Voordat u miRDP2 installeert, moet u ervoor zorgen dat perl zich in het pad bevindt. Om miRDP2 te installeren, haalt u alle inhoud van het gedownloade tar-bestand op in één map (opdrachtregels zoals in 1.4.2) en stelt u vervolgens het mappad in het pad in.
    Opmerking: een computer-of computernode met ten minste 8 GB RAM en 100 GB opslag wordt aanbevolen om miRDP2 uit te voeren.
  4. Test de MiRDP2 pijplijn.
    1. Als u wilt testen of miRDP2 correct is geïnstalleerd, gebruikt u de testgegevens en de verwachte uitvoer die is gevonden in https://sourceforge.net/projects/mirdp2/files/TestData/. Test gegevens bevatten één geformatteerde GSM-volgordebestand en één Arabidopsis thaliana genoom-bestand.
    2. Verplaats alle gedownloade bestanden naar de huidige werkmap:
      MV miRDP2-v*. tar. gz testdata. tar. gz ncRNA_rfam. tar. gz < user_selected_folder >
      cd < user_selected_folder >
    3. Pak de gecomprimeerde tarball-bestanden uit:
      tar – xvzf miRDP2-v*. tar. gz
      tar – xvzf testdata. tar. gz
      tar – xvzf ncRNA_rfam. tar. gz
    4. Bouw de Arabidopsis genoom referentie-index:
      bowtie2-build -f./testdata/TAIR10_genome. fa./testdata/TAIR10_genome
    5. Bouw de ncRNA referentie-index:
      bowtie2-build -f./ncRNA_rfam. fa./1.1.3/script/index/rfam_index
    6. Voer de miRDP2 pijplijn uit:
      bash ./1.1.3/mirdp2-v1.1.3_pipeline. bash – g./testdata/TAIR10_genome. FA-i./TESTDATA/TAIR 10_genome – f./TestData/GSM2094927.fa – o.
      Opmerking: Linux-opdrachten die worden gebruikt, zijn vet en cursief, met opdrachtregelopties cursief. * geeft de versie van miRDP2 aan (de huidige versie is 1.1.3). De opdracht bowtie2-build moet ongeveer 10 minuten duren en de miRDP2-pijplijn moet binnen enkele minuten worden voltooid
  5. Controleer de test uitgangen.
    1. Houd er rekening mee dat een map met de naam ' GSM2094927-15-0-10 ' automatisch wordt gegenereerd in < user_selected_folder >, met alle tussenliggende bestanden en resultaten.
    2. Controleer of het door tabs gescheiden uitvoerbestand GSM2094927-15-0-10_filter_P_prediction, de uiteindelijke uitvoer van voorspelde miRNAs, kolommen bevat die chromosoom id, strand richting, representatieve Lees-id, precursor-id, oudere miRNA-locatie, voorloper aangeven de volgorde van de locatie, de volwassen reeks en de voorloper. Noteer het extra bed bestand afgeleid van dit bestand om verdere analyse te vergemakkelijken.
    3. Controleer het bestand "progress_log", dat informatie bevat over voltooide stappen en de bestanden "script_log" en "script_err", die programma-uitvoer en-waarschuwingen bevatten.
      Opmerking: momenteel hebben we miRDP2 getest op twee Linux-platforms, waaronder CentOS-versie 6,5 op een cluster server en cygwin 2.6.0 op PC Windows-systeem, en miRDP2 moet werken op vergelijkbare systemen die perl ondersteunen.

2. nieuwe miRNAs identificeren

  1. Voordat u de pijplijn uitvoert, zorg ervoor dat de invoer leesbewerkingen zijn voorverwerkt in de juiste indeling.
    Opmerking: de nieuwe versie 1.1.3 van miRDP2 kan originele FASTQ-formaat bestanden als invoer accepteren, hoewel het proces van het opmaken van leesbewerkingen wordt uitgevoerd zoals in eerdere versies.
    1. Verwijder eerst adapters uit de 5 ' en 3 ' uiteinden van de diepe sequentiëren leest (indien aanwezig).
    2. Ten tweede, parseren van de diepe sequentiëren leest in FASTA formaat.
    3. Ten derde, verwijder redundantie zodat leesbewerkingen met identieke volgorde worden weergegeven met een enkele en unieke FASTA vermelding.
    4. Zorg er ten slotte voor dat alle FASTA-identifiers uniek zijn. Elke reeks-id moet eindigen met een ' _x ' en een geheel getal, dat het kopie nummer aangeeft van de exacte reeks die is opgehaald in de Deep sequence-gegevenssets. Een manier om ervoor te zorgen unieke FASTA identifier is het opnemen van een lopend nummer in de ID. Zie het bestand GSM2094927. fa in de testgegevens (https://sourceforge.net/projects/mirdp2/files/TestData/) ter referentie.
    5. Zie het volgende voor voorbeelden van correct opgemaakte leesbewerkingen:

      > read0_x29909
      TGGATTGAAGGGAGCTCTA
      > read1_x36974
      Een van de meest gekaarde
      > read2_x32635
      Een van de meest GEKAARTE schoenen
  2. Referentie-indexen bouwen.
    1. Voor de genoom referentie, om tijd te besparen, Download Bowtie2 indexbestanden van de iGenomes website (https://support.Illumina.com/sequencing/sequencing_software/igenome.html) als de genoomsequenties van de soorten van belang zijn geïndexeerd. Anders indexeren gebruikers verwijzings reeksen en houden het indexbestand een tijdje totdat het project is voltooid, omdat de genoom volgorde mogelijk opnieuw moet worden geïndexeerd. Details over het indexeren van een genoom referentie zijn opgenomen in bowtie2 Manual (http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml).
    2. Een andere niet-miRNA ncRNA-index is ook nodig om lawaaierige sequenties uit andere niet-Codeer bare RNA-fragmenten te filteren. Het bestand is een verzameling van de belangrijkste ncRNA-sequenties van Rfam, waaronder rRNA, tRNA, snRNA en snoRNA. Om deze index te maken, verwijzen wij u naar deel 1,4, omdat de index correct moet worden geplaatst en genoemd, d.w.z. < miRDP2_version >/script/index/rfam_index.
  3. Voer miRDP2 uit.
    1. Als u miRDP2 wilt gebruiken om nieuwe miRNAs te detecteren uit Deep sequence-gegevens, voert u het bash-script uit in het pakket om de analyse pijplijn te starten (een voorbeeld kan worden gevonden in stap 1,4):
      < path_to_miRDP2_folder >/miRDP2-v *. * _pipeline. bash – g < genome_file >-i < path_to_index/index_prefix >-f < seq_file >-o < output_folder >
      waarbij * de versie van het pijpleiding bash-script aangeeft. Er zijn drie parameters die kunnen worden gewijzigd: 1) het aantal verschillende locaties die een Lees kan worden toegewezen aan, 2) het mismatch-nummer voor het uitvoeren van bowtie2, en 3) de drempelwaarde van RPM (leesbewerkingen per miljoen). Wijzig deze met respectievelijk de opties – L,-M en – R. Een gedetailleerde uitleg vindt u in paragraaf 3,1.
  4. Controleer de miRDP2 uitgangen.
    1. Houd er rekening mee dat de uitvoermap automatisch wordt gegenereerd onder < output_folder > en met de naam ' < seq_file_name >-15-0-10 '; de laatste 3 cijfers geven de waarden aan (in dit geval standaard) voor respectievelijk parameters 1, 2 en 3. Het bestand < seq_file_name > _filter_P_prediction bevat informatie over de laatste voorspelde miRNAs die voldoet aan de recentelijk bijgewerkte annotatie criteria van plant miRNA. Details over de indeling van het uitvoerbestand worden beschreven in deel 1,4.

3. wijzigingen en voorzichtigheid met behulp van miRDP2

  1. Parameters die kunnen worden gewijzigd
    1. Gebruik de optie '-L ' om de limiet in te stellen van het aantal locaties waaraan een Lees kan worden toegewezen (parameter 1). Lees toewijzing aan te veel sites is mogelijk gekoppeld aan herhaalde reeksen en is niet waarschijnlijk voor miRNAs. De standaardinstelling is 15. Voor specifieke soorten, als er miRNA-families met veel leden zijn, kan de eerste parameter handmatig worden verhoogd om zich aan te passen aan het genoom landschap.
    2. Gebruik de optie '-M ' om de toegestane mismatches voor bowtie in te stellen (parameter 2). De standaardinstelling is 0.
    3. Gebruik de optie '-R ' om de drempelwaarde voor leesbewerkingen in te stellen die mogelijk overeenkomen met oudere miRNAs (parameter 3). Om tijdverbruik en fout-positieven te verminderen, filter leest door RPM. Alleen leesbewerkingen die een bepaalde RPM-drempel overschrijden, kunnen volwassen sequenties van miRNAs vertegenwoordigen in plaats van achtergrondruis, en worden bewaard voor verdere analyse. De standaardinstelling is 10 RPM.
    4. Houd er rekening mee dat het wijzigen van deze parameters mogelijk invloed kan hebben op prestaties en tijdverbruik. In het algemeen zou een toename van parameter 1 en 2 en een afname van parameter 3 een minder streng resultaat en een langere looptijd genereren en omgekeerd.
  2. Redundantie en miRNA *
    1. Merk op dat de uitvoer miRNAs van miRDP2 kan afwijken van de bekende miRNAs. We constateerden dat dit voornamelijk te wijten is aan een van de twee redenen: heterogeniteit van de volwassen miRNAs of de relatieve overvloed van miRNA en miRNA *. We constateerden dat dit geen invloed heeft op de optimale lengte selectie van precursoren en de profilering van bekende miRNA-genen.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

De miRNA aantekening pijplijn, miRDP2, hierin beschreven, wordt toegepast op 10 openbare sRNA-SEQ-bibliotheken van 5 plantensoorten met geleidelijk toegenomen genoom lengte, met inbegrip van Arabidopsis thaliana, Oryza sativa (rijst), Solanum lycopersicum (tomaat), Zea mays (maïs) en Triticum aestivum (tarwe) (Figuur 1A). Over het algemeen worden voor elke soort 2 representatieve sRNA-bibliotheken uit verschillende weefsels (samengevouwen in unieke leesbewerkingen, Details in het protocol gedeelte) en hun geïndexeerde genoomsequenties verwerkt als twee ingangen (tabel 1). Vijf miRNA Computational Voorspellings hulpmiddelen (miRDeep-P13, mirplant25, miR-voorkeur26, miRA27, Mirena28) werden geselecteerd om de vergelijking te maken.

Looptijd test
Om de runtime en prestaties van miRDP2 en andere vijf tools te vergelijken, hebben we vijf tools geïnstalleerd (miRDP2, miRDeep-P, miR-PREFeR, miRA en miReNA) in een cluster server met Cent OS release 6,5-systeem. Deze Programma's werden uitgevoerd met dezelfde invoerbestanden, hardware en bronnen (Details in aanvullend bestand 1). Vooral, miRPlant wordt bestuurd vanuit een GUI geschreven in Java en was niet in staat om te draaien op de server. In plaats daarvan testten we miRPlant op een PC met Windows 10 terwijl we ook miRDP2 en miRDeep-P op deze PC hebben getest (Details in aanvullend bestand 1).

Voor kleine genoom soorten zoals Arabidopsis thaliana, Oryza sativaen Solanum lycopersium, liepen alle Programma's naar behoren. Echter, voor grote genomen soorten zoals Zea mays en Triticum aestivum (inclusief Solanum lycopersium voor miRA), sommige van de Programma's uitgeput alle computer middelen en brak halverwege. Bijvoorbeeld, miReNA, miRA, en miR-de voorkeur mislukt om resultaten te genereren, waarschijnlijk als gevolg van geheugen gebrek tijdens het omgaan met grote Sam-bestanden of tussenliggende bestanden. In het bijzonder, miRPlant tijdelijke bestanden verbruikt te veel ruimte, en het resultaat was niet in staat om te draaien op de PC bij het omgaan met grote genoom soorten. miRDP2 voltooide deze Voorspellings processen in een zeer korte tijd, van minuten tot uren (Figuur 1B). Dus, in vergelijking met de oude versie en andere instrumenten, de looptijd van miRDP2 was duidelijk verkort.

Gevoeligheid en Nauwkeurigheidstest
Aangezien miRNAs in Arabidopsis intensief bestudeerd wordt, maakten we gebruik van bekende Mirna's in Arabidopsis in miRBase21 (Release 22,1) om miRDP2 te evalueren en de vergelijking te maken met andere tools. Zoals eerder gemeld19,26, worden de volgende formules gebruikt om de gevoeligheid en nauwkeurigheid te berekenen:

Equation 2

Equation 3

Bekende Mirna's zijn die geannoleerd in miRBase. Een miRNA wordt aangeduid als uitgedrukt als de volwassen sequenties meer dan 5 RPM hebben, en ≥ 75% leest op de voorloper die is toegewezen aan volwassen en ster miRNA sequenties. Twee sRNA-bibliotheken van Arabidopsis (tabel 1) werden gebruikt om de test uit te voeren. miRDP2 (Figuur 1C, D) presteerde beter in zowel gevoeligheid als nauwkeurigheid in vergelijking met andere gereedschappen.

Tezamen tonen deze resultaten aan dat miRDP2 een snel en nauwkeurig hulpmiddel is voor het analyseren van de miRNA-transcriptome in planten.

Figure 1
Figuur 1: prestaties van miRDP2. A) genoom grootte (in GB) van Arabidopsis thaliana (ATH), Oryza sativa (Osa), Solanum lycopersicum (Sly), Zea mays (ZMa), Triticum aestivum (Tae). (B-D) Vergelijking van runtime, gevoeligheid en nauwkeurigheid van miRDP2 en andere vijf tools. Twee stippen die overeenkomen met elk gereedschap geven aan dat elk gereedschap twee tests heeft uitgevoerd. Dit cijfer is aangepast van Kuang et al.16. Klik hier om een grotere versie van dit cijfer te bekijken.

Soorten (ABB.) Genoom versie sRNA bibliotheken
Bibliotheek-ID Bestandsgrootte Totaal aantal leesbewerkingen Unieke leesbewerkingen Weefsel
Arabidopsis thaliana (ATH) versie 10 GSM2094927 24,9 MB 40,5 m 9,7 m Volwassen blad
GSM2412287 29,5 MB 45,1 m 11.1 m Blad
Oryza sativa (OSA) versie 7 GSM2883136 44,2 MB 54,9 m 16.3 m Zaailing
GSM3030848 34,7 MB 49,1 m 13.0 m Flagleaf
Solanum lycopersicum (Sly) versie 3 GSM1213985 205,4 MB 161.5 m 58.0 m Blad
GSM1976413 118,5 MB 139.3 m 46.2 m Root
Zea mays (ZMa) versie 4 GSM1277437 158,4 MB 266.1 m 60,5 m Zaailing
GSM1428531 144,1 MB 172.5 m 56,3 m Zaad
Triticum aestivum (Tae) iwgsc 1 GSM1294660 76,1 MB 59.2 m 29,6 m Schieten
GSM1294661 113,6 MB 84.0 m 44,0 m Blad

Tabel 1: Genomes en sRNA-bibliotheken die worden gebruikt voor het testen van miRDP2 en andere hulpprogramma's. Deze tafel is aangepast van Kuang et al.16.

Aanvullend bestand 1: vergelijking van runtime, gevoeligheid en nauwkeurigheid van miRDP2 en andere vijf tools. Klik hier om dit bestand te downloaden.

Aanvullend bestand 2: voorbeelden van authentieke miRNAs met bifurcate structuur in lussen. Klik hier om dit bestand te downloaden.

Aanvullend bestand 3: bijgewerkte criteria voor annotatie van planten miRNA en criteria voor 23-NT en 24-NT miRNAs. Klik hier om dit bestand te downloaden.

Aanvullend bestand 4: diagram van de workflow van miRDP2. Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Met de komst van ngs is een groot aantal Mirna loci geïdentificeerd uit een steeds groter wordende hoeveelheid Srna sequentie gegevens in diverse soorten29,30. In de gecentraliseerde communitydatabase miRBase21zijn de gedeponeerde Mirna-items in de afgelopen tien jaar bijna 100 keer gestegen. Echter, in vergelijking met miRNAs in dieren, plant miRNAs hebben vele unieke kenmerken die de identificatie/aantekening ingewikkelder maken13,14.

Ten eerste zijn de voorlopers van plant miRNAs meer variabel in lengte en structuur (aanvullend bestand 2)16. Niet zoals de relatief uniforme lengte van dierlijke Mirna precursoren rond 70-90 NT, de lengte van de plant precursoren variëren door verschillende plooien en kon bereiken enkele honderden NTS13,31. Dit verschil introduceert veel onzekerheid bij het voorspellen van de secundaire structuur van precursoren van miRNA, hoewel een cutoff van precursor lengte meestal willekeurig wordt ingesteld zoals niet meer dan 300 NT19 (deze parameter is ingesloten in miRDP2, en ervaren gebruikers van miRDP2 kunnen dit zelf aanpassen). Daarnaast hebben behouden planten van miRNA meestal meer leden, en de lengte variatie van deze leden is ook vaak significant13. Dit is de reden waarom miRDP2 de parameter-L heeft, die de potentiële grootste miRNA-families in lidgrootte aangeeft. Samen vormen de heterogeniteit van de precursoren van plant miRNA veel moeilijkheden voor hun nauwkeurige aantekening.

Ten tweede, het lawaai of valse-positieven geïntroduceerd door siRNAs is moeilijk te elimineren. Naast miRNAs produceren NGS-methodes ook een stortvloed aan Sirna's in de gesequentieerde sRNA-bibliotheken. Hoewel sirnas kan worden gescheiden van miRNAs door hun biogenese en functies32,33, is het uiterst moeilijk om ze te onderscheiden op basis van sequencing data en Mining tools. De openbare databases zoals mirbase, aangevoerd door veel onderzoekers, zijn sterk verslechterd door het grote aantal valse-positieven sirna's, die abusievelijk zijn geannoteert als miRNAs20,31. Zo zijn verfijnde gereedschappen met een nieuwe en strikte reeks criteria voor de installatie van miRNA-aantekening zoals de onlangs bijgewerkte criteria25 (aanvullend bestand 3) in de Mirna-aantekening pijplijn/-proces zeer gewenst.

Tot slot is de computationele tijd voor het parseren van sRNA-bibliotheken exponentieel toegenomen wanneer dezelfde methode wordt getransplanteerd van een klein genoom soort naar een groot formaat. De rekenkundige hulpmiddelen zoals miRDeep-P13 en MiR-verkiezen26, door het vastleggen en kwantificeren van de Signature distributie van Srna leest langs Mirna precursoren, zijn twee populaire methoden geworden en worden veel gebruikt om te annoteren miRNAs. De toewijzings strategie, het proces van het exciseren van precursor kandidaten en de daaropvolgende secundaire structuur voorspelling vereisen aanzienlijke computertijd16. Wanneer deze hulpmiddelen worden gebruikt voor het parseren van de gegevens van kleine genomen zoals Arabidopsis naar grote als maïs, de gegevensverwerking tijd wordt verhoogd van uren tot dagen zelfs weken (Figuur 1b), wat resulteert in frequente ineenstorting van het proces. Een vernieuwing van de voornoemde beperkingen is dus dringend noodzakelijk.

Ons nieuwe miRDP216 -programma, bijgewerkt van mirdeep-P13, is ontworpen om de bovengenoemde uitdagingen te overwinnen (aanvullend bestand 4). In dit programma hebben we een nieuwe filter strategie gebruikt, het scorings algoritme geoptimaliseerd en onlangs bijgewerkte annotatie criteria voor plant miRNA opgenomen. Als gevolg van deze nieuwe functies werd de looptijd duidelijk verkort wanneer getest met behulp van tien sRNA-bibliotheken van vijf plantensoorten met een toenemende genoom grootte. Bovendien, in vergelijking met andere tools, miRDP2 weergegeven superieure prestaties in zowel gevoeligheid en nauwkeurigheid (Figuur 1). Tezamen tonen deze resultaten aan dat miRDP2 een snel en nauwkeurig hulpmiddel is voor het analyseren van de miRNA transcriptomes in planten.

Er moet worden gewaarschuwd dat de huidige opvatting over de kenmerken van miRNA de prestaties van rekenmachines kan beperken. Zelfs de onlangs bijgewerkte miRNA-aantekening criteria zijn gebaseerd op een beperkte reeks goed bestudeerde voorbeelden. De deduceerde informatie is dus alleen empirische. In feite is aangetoond dat de unieke kenmerken van miRNAs bestaan in verschillende plantensoorten of lijn afstanden3. Bovendien spelen kenmerken zoals de structuren van de upstream-en downstreamgebieden van de Mirna/Mirna *-duplex ook kritieke rollen in Mirna biogenese34,35, die niet in aanmerking worden genomen in de huidige annotatiegereedschappen. Met de accumulatie van goed bestudeerde voorbeelden in meer plantensoorten, is het waarschijnlijk dat er in de toekomst nog geavanceerdere annotatie hulpmiddelen zijn ontwikkeld die subtielere onderscheidingen kunnen vastleggen en Mirna's met een hogere mate van nauwkeurigheid dan de huidige methoden classificeren. Een veelbelovende nieuwe miRNA-aantekening is de aanpak van machine learning36 , omdat de kwaliteit van de trainings sets en aantekening criteria voortdurend evolueert.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk werd gesteund door de Beijing Academy of land-en bosbouw Wetenschappen (KJCX201917, KJCX20180425 en KJCX20180204) aan XY en National Natural Science Foundation of China (31621001) tot LL.

Materials

Name Company Catalog Number Comments
Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

DOWNLOAD MATERIALS LIST

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, Database issue 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, Database issue 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Tags

Genetica uitgave 155 microRNA (miRNA) plant sRNA-seq miRDeep-P2 (miRDP2) volgende generatie sequencing plant miRNA criteria miRDeep-P (miRDP)
Een bioinformatica-pijpleiding om de MicroRNA Transcriptomes in fabrieken nauwkeurig en efficiënt te analyseren
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Kuang, Z., Li, L., Yang,More

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter