Het vertalen van ribosomen decodeert drie nucleotiden per codon in peptiden. Hun beweging langs mRNA, vastgelegd door ribosoomprofilering, produceert de voetafdrukken die karakteristieke triplet periodiciteit vertonen. Dit protocol beschrijft hoe RiboCode te gebruiken om deze prominente functie te ontcijferen uit ribosoomprofileringsgegevens om actief vertaalde open leesframes op het niveau van het hele transcriptoom te identificeren.
Identificatie van open leesframes (ORF’s), met name die welke coderen voor kleine peptiden en actief worden vertaald onder specifieke fysiologische contexten, is van cruciaal belang voor uitgebreide annotaties van contextafhankelijke translatomen. Ribosoomprofilering, een techniek voor het detecteren van de bindingslocaties en dichtheden van het vertalen van ribosomen op RNA, biedt een manier om snel te ontdekken waar translatie plaatsvindt op genoombrede schaal. Het is echter geen triviale taak in de bio-informatica om de vertalende ORF’s voor ribosoomprofilering efficiënt en uitgebreid te identificeren. Hier beschreven is een eenvoudig te gebruiken pakket, genaamd RiboCode, ontworpen om te zoeken naar actief vertalende ORF’s van elke grootte van vervormde en dubbelzinnige signalen in ribosoomprofileringsgegevens. Dit artikel neemt onze eerder gepubliceerde dataset als voorbeeld en biedt stapsgewijze instructies voor de gehele RiboCode-pijplijn, van het voorbewerken van de onbewerkte gegevens tot de interpretatie van de uiteindelijke uitvoerresultaatbestanden. Bovendien worden voor het evalueren van de omrekeningssnelheden van de geannoteerde ORF’s ook procedures voor visualisatie en kwantificering van ribosoomdichtheden op elke ORF in detail beschreven. Samenvattend is dit artikel een nuttige en tijdige instructie voor de onderzoeksgebieden met betrekking tot vertaling, kleine ORF’s en peptiden.
Onlangs heeft een groeiend aantal studies een wijdverspreide productie van peptiden onthuld die zijn vertaald uit ORF’s van coderende genen en de eerder geannoteerde genen als niet-coderend, zoals lange niet-coderende RNA’s (lncRNA’s) 1,2,3,4,5,6,7,8. Deze vertaalde ORF’s worden gereguleerd of geïnduceerd door cellen om te reageren op omgevingsveranderingen, stress en celdifferentiatie1,8,9,10,11,12,13. Van de vertaalproducten van sommige ORF’s is aangetoond dat ze een belangrijke regulerende rol spelen in diverse biologische processen in ontwikkeling en fysiologie. Chng et al.14 ontdekten bijvoorbeeld een peptidehormoon genaamd Elabela (Ela, ook bekend als Apela / Ende / Toddler), dat van cruciaal belang is voor de cardiovasculaire ontwikkeling. Pauli et al. suggereerden dat Ela ook werkt als een mitogeen dat de celmigratie in het vroege visembryo bevordert15. Magny et al. rapporteerden twee micropeptiden van minder dan 30 aminozuren die het calciumtransport reguleren en de regelmatige spiercontractie in het Drosophila-hart beïnvloeden10.
Het blijft onduidelijk hoeveel van dergelijke peptiden door het genoom worden gecodeerd en of ze biologisch relevant zijn. Daarom is systematische identificatie van deze potentieel coderende ORF’s zeer wenselijk. Het direct bepalen van de producten van deze ORF’s (d.w.z. eiwit of peptide) met behulp van traditionele benaderingen zoals evolutionaire conservering16,17 en massaspectrometrie18,19 is echter een uitdaging omdat de detectie-efficiëntie van beide benaderingen afhankelijk is van de lengte, abundantie en aminozuursamenstelling van de geproduceerde eiwitten of peptiden. De komst van ribosoomprofilering, een techniek voor het identificeren van de ribosoombezetting op mRNA’s met nucleotideresolutie, heeft een precieze manier geboden om het coderingspotentieel van verschillende transcripten3,20,21 te evalueren, ongeacht hun lengte en samenstelling. Een belangrijk en vaak gebruikt kenmerk voor het identificeren van actief vertalende ORF’s met behulp van ribosoomprofilering is de drie-nucleotide (3-nt) periodiciteit van de voetafdrukken van het ribosoom op mRNA van het startcodon tot het stopcodon. Ribosoomprofileringsgegevens hebben echter vaak verschillende problemen, waaronder lage en schaarse sequencing-reads langs ORF’s, hoge sequencingruis en ribosomale RNA (rRNA) -verontreinigingen. De vervormde en dubbelzinnige signalen die door dergelijke gegevens worden gegenereerd, verzwakken dus de 3-nt periodiciteitspatronen van de voetafdrukken van ribosomen op mRNA, wat uiteindelijk de identificatie van de met hoge betrouwbaarheid vertaalde ORF’s moeilijk maakt.
Een pakket met de naam “RiboCode” paste een aangepaste Wilcoxon-signed-rank test en P-value integratiestrategie aan om te onderzoeken of de ORF significant meer in-frame ribosoom-beschermde fragmenten (RPF’s) heeft dan off-frame RPFs22. Het bleek zeer efficiënt, gevoelig en nauwkeurig te zijn voor de novo annotatie van het translatoom in gesimuleerde en echte ribosoomprofileringsgegevens. Hier beschrijven we hoe we deze tool kunnen gebruiken om de potentiële vertalende ORF’s te detecteren uit de ruwe ribosoomprofileringsequencingsets die door de vorige studie zijn gegenereerd23. Deze datasets werden gebruikt om de functie van EIF3-subeenheid “E” (EIF3E) in vertaling te onderzoeken door de ribosoombezettingsprofielen van MCF-10A-cellen getransfecteerd met controle (si-Ctrl) en EIF3E (si-eIF3e) kleine interfererende RNA’s (siRNA’s) te vergelijken. Door RiboCode toe te passen op deze voorbeelddatasets, ontdekten we 5.633 nieuwe ORF’s die mogelijk coderen voor kleine peptiden of eiwitten. Deze ORF’s werden gecategoriseerd in verschillende typen op basis van hun locaties ten opzichte van de coderende regio’s, waaronder upstream ORF’s (uORF’s), downstream ORF’s (dORFs), overlappende ORF’s, ORF’s van nieuwe eiwitcoderende genen (nieuwe PCG’s) en ORF’s van nieuwe niet-proteïnecoderende genen (nieuwe niet-PCPG’s). De RPF-leesdichtheden op uORF’s waren significant verhoogd in EIF3E-deficiënte cellen in vergelijking met controlecellen, wat ten minste gedeeltelijk kan worden veroorzaakt door de verrijking van actief translaterende ribosomen. De gelokaliseerde ribosoomaccumulatie in het gebied van het 25e tot 75e codon van EIF3E-deficiënte cellen duidde op een blokkering van translatie-elongatie in het vroege stadium. Dit protocol laat ook zien hoe de RPF-dichtheid van het gewenste gebied kan worden gevisualiseerd voor het onderzoeken van de 3-nt periodiciteitspatronen van ribosoomvoetafdrukken op geïdentificeerde ORF’s. Deze analyses tonen de krachtige rol van RiboCode bij het identificeren van vertalende ORF’s en het bestuderen van de regulatie van vertaling.
Ribosoomprofilering biedt een ongekende kans om de werking van de ribosomen in cellen op genoomschaal te bestuderen. Het nauwkeurig ontcijferen van de informatie die door de ribosoomprofileringsgegevens wordt gedragen, kan inzicht geven in welke regio’s van genen of transcripten actief worden vertaald. Dit stapsgewijze protocol biedt richtlijnen voor het gebruik van RiboCode om ribosoomprofileringsgegevens in detail te analyseren, inclusief pakketinstallatie, gegevensvoorbereiding, uitvoering van opdrachten, resultaatuit…
The authors have nothing to disclose.
De auteurs willen graag de ondersteuning erkennen van de computationele bronnen die worden geboden door het HPCC-platform van de Xi’an Jiaotong University. Z.X. bedankt dankbaar het Young Topnotch Talent Support Plan van Xi’an Jiaotong University.
A computer/server running Linux | Any | – | – |
Anaconda or Miniconda | Anaconda | – | Anaconda: https://www.anaconda.com; Miniconda:https://docs.conda.io/en/latest/miniconda.html |
R | R Foundation | – | https://www.r-project.org/ |
Rstudio | Rstudio | – | https://www.rstudio.com/ |