Summary

Informatic analyse van sequencedata van Batch gist 2-Hybrid schermen

Published: June 28, 2018
doi:

Summary

Diepe sequentiebepaling van gist bevolking geselecteerd voor positieve gist 2-hybrid interacties mogelijk levert een schat aan informatie over interacterende eiwitten van de partner. Hier beschrijven we de werking van specifieke bioinformatica tools en bijgewerkte software voor het analyseren van de reeks gegevens uit dergelijke schermen op maat.

Abstract

De gist 2-hybrid bepaling om tegelijkertijd tientallen voorbijgaande en statische eiwitinteractie binnen één scherm met behulp van hoge-doorvoer korte-Lees DNA rangschikkend bloot te leggen, hebben we aangepast. De resulterende reeks datasets kunt bijhouden welke genen in een populatie die tijdens de selectie voor positieve gist 2-hybrid interacties zijn verrijkt, maar ook geven gedetailleerde informatie over de relevante subdomeinen van eiwitten voldoende voor interactie. Hier beschrijven we een volledige suite van zelfstandige softwareprogramma’s waarmee niet-deskundigen om alle de bioinformatica en statistische stappen om te verwerken en analyseren van bestanden met fastq van DNA reeksen van een batch gist 2-hybrid test uitvoeren. De stappen van de verwerking vallende van deze software omvatten: 1) mapping en tellen volgorde leest overeenkomt met elke kandidaat-proteïne gecodeerd binnen een gist 2-hybrid prooi bibliotheek; 2) een statistische analyseprogramma dat resulteert in de profielen van de verrijking; en 3) hulpmiddelen de translationeel frame en positie binnen de codering regio van elke verrijkt plasmide die de interacterende eiwitten van belang codeert te onderzoeken.

Introduction

Een benadering te ontdekken eiwitinteractie is de gist 2-hybrid (Y2H) test, welke exploits ontworpen gistcellen die groeien alleen wanneer een proteïne van belang aan een fragment van een interactie partner1 bindt. Detectie van meerdere Y2H interacties kan nu worden gedaan met de hulp van massale parallelle high-throughput sequencing. Verschillende formaten zijn beschreven van2,3,4,5 waaronder een die we ontwikkeld waar populaties worden geteeld in batch onder voorwaarden die selecteert voor gist plasmiden die produceren met een positieve Y2H interactie6. De werkstroom we ontwikkeld, genoemd DEEPN (dynamische verrijking voor evaluatie van de netwerken van de proteïne), differentiële interactomes uit de dezelfde prooi bibliotheken te identificeren van de eiwitten die in combinatie met een eiwit (of domein) vsidentificeert. een ander eiwit of een conformationally onderscheiden mutant domein. Een van de belangrijke stappen in deze werkstroom is goede verwerking en analyse van de gegevens van DNA sequencing. Sommige informatie kan worden opgedaan door te gewoon tellen het aantal leest voor elk gen zowel vóór als na de selectie van Y2H interacties op een wijze analoog aan een RNA-seq-experiment. Echter kan veel meer gedetailleerde informatie worden geëxtraheerd uit deze datasets met inbegrip van informatie over het subdomein van een bepaald eiwit dat is geschikt voor het produceren van een Y2H-interactie. Voorts overwegende dat de aanpak van de DEEPN waardevol is, kunnen analyseren van vele monster wordt gerepliceerd omslachtige en dure. Dit probleem is verlicht met behulp van een statistisch model dat werd ontwikkeld speciaal voor DEEPN datasets waar het aantal replicatieonderzoeken is beperkt6. Om verwerking en analyse van DNA sequencing datasets betrouwbare, volledige, robuuste en toegankelijk voor onderzoekers zonder bioinformatics deskundigheid, ontwikkelden we een suite van software programma’s die betrekking hebben op alle stappen van analyse.

Deze suite van stand-alone software programma’s die worden uitgevoerd op desktop computers omvat MAPster, DEEPN en Stat_Maker. MAPster is een grafische gebruikersinterface waarmee dat elk fastq-bestand in de wachtrij voor toewijzing aan het genoom met behulp van de HISAT2 programma7, produceren een standaard .sam bestand voor gebruik in downstream toepassingen. DEEPN heeft verschillende modules. Het wordt toegewezen en telt leest overeenkomt met een bepaald gen vergelijkbaar met een RNA-seq type kwantificering met behulp van de module ‘Gene Count’. Ook extracten van de reeksen overeenkomt met de kruising tussen de Gal4 transcriptionele domein en de volgorde van de prooi en gesorteerd van de positie van deze kruispunten toe hun inspectie door vergelijkende tabellen en grafieken (met behulp van de module ‘Junction_Make’) De module ‘Blast_Query’ laat gemakkelijk inspectie, kwantificatie en vergelijking van de kruising Gal4 junction sequenties. Stat_Maker evalueert de leest per gene verrijking gegevens statistisch gezien als een manier van het prioriteren van waarschijnlijk Y2H hits. Hier beschrijven we hoe deze software programma’s te gebruiken en volledig analyseren de gegevens uit een DEEPN Y2H experimenteren opeenvolging van DNA. Versies van DEEPN worden uitgevoerd op PC, Mac en Linux systemen. Andere programma’s, zoals het programma voor toewijzing MAPster en de DEEPN statistieken module Stat_Maker afhankelijk van subroutines die worden uitgevoerd onder Unix en zijn alleen beschikbaar op Mac en linux systemen.

Protocol

1. Fastq toewijzingsbestanden Opmerking: DEEPN software, alsook vele bioinformatics-programma’s gebruiken DNA-gegevens van de volgorde waarin elke sequentie lezen is toegewezen voor haar positie in verwijzing DNA. Een verscheidenheid van programma’s de toewijzing kan worden gebruikt voor dit met inbegrip van de MAPster interface hier die gebruikmaakt van het HISTAT2-programma voor de productie van .sam bestanden die worden gebruikt in opeenvolgende stappen. De reeks gegevens toewijze…

Representative Results

Fastq gegevens in kaart te brengen: de eerste stapIn vrijwel alle NGS toepassingen met inbegrip van de eerste uitvoer is een bestand van korte opeenvolging luidt dat moet worden toegewezen door aanpassing aan de genomic DEEPN, verwijzing transcriptomic, of andere DNA8. Onlangs werd de HISAT2 aanpassing programma ontwikkeld dat maakt gebruik van state-of-the-art indexing algoritmen te drastisch verhogen de toewijzing snelheid7<…

Discussion

De hier beschreven softwaresuite maakt het mogelijk om volledig verwerken en analyseren van hoge-doorvoer DNA sequencing gegevens uit een DEEPN experiment. Het eerste programma gebruikt is MAPster, die neemt de DNA volgorde leest in standaard fastq bestanden en kaarten van hun positie op een referentie DNA voor downstream processing door een hele reeks van informatica-programma’s met inbegrip van de DEEPN software. Het nut van de MAPster-interface en haar vermogen om meerdere taken, combineren de input-bestanden van de C…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd gesteund door de National Institutes of Health: NIH R21 EB021870-01A1 en door NSF onderzoek projectsubsidie: 1517110.

Materials

Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
4 Gb RAM or better
500 Gb Disk spce or better
OS 10.10 or higher
Dell Intel i5-7400 or better
4 Gb RAM or better
500 Gb Disk spce or better
Windows 7 or higher

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).
check_url/57802?article_type=t

Play Video

Cite This Article
Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

View Video