Summary

Informatic analyse av sekvens Data fra satsvis gjær 2-Hybrid-skjermer

Published: June 28, 2018
doi:

Summary

Dyp sekvensering av gjær bestander valgt for positiv gjær 2-hybrid interaksjoner potensielt gir et vell av informasjon om samspill partner proteiner. Her beskriver vi spesifikt Bioinformatikk verktøy og tilpassede oppdatert programvare å analysere sekvens data fra slike skjermer.

Abstract

Vi har tilpasset gjær 2-hybrid analysen for å avdekke samtidig dusinvis av forbigående og statisk protein interaksjoner i et enkelt skjermbilde utnytte høy gjennomstrømming kort-lese DNA sekvensering. Resulterende sekvens datasett kan ikke bare spore hva gener i en befolkning som er beriket under utvalg for positiv gjær 2-hybrid interaksjoner, men også gi detaljert informasjon om relevante underdomenene proteiner tilstrekkelig for samhandling. Her beskriver vi en komplett pakke med frittstående programmer som tillater ikke-eksperter å utføre alle bioinformatikk og statistiske skritt for å behandle og analysere DNA sekvens fastq filer fra en satsvis gjær 2-hybrid analysen. Behandlingstrinnene dekket av disse programvare inkluderer: 1) kartlegging og telling sekvens leser tilsvarer hver kandidat protein kodet i et gjær 2-hybrid byttedyr bibliotek; 2) en statistisk analyseprogram som evaluerer berikelse profiler; og 3) verktøy undersøke translasjonsforskning rammen og posisjon i regionen koding av hver beriket plasmider som koder samspill proteiner av interesse.

Introduction

En tilnærming til å oppdage protein interaksjoner er gjær 2-hybrid (Y2H) analysen, som utnytter konstruert gjærceller som vokser bare når et protein rundt binder seg til et fragment av et samspill partner1. Påvisning av flere Y2H vekselsvirkningene kan nå gjøres med hjelp av massiv parallelle høy gjennomstrømming sekvensering. Flere formater har vært beskrevet2,3,4,5 inkludert en som vi utviklet hvor befolkningen er dyrket i satsvis vilkår velger for gjær som inneholder plasmider som produserer en positiv Y2H interaksjon6. Arbeidsflyten vi utviklet, kalt DEEPN (dynamisk berikelse for evaluering av Protein Networks), identifiserer differensial interactomes fra samme byttedyr bibliotekene å identifisere proteiner som samhandler med en protein (eller domenet) vs. en annen protein eller et conformationally forskjellige mutant domene. En av de viktigste trinnene i denne arbeidsflyten er riktig behandling og analyse av DNA sekvensering dataene. Noe informasjon kan merkes ved å bare telle antall leseoperasjoner for hver genet både før og etter valget av Y2H vekselsvirkningene på en måte analog til et RNA-seq eksperiment. Imidlertid kan mye mer inngående informasjon hentes fra disse datasett inkludert informasjon på underdomenet til en gitt protein som kan produsere en Y2H interaksjon. Dessuten, mens DEEPN tilnærming er verdifull, kan analysere mange eksempel gjentak være tungvinte og dyre. Dette problemet er lindres ved hjelp av en statistisk modell som ble utviklet spesielt for DEEPN datasett der antall gjentak er begrenset6. For å gjøre behandling og analyse av DNA sekvensering datasett pålitelig, komplett, robust og tilgjengelig for etterforskere uten bioinformatikk kompetanse, utviklet vi en rekke programmer som dekker alle trinnene for analyse.

Denne suiten frittstående programmer som kjører på stasjonære datamaskiner inkluderer MAPster, DEEPN og Stat_Maker. MAPster er et grafisk brukergrensesnitt som gjør at hver fastq fil i kø for tilordning til genomet bruker HISAT2 programmet7, produsere en standard Sam fil for bruk i nedstrøms programmer. DEEPN har flere moduler. Den tilordner teller leser tilsvarer bestemte genet som ligner en RNA-seq type kvantifisering ved hjelp av modulen ‘Gene Count’. Det trekker sekvensene tilsvarer krysset mellom Gal4 transcriptional domenet og byttedyr sekvensen og sorterer plasseringen av de knutepunktene tillate deres inspeksjon av komparativ tabeller og grafer (med modulen ‘Junction_Make’) Modulen ‘Blast_Query’ kan enkelt, kvantifisering og sammenligning av krysset Gal4 junction sekvenser. Stat_Maker evaluerer leser per genet berikelse data statistisk som en måte å prioritere sannsynlig Y2H treff. Her beskriver vi hvordan du bruker disse programmene og fullt analysere DNA sekvensen data fra en DEEPN Y2H eksperimentere. Versjoner av DEEPN er tilgjengelig for å kjøre på PC, Mac og Linux systemer. Andre programmer, for eksempel tilordning programmet MAPster og den DEEPN modulen Stat_Maker stole på subrutiner som kjøre under Unix, og er bare tilgjengelig på Mac og linux systemer.

Protocol

1. kartlegging Fastq filer Merk: DEEPN programvare samt mange bioinformatikk programmer bruke DNA sekvens data der hvert forløp lese er tilordnet for sin posisjon i referanse DNA. En rekke kartlegging programmer kan brukes for dette inkluderer MAPster grensesnittet her som bruker programmet HISTAT2 for å produsere Sam-filer som brukes i de etterfølgende trinnene. Sekvens data tilordnes riktig versjon av genomet. Y2H biblioteker av musen opprinnelse, bruke UCSC mm10 genomet; for de…

Representative Results

Tilordning av fastq data: første trinnI praktisk talt alle NGS programmer inkludert DEEPN første resultatet er en fil av kort sekvens som må tilordnes av justeringen til genomisk, referere transcriptomic eller andre DNA8. Nylig ble HISAT2 justering programmet utviklet som bruker state-of-the-art indeksering algoritmer til å dramatisk øke kartlegging fart7,9. HISAT2 kjører effektiv…

Discussion

Programvarepakke som er beskrevet her gjør det mulig å behandle og analysere høy gjennomstrømning DNA sekvensering data fra et DEEPN eksperiment. Det første programmet brukes er MAPster, som tar DNA sekvens leser i standard fastq filer og kart sin posisjon på en referanse DNA for nedstrøms behandling av en hel rekke informatikk programmer inkludert DEEPN programvare. Nytten av MAPster grensesnittet og dens evne til å kø flere jobber, kombinere inndatafiler, coveniently navn utdatafiler, kombinert med hastigheten…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbeidet ble støttet av National Institutes of Health: NIH R21 EB021870-01A1 og NSF forskningsstipend for prosjektet: 1517110.

Materials

Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
4 Gb RAM or better
500 Gb Disk spce or better
OS 10.10 or higher
Dell Intel i5-7400 or better
4 Gb RAM or better
500 Gb Disk spce or better
Windows 7 or higher

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).
check_url/57802?article_type=t

Play Video

Cite This Article
Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

View Video