Dyb sekventering af gær populationer valgt for positive gær 2-hybrid interaktioner potentielt giver et væld af oplysninger om interagerende partner proteiner. Her beskriver vi driften af specifikke bioinformatik værktøjer og tilpassede opdateret software til at analysere sekvens data fra sådanne skærme.
Vi har tilpasset gær 2-hybrid assay for at samtidig afdække snesevis af forbigående og statisk protein interaktioner indenfor en enkelt skærm udnytte høj overførselshastighed kort-Læs DNA sekvens. Den resulterende sekvens datasæt kan ikke kun spore hvad gener i en befolkning, der er beriget under markering for positive gær 2-hybrid interaktioner, men også give detaljerede oplysninger om de relevante underdomæner af proteiner tilstrækkeligt for interaktion. Her, beskriver vi en fuld suite af stand-alone-softwareprogrammer, der tillader ikke-eksperter til at udføre alle bioinformatik og statistisk skridt til at behandle og analysere DNA sekvens fastq filer fra en batch gær 2-hybrid assay. De behandlingstrin, er omfattet af disse software omfatter: 1) kortlægning og tælle sekvens læser svarende til hver kandidat protein kodet inden for en gær 2-hybrid bytte bibliotek; 2) en statistisk analyse program, der evaluerer berigelse profiler; og 3) værktøjer til at undersøge translationel ramme og position inden for regionen kodning af hver beriget plasmidet, som koder de interagerende proteiner af interesse.
En metode til at opdage protein interaktioner er gær 2-hybrid (Y2H) analysen, som udnytter manipuleret gærceller, som vokser kun når et protein af interesse binder sig til et fragment af en interagerende partner1. Påvisning af flere Y2H interaktioner kan nu gøres med hjælp fra massive parallelle høj overførselshastighed sekvensering. Flere formater har været beskrevet2,3,4,5 herunder en, der udviklede vi hvor befolkninger er vokset i parti under betingelser, der vælger for gær som indeholder plasmider, der producerer en positiv Y2H interaktion6. Arbejdsprocessen vi udviklet, kaldes DEEPN (dynamisk berigelse for evaluering af Protein netværk), identificerer differentieret interactomes fra de samme byttedyr biblioteker til at identificere proteiner, der interagerer med en protein (eller domæne) vs. et andet protein eller en for særskilte mutant domæne. En af de vigtigste trin i arbejdsprocessen er korrekt behandling og analyse af DNA-sekventering data. Nogle oplysninger kan udledes af bare tælle antallet af læser for hvert gen både før og efter udvælgelsen af Y2H interaktioner i en mode svarer til et RNA-seq eksperiment. Men meget mere dybdegående oplysninger kan udvindes fra disse datasæt, herunder oplysningerne på underdomænet af et bestemt protein, der er i stand til at producere en Y2H interaktion. Derudover DEEPN tilgang er værdifulde, kan analysere mange prøve replikater være besværlige og dyre. Dette problem er afhjulpet ved hjælp af en statistisk model, der blev udviklet specielt til DEEPN datasæt hvor antallet af gentagelser er begrænset6. For at gøre behandling og analyse af DNA-sekventering datasæt pålidelige, fuldstændige, robust og tilgængelige for efterforskere uden Bioinformatik ekspertise, udviklede vi en suite af programmer, der dækker alle trin af analysen.
Denne suite af stand-alone software-programmer, der kører på stationære computere omfatter MAPster, DEEPN og Stat_Maker. MAPster er en grafisk brugergrænseflade, der tillader hver fastq fil i kø for tilknytningen til genom ved hjælp af HISAT2 program7, producerer en standard .sam fil til brug i downstream applikationer. DEEPN har flere moduler. Det tildeler og tæller læser svarende til bestemt gen svarende til en RNA-seq type kvantificering ved hjælp af modulet ‘Genet tæller’. Det også udtrækker de sekvenser, svarende til krydset mellem Gal4 transcriptional domæne og bytte rækkefølgen og samler placeringen af disse knudepunkter at tillade deres inspektion af komparative tabeller og grafer (ved hjælp af modulet ‘Junction_Make’) Modulet ‘Blast_Query’ giver mulighed for nem inspektion, kvantificering og sammenligning af krydset Gal4 junction sekvenser. Stat_Maker evaluerer læser per gen berigelse data statistisk som en måde at prioritere sandsynligvis Y2H hits. Vi beskriver her, hvordan til at bruge disse programmer og fuldt analysere DNA sekvens data fra en DEEPN Y2H eksperimentere. Versioner af DEEPN er tilgængelig til at køre på PC, Mac og Linux-systemer. Andre programmer, såsom kortlægning program MAPster og DEEPN statistik modul Stat_Maker stole på subrutiner, der kører under Unix og findes kun på Mac og linux-systemer.
Software suite beskrevet her tillader en at helt behandle og analysere høj overførselshastighed DNA-sekventering data fra en DEEPN eksperiment. Det første program er MAPster, som tager DNA sekvens læsninger i standard fastq filer og maps deres position på en reference DNA for downstream behandling af en lang række edb-programmer, herunder DEEPN-software. Nytte af MAPster grænsefladen og dens evne til at stå i kø flere arbejdspladser, kombinere inputfiler, coveniently navn outputfiler, kombineret med hastigheden …
The authors have nothing to disclose.
Dette arbejde blev støttet af National Institutes of Health: NIH R21 EB021870-01A1 og af NSF Research Project Grant: 1517110.
Mapster | https://github.com/emptyewer/MAPster/releases | ||
DEEPN software | https://github.com/emptyewer/DEEPN/releases | ||
Statmaker | https://github.com/emptyewer/DEEPN/releases | ||
Minimum computer system | Apple | Mac Intel Core i5 or better | |
– | 4 Gb RAM or better | ||
– | 500 Gb Disk spce or better | ||
– | OS 10.10 or higher | ||
Dell | Intel i5-7400 or better | ||
– | 4 Gb RAM or better | ||
– | 500 Gb Disk spce or better | ||
– | Windows 7 or higher |