Here, we present phenomic approaches for the functional characterization of putative phage genes. Techniques include a developed assay capable of monitoring host anabolic metabolism, the Multi-phenotype Assay Plates (MAPs), in addition to the established method of metabolomics, capable of measuring effects to catabolic metabolism.
Aktuelle undersøgelser fag-vært interaktioner er afhængige af ekstrapolering viden fra (meta) genomer. Interessant, 60 – deler 95% af alle fag sekvenser ingen homologi til aktuelle kommenteret proteiner. Som følge heraf er en stor del af faggener kommenteret som hypotetisk. Denne virkelighed er stærkt påvirker annotation af både strukturelle og hjælpestoffer metaboliske gener. Her præsenterer vi Phenomic metoder designet til at fange den fysiologiske reaktion (er) af en udvalgt vært under ekspression af en af disse ukendte faggener. Multi-fænotype assayplader (kort) bruges til at overvåge de forskellige værten substratudnyttelse og efterfølgende biomasse dannelse, mens metabolomics giver bi-produktanalyse ved at overvåge metabolit mangfoldighed og diversitet. Begge værktøjer anvendes samtidigt at tilvejebringe et fænotypisk profil associeret med ekspression af et enkelt formodet fag åben læseramme (ORF). Repræsentative resultater for begge metoder sammenlignes, highlighting de fænotypiske profil forskelle en vært bærer enten formodede strukturelle eller metaboliske fag gener. Derudover er de visualiseringsteknikker og højt gennemløb beregningsmæssige rørledninger, at den lettere eksperimentel analyse fremlagt.
Virus, der inficerer bakterier (aka bakteriofager eller fag) skønnes at eksistere på mere end 10 31 viruslignende partikler (VLP) globalt og overtal alle andre organismer i et miljø 1,2. Den første metagenomisk undersøgelse undersøger de virale samfund er forbundet med marine miljøer med fokus på at kvantificere mangfoldighed ses i den virale fraktion 3. Derudover Breitbart og kolleger fandt, at over 65% af de virale community sekvenser delt ingen homologi til nogen sekvenser tilgængelige i offentlige databaser. Efterfølgende metagenomisk undersøgelser fundet lignende beviser: metagenomes fra marine sedimenter i San Diego, Californien indeholder 75% ukendte virale sekvenser 4; metagenomes fra hypersaline søer i Salton Sea indeholder 98% ukendte virale sekvenser 5; og koral-associerede metagenomes indeholder 95-98% ukendt virale sekvenser 6. Denne ophobning af fremavlet information har resulteret ifag genetisk materiale er "det mørke stof af den biologiske univers" 7.
Genomisk karakterisering af fag afhængig identificere sekvens lighed gennem sammenligning mod eksisterende nukleinsyre og protein-databaser. Fordi phag-indkodede genetiske information er overvejende ukendt, homologi-baserede metoder er ineffektive. I genomet, fager koder typisk tre store gen-typer: transskription og replikation gener, metaboliske gener og strukturelle gener. Transkription og replikationsgenerne (klasse I / II-gener 8) indbefatter polymeraser, primases, endo / exo-nukleaser og kinaser. Disse gener er særdeles konserveret på grund af deres betydning i faginfektion, transskribere og replikerende fag genetisk materiale. Fag-polymeraser identificeres let ved hjælp af traditionelle sekvenshomologi metoder på grund af deres globale bevarelse 9 og er blevet vist at tjene som effektive fylogenetiske markører 10.I modsætning hertil fag metaboliske og strukturelle gener (klasse II / III gener 8) er i stigende grad divergerende og ofte kommenteret som hypotetiske gener.
Fag-metaboliske gener påvirker den metaboliske kapacitet af værten og er ikke nødvendigvis påkrævet for viral replikation. Disse gener, der ofte omtales som hjælpestoffer metaboliske gener 11 (AMGs), synes at modulere værtens metabolisme og muliggøre optimal progression af infektion og succes virion modning. AMGs har været forbundet med udnyttelsen og optagelsen af begrænsende næringsstoffer eller energiproduktion veje. Nogle eksempler indbefatter fotosystem gener findes i genomerne af forskellige cyanophage 12-16, gener forbundet til og reguleret af phosphatmetabolisme 17,18, og udnyttelsen af det pentosephosphatvejen til fag dNTP biosyntese 18,19. Til sammenligning strukturelle gener er blandt de midten til slutningen af gener produceret under infektion og varierer på tværs forskellige fag-host systemer. Produktionen af strukturelle proteiner er afhængige af tilgængeligheden af viral dNTP, og energi pools for deres transskription, translation, og montering 8. Capsidet og hale fiber strukturelle proteiner anses som den mest divergente af alle virale protein-kodende gener og er nødvendige for en vellykket virion produktion. Deres divergens typisk tilskrives den aktive rolle, de spiller i udformningen af virus-vært coevolution 20. Divergerende proteiner, uanset genet klassen, let overses, når der anvendes traditionelle homologi og sekvenssammenligning teknikker. En indsats for at korrigere for de begrænsninger, set med strenge sekvenssammenligninger har resulteret i bioinformatik værktøjer, der kan bruge sekvens egenskaber til at bestemme forening, såsom kunstige neurale net 21. Kunstige neurale net (ANNs) giver mulighed for forudsigelse af strukturelle og metaboliske gener kræver imidlertid nedstrøms eksperimentel validering til direkte karakteriseregenfunktion.
Formålet med dette manuskript er at tilvejebringe Phenomic protokoller kan overvåge både kataboliske og anaboliske metabolisme af en vært bakterie under ekspression af et hidtil ukendt faggen, funktionelt forudsagt gennem ANNs. Feltet af phenomics, biologien forbundet med cellulære fænotyper, er veletableret i systembiologi at hjælpe ved undersøgelsen af proteiner med ukendt eller pleiotropisk funktion. Phenomic værktøjer bruges til at linke fænotypisk information til genotypisk information. Vi hypotesen for formodede fag gener, deres funktion (er) kan bestemmes ved at observere vært fysiologiske virkninger under fag genekspression. For at undersøge denne hypotese blev valgt to kvantitative metoder. Multi-fænotype assayplader (kort) blev anvendt til at overvåge vært substratudnyttelse og den efterfølgende biomasse dannelse mens metabolomics målt vært metabolit mangfoldighed og relative forekomst under vækst i specifikke miljøpsykiske forhold. Formodede strukturelle og metaboliske proteiner blev overudtrykt i Escherichia coli og repræsentative resultater fra begge eksperimenter sammenlignes. Talrige visuelle teknikker og high throughput forarbejdning rørledninger præsenteres for at lette eksperimentelle replikation. Endelig er reproducerbarheden og nøjagtigheden af de præsenterede metoder diskuteres i sammenhæng med de forventede fysiologiske virkninger for en kommenteret capsidprotein og fag metaboliske protein, thioredoxin, plus to formodede AMGs.
Her præsenterer vi Phenomic metoder til funktionel karakterisering af formodede fag gener. Teknikker indbefatter et udviklet assay stand til at overvåge vært anabolsk metabolisme, Multi-fænotype assayplader (kort), ud over den etablerede fremgangsmåde til metabolomics, der kan måle effekter til kataboliske metabolisme. Vi forudsat yderligere værktøjer til at håndtere de store datasæt som følge af disse teknologier, der giver mulighed for high throughput bearbejdning og analyse 24. Endelig gennem sammenligningen af en kommenteret fag capsidprotein, fag thioredoxin, to formodede metaboliske fag gener, og den gennemsnitlige eksperimentelle respons vi foreslår forskellige strategier til at fortolke både datasæt og gen-klasser, med vægt på identifikation af fænotypiske tendenser og identificere outliers.
Som nævnt begge tilgange kvantitativ måling kun halvdelen af værtens metabolisme. At fortolke den relative funktion af enhver af denye proteiner, der undersøges, er data fra begge metoder fremlægge bevis for funktion. Selvom dette ikke er en fokus for vores nuværende manuskript, er data output fra hver Phenomic metode sat gennem kombinatoriske analyser, der fokuserer på klyngedannelse teknikker såsom tilfældig skov og principal komponent analyse. Desuden skal hypoteser som følge af kombineret analyse efterfølgende valideret af traditionelle genetiske metoder.
Endelig metoder præsenteres, er stærkt påvirket af bakteriel fysiologi og derfor følge de samme standarder. Når virksomheden enten metode, skal gøres for at sikre uafhængige, klonede grupper eksperimenteret med hensyn; kontaminering forhindres; en enkelt variabel testes; og passende kontroller bliver kørte samtidigt. Manglende forklare disse punkter vil resultere i uklare resultater, der ligner fysiologiske assay.
Multi-fænotype assayplader(MAP)
Udviklingen af kort giver en høj kapacitet og smidig assay i forhold til nuværende teknologier (figur 5A og tabeller 1,2). Analysen benytter forsyninger, udstyr og de grundlæggende teknikker til rådighed i alle mikrobiologi laboratorier. Indarbejdelsen af en beregningsmæssige pipeline, PMAnalyzer 24, til efterfølgende behandling og analyse af data sikrer hurtig tolkning af data. Desuden kan både eksperimentelle og analytiske aspekter af den fremgangsmåde let indstilles eller tunet til skræddersyede formål. For eksempel, hvis en stor del af de data, ikke består filtrering skitseret i afsnit 4, kan man manuelt finkæmme gennem vækstkurverne at identificere problemer. Hvis problemet opstår på grund af strenge filterparametre, kan foretages justeringer af scriptet. Alternativt, hvis problemer er forbundet med den eksperimentelle proces (dvs. langvarig kondens, ukorrekt overførsel af bakteriel cells, etc.) derefter yderligere gentagelser kan let gentages.
Som beskrevet i Cuevas et al. 24, den PMAnalyzer er en enkelt bash program skrevet som en wrapper script, der udfører de parsing og analyse scripts som en sammenhængende, automatiseret rørledning. Alle scripts er frit tilgængelige fra en Git repository ved 25 ved at tage medianen værdi for hvert tidspunkt på tværs af tre eksemplarer af data, og efterfølgende parameterizes den logistiske kurve for at opnå den tidsforsinkelse, maksimal væksthastighed, asymptote og en ny valgperiode, Growth Level. Medianværdien blev valgt frem middelværdien i vores undersøgelse at reducere effekten af store outliers imidlertid scriptet let kan tilpasses til at beregne middelværdien replikater data. På grund af reduceret variation (SE) set på tværs replikere data (figur 2A) vi fastholdt brugen af medianen i PMAnalyzer til montering en logistisk kurve. Derudover afskåret for vækst i denne undersøgelse (GL ≥ 0,4) var DETErmined ved at sammenligne, hvordan data adskilles tværs Vækst Level og maksimal vækstrate (figur 1A, B). Afhængig af instrumenter og model, der anvendes dette udtryk kan variere, kræver omdefinering af dette afskåret værdi.
En stor fordel ved vores assay er evnen til at sammenligne fænotyper hjælp af en enkelt parameter karakteriserer samlede mikrobiel vækst, som vi definerer som Growth Level (GL). GL er en harmoniske gennemsnit, og derfor afbøder virkningerne af store outliers i dataene. Brugen af en harmoniske gennemsnit med flyttet logistiske udstyret værdier for at give en oversigt over vækst nås gennem trial and error. Andre metoder forsøgt at differentiere væksten inkluderet: tid, det tog at nå bestemte kurve parametre (halv μ max, μ max, og bæreevne), determinationskoefficienten (R2) og kombinationer af R 2 ganget med specifikke kurve parametre. Ved hjælp af en harmoniske middelværdi med forskudtlogistic-fit værdier for GL billede det største udvalg ved evalueringen vækst og dermed blev den foretrukne metode. En overvejelse at bemærke, er, at dynamiske vækstkurve mønstre har potentiale til at blive tabt, når anvendelse af en enkelt parameter eller en monteret model. For eksempel er de enkelte kurve parametre for logistisk kurve og GL er ude af stand repræsenterer bifasisk vækst. I en enkelt kulstof miljø, denne effekt på vækst indebærer formidling af det virale protein på hver konvertering af underlaget eller skift i underlaget udnyttelse. Yderligere effekter potentielt tabt, når de ikke overvejer flere vækstparametre inkluderer: forlænget latenstid, foreslå en øget belastning af viral maskiner eller produkter; hastigt accelererende eksponentiel fase, hvilket tyder på virale proteiner koblet til vært energiproduktion veje; eller højere dannelse biomasse, hvilket indebærer viral støtte vært næringsstofoptagelse og anabolisme (data ikke vist). Således plotte vordende vækstkurver ( <stRong> Figur 2A, B) giver oplysninger om tendenser over tid mens GL tager hensyn til de store variabler i den logistiske model, der giver et enkelt kvantitativt tal til at repræsentere generelle succes en klon.
Når man overvejer de forskellige reaktioner bidraget med strukturelle og metaboliske gener i kortene, er det konstateret, at de forskellige underlag klasser pågældende giver størst evidens for protein funktion. For eksempel er metaboliske proteiner ofte forbundet med erhvervelse af begrænsende næringsstoffer, der er uspecifikt til vært centrale metabolisme 16,32. Indledende MAP eksperimenter viser, at kloner, der huser formodede metaboliske fag-gener har en forøget forsinkelsesfase ved dyrkning på centrale metabolisme carbonkilder (figur 2A). Omvendt kloner bærer formodede strukturelle gener, som kræver store dele af host energi- og dNTP pools, resultere i en falsk positiv respons på vækst til central og aminosyre-metabolisme carbonsubstrater. Dette er sandsynligvis på grund af ophobning af uopløselige proteiner resulterer i værten filamentering og / eller inklusionslegemer, som observeret via mikroskopi (figur 2A og data ikke vist). Mens yderligere analyse er nødvendig for at validere disse foreløbige resultater, kortene er i stand til at hente fænotypiske responser, der korrelerer til den hypotese, funktioner af specifikke fag gen klasser.
Ud over den belysning af ukendte virale proteiner, kortene er en roman ressource til at undersøge den funktionelle og metaboliske mangfoldighed af en individuel bakterie eller et fællesskab af bakterier. MAP komponenter er designet til nem ændring til at understøtte væksten af en række bakterier; herunder marine, auxotrofisk, og anaerobe mikrober. For at lette disse bestræbelser den definerede basal og præ-vækstmedier kræver yderligere eller justerede kemiske arter, før en anden bakteriel slægt kan støttes i kortene.En note i denne anvendelse af kortene er at opretholde definerede medier, der forbyder brugen af ingredienser såsom trypton, gærekstrakt og pepton.
Metabolomics
Feltet af metabolomics er afhængig af metabolit databaser, som omfatter isolerede metabolitter identificeret ved massespektrometri. Kernen facilitet valgt her har et af de største metabolomik databaser. Interessant, mere end halvdelen af de metabolitter, der følger af vores eksperimenter var uidentificerbare (~ 65%), mens andre havde aldrig før blevet registreret i vores vært, Escherichia coli (eksempler: Indole 3 eddikesyre 33, salicylsyre 34, og dihydroabietinsyre 35). Dette faktum kan tilskrives enten en stærk slagside af databasen mod plantemetabolitter eller de specifikke proteiner, der undersøges. Uanset hvad, er resultatet en begrænset antal kendte metabolitter tilgængelige for data repræsentation og analyse. I fuklatur, ville flere metabolomics metoder under anvendelse af forskellige databaser giver mulighed for større metabolit dækning.
I øjeblikket, både kendte og ukendte metabolitter bruges, når man sammenligner og kontrasterende vores nye virale proteiner. Ved hjælp af denne metode, vi hypotesen, at kloner huser funktionelt tilsvarende proteiner vil dele en øget lighed i deres fuldstændige metabolomiske profil. Indledende metabolomics analyse afslørede, at mens strukturelle og metaboliske gener ikke klart adskilt fra hinanden, de gener, der udviser lignende virkninger på værten ved overekspression nogen korrelation (figur 6). For eksempel er de annoterede capsidgenet klynger tæt med de formodede metaboliske gener fremhævet i denne undersøgelse, EDT2440 og EDT2441. Undersøgelser ved hjælp af en offentligt tilgængelig transmembrane topologi og signalpeptid prædiktor program viste tegn på, at de to formodede metaboliske gener huser en enkelt transmembrandomæne. Interessant 5 ud af the 9 kloner i den første klynge gruppe (mest venstre del af dendrogram) har forudsagt transmembrandomæne anvender samme topologi program. Der er behov for yderligere undersøgelser, er det imidlertid sandsynligt, at metabolitter til stede under overekspression af disse kloner er forbundet med cellulære stressrespons følge af membran eller strukturelle byrder. Dette beviser understøtter, at mens metabolomics data besidder en øget mængde støj, metoden er i stand til at fremhæve signaler, der adskiller generelle virkninger af gener, både inden for og på tværs af et gen klasse. For at bestemme om fremgangsmåden er i stand til at ekstrahere ud specifikke oplysninger af genfunktion blev metabolitter grupperet i specifikke metaboliske veje. Hypotesen væsen, hvis en klon påvirker metabolitter er specifikke for en enkelt vej, så den overudtrykte gen er aktiv i denne reaktionsvej. Forud for etableringen af vores metabolomics kvalitetssikring pipeline, foreløbige data viste, at over end underrepræsenterede metabolitter var typisk "ukendt", der giver lidt oplysninger om de veje, de er knyttet til (data ikke vist). Forbehandlet metabolomics data, viser imidlertid, at størstedelen af metabolitten profiler er ens, og kun et udvalgt antal af kendte og ukendte metabolit mængderne varierer på tværs kloner, fx putrescin og uracil (figur 6). At tilvejebringe større opløsning af proteinfunktion indsats bliver gjort til eksperimentelt sammenligne de hidtil ukendte faggener mod kendte fag-gener, som kan anvendes til at udfylde de "huller" af metabolit baserede funktionel karakterisering. Ved hjælp af denne teknik, den tildelte funktion af kendte virale gener giver en reference for funktionen af de ukendte gener. Ikke desto mindre, den begrænsende faktor for metabolomiske analyse er størrelsen og relevansen af databasen. For at korrigere for disse begrænsninger og metabolomiske databaser relatable til denne forskning skal udvikles; sådansom en database af metabolitter og deres mængderne specifikke for ASKA samling af E. coli-kloner, hvor en enkelt ORF overudtrykkes 36. Bevis for behovet for sådanne databaser var forudsat i 2013, hvor forskere ved Lawerence Berkeley National Laboratory udarbejdet den første omfattende database af metabolitter specifikke for hele mutant biblioteker af model bakterier 37. Denne forskning billede hidtil ukendt indsigt i gener, der er nødvendige for udnyttelsen af specifikke metabolitter, afslører klar sammenhæng mellem fænotype og genotype.
Når man overvejer metabolomics som et værktøj, er det vigtigt at definere behandlingen regime fulgt kernen facilitet. En artefakt af de fleste eksperimentelle procedurer er den dag-til-dag varians forbundet med instrumenterne i brug. Til dato alle GC-MS-analyse implementerer brugen af interne standarder, der er inkluderet i hver analytisk kørsel; dog tilsætning af specifikke interne prøver projekt </ Em> kørte hver dag i eksperimenter fjerner ekstra varians. Disse overvejelser skal behandles tidligt for at undgå normalisering problemer og fordomme. En anden løsning er at behandle alle prøver på en kerne facilitet på samme maskine og som en enkelt batch, en mulighed til rådighed til enhver core facilitet.
De forskellige værktøjer både indført og re-udforsket i dette manuskript give roman betyder at screene og karakterisere funktionelt ukendte fag gener. Enkelheden og tilpasningsevne af de eksperimentelle teknikker med strømline brugen af beregningsmæssige rørledninger forsikrer disse metoder kan anvendes på en bred vifte af forskning bestræbelser og marker. Vores mål er, at de Phenomic tilgange præsenteres her vil hjælpe yderligere undersøgelser af nye fag proteiner ud over systemer, der er lige så funktionelt udefineret.
The authors have nothing to disclose.
We thank Benjamin Knowles, Yan Wei Lim, Andreas Haas, and members of the Viral Dark Matter consortium for their help and constructive input on this manuscript. This research is funded by the National Science Foundation (DEB-1046413) and is part of the Dimensions: Shedding Light on Viral Dark Matter project.
0.22µm Sterivex Filter | Fisher Scientific | SVGP01050 | Millipore |
0.22µm Millex Filters | Fisher Scientific | SLGV033RS | Millipore |
0.22µm SteriCap Filter | Fisher Scientific | SCGPS02RE | Millipore |
0.22 µm Omnipore membrane filters | Millipore | JHWP02500 | Millipore |
96 well micro-titer plates | VWR | 82050-764 | Standard F-Bottom 96 well Microplates |
2 mL 96 well plate | Fisher Scientific | ||
Adhesive Seal Plate Film | Sigma-Aldrich | Z369667 | |
2 L Nalgene square bottles | Cole Parmer | T-06040-70 | |
125 mL Nalgene square bottles | Cole Parmer | T-06040-50 | |
1/4inch Panel Mount Lock Nut, black nylon | Cole Parmer | EW-45509-04 | |
Female Luer Thread Style Panel Mount to 200 Series Barb 1/16inch | Cole Parmer | EW-45500-30 | |
Female Luer Thread Style Panel Mount to 200 Series Barb, 1/8inch | Cole Parmer | EW-45500-34 | |
Male Luer Integral Lock Ring to 500 Series Barb, 1/16inch ID tubing | Cole Parmer | EW-45505-31 | |
Male Luer with Lock Ring x Female Luer Coupler | Cole Parmer | T-45508-80 | |
Barbed Bulkhead Fittings 1/4inch OD | Fisher Scientific | 6149-0002 | |
Sanipure Tubing 1/16inch ID x 1/8inch OD | SaniPure | AR400002 | |
Sanipure Tubing 1/4inch OD x 1/8inch ID | SaniPure | AR400007 | |
Variable Flow Mini Pump (Peristaltic pump) | Fisher Scientific | 13-876-1 | |
Magnetic Stirrer | Velp Scientifica | F203A0160 | |
Forceps | Fisher Scientific | 14-512-141 | Millipore* Filter Forceps |
Multi-plate spectrophotometer plate reader | Molecular Devices Analyst GT | ||
Filter manifold | Fisher Scientific | XX10 025 02 | |
Software: | |||
Python version 2.7.5 | http://www.python.org/ | ||
PyLab module | http://wiki.scipy.org/PyLab | ||
R version 3.0.1 | http://www.r-project.org/ | ||
reshape2 library | http://had.co.nz/reshape | ||
ggplot2 library | http://ggplot2.org/ | ||
Gene Composer | PSI Tech Portal | http://www.genecomposer.net | |
Services: | |||
West Coast Metabolomics Center | UC Davis | http://metabolomics.ucdavis.edu | |
DNA 2.0 | https://www.dna20.com |