Her presenterer vi proteogenomic verktøyet PoGo og protokoller for rask, kvantitativ, post-translasjonell modifikasjon og variant aktivert tilordning av peptider identifisert gjennom massespektrometri på referanse genomer. Dette verktøyet er bruk for integrerer og visualisere proteogenomic og personlig proteomic studier grensesnitt med ortogonale genomikk data.
Kryss-snakk mellom gener, utskrifter og proteiner er nøkkelen til mobilnettet svar; Dermed blir analyse av molekylære nivåer som forskjellige enheter langsomt utvidet til integrerende studier for å forbedre forståelsen av molekylære dynamikk i celler. Gjeldende verktøy for visualisering og integrering av Proteomikk med andre omics datasett er utilstrekkelig for store studier. Videre, de bare fange grunnleggende sekvens identifisere, forkaster post-translasjonell modifikasjoner og kvantifisering. For å løse disse problemene, utviklet vi PoGo slik peptider med tilhørende post-translasjonell modifikasjoner og kvantifisering referanse genomet merknad. I tillegg ble verktøyet utviklet for å aktivere tilordningen av peptider identifisert fra tilpassede sekvens databaser omfatter enkelt aminosyre varianter. PoGo er en kommandere line verktøyet, det grafiske grensesnittet PoGoGUI kan ikke-bioinformatikk forskere enkelt tilordne peptider til 25 arter støttes av Ensembl genomet merknad. Genererte produksjonen låner filformater fra feltet genomics og derfor visualisering støttes i de fleste genomet nettlesere. For omfattende studier, er PoGo støttet av TrackHubGenerator opprette webtilgjengelig repositories data tilordnet genomer som også gjør en enkel deling av proteogenomics data. Med litt innsats, kan dette verktøyet tilordne millioner av peptider referanse genomer bare noen få minutter, overgått andre tilgjengelige sekvens-identitet basert verktøy. Denne protokollen viser de beste metodene for proteogenomics kartlegging gjennom PoGo med offentlig tilgjengelig datasett av kvantitative og phosphoproteomics, samt store studier.
I celler påvirker Genova, transcriptome og proteom hverandre å modulere svar på interne og eksterne stimuli og samhandle med hverandre til å utføre bestemte funksjoner fører til helse og sykdom. Derfor er karakterisere og kvantifisere gener, utskrifter og proteiner avgjørende for å fullt ut forstå cellulære prosesser. Neste generasjons sekvensering (NGS) er en av de oftest brukte strategiene for å identifisere og telle gene og transkripsjon uttrykk. Men er protein uttrykk vanligvis vurdert av massespektrometri (MS). Betydelige fremskritt i MS teknologien det siste tiåret har aktivert mer en fullstendig identifikasjon og måling av proteomes, gjør dataene sammenlignbare med transcriptomics1. Proteogenomics og multi-omics som måter å integrere NGS og MS har blitt kraftig tilnærminger å vurdere cellulære prosesser over flere molekylær nivåer, identifisere undergrupper av kreft og fører til romanen mulige narkotika mål i kreft2 , 3. det er viktig å merke seg at proteogenomics ble opprinnelig brukt proteomic beviser for gene og transkripsjon merknader4. Flere gener tidligere antatt å være ikke-koding har nylig gjennomgått reevaluation vurderer store menneskelig vev datasett5,6,7. I tillegg er proteomic data brukt til å støtte merknad arbeid i ikke-modellen organismer8,9. Men proteogenomic dataintegrering kan utnyttes videre høydepunkt protein uttrykk i forhold til genomisk funksjoner og belyse kryss-snakk mellom utskrifter og proteiner ved å tilby en kombinert referanse og metoder for co visualisering.
For å gi en felles referanse for Proteomikk, transcriptomics og genomikk data, er mange verktøy gjennomført for kartlegging peptider identifisert gjennom MS på genomet koordinater10,11,12 ,13,14,15,16,17. Tilnærminger forskjellige aspekter som kartlegging referanse, støtte for genomet nettlesere og graden av integrasjon med andre Proteomikk som vist i figur 1. Mens noen verktøy tilordne omvendt oversatt peptider på en genomet16, bruker andre en søkemotoren kommenterte plasseringen i et protein og gene merknad for å rekonstruere nukleotid sekvensen av peptid15. Fortsatt bruker andre en 3 – eller 6-ramme oversettelse av genomet tilordne peptider mot11,13. Til slutt, flere verktøy hoppe nukleotid sekvenser og bruke aminosyre sekvens oversettelser fra RNA-sekvensering tilordnet utskrifter som en mellomliggende peptider tilordnet den tilknyttede genom koordinater10,12, 14,17. Men oversettelsen av nukleotid sekvenser er en langsom prosess og egendefinerte databaser er utsatt for feil som overføres til peptid tilordningen. For rask og høy gjennomstrømming kartlegging er en liten og omfattende referanse avgjørende. Derfor er en standardisert protein referanse med tilknyttede genomet koordinater avgjørende for nøyaktig peptid til genomet kartlegging. Romanen aspekter i proteogenomics, for eksempel innlemmelse av varianter og post-translasjonell endringer (PTMs)2,3, er frammarsj gjennom studier. Men støttes disse vanligvis ikke av gjeldende proteogenomic kartlegging verktøy som vist i figur 1. For å forbedre hastigheten og kvaliteten på kartlegging, ble PoGo utviklet, et verktøy som gir rask og kvantitative tilordningen av peptider til genomer18. I tillegg kan PoGo tilordningen av peptider med to sekvens varianter og kommentert post-translasjonell modifikasjoner.
PoGo er utviklet for å takle den raske økningen av kvantitative høyoppløste datasett fange proteomes og globale endringer og gir et sentralt verktøy for store analyser som personlig variasjon og presisjon medisin. Denne artikkelen beskriver bruk av dette verktøyet for å visualisere tilstedeværelsen av post-translasjonell modifikasjon i forhold til genomisk funksjoner. Videre fremhever denne artikkelen identifikasjon av alternativ skjøting arrangementer gjennom tilordnede peptider og kartlegging av peptider identifisert gjennom egendefinerte variant databaser til en referanse genom. Denne protokollen bruker offentlig tilgjengelige datasett dataoverførte fra stolthet arkiv19 å demonstrere disse funksjonene av PoGo. I tillegg beskriver denne protokollen anvendelsen av TrackHubGenerator for etableringen av online tilgjengelig huber av peptider tilordnet genomer for store proteogenomics studier.
Denne protokollen beskriver hvordan Programvareverktøyet PoGo og grafisk brukergrensesnitt PoGoGUI aktiverer rask tilordning av peptider på genomet koordinater. Verktøyet tilbyr unike funksjoner som kvantitative, post-translasjonell modifikasjon og variant-aktivert tilordning til genomer bruker referanse merknad. Denne artikkelen viser metoden på en storstilt proteogenomic studie og fremhever sin hurtighet og minnekapasitet effektivitet sammenlignet med andre tilgjengelige verktøy18. I kombinasjon med verktøyet TrackHubGenerator, som skaper online tilgjengelig huber genomisk og genom knyttet data, PoGo, med grafisk brukergrensesnitt, gjør store proteogenomics studier raskt visualisere data i genomisk sammenheng. Videre viser vi de unike funksjonene til PoGo med datasett søkte mot variant databaser og kvantitative phosphoproteomics22,29.
Enkeltfiler, som filen GCT gir verdifull visualisering og koblinger mellom peptid funksjoner og genomisk loci. Det er imidlertid viktig å merke seg at en tolkning basert på disse alene kan være vanskelig eller misvisende på grunn av deres begrensning enkelt aspekter av proteogenomics som unikhet, post-translasjonell modifikasjoner og kvantitative verdier. Derfor er det viktig å nøye velge hvilke utdatafiler, alternativer og kombinasjoner er passende for proteogenomic spørsmålet for hånden og endre kombinasjonene. For eksempel kan informasjon om unikhet av tilordningen til et bestemt genomisk locus være av stor verdi for merknaden av en genomisk funksjon7, mens kvantifiseringen over ulike prøver kan være mer passende for studier knyttet genomic funksjoner endringer i protein overflod29. Utdataene skal genereres av PoGo for hver innstilling. Ingen utgang genereres, eller tomme filer vises i output-mappen, anbefales det å sjekke inndatafiler for det ønskede innholdet og nødvendig-filformatet. I tilfeller der filformat eller innhold ikke følger forventningene til PoGo (f.eksFASTA filen angivelig inneholder transkripsjon oversettelse sekvensene inneholder nukleotid sekvenser av transkripsjoner), feilmeldinger vil be brukeren om å Sjekk inndatafiler.
Begrensninger av protokollen og verktøyet er hovedsakelig basert på gjenbruk av filformatene som er vanlig i genomics. Gjenbruk filformater brukes i genomics for proteogenomic programmer er ledsaget av bestemte begrensninger. Dette er på grunn av de ulike settene med krav til genomet sentrert visualisering av genomisk og proteogenomic data, for eksempel behovet for å visualisere post-translasjonell endringer fra Proteomikk data. Dette er begrenset i genomics filformater av enkelt bruk. Mange tilnærminger og verktøy har blitt utviklet for Proteomikk å trygt lokalisere post-translasjonell endringer innen peptid sekvenser31,32,33,34. Men hindret effekten av flere endringer i en unik og synlig måte på genomet av strukturen i genomisk filformater. Derfor enkelt blokk visualisering av flere PTMs av samme type utgjør ikke noen tvetydighet av webområdene endring men er konsekvensen av ulike kravet fra genomics samfunnet å visualisere bare enkelt funksjoner samtidig. Likevel, PoGo har fordelen av kartlegging post-translasjonell modifikasjoner på genomisk koordinater aktivere studier fokuserte på effekten av genomisk funksjoner som single nukleotid varianter på post-translasjonell modifikasjoner. PoGo øker, variant kartlegging antall totale tilordninger. Imidlertid høydepunkter unik fargekoding av tilordnede peptider pålitelig tilordninger fra upålitelige seg. Tilordningen av variant peptider identifisert fra kjente single nukleotid varianter kan akkompagneres av visualisere tilordnede peptidene sammen med variantene i VCF format. Denne måten fargekoden indikerer en upålitelig tilordning av en variant peptid er overstyres av tilstedeværelsen av den kjente nukleotid varianten.
Et kritisk punkt for bruker PoGo er bruk av riktige filene og formater. Bruk av oversatt transkripsjon sekvenser som protein sekvenser med merknaden i GTF format er de viktigste kriteriene. Et annet viktig element når med PoGo for å kartlegge peptider med aminosyre uoverensstemmelser er minne. Mens minne høyeffektiv for et standard program, fører betydelig og eksponentielt økende antall mulige tilordninger med ett eller to uoverensstemmelser til en tilsvarende eksponentielle økning i minnet behandling18. Vi foreslår en trinnvis tilordning som beskrevet i denne protokollen først tilordne peptidene uten uoverensstemmelser og fjern dem fra. Etterfølgende tidligere lokal peptidene deretter kan tilordnes ved hjelp av en konflikt og fremgangsmåten kan gjentas med to uoverensstemmelser for peptidene gjenværende ikke er tilordnet.
Siden gjennomstrømningen av massespektrometri betydelig økt og studier grensesnitt genomisk og proteomic data blir stadig hyppigere i de senere årene, er verktøy å lett aktivere grensesnitt disse typer data i samme koordinatsystem stadig uunnværlig. Verktøyet presenteres her vil hjelpe behovet å kombinere genomisk og proteomic data å forbedre en bedre forståelse av integrerende studier over små og store datasett ved å tilordne peptider på en referanse merknad. Oppmuntrende, er PoGo brukt for å tilordne peptider til genet kandidater i samme format som referanse merknaden å støtte merknad innsats av romanen gener som er uttrykt i menneskelig testikkel35. Tilnærmingen presenteres her er uavhengig av databaser brukes for peptid identifikasjon. Protokollen kan hjelpe identifisering og visualisering av romanen oversettelsen produkter ved hjelp av tilpasset inndatafiler fra oversettelse sekvenser og tilknyttede GTF filer fra RNA-seq eksperimenter.
Flere tilnærminger og verktøy med en rekke spesielle databaser peptider tilordnet genomisk koordinater, fra kartlegging peptider direkte til det Genova orden til RNA-sekvensering guidet kartlegging, har blitt introdusert10, 11 , 12 , 13 , 14 , 15 , 16 , 17. men dette kan føre til riktig kart peptider når post-translasjonell modifikasjoner finnes og feil i underliggende tilordningen av RNA-sekvensering kan overføres til peptid nivå. PoGo har blitt utviklet spesifikt overvinne disse hindringene og å takle den raske økningen av kvantitative høyoppløste proteomic datasett å integrere med ortogonale genomics plattformer. Verktøyet beskrevet her kan integreres med høy gjennomstrømming arbeidsflyter. Gjennom det grafiske grensesnittet PoGoGUI, verktøyet er enkelt å bruke og krever ingen spesialist bioinformatikk opplæring.
The authors have nothing to disclose.
Dette arbeidet ble finansiert av Wellcome Trust (WT098051) og NIH grant (U41HG007234) i GENCODE-prosjektet.
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |