Denne protokol illustrerer, hvordan man udforsker, sammenligner og fortolker humane proteinglycomer med online ressourcer.
Det Glyco@Expasy initiativ blev lanceret som en samling af indbyrdes afhængige databaser og værktøjer, der spænder over flere aspekter af viden inden for glykobiologi. Det sigter især mod at fremhæve interaktioner mellem glycoproteiner (såsom celleoverfladereceptorer) og kulhydratbindende proteiner medieret af glycaner. Her introduceres store ressourcer i samlingen gennem to illustrative eksempler centreret om N-glycom af det humane prostataspecifikke antigen (PSA) og O-glycom af humane serumproteiner. Gennem forskellige databaseforespørgsler og ved hjælp af visualiseringsværktøjer viser denne artikel, hvordan man udforsker og sammenligner indhold i et kontinuum for at indsamle og korrelere ellers spredte informationsstykker. Indsamlede data er bestemt til at fodre mere detaljerede scenarier af glycanfunktion. Glycoinformatik, der introduceres her, foreslås derfor som et middel til enten at styrke, forme eller afvise antagelser om specificiteten af et proteinglykom i en given sammenhæng.
Glycaner, proteiner, som de er bundet til (glycoproteiner), og proteiner, som de binder til (lektiner eller kulhydratbindende proteiner), er de vigtigste molekylære aktører på celleoverfladen1. På trods af denne centrale rolle i celle-cellekommunikation er store undersøgelser, herunder glycomics, glycoproteomics eller glycan-interactomics data, stadig knappe sammenlignet med deres modstykke i genomik og proteomik.
Indtil for nylig var der ikke udviklet metoder til at karakterisere forgreningsstrukturerne af komplekse kulhydrater, mens de stadig blev konjugeret til bærerproteinet. Biosyntesen af glycoproteiner er en ikke-skabelondrevet proces, hvor monosacchariddonorerne, de accepterende glycoproteinsubstrater og glycosyltransferaserne og glycosidaserne spiller en interaktiv rolle. De resulterende glycoproteiner kan bære komplekse strukturer med flere forgreningspunkter, hvor hver monosaccharidkomponent kan være en af de flere typer, der er til stede i naturen1. Den ikke-skabelondrevne proces pålægger biokemisk analyse som den eneste mulighed for at generere oligosaccharidstrukturelle data. Den analytiske proces med glycanstrukturer, der er knyttet til et indfødt protein, er ofte udfordrende, da det kræver følsomme, kvantitative og robuste teknologier til bestemmelse af monosaccharidsammensætning, bindinger og forgreningssekvenser2.
I denne sammenhæng er massespektrometri (MS) den mest anvendte teknik i glycomics og glycoproteomics eksperimenter. Efterhånden som tiden går, udføres disse i højere gennemløbsindstillinger, og data akkumuleres nu i databaser. Glycanstrukturer i forskellige formater3, udfylde GlyTouCan4, det universelle glycandatalager, hvor hver struktur er forbundet med en stabil identifikator, uanset hvilket præcisionsniveau glycanen er defineret med (f.eks. muligvis manglende koblingstype eller tvetydig sammensætning). Meget lignende strukturer indsamles, men deres mindre forskelle rapporteres tydeligt. Glycoproteiner er beskrevet og kurateret i GlyConnect5 og GlyGen6, to databaser, der krydsrefererer hinanden. MS-data, der understøtter strukturelle beviser, lagres i stigende grad i GlycoPOST7. For en bredere dækning af onlineressourcer er kapitel 52 i referencemanualen, Essentials of Glycobiology, dedikeret til glycoinformatik8. Interessant nok har glycopeptididentifikationssoftware spredt sig i de senere år9,10, men ikke til gavn for reproducerbarheden. Sidstnævnte bekymring fik lederne af HUPO GlycoProteomics Initiative (HGI) til at sætte en softwareudfordring i 2019. De MS-data, der er opnået ved behandling af komplekse blandinger af N- og O-glycosylerede humane serumproteiner i CID-, ETD- og EThcD-fragmenteringstilstande, blev stillet til rådighed for konkurrenter, hvad enten det var softwarebrugere eller udviklere. Den fuldstændige rapport om resultaterne af denne udfordring11 er kun skitseret her. Til at begynde med blev der observeret en spredning af identifikationer. Det blev hovedsageligt fortolket som forårsaget af mangfoldigheden af metoder implementeret i søgemaskiner, af deres indstillinger, og hvordan output blev filtreret, og peptid “tælles”. Det eksperimentelle design kan også have sat noget software og tilgange til en (dis)fordel. Det er vigtigt, at deltagere, der brugte den samme software, rapporterede inkonsekvente resultater og derved fremhævede alvorlige reproducerbarhedsproblemer. Det blev konkluderet ved at sammenligne forskellige indlæg, at nogle softwareløsninger fungerer bedre end andre, og nogle søgestrategier giver bedre resultater. Denne feedback vil sandsynligvis være retningsgivende for forbedringen af automatiserede metoder til analyse af glycopeptiddata og vil igen påvirke databaseindholdet.
Udvidelsen af glycoinformatik førte til oprettelse af webportaler, der giver information og adgang til flere lignende eller supplerende ressourcer. De nyeste og ajourførte er beskrevet i et kapitel i bogen Comprehensive Glycoscience12, og gennem samarbejde tilbydes en løsning på datadeling og informationsudveksling i en open access-tilstand. En sådan portal blev udviklet, som oprindeligt blev kaldt Glycomics@ExPASy 13 og omdøbt Glyco@Expasy, efter den store revision af Expasy-platformen14, der har været vært for en stor samling af værktøjer og databaser, der blev brugt på tværs af flere -omics i årtier, hvor det mest populære element var UniProt15-den universelle proteinvidensbase. Glyco@Expasy tilbyder en didaktisk opdagelse af formålet med og brugen af databaser og værktøjer baseret på en visuel kategorisering og en visning af deres indbyrdes afhængigheder. Følgende protokol illustrerer procedurer til at udforske glycomics og glycoproteomics data med et udvalg af ressourcer fra denne portal, der gør forbindelsen mellem glycoproteomics og glycan-interactomics eksplicit via glycomics. Som det er, producerer glycomics eksperimenter strukturer, hvor monosaccharider er fuldt definerede og forbinder helt eller delvist bestemt, men deres proteinstedsfastgørelse er dårligt, hvis overhovedet, karakteriseret. I modsætning hertil genererer glycoproteomics eksperimenter præcise oplysninger om fastgørelse af stedet, men med en dårlig opløsning af glycanstrukturer, ofte begrænset til monosaccharidsammensætninger. Disse oplysninger er stykket sammen i GlyConnect-databasen. Desuden kan søgeværktøjer i GlyConnect bruges til at detektere potentielle glykanligander, som er beskrevet sammen med de proteiner, der genkender dem i UniLectin16, der er knyttet til GlyConnect via glycaner. Protokollen, der præsenteres her, er opdelt i to sektioner for at dække spørgsmål, der er specifikke for N-bundne og O-bundne glycaner og glycoproteiner.
GlyConnect Octopus som et værktøj til at afsløre uventede sammenhænge
GlyConnect Octopus blev oprindeligt designet til at forespørge databasen med en løs definition af glycaner. Faktisk rapporterer litteraturen ofte de vigtigste egenskaber ved glycaner i et glycom, såsom at blive fucosyleret eller sialyleret, være lavet af to eller flere antenner osv. Desuden klassificeres glycaner, uanset om de er N- eller O-linkede, i kerner, som beskrevet i referencemanualen Essentials of …
The authors have nothing to disclose.
Forfatteren anerkender varmt tidligere og nuværende medlemmer af Proteome Informatics Group, der er involveret i at udvikle de ressourcer, der anvendes i denne vejledning, specifikt Julien Mariethoz og Catherine Hayes for GlyConnect, François Bonnardel for UniLectin, Davide Alocci og Frederic Nikitin for Octopus og Thibault Robin for Compozitor og sidste touch på Octopus.
Udviklingen af glyco@Expasy-projektet støttes af den schweiziske forbundsregering gennem Statssekretariatet for Uddannelse, Forskning og Innovation (SERI) og suppleres i øjeblikket af Swiss National Science Foundation (SNSF: 31003A_179249). ExPASy vedligeholdes af det schweiziske institut for bioinformatik og hostes på Vital-IT Competence Center. Forfatteren anerkender også Anne Imberty for fremragende samarbejde om UniLectin-platformen, der støttes i fællesskab af ANR PIA Glyco@Alps (ANR-15-IDEX-02), Alliance Campus Rhodanien Co-funds (http://campusrhodanien.unige-cofunds.ch) Labex Arcane/CBH-EUR-GS (ANR-17-EURE-0003).
internet connection | user's choice | ||
recent version of web browser | user's choice |