Målet med denne protokol er at udvikle en reference for divergerende proteiner i en gruppe, der mangler sammenhængende kriterier for nomenklatur og klassificering. Denne henvisning vil lette analyser og diskussion af gruppen som helhed og kan anvendes som supplement etablerede navne.
Relaterede proteiner, der er blevet undersøgt i forskellige laboratorier ved hjælp af varierende organismer kan mangle et ensartet system af nomenklatur og klassificering, hvilket gør det vanskeligt at diskutere gruppen som helhed og at placere nye sekvenser i den relevante kontekst. Udvikle en reference, der prioriterer vigtigt sekvens funktioner relateret til struktur og/eller aktivitet kan bruges ud over etablerede navne til at tilføje nogle sammenhæng til en forskelligartet gruppe af proteiner. Dette papir bruger cystein-stabiliseret alpha-helix (CS-αβ) superfamilien som et eksempel til at vise hvordan en reference, der er genereret i regneark software kan afklare forholdet mellem eksisterende proteiner i superfamilien, samt lette tilføjelsen af nye sekvenser. Det viser også, hvordan henvisningen kan bidrage til at forfine sekvens alignments genereret i almindeligt anvendte software, som påvirker gyldigheden af fylogenetiske analyser. Brug af en henvisning vil sandsynligvis være mest nyttige for protein grupper, der omfatter meget forskellige sekvenser fra et bredt spektrum af taxa, med funktioner, der ikke er tilstrækkeligt fanget af molekylære analyser.
Et protein navn bør afspejle karakteristika og forholdet til andre proteiner. Desværre navne tildeles generelt på tidspunktet for opdagelse, og forskningen fortsætter og forståelse af en større sammenhæng kan ændre. Dette kan føre til flere navne, hvis et protein blev selvstændigt identificeret af mere end én lab, at ændringer i nomenklatur eller i de kendetegn, menes at være endelige, når du tildeler navnet og navnet ikke længere tilstrækkelig differentiering af protein fra andre.
Hvirvelløse defensins give et godt eksempel på degeneration i nomenklatur og klassificering. De første hvirvelløse defensins blev rapporteret fra insekter, og det navn “insekt defensin” blev foreslået baseret på den opfattede homologi til pattedyr defensins1,2. Sigt defensin bruges stadig, selv om det er nu klart, at hvirvelløse og pattedyr defensins deler ikke en fælles forfader3,4. Afhængigt af arten, kan en hvirvelløse “defensin” har seks eller otte cysteines, (der udgør tre eller fire disulfid obligationer) og en række antimikrobielle aktiviteter. At komplicere situationen, proteiner med samme egenskaber som defensins ikke er altid kaldt “defensins,” som den for nylig påviste cremycins fra Caenorhabditis remanei5. Derudover er hvirvelløse store defensins mere tilbøjelige til at være evolutionært relateret til hvirveldyr β-defensins end til andre hvirvelløse defensins6. Trods dette stole forskere undertiden på den navnet “defensin” ved fastlæggelsen af, hvilke sekvenser bør inkluderes i analyserne.
Strukturelle undersøgelser afslørede ligheden mellem insekt defensins og scorpion toksiner7og CS-αβ fold blev senere etableret som den strukturelle kendetegn for insekt defensins8. Denne fold definerer scorpion toksin-lignende (CS-αβ) superfamilien i strukturelle klassificering af proteiner (SCOP) database9, som i øjeblikket omfatter fem familier: insekt defensins, kortkædede scorpion toksiner, langkædede scorpion toksiner, MGD-1 (fra en bløddyr), og plante defensins. Denne superfamilien er synonymt med den seneste beskrevet cis-defensins4 og superfamilien 3.30.30.10 i CATH-genet 3D database10,11. Undersøgelser fra en række af hvirvelløse taxa, planter og svampe vis at navnene på proteiner, der indeholder denne fold ikke klart er relateret til cystein nummer eller limning mønster, antimikrobiel aktivitet eller evolutionær historie12.
Manglen sammenhæng og klare kriterier gør det udfordrende at navngive og klassificere nyligt identificerede sekvenser i denne superfamilien. En væsentlig hindring for sammenligning af proteiner i denne superfamilien er, at cysteines er nummereret med hensyn til hver enkelt sekvens (den første cystein i hver sekvens er C1) med ingen måde at tage højde for den strukturelle rolle. Det betyder, at kun sekvenser med det samme antal cysteines kan sammenlignes. Der er lille sekvens bevarelse end cysteines danner CS-αβ-fold, hvilket vanskeliggør linjeføringer og fylogenetiske analyser. Ved at udvikle et nummersystem, der prioriterer strukturelle træk, kan superfamilien sekvenser mere nemt sammenlignet og justeret. Bevarede funktioner, som de definerer undergrupper, kan visualiseres hurtigt, og nye sekvenser mere let kan placeres i den relevante kontekst.
Dette papir bruger regneark software (fx Excel) til at generere en reference nummerering system for CS-αβ superfamilien. Det viser hvordan dette tydeliggør sammenligninger mellem sekvenser og gælder det nye CS-αβ sekvenser identificeret fra Biogeografi. Bruger CS-αβ superfamilien som et eksempel, var protokollen skrevet at yde vejledning, når du bruger sekvenser af interesse; Det er dog ikke beregnet til at være specifik for denne superfamilien eller cystein-rige sekvenser. Denne metode vil sandsynligvis være mest nyttig for grupper af proteiner, der har været forsket uafhængigt i divergerende taxa og/eller har lille samlede sekvens homologi, med diskrete egenskaber, der ikke kan genkendes nemt af Molekylær analyse software. Denne metode kræver nogle på forhånd beslutninger om vigtige funktioner, så det vil være af begrænset nytte, hvis ingen vigtige funktioner er blevet identificeret. Det primære mål er at vise, hvordan en simpel visualisering af sekvens relationer kan opnås. Dette kan så bruges til at informere sequence alignment og analyse, men hvis justering og analyse er de primære mål, en stregkode metode ville være et egnet alternativ, som har mere kapacitet til automatisering13. Den nuværende metode viser funktionerne af hver peptid i en lineær form, så det ikke vil være nyttigt for den direkte visualisering af 3D-struktur.
Kriterier til at navngive et protein inden for en gruppe skal være klart, men det er ikke altid tilfældet. Sekvenser, der har CS-αβ fold har været studeret i mange laboratorier ved hjælp af en række forskellige organismer, hvilket resulterer i forskellige systemer i nomenklatur, samt forskellige niveauer af karakterisering. Forsøger at indføre en helt ny nomenklatur er ikke rimeligt og ville resultere i en stor forvirring, når consulting tidligere litteratur. Reference nummerering system kan bruges ud over navn…
The authors have nothing to disclose.
Igangværende tardigrade antimikrobielle peptid forskning er støttet af murene finansiering fra Midwestern Universitet Office of Research og sponsorerede programmer (ORSP). ORSP spillede ingen rolle i undersøgelse design, dataindsamling, analyse, fortolkning eller manuskript forberedelse.
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |