Målet med denne protokollen er å utvikle en referanse for divergerende proteiner i en gruppe som mangler sammenhengende kriterier for nomenklatur og klassifisering. Denne referansen vil lette analyser og diskusjon av gruppen som helhet, og kan brukes i tillegg til etablerte navn.
Relaterte proteiner som har vært undersøkt i forskjellige labs ved hjelp av ulike organismer kan mangle et enhetlig system for nomenklatur og klassifisering, gjør det vanskelig å diskutere gruppen som helhet, og plassere nye sekvenser i riktig sammenheng. Utvikle en referanse som prioriterer viktig sekvens funksjoner knyttet til struktur og/eller aktivitet kan brukes i tillegg til etablerte navn legge noen coherency til en mangfoldig gruppe av proteiner. Dette papiret bruker cystein-stabilisert alpha-helix (CS-αβ) gruppe som et eksempel for å vise hvordan en referanse generert i regneark kan avklare forholdet mellom eksisterende proteiner gruppe, samt rette nye sekvenser. Den viser også hvordan referansen kan hjelpe for å avgrense sekvens justeringer generert i brukte programvare, som påvirker gyldigheten av Fylogenetiske analyser. Bruk av en referanse vil trolig være mest nyttig for protein grupper med svært forskjellige sekvenser fra et bredt spekter av taxa, med funksjoner som ikke er tilstrekkelig fanget av molekylære analyser.
Et protein navnet skal gjenspeile egenskaper og forhold til andre proteiner. Dessverre navn tildeles generelt på tidspunktet for oppdagelsen og, som forskning fortsetter, forståelsen av større sammenheng kan endres. Dette kan føre til flere navn hvis et protein ble uavhengig identifisert av flere lab, endringer i nomenklatur eller egenskapene antatt å være definitive tilordne navnet og navnet lenger tilstrekkelig skille protein fra andre.
Virvelløse defensins gir et godt eksempel på degenerasjon nomenklatur og klassifisering. De første virvelløse defensins ble rapportert av insekter og navnet “insekt defensin” ble foreslått basert på oppfattet homologi pattedyr defensins1,2. Uttrykket defensin brukes fortsatt, selv om det er nå klart at virvelløse og pattedyr defensins deler ikke en felles stamfar3,4. Avhengig av arten, kan en virvelløse dyr “defensin” ha seks eller åtte cysteinene (som tre eller fire disulfide obligasjoner) og en rekke antimikrobielle aktiviteter. Å komplisere situasjonen, proteiner med samme egenskaper som defensins ikke alltid kalles “defensins,” som nylig identifisert cremycins Caenorhabditis remanei5. I tillegg er virvelløse store defensins mer sannsynlig å være evolusjonært relatert til vertebrate β-defensins enn andre virvelløse defensins6. Til tross for dette, forskere og stole på det navnet “defensin” når sekvenser som skal inkluderes i analyser.
Strukturelle studier avdekket likheten mellom insekt defensins og scorpion giftstoffer7og CS-αβ fold ble deretter etablert som strukturelle karakteriserer insekt defensins8. Denne hjord definerer skorpion gift som (CS-αβ) gruppe i strukturelle klassifisering av proteiner (alle) databasen9, som for tiden omfatter fem familier: insekt defensins, kort-kjeden scorpion giftstoffer, langkjedede scorpion giftstoffer, MGD-1 (fra en mollusk) og plante defensins. Denne overfamilie er synonymt med nylig beskrevet cis-defensins4 og overfamilie 3.30.30.10 i CATH/gen 3D database10,11. Studier fra en rekke virvelløse taxa, planter og sopp viser at navnene på proteiner som inneholder denne hjord ikke tydelig gjelder cystein nummer eller bånd mønster, antimikrobielle aktivitet eller evolusjonær historie12.
Mangel på konsistens og klare kriterier gjør det utfordrende å navngi og klassifisere nylig identifiserte sekvenser i denne gruppe. En stor utfordring å sammenligne proteiner i denne overfamilie er at cysteinene er nummerert med hensyn til hver individuelle sekvens (den første cystein i hvert forløp er C1), med ingen måte å ta hensyn til den strukturerte rollen. Dette betyr at bare sekvenser med samme antall cysteinene kan sammenlignes. Det er lite sekvens bevaring enn cysteinene danner CS-αβ flippen, noe som gjør justeringer og Fylogenetiske analyser vanskelig. Ved å utvikle et nummereringssystem som prioriterer strukturfunksjonene, kan overfamilie sekvenser lettere forhold og justert. Bevarte funksjoner, samt de definerer undergrupper, kan visualiseres raskt, og nye sekvenser lettere kan plasseres i riktig sammenheng.
Denne oppgaven bruker et regnearkprogram (foreksempel Microsoft Excel) til å generere en referanse nummereringen system for CS-αβ gruppe. Den viser hvordan dette tydeliggjør sammenligninger mellom sekvenser og bruker den nye CS-αβ sekvenser identifisert fra tardigrades. Eksempel på bruk av CS-αβ gruppe ble protokollen skrevet for å gi veiledning ved sekvenser av interesse; men er det ikke ment å være spesifikk denne overfamilie eller cystein-rik sekvenser. Denne metoden vil trolig være mest nyttig for grupper av proteiner som har blitt undersøkt uavhengig i divergerende taxa og/eller har liten samlede sekvens homologi, med diskret egenskaper som ikke kan være lett anerkjent av molekylære analyseprogramvare. Denne metoden krever noe en priori avgjørelser angående viktige funksjoner, så det er av begrenset nytte hvis ingen viktige funksjoner har blitt identifisert. Hovedmålet er å vise hvordan en enkel visualisering sekvens relasjonene kan oppnås. Dette kan brukes å informere sekvens justering og analyse, men hvis justering og analyse er de primære mål, en strekkode metode vil være et egnet alternativ som har mer kapasitet for automatisering13. Det aktuelle metoden viser funksjonene i hver peptid i en lineær form, så det vil være nyttig for direkte visualisering av 3D-struktur.
Kriteriene for å navngi et protein i en gruppe bør være klart, men dette er ikke alltid tilfelle. Sekvenser som har CS-αβ brett har vært studert i mange laboratorier ved hjelp av en rekke organismer, som resulterer i ulike systemer av nomenklatur, samt varierende nivåer av karakterisering. Prøver å innføre en helt ny nomenklaturen er ikke rimelig og vil føre til mye forvirring når rådgivning tidligere litteratur. En referanse nummereringen system kan brukes i tillegg til navnet på et protein for å avklare …
The authors have nothing to disclose.
Pågående tardigrade antimikrobielle peptid forskning støttes av intramural finansiering fra Midwestern University Office for forskning og sponset programmer (ORSP). ORSP ikke hadde noen rolle i studien design, innsamling, analyse, tolkning eller manuskriptet forberedelse.
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |