Målet med detta protokoll är att utveckla en referens för olika proteiner i en grupp som saknar sammanhängande kriterier för nomenklatur och klassifikation. Denna hänvisning kommer att underlätta analyser och diskussioner i gruppen som helhet och kan användas förutom etablerade namn.
Relaterade proteiner som har studerats i olika laboratorier använder olika organismer kan sakna ett enhetligt system av nomenklaturen och klassificering, vilket gör det svårt att diskutera gruppen som helhet och att placera nya sekvenser i lämpliga sammanhang. Utveckla en referens som prioriterar viktiga sekvens funktioner avser struktur eller verksamhet kan användas förutom etablerade namn för att lägga några koherens till en mångskiftande grupp av proteiner. Detta papper används cystein-stabiliserad alfa-helix (CS-αβ) överfamiljen som exempel för att visa hur en referens som genereras i kalkylprogram kan klargöra relationerna mellan befintliga proteiner i överfamiljen, samt underlätta tillägg av nya sekvenser. Det visar också hur referensen kan bidra till att förfina sekvens linjeföring genereras i vanliga programvara, vilket påverkar giltigheten av fylogenetiska analyser. Användning av en referens kommer sannolikt mest användbart för protein grupper som inkluderar mycket olika sekvenser från ett brett spektrum av taxa, med funktioner som inte fångas tillräckligt av molekylära analyser.
En proteinets namnet ska återspegla är egenskaper och förhållande till andra proteiner. Tyvärr, enhetsnamnen tilldelas generellt vid tiden för upptäckten och forskning fortsätter, förståelsen av större sammanhang kan ändras. Detta kan leda till flera namn om ett protein identifierades självständigt av mer än en lab, att ändringar i nomenklaturen eller egenskaper tros vara definitiv när du tilldelar namn och att namnet inte längre tillräckligt att differentiera proteinet från andra.
Ryggradslösa defensins ger ett bra exempel på degeneration i nomenklatur och klassifikation. De första ryggradslösa defensins rapporterades från insekter, och det namnet ”insekt defensin” föreslogs baserat på den upplevda homologi till däggdjur defensins1,2. Den termen defensin används fortfarande, även om det står nu klart att ryggradslösa och däggdjur defensins delar inte en gemensam förfader3,4. Beroende på art, kan en ryggradslösa ”defensin” ha sex eller åtta cysteines (som bildar tre eller fyra disulfide obligationer) och en mängd antimikrobiella aktiviteter. Att komplicera situationen, proteiner med samma egenskaper som defensins inte alltid kallas ”defensins”, såsom den nyligen identifierade cremycins från Caenorhabditis remanei5. Dessutom är ryggradslösa stora defensins mer benägna att vara evolutionärt relaterade till ryggradsdjur β-defensins än till andra ryggradslösa defensins6. Trots detta forskare förlitar sig ibland på det namnet ”defensin” vid fastställandet av vilka sekvenser bör ingå i analyserna.
Strukturella studier visade likheten mellan insekt defensins och scorpion gifter7och CS-αβ luckan var därefter etablerad som den strukturella kännetecknande för insekt defensins8. Här fållan definierar scorpion toxin-liknande (CS-αβ) överfamiljen i strukturella klassificering av proteiner (SCOP) databas9, som för närvarande omfattar fem familjer: insekt defensins, kortkedjade scorpion toxiner, långkedjiga scorpion toxiner, MGD-1 (från en mollusk) och växt defensins. Denna Överfamilj är synonymt med de nyligen beskrivna cis-defensins4 och överfamiljen 3.30.30.10 i CATH/Gene 3D databasen10,11. Studier från en mängd evertebrater, växter och svampar Visa att namnen på proteiner som innehåller denna fålla inte är klart relaterade till cystein nummer eller limning mönster, antimikrobiell aktivitet eller evolutionära historia12.
Bristen på konsekvens och tydliga kriterier gör det utmanande att namnge och klassificera nyligen identifierade sekvenser i denna superfamiljen. Ett stort hinder för jämföra proteiner i denna Överfamilj är att cysteines numreras med avseende på varje enskild sekvens (den första cystein i varje sekvens är C1), med inget sätt att ta hänsyn till strukturella roll. Detta innebär att endast sekvenser med samma antal cysteines kan jämföras. I området i närheten finns det lilla sekvens bevarande än de cysteines som bildar CS-αβ luckan, vilket försvårar anpassningar och fylogenetiska analyser. Genom att utveckla ett numreringssystem som prioriterar strukturella egenskaper, kan superfamiljen sekvenser lättare jämföras och arrangera i rak linje. Bevarade funktioner, samt de definiera subgrupper, kan visualiseras snabbt, och nya sekvenser kan enkelt placeras i lämpliga sammanhang.
Detta papper använder ett kalkylprogram (exempelvis Excel) för att generera en referens numreringssystem för CS-αβ överfamiljen. Det visar hur detta klargör jämförelser mellan sekvenser och gäller det nya CS-αβ-sekvenser som identifierats från tardigrades. Med CS-αβ överfamiljen som exempel, skrevs protokollet att ge vägledning när du använder sekvenser av intresse. Det är emellertid inte avsedd att vara specifik för denna superfamiljen eller till cystein-rika sekvenser. Denna metod kommer sannolikt mest användbara för grupper av proteiner som har undersökts självständigt i olika taxa och/eller har lite övergripande sekvenshomologi, med diskret egenskaper som inte kanske kan enkelt identifieras av molekylär analysprogramvara. Denna metod kräver vissa förhand beslut om viktiga funktioner, så det blir av begränsad nytta om inga viktiga funktioner har identifierats. Det primära målet är att visa hur en enkel visualisering av sekvens relationer kan uppnås. Detta kan sedan användas för att informera sekvens justering och analys, men om justering och analys är de primära målen, en streckkod metod skulle vara ett lämpligt alternativ som har mer kapacitet för automation13. Den nuvarande metoden visar funktionerna i varje peptid i en linjär form, så det inte kommer vara bra för direkt visualisering av 3D-strukturen.
Kriterierna för att namnge ett protein inom en grupp bör vara tydlig, men detta är inte alltid fallet. Sekvenser som har den CS-αβ vik har studerats i många övningar med hjälp av olika organismer, vilket resulterar i olika system i nomenklaturen, samt olika nivåer av karakterisering. Försöker införa en helt ny nomenklatur är inte rimligt och skulle resultera i en hel del förvirring när consulting tidigare litteratur. En referens numreringssystem kan användas förutom namnet på ett protein för att klarg?…
The authors have nothing to disclose.
Pågående tardigrade antimikrobiella peptid forskning stöds av intramurala finansiering från Midwestern University kontor för forskning och sponsrade program (ORSP). ORSP hade ingen roll i studiedesign, datainsamling, analys, tolkning eller manuskript förberedelse.
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |