Syftet med detta protokoll är att undersöka utvecklingen och uttrycket av kandidatgener med hjälp av RNA-sekvenseringsdata.
Destillering och rapportering av stora datamängder, till exempel hela genom- eller transkriptomdata, är ofta en skrämmande uppgift. Ett sätt att bryta ner resultat är att fokusera på en eller flera genfamiljer som är viktiga för organismen och studien. I detta protokoll beskriver vi bioinformatiska steg för att generera en fylogeni och kvantifiera uttrycket av gener av intresse. Fylogenetiska träd kan ge insikt i hur gener utvecklas inom och mellan arter samt avslöja ortologi. Dessa resultat kan förbättras med hjälp av RNA-seq data för att jämföra uttrycket av dessa gener i olika individer eller vävnader. Studier av molekylär evolution och uttryck kan avslöja utvecklingssätt och bevarande av genfunktionen mellan arter. Karakteriseringen av en genfamilj kan fungera som en språngbräda för framtida studier och kan lyfta fram en viktig genfamilj i ett nytt genom eller transkriptompapper.
Framsteg inom sekvenseringsteknik har underlättat sekvensering av genom och transkriptomer av icke-modellorganismer. Förutom den ökade genomförbarheten av sekvensering av DNA och RNA från många organismer, är ett överflöd av data offentligt tillgängligt för att studera gener av intresse. Syftet med detta protokoll är att tillhandahålla bioinformatiska steg för att undersöka den molekylära evolutionen och uttrycket av gener som kan spela en viktig roll i organismen av intresse.
Att undersöka utvecklingen av en gen- eller genfamilj kan ge insikt i utvecklingen av biologiska system. Medlemmar av en genfamilj bestäms vanligtvis genom att identifiera bevarade motiv eller homologa gensekvenser. Genfamiljens evolution undersöktes tidigare med hjälp av genom från avlägset besläktade modellorganismer1. En begränsning av detta tillvägagångssätt är att det inte är klart hur dessa genfamiljer utvecklas i närbesläktade arter och rollen för olika miljöselektiva tryck. I detta protokoll inkluderar vi en sökning efter homologer i närbesläktade arter. Genom att generera en fylogeni på fylumnivå kan vi notera trender i genfamiljens utveckling som konserverade gener eller härstamning-specifika dubbleringar. På denna nivå kan vi också undersöka om gener är ortologer eller paraloger. Medan många homologer sannolikt fungerar på samma sätt som varandra, är det inte nödvändigtvis fallet2. Att införliva fylogenetiska träd i dessa studier är viktigt för att avgöra om dessa homologa gener är ortoologer eller inte. I eukaryoter behåller många ortologer liknande funktioner i cellen, vilket framgår av däggdjursproteinernas förmåga att återställa funktionen hos jästortologer3. Det finns dock fall där en icke-ortologisk gen utför en karakteriserad funktion4.
Fylogenetiska träd börjar avgränsa relationer mellan gener och arter, men funktionen kan inte tilldelas enbart baserat på genetiska relationer. Genuttrycksstudier i kombination med funktionella anteckningar och anrikningsanalys ger starkt stöd för genfunktionen. Fall där genuttryck kan kvantifieras och jämföras mellan individer eller vävnadstyper kan vara mer talande för potentiell funktion. Följande protokoll följer metoder som används för att undersöka opsingener i Hydra vulgaris7, men de kan tillämpas på alla arter och alla genarter. Resultaten av sådana studier utgör en grund för ytterligare undersökning av genfunktion och gennätverk i icke-modellorganismer. Som ett exempel ger undersökningen av fylogeni av opsiner, som är proteiner som initierar fototransduktionskaskaden, sammanhang till utvecklingen av ögon och ljusdetektering8,9,10,11. I detta fall kan icke-modellorganismer, särskilt basala djurarter som cnidarians eller ctenophores, klargöra bevarande eller förändringar i fototransduktionskaskaden och synen överkladderna 12,13,14. På samma sätt kommer bestämning av fylogeni, uttryck och nätverk av andra genfamiljer att informera oss om de molekylära mekanismerna bakom anpassningar.
Syftet med detta protokoll är att ge en översikt över stegen för att karakterisera en genfamilj med hjälp av RNA-seq-data. Dessa metoder har visat sig fungera för en mängd olika arter och datamängder4,34,35. Den pipeline som upprättats här har förenklats och bör vara tillräckligt enkel för att följas av en nybörjare inom bioinformatik. Protokollets betydelse är att det beskriver alla steg och nödvändiga progra…
The authors have nothing to disclose.
Vi tackar Adriana Briscoe, Gil Smith, Rabi Murad och Aline G. Rangel för råd och vägledning när vi införlivar några av dessa steg i vårt arbetsflöde. Vi är också tacksamma mot Katherine Williams, Elisabeth Rebboah och Natasha Picciani för kommentarerna till manuskriptet. Detta arbete stöddes delvis av ett George E. Hewitt Foundation for Medical research fellowship till A.M.M.
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ |
||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic |
||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ |
||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html |
||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net |
||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net |
||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ |
||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ |
||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download |
||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit |
||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR |
||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ |
||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases |
||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic |
||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases |
||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |