Formålet med denne protokollen er å undersøke utviklingen og uttrykket av kandidatgener ved hjelp av RNA-sekvenseringsdata.
Destillering og rapportering av store datasett, for eksempel hele genom- eller transkripsjonsdata, er ofte en skremmende oppgave. En måte å bryte ned resultatene på er å fokusere på en eller flere genfamilier som har betydning for organismen og studien. I denne protokollen skisserer vi bioinformatiske trinn for å generere en fylogeni og for å kvantifisere uttrykket av gener av interesse. Fylogenetiske trær kan gi innsikt i hvordan gener utvikler seg i og mellom arter, samt avdekke ortologi. Disse resultatene kan forbedres ved hjelp av RNA-seq data for å sammenligne uttrykket av disse genene i forskjellige individer eller vev. Studier av molekylær evolusjon og uttrykk kan avdekke former for evolusjon og bevaring av genfunksjon mellom arter. Karakteriseringen av en genfamilie kan fungere som et springbrett for fremtidige studier og kan fremheve en viktig genfamilie i et nytt genom eller transkripsjonspapir.
Fremskritt innen sekvenseringsteknologier har lagt til rette for sekvensering av genomer og transkripsjoner av ikke-modellorganismer. I tillegg til den økte muligheten for sekvensering av DNA og RNA fra mange organismer, er en overflod av data offentlig tilgjengelig for å studere gener av interesse. Formålet med denne protokollen er å gi bioinformatiske trinn for å undersøke molekylær evolusjon og uttrykk for gener som kan spille en viktig rolle i interesseorganismen.
Å undersøke utviklingen av et gen eller en genfamilie kan gi innsikt i utviklingen av biologiske systemer. Medlemmer av en genfamilie bestemmes vanligvis ved å identifisere bevarte motiver eller homologe gensekvenser. Genfamilieutvikling ble tidligere undersøkt ved hjelp av genomer fra fjernt beslektede modellorganismer1. En begrensning i denne tilnærmingen er at det ikke er klart hvordan disse genfamiliene utvikler seg i nært beslektede arter og rollen til ulike miljøselektive press. I denne protokollen inkluderer vi et søk etter homologer i nært beslektede arter. Ved å generere en fylogeni på et fylumsnivå, kan vi merke oss trender i genfamilieutvikling som for konserverte gener eller avledningsspesifikke dupliseringer. På dette nivået kan vi også undersøke om gener er ortologer eller paraloger. Mens mange homologer sannsynligvis fungerer på samme måte som hverandre, er det ikke nødvendigvis tilfelle2. Å inkorporere fylogenetiske trær i disse studiene er viktig for å løse om disse homologe genene er ortologer eller ikke. I eukaryoter beholder mange ortologer lignende funksjoner i cellen som det fremgår av pattedyrproteiners evne til å gjenopprette funksjonen til gjær ortologer3. Det er imidlertid tilfeller der et ikke-ortopedisk gen utfører en karakterisert funksjon4.
Fylogenetiske trær begynner å avgrense sammenhenger mellom gener og arter, men funksjonen kan ikke tildeles utelukkende basert på genetiske relasjoner. Genuttrykksstudier kombinert med funksjonelle merknader og berikelsesanalyse gir sterk støtte til genfunksjon. Tilfeller der genuttrykk kan kvantifiseres og sammenlignes på tvers av individer eller vevstyper, kan være mer fortellende om potensiell funksjon. Følgende protokoll følger metoder som brukes til å undersøke opsingener i Hydra vulgaris7, men de kan brukes på alle arter og hvilken som helst genfamilie. Resultatene fra slike studier gir grunnlag for videre utredning av genfunksjon og gennettverk i ikke-modellorganismer. Som et eksempel gir undersøkelsen av fylogenien av opsiner, som er proteiner som initierer fototransduksjonskaskaden, kontekst til utviklingen av øyne og lysdeteksjon8,9,10,11. I dette tilfellet kan ikke-modellorganismer spesielt basale dyrearter som cnidarians eller ctenophores belyse bevaring eller endringer i fototransduksjonskaskaden og visjonen over clades12,13,14. På samme måte vil det å bestemme fylogeni, uttrykk og nettverk av andre genfamilier informere oss om de molekylære mekanismene som ligger til grunn for tilpasninger.
Formålet med denne protokollen er å gi en oversikt over trinnene for å karakterisere en genfamilie ved hjelp av RNA-seq-data. Disse metodene har vist seg å fungere for en rekke arter og datasett4,34,35. Rørledningen som er etablert her er forenklet og bør være enkel nok til å bli etterfulgt av en nybegynner innen bioinformatikk. Betydningen av protokollen er at den skisserer alle trinnene og nødvendige programmer for å…
The authors have nothing to disclose.
Vi takker Adriana Briscoe, Gil Smith, Rabi Murad og Aline G. Rangel for råd og veiledning i å innlemme noen av disse trinnene i arbeidsflyten vår. Vi er også takknemlige til Katherine Williams, Elisabeth Rebboah og Natasha Picciani for kommentarer til manuskriptet. Dette arbeidet ble delvis støttet av en George E. Hewitt Foundation for Medical research fellowship til A.M.M.
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ |
||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic |
||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ |
||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html |
||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net |
||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net |
||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ |
||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ |
||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download |
||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit |
||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR |
||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ |
||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases |
||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic |
||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases |
||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |