Formålet med denne protokol er at undersøge udviklingen og ekspressionen af kandidatgener ved hjælp af RNA-sekventeringsdata.
Destillering og rapportering af store datasæt, såsom hele genom- eller transskriptionsdata, er ofte en skræmmende opgave. En måde at nedbryde resultater er at fokusere på en eller flere genfamilier, der er vigtige for organismen og undersøgelsen. I denne protokol skitserer vi bioinformatiske trin til at generere en fylogeni og kvantificere ekspressionen af gener af interesse. Fylogenetiske træer kan give indsigt i, hvordan gener udvikler sig inden for og mellem arter samt afsløre orthology. Disse resultater kan forbedres ved hjælp af RNA-seq data til at sammenligne udtrykket af disse gener i forskellige individer eller væv. Undersøgelser af molekylær evolution og udtryk kan afsløre former for evolution og bevarelse af genfunktion mellem arter. Karakteriseringen af en genfamilie kan tjene som springbræt til fremtidige undersøgelser og kan fremhæve en vigtig genfamilie i et nyt genom eller transskriberingspapir.
Fremskridt inden for sekventeringsteknologier har lettet rækkefølgen af genomer og transskriptioner af ikke-modelorganismer. Ud over den øgede gennemførlighed af sekventering af DNA og RNA fra mange organismer er en overflod af data offentligt tilgængelig til undersøgelse af gener af interesse. Formålet med denne protokol er at tilvejebringe bioinformatiske trin til at undersøge den molekylære udvikling og ekspression af gener, der kan spille en vigtig rolle i den pågældende organisme.
Undersøgelse af udviklingen af et gen eller gen familie kan give indsigt i udviklingen af biologiske systemer. Medlemmer af en genfamilie bestemmes typisk ved at identificere bevarede motiver eller homologe gensekvenser. Genfamiliens udvikling blev tidligere undersøgt ved hjælp af genomer fra fjernt beslægtede modelorganismer1. En begrænsning af denne tilgang er, at det ikke er klart, hvordan disse genfamilier udvikler sig i nært beslægtede arter og den rolle, som forskellige miljømæssige selektive pres. I denne protokol inkluderer vi en søgning efter homologer i nært beslægtede arter. Ved at generere en fylogeni på et phylum-niveau kan vi bemærke tendenser i genfamiliens udvikling, såsom konserverede gener eller afstamningsspecifikke dobbeltarbejde. På dette niveau kan vi også undersøge, om gener er orthologs eller paraloger. Mens mange homologer sandsynligvis fungerer på samme måde som hinanden, er det ikke nødvendigvis tilfældet2. Indarbejde fylogenetiske træer i disse undersøgelser er vigtigt at afgøre, om disse homologe gener er orthologs eller ej. I eukaryoter bevarer mange orthologer lignende funktioner i cellen som det fremgår af pattedyrproteinernes evne til at genoprette funktionen af gær orthologs3. Der er dog tilfælde, hvor et ikke-ortologt gen udfører en karakteriseret funktion4.
Fylogenetiske træer begynder at afgrænse forholdet mellem gener og arter, men funktion kan ikke tildeles udelukkende baseret på genetiske relationer. Genekspressionsundersøgelser kombineret med funktionelle anmærkninger og berigelsesanalyse giver stærk støtte til genfunktion. Tilfælde, hvor genekspression kan kvantificeres og sammenlignes på tværs af enkeltpersoner eller vævstyper, kan være mere sigende for potentiel funktion. Følgende protokol følger metoder, der anvendes til at undersøge opsin gener i Hydra vulgaris7, men de kan anvendes på enhver art og enhver genfamilie. Resultaterne af sådanne undersøgelser danner grundlag for yderligere undersøgelser af genfunktion og gennetværk i organismer uden model. Som et eksempel giver undersøgelsen af opsins fylogeni, som er proteiner, der indleder fototransduktionskaskaden, kontekst til udviklingen af øjne og lysdetektion8,9,10,11. I dette tilfælde kan ikke-model organismer især basale dyrearter som cnidarians eller ctenophores belyse bevarelse eller ændringer i phototransduktion kaskade og vision på tværs af clades12,13,14. På samme måde vil fastsættelsen af fylogeni, udtryk og netværk af andre genfamilier informere os om de molekylære mekanismer, der ligger til grund for tilpasninger.
Formålet med denne protokol er at give en oversigt over trinene til at karakterisere en genfamilie ved hjælp af RNA-seq-data. Disse metoder har vist sig at virke for en række arter og datasæt4,34,35. Den rørledning, der er etableret her, er blevet forenklet og bør være let nok til at blive efterfulgt af en nybegynder inden for bioinformatik. Betydningen af protokollen er, at den skitserer alle trin og nødvendige programm…
The authors have nothing to disclose.
Vi takker Adriana Briscoe, Gil Smith, Rabi Murad og Aline G. Rangel for råd og vejledning i at indarbejde nogle af disse trin i vores arbejdsgang. Vi er også taknemmelige for Katherine Williams, Elisabeth Rebboah og Natasha Picciani for kommentarer til manuskriptet. Dette arbejde blev delvist støttet af en George E. Hewitt Foundation for Medical forskningsstipendium til A.M.M.
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ |
||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic |
||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ |
||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html |
||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net |
||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net |
||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ |
||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ |
||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download |
||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit |
||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR |
||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ |
||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases |
||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic |
||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases |
||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |