O objetivo deste protocolo é investigar a evolução e expressão dos genes candidatos usando dados de sequenciamento de RNA.
Destilar e relatar grandes conjuntos de dados, como dados de genoma inteiro ou transcriptome, é muitas vezes uma tarefa assustadora. Uma maneira de quebrar resultados é focar em uma ou mais famílias genéticas que são significativas para o organismo e estudar. Neste protocolo, delineamos etapas bioinformáticas para gerar uma filogenia e quantificar a expressão de genes de interesse. As árvores filogenéticas podem dar uma visão de como os genes estão evoluindo dentro e entre espécies, bem como revelar ortologia. Esses resultados podem ser aprimorados usando dados de RNA-seq para comparar a expressão desses genes em diferentes indivíduos ou tecidos. Estudos de evolução molecular e expressão podem revelar modos de evolução e conservação da função genética entre espécies. A caracterização de uma família genética pode servir de trampolim para estudos futuros e pode destacar uma importante família genética em um novo genoma ou papel transcriptome.
Os avanços nas tecnologias de sequenciamento facilitaram o sequenciamento de genomas e transcriptomes de organismos não-modelos. Além da maior viabilidade do sequenciamento do DNA e do RNA de muitos organismos, uma abundância de dados está disponível publicamente para estudar genes de interesse. O objetivo deste protocolo é fornecer passos bioinforáticos para investigar a evolução molecular e a expressão de genes que possam desempenhar um papel importante no organismo de interesse.
Investigar a evolução de um gene ou gene familiar pode fornecer uma visão da evolução dos sistemas biológicos. Membros de uma família genética são tipicamente determinados pela identificação de motivos conservados ou sequências genéticas homólogos. A evolução da família genética foi previamente investigada usando genomas de organismos modelos distantes1. Uma limitação para essa abordagem é que não está claro como essas famílias genéticas evoluem em espécies intimamente relacionadas e o papel de diferentes pressões seletivas ambientais. Neste protocolo, incluímos uma busca por homólogos em espécies intimamente relacionadas. Ao gerar uma filogenia a um nível de filogênio, podemos notar tendências na evolução da família genética, como a de genes conservados ou duplicações específicas de linhagem. Neste nível, também podemos investigar se genes são ortologs ou paralogs. Embora muitos homólogos provavelmente funcionem de forma semelhante entre si, isso não é necessariamente o caso2. A incorporação de árvores filogenéticas nesses estudos é importante para resolver se esses genes homólogos são ortologs ou não. Nos eucariotes, muitos ortologos mantêm funções semelhantes dentro da célula, como evidenciado pela capacidade das proteínas mamíferas de restaurar a função dos ortologs de levedura3. No entanto, há casos em que um gene não ortologos realiza uma função caracterizada4.
As árvores filogenéticas começam a delinear relações entre genes e espécies, mas a função não pode ser atribuída apenas com base nas relações genéticas. Estudos de expressão genética combinados com anotações funcionais e análise de enriquecimento fornecem forte suporte para a função genética. Casos em que a expressão genética pode ser quantificada e comparada entre indivíduos ou tipos de tecidos podem ser mais reveladores da função potencial. O protocolo a seguir segue métodos usados na investigação de genes de opsina em Hydra vulgaris7, mas eles podem ser aplicados a qualquer espécie e qualquer família genética. Os resultados desses estudos fornecem uma base para uma investigação mais aprofundada sobre a função genética e redes genéticas em organismos não-modelo. Como exemplo, a investigação da filogenia das opsinas, que são proteínas que iniciam a cascata de fototransdução, dá contexto à evolução dos olhos e da detecção de luz8,9,10,11. Neste caso, organismos não-modelos, especialmente espécies de animais basais, como cnidários ou ctenoforos, podem elucidar a conservação ou alterações na cascata de fototransdução e na visão através de claes12,13,14. Da mesma forma, determinar a filogenia, expressão e redes de outras famílias genéticas nos informará sobre os mecanismos moleculares subjacentes às adaptações.
O objetivo deste protocolo é fornecer um esboço das etapas para caracterizar uma família genética usando dados RNA-seq. Estes métodos têm sido comprovados para funcionar para uma variedade de espécies e conjuntos de dados4,34,35. O gasoduto aqui estabelecido foi simplificado e deve ser fácil o suficiente para ser seguido por um novato em bioinformática. O significado do protocolo é que ele delineia todas as etapas e pr…
The authors have nothing to disclose.
Agradecemos a Adriana Briscoe, Gil Smith, Rabi Murad e Aline G. Rangel por conselhos e orientações na incorporação de algumas dessas etapas em nosso fluxo de trabalho. Também somos gratos a Katherine Williams, Elisabeth Rebboah e Natasha Picciani por comentários sobre o manuscrito. Este trabalho foi apoiado em parte por uma bolsa de pesquisa médica da Fundação George E. Hewitt para a A.M.M.
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ |
||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic |
||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ |
||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html |
||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net |
||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net |
||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ |
||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ |
||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download |
||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit |
||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR |
||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ |
||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases |
||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic |
||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases |
||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |