Summary

Generación de la vista de regulación transcripcional de características transcriptómicas para la tarea de predicción y la detección de biomarcadores oscuros en conjuntos de datos pequeños

Published: March 01, 2024
doi:

Summary

Aquí, presentamos un protocolo para convertir datos transcriptómicos en una vista mqTrans, lo que permite la identificación de biomarcadores oscuros. Si bien no se expresan diferencialmente en los análisis transcriptómicos convencionales, estos biomarcadores exhiben una expresión diferencial en la vista mqTrans. El enfoque sirve como una técnica complementaria a los métodos tradicionales, revelando biomarcadores que antes se pasaban por alto.

Abstract

El transcriptoma representa los niveles de expresión de muchos genes en una muestra y se ha utilizado ampliamente en la investigación biológica y la práctica clínica. Por lo general, los investigadores se centraron en biomarcadores transcriptómicos con representaciones diferenciales entre un grupo fenotípico y un grupo de control de muestras. Este estudio presentó un marco de aprendizaje multitarea de la red de atención gráfica (GAT) para aprender las complejas interacciones intergénicas de las muestras de referencia. Se entrenó previamente un modelo de referencia demostrativo en las muestras sanas (HealthModel), que podría usarse directamente para generar la vista de regulación transcripcional cuantitativa basada en modelos (mqTrans) de los transcriptomas de prueba independientes. La vista mqTrans generada de los transcriptomas se demostró mediante tareas de predicción y detección de biomarcadores oscuros. El término acuñado “biomarcador oscuro” se deriva de su definición de que un biomarcador oscuro mostraba una representación diferencial en la vista mqTrans, pero no una expresión diferencial en su nivel de expresión original. Un biomarcador oscuro siempre se pasó por alto en los estudios tradicionales de detección de biomarcadores debido a la ausencia de expresión diferencial. El código fuente y el manual de la canalización HealthModelPipe se pueden descargar desde http://www.healthinformaticslab.org/supp/resources.php.

Introduction

El transcriptoma consiste en la expresión de todos los genes en una muestra y puede ser perfilado por tecnologías de alto rendimiento como microarrays y RNA-seq1. Los niveles de expresión de un gen en un conjunto de datos se denominan característica transcriptómica, y la representación diferencial de una característica transcriptómica entre el fenotipo y los grupos control define a este gen como un biomarcador de este fenotipo 2,3. Los biomarcadores transcriptómicos se han utilizado ampliamente en las investigaciones del diagnóstico de enfermedades4, el mecanismo biológico5 y el análisis de supervivencia 6,7, etc.

Los patrones de actividad de los genes en los tejidos sanos contienen información crucial sobre las vidas 8,9. Estos patrones ofrecen información invaluable y actúan como referencias ideales para comprender las complejas trayectorias de desarrollo de los trastornos benignos10,11 y las enfermedades letales12. Los genes interactúan entre sí, y los transcriptomas representan los niveles finales de expresión después de sus complicadas interacciones. Tales patrones se formulan como la red de regulación transcripcional13 y la red metabólica14, etc. Las expresiones de ARN mensajeros (ARNm) pueden ser reguladas transcripcionalmente por factores de transcripción (TF) y ARN intergénicos largos no codificantes (lincRNAs)15,16,17. El análisis convencional de la expresión diferencial ignoró estas complejas interacciones génicas con el supuesto de independencia entre características18,19.

Los avances recientes en las redes neuronales de grafos (GNN) demuestran un potencial extraordinario en la extracción de información importante de los datos basados en OMIC para estudios de cáncer20, por ejemplo, la identificación de módulos de coexpresión21. La capacidad innata de las GNN las hace ideales para modelar las intrincadas relaciones y dependencias entre los genes22,23.

Los estudios biomédicos a menudo se centran en predecir con precisión un fenotipo en comparación con el grupo de control. Tales tareas se formulan comúnmente como clasificaciones binarias 24,25,26. Aquí, las dos etiquetas de clase se codifican normalmente como 1 y 0, verdadero y falso, o incluso positivo y negativo27.

Este estudio tuvo como objetivo proporcionar un protocolo fácil de usar para generar la vista de regulación transcripcional (mqTrans) de un conjunto de datos de transcriptoma basado en el modelo de referencia de la red de atención de grafos (GAT) preentrenado. Se utilizó el marco GAT multitarea de un trabajo publicado anteriormente26 para transformar las características transcriptómicas en las características mqTrans. Se utilizó un gran conjunto de datos de transcriptomas sanos de la plataforma Xena28 de la Universidad de California, Santa Cruz (UCSC) para preentrenar el modelo de referencia (HealthModel), que midió cuantitativamente las regulaciones de transcripción desde los factores reguladores (TF y lincRNAs) hasta los ARNm diana. La vista mqTrans generada podría utilizarse para construir modelos de predicción y detectar biomarcadores oscuros. Este protocolo utiliza el conjunto de datos de pacientes con adenocarcinoma de colon (COAD) de la base de datos del Atlas del Genoma del Cáncer (TCGA)29 como ejemplo ilustrativo. En este contexto, los pacientes en estadios I o II se clasifican como muestras negativas, mientras que los que se encuentran en estadios III o IV se consideran muestras positivas. También se comparan las distribuciones de los biomarcadores oscuros y tradicionales en los 26 tipos de cáncer TCGA.

Descripción de la canalización de HealthModel
La metodología empleada en este protocolo se basa en el marco26 publicado anteriormente, como se describe en la Figura 1. Para comenzar, los usuarios deben preparar el conjunto de datos de entrada, introducirlo en la canalización propuesta de HealthModel y obtener características de mqTrans. Las instrucciones detalladas de preparación de datos se proporcionan en la sección 2 de la sección de protocolo. Posteriormente, los usuarios tienen la opción de combinar las características de mqTrans con las características transcriptómicas originales o continuar solo con las características de mqTrans generadas. A continuación, el conjunto de datos producido se somete a un proceso de selección de características, en el que los usuarios tienen la flexibilidad de elegir su valor preferido para k en la validación cruzada de k-fold para la clasificación. La principal métrica de evaluación utilizada en este protocolo es la precisión.

HealthModel26 clasifica las características transcriptómicas en tres grupos distintos: TF (factor de transcripción), lincRNA (ARN intergénico largo no codificante) y ARNm (ARN mensajero). Las características de TF se definen en función de las anotaciones disponibles en el Atlas de Proteínas Humanas30,31. Este trabajo utiliza las anotaciones de lincRNAs del conjunto de datos GTEx32. Los genes que pertenecen a las vías de tercer nivel en la base de datos KEGG33 se consideran características de ARNm. Vale la pena señalar que si una característica de ARNm exhibe funciones reguladoras para un gen diana, como se documenta en la base de datos TRRUST34, se reclasifica en la clase TF.

Este protocolo también genera manualmente los dos archivos de ejemplo para las identificaciones de genes de los factores reguladores (regulatory_geneIDs.csv) y el ARNm diana (target_geneIDs.csv). La matriz de distancia por pares entre las características reguladoras (TFs y lincRNAs) se calcula mediante los coeficientes de correlación de Pearson y se agrupa mediante la popular herramienta de análisis de redes de coexpresión génica ponderada (WGCNA)36 (adjacent_matrix.csv). Los usuarios pueden utilizar directamente la canalización HealthModel junto con estos archivos de configuración de ejemplo para generar la vista mqTrans de un conjunto de datos transcriptómicos.

Detalles técnicos de HealthModel
HealthModel representa las intrincadas relaciones entre TF y lincRNAs como un grafo, con las características de entrada que sirven como los vértices denotados por V y una matriz de borde entre vértices designada como E. Cada muestra se caracteriza por características reguladoras K, simbolizadas como VK×1. En concreto, el conjunto de datos abarcó 425 TF y 375 lincRNAs, lo que dio como resultado una dimensionalidad de la muestra de K = 425 + 375 = 800. Para establecer la matriz de bordes E, en este trabajo se empleó la popular herramienta WGCNA35. El peso por pares que une dos vértices representados como Equation 1 y Equation 2, está determinado por el coeficiente de correlación de Pearson. La red reguladora de genes exhibe una topología libre de escala36, caracterizada por la presencia de genes centrales con roles funcionales fundamentales. Calculamos la correlación entre dos características o vértices, Equation 1 y Equation 2, utilizando la medida de superposición topológica (TOM) de la siguiente manera:

Equation 3(1)

Equation 4(2)

El β de umbral suave se calcula utilizando la función ‘pickSoft Threshold’ del paquete WGCNA. Se aplica la función exponencial de potencia aij , donde Equation 5 representa un gen excluyendo i y j, y Equation 6 representa la conectividad de los vértices. WGCNA agrupa los perfiles de expresión de las características transcriptómicas en múltiples módulos utilizando una medida de disimilitud comúnmente empleada (Equation 737.

El marco HealthModel se diseñó originalmente como una arquitectura de aprendizaje multitarea26. Este protocolo solo utiliza la tarea de preentrenamiento del modelo para la construcción de la vista transcriptómica mqTrans. El usuario puede optar por refinar aún más el HealthModel previamente entrenado en la red de atención de grafos multitarea con muestras transcriptómicas adicionales específicas de la tarea.

Detalles técnicos de la selección y clasificación de características
El grupo de selección de características implementa once algoritmos de selección de características (FS). Entre ellos, tres son algoritmos de FS basados en filtros: selección de K mejores características utilizando el Coeficiente de Información Máxima (SK_mic), selección de K características basadas en el FPR de MIC (SK_fpr) y selección de K características con la tasa de falso descubrimiento más alta de MIC (SK_fdr). Además, tres algoritmos FS basados en árboles evalúan características individuales utilizando un árbol de decisión con el índice de Gini (DT_gini), árboles de decisión potenciados adaptativos (AdaBoost) y bosque aleatorio (RF_fs). El grupo también incorpora dos métodos contenedores: la eliminación de características recursivas con el clasificador de vectores de soporte lineal (RFE_SVC) y la eliminación de características recursivas con el clasificador de regresión logística (RFE_LR). Por último, se incluyen dos algoritmos de incrustación: el clasificador SVC lineal con los valores de importancia de la característica L1 mejor clasificados (lSVC_L1) y el clasificador de regresión logística con los valores de importancia de la característica L1 mejor clasificados (LR_L1).

El grupo de clasificadores emplea siete clasificadores diferentes para crear modelos de clasificación. Estos clasificadores comprenden la máquina de vectores de soporte lineal (SVC), Gaussian Naïve Bayes (GNB), el clasificador de regresión logística (LR), el k-vecino más cercano, con k establecido en 5 de forma predeterminada (KNN), XGBoost, bosque aleatorio (RF) y árbol de decisión (DT).

La división aleatoria del conjunto de datos en los subconjuntos train: test se puede establecer en la línea de comandos. En el ejemplo demostrado se utiliza la relación de train: test = 8:2.

Protocol

NOTA: El siguiente protocolo describe los detalles del procedimiento analítico informático y los comandos de Python de los módulos principales. La Figura 2 ilustra los tres pasos principales con comandos de ejemplo utilizados en este protocolo y se refieren a los trabajos publicados anteriormente26,38 para obtener más detalles técnicos. Realice el siguiente protocolo en una cuenta de usuario normal en un sistema informático y e…

Representative Results

Evaluación de la vista mqTrans del conjunto de datos transcriptómicosEl código de prueba utiliza once algoritmos de selección de características (FS) y siete clasificadores para evaluar cómo la vista mqTrans generada del conjunto de datos transcriptómicos contribuye a la tarea de clasificación (Figura 6). El conjunto de datos de prueba consta de 317 adenocarcinomas de colon (COAD) de la base de datos The Cancer Genome Atlas (TCGA)29. Los p…

Discussion

La sección 2 (Uso del modelo de salud previamente entrenado para generar las características de mqTrans) del protocolo es el paso más crítico dentro de este protocolo. Después de preparar el entorno de trabajo computacional en la sección 1, la sección 2 genera la vista mqTrans de un conjunto de datos transcriptómico basado en el modelo de referencia grande previamente entrenado. La sección 3 es un ejemplo demostrativo de la selección de las características mqTrans generadas para tareas de predicción y detecci…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo contó con el apoyo del Equipo de Innovación Tecnológica Senior y Junior (20210509055RQ), los Proyectos de Ciencia y Tecnología de la Provincia de Guizhou (ZK2023-297), la Fundación de Ciencia y Tecnología de la Comisión de Salud de la Provincia de Guizhou (gzwkj2023-565), el Proyecto de Ciencia y Tecnología del Departamento de Educación de la Provincia de Jilin (JJKH20220245KJ y JJKH20220226SK), la Fundación Nacional de Ciencias Naturales de China (U19A2061), el Laboratorio Clave Provincial de Jilin de Computación Inteligente de Big Data (20180622002JC), y los Fondos de Investigación Fundamental para las Universidades Centrales, JLU. Extendemos nuestro más sincero agradecimiento al editor de la revisión y a los tres revisores anónimos por sus críticas constructivas, que han sido fundamentales para mejorar sustancialmente el rigor y la claridad de este protocolo.

Materials

Anaconda Anaconda version 2020.11 Python programming platform
Computer N/A N/A Any general-purpose computers satisfy the requirement
GPU card N/A N/A Any general-purpose GPU cards with the CUDA computing library
pytorch Pytorch version 1.13.1 Software
torch-geometric Pytorch version 2.2.0 Software

References

  1. Mutz, K. -. O., Heilkenbrinker, A., Lönne, M., Walter, J. -. G., Stahl, F. Transcriptome analysis using next-generation sequencing. Curr Opin in Biotechnol. 24 (1), 22-30 (2013).
  2. Meng, G., Tang, W., Huang, E., Li, Z., Feng, H. A comprehensive assessment of cell type-specific differential expression methods in bulk data. Brief Bioinform. 24 (1), 516 (2023).
  3. Iqbal, N., Kumar, P. Integrated COVID-19 Predictor: Differential expression analysis to reveal potential biomarkers and prediction of coronavirus using RNA-Seq profile data. Comput Biol Med. 147, 105684 (2022).
  4. Ravichandran, S., et al. VB(10), a new blood biomarker for differential diagnosis and recovery monitoring of acute viral and bacterial infections. EBioMedicine. 67, 103352 (2021).
  5. Lv, J., et al. Targeting FABP4 in elderly mice rejuvenates liver metabolism and ameliorates aging-associated metabolic disorders. Metabolism. 142, 155528 (2023).
  6. Cruz, J. A., Wishart, D. S. Applications of machine learning in cancer prediction and prognosis. Cancer Inform. 2, 59-77 (2007).
  7. Cox, D. R. . Analysis of Survival Data. , (2018).
  8. Newman, A. M., et al. Robust enumeration of cell subsets from tissue expression profiles. Nat Methods. 12 (5), 453-457 (2015).
  9. Ramilowski, J. A., et al. A draft network of ligand-receptor-mediated multicellular signalling in human. Nat Commun. 6 (1), 7866 (2015).
  10. Xu, Y., et al. MiR-145 detection in urinary extracellular vesicles increase diagnostic efficiency of prostate cancer based on hydrostatic filtration dialysis method. Prostate. 77 (10), 1167-1175 (2017).
  11. Wang, Y., et al. Profiles of differential expression of circulating microRNAs in hepatitis B virus-positive small hepatocellular carcinoma. Cancer Biomark. 15 (2), 171-180 (2015).
  12. Hu, S., et al. Transcriptional response profiles of paired tumor-normal samples offer novel. Oncotarget. 8 (25), 41334-41347 (2017).
  13. Xu, H., Luo, D., Zhang, F. DcWRKY75 promotes ethylene induced petal senescence in carnation (Dianthus caryophyllus L). Plant J. 108 (5), 1473-1492 (2021).
  14. Niu, H., et al. Dynamic role of Scd1 gene during mouse oocyte growth and maturation. Int J Biol Macromol. 247, 125307 (2023).
  15. Aznaourova, M., et al. Single-cell RNA sequencing uncovers the nuclear decoy lincRNA PIRAT as a regulator of systemic monocyte immunity during COVID-19. Proc Natl Acad Sci U S A. 119 (36), 2120680119 (2022).
  16. Prakash, A., Banerjee, M. An interpretable block-attention network for identifying regulatory feature interactions. Brief Bioinform. 24 (4), (2023).
  17. Zhai, Y., et al. Single-cell RNA sequencing integrated with bulk RNA sequencing analysis reveals diagnostic and prognostic signatures and immunoinfiltration in gastric cancer. Comput Biol Med. 163, 107239 (2023).
  18. Duan, L., et al. Dynamic changes in spatiotemporal transcriptome reveal maternal immune dysregulation of autism spectrum disorder. Comput Biol Med. 151, 106334 (2022).
  19. Zolotareva, O., et al. Flimma: a federated and privacy-aware tool for differential gene expression analysis). Genome Biol. 22 (1), 338 (2021).
  20. Su, R., Zhu, Y., Zou, Q., Wei, L. Distant metastasis identification based on optimized graph representation of gene. Brief Bioinform. 23 (1), (2022).
  21. Xing, X., et al. Multi-level attention graph neural network based on co-expression gene modules for disease diagnosis and prognosis. Bioinformatics. 38 (8), 2178-2186 (2022).
  22. Bongini, P., Pancino, N., Scarselli, F., Bianchini, M. . BioGNN: How Graph Neural Networks Can Solve Biological Problems. Artificial Intelligence and Machine Learning for Healthcare: Vol. 1: Image and Data Analytics. , (2022).
  23. Muzio, G., O’Bray, L., Borgwardt, K. Biological network analysis with deep learning. Brief Bioinform. 22 (2), 1515-1530 (2021).
  24. Luo, H., et al. Multi-omics integration for disease prediction via multi-level graph attention network and adaptive fusion. bioRxiv. , (2023).
  25. Feng, X., et al. Selecting multiple biomarker subsets with similarly effective binary classification performances. J Vis Exp. (140), e57738 (2018).
  26. Duan, M., et al. Orchestrating information across tissues via a novel multitask GAT framework to improve quantitative gene regulation relation modeling for survival analysis. Brief Bioinform. 24 (4), (2023).
  27. Chicco, D., Starovoitov, V., Jurman, G. The benefits of the Matthews correlation Coefficient (MCC) over the diagnostic odds ratio (DOR) in binary classification assessment. IEEE Access. 9, 47112-47124 (2021).
  28. Goldman, M. J., et al. Visualizing and interpreting cancer genomics data via the Xena platform. Nat Biotechnol. 38 (6), 675-678 (2020).
  29. Liu, J., et al. An integrated TCGA pan-cancer clinical data resource to drive high-quality survival outcome analytics. Cell. 173 (2), 400-416 (2018).
  30. Uhlen, M., et al. Towards a knowledge-based human protein atlas. Nat Biotechnol. 28 (12), 1248-1250 (2010).
  31. Hernaez, M., Blatti, C., Gevaert, O. Comparison of single and module-based methods for modeling gene regulatory. Bioinformatics. 36 (2), 558-567 (2020).
  32. Consortium, G. The genotype-tissue expression (GTEx) project. Nat Genet. 45 (6), 580-585 (2013).
  33. Kanehisa, M., et al. KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51, D587-D592 (2023).
  34. Han, H., et al. TRRUST v2: an expanded reference database of human and mouse transcriptional. Nucleic Acids Res. 46, D380-D386 (2018).
  35. Langfelder, P., Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics. 9, 559 (2008).
  36. Sulaimanov, N., et al. Inferring gene expression networks with hubs using a degree weighted Lasso. Bioinformatics. 35 (6), 987-994 (2019).
  37. Kogelman, L. J. A., Kadarmideen, H. N. Weighted Interaction SNP Hub (WISH) network method for building genetic networks. BMC Syst Biol. 8, 5 (2014).
  38. Duan, M., et al. Pan-cancer identification of the relationship of metabolism-related differentially expressed transcription regulation with non-differentially expressed target genes via a gated recurrent unit network. Comput Biol Med. 148, 105883 (2022).
  39. Duan, M., et al. Detection and independent validation of model-based quantitative transcriptional regulation relationships altered in lung cancers. Front Bioeng Biotechnol. 8, 582 (2020).
  40. Fiorini, N., Lipman, D. J., Lu, Z. Towards PubMed 2.0. eLife. 6, 28801 (2017).
  41. Liu, J., et al. Maternal microbiome regulation prevents early allergic airway diseases in mouse offspring. Pediatr Allergy Immunol. 31 (8), 962-973 (2020).
  42. Childs, E. J., et al. Association of common susceptibility variants of pancreatic cancer in higher-risk patients: A PACGENE study. Cancer Epidemiol Biomarkers Prev. 25 (7), 1185-1191 (2016).
  43. Wang, C., et al. Thailandepsins: bacterial products with potent histone deacetylase inhibitory activities and broad-spectrum antiproliferative activities. J Nat Prod. 74 (10), 2031-2038 (2011).
  44. Lv, X., et al. Transcriptional dysregulations of seven non-differentially expressed genes as biomarkers of metastatic colon cancer. Genes (Basel). 14 (6), 1138 (2023).
  45. Li, X., et al. Undifferentially expressed CXXC5 as a transcriptionally regulatory biomarker of breast cancer. Advanced Biology. , (2023).
  46. Yuan, W., et al. The N6-methyladenosine reader protein YTHDC2 promotes gastric cancer progression via enhancing YAP mRNA translation. Transl Oncol. 16, 101308 (2022).
  47. Tanabe, A., et al. RNA helicase YTHDC2 promotes cancer metastasis via the enhancement of the efficiency by which HIF-1α mRNA is translated. Cancer Lett. 376 (1), 34-42 (2016).
check_url/66030?article_type=t

Play Video

Cite This Article
Li, K., Fan, Y., Liu, Y., Liu, H., Zhang, G., Duan, M., Huang, L., Zhou, F. Generating the Transcriptional Regulation View of Transcriptomic Features for Prediction Task and Dark Biomarker Detection on Small Datasets. J. Vis. Exp. (205), e66030, doi:10.3791/66030 (2024).

View Video