Biology

生成转录组学特征的转录调控视图，用于小型数据集上的预测任务和暗生物标志物检测

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

在这里，我们介绍了一种将转录组数据转换为mqTrans视图的协议，从而能够识别暗生物标志物。虽然在常规转录组学分析中没有差异表达，但这些生物标志物在 mqTrans 视图中表现出差异表达。该方法是对传统方法的补充技术，揭示了以前被忽视的生物标志物。

Abstract

转录组代表样品中许多基因的表达水平，已广泛应用于生物学研究和临床实践中。研究人员通常专注于在表型组和对照组样本之间具有差异表示的转录组生物标志物。本研究提出了一个多任务图-注意力网络（GAT）学习框架来学习参考样本的复杂基因间相互作用。在健康样本（HealthModel）上预训练了一个示范参考模型，该模型可直接用于生成独立测试转录组的基于模型的定量转录调控（mqTrans）视图。通过预测任务和暗生物标志物检测证明了生成的转录组 mqTrans 视图。创造的术语“暗生物标志物”源于其定义，即暗生物标志物在 mqTrans 视图中显示差异表示，但在其原始表达水平上没有差异表达。由于缺乏差异表达，在传统的生物标志物检测研究中，深色生物标志物总是被忽视。管道 HealthModelPipe 的源代码和手册可以从 http://www.healthinformaticslab.org/supp/resources.php 下载。

Introduction

转录组由样品中所有基因的表达组成，可通过微阵列和 RNA-seq¹ 等高通量技术进行分析。数据集中一个基因的表达水平称为转录组学特征，表型组和对照组之间转录组特征的差异表示将该基因定义为该表型的生物标志物 ^2,3。转录组生物标志物在疾病诊断⁴、生物学机制⁵和生存分析⁶^、⁷等研究中得到广泛应用。

健康组织中的基因活性模式携带有关生命的重要信息^8,9。这些模式提供了宝贵的见解，并作为理解良性疾病^10,11和致命疾病¹²的复杂发展轨迹的理想参考。基因相互作用，转录组代表其复杂相互作用后的最终表达水平。这种模式被表述为转录调控网络¹³和代谢网络¹⁴等。信使RNA（mRNA）的表达可以通过转录因子（TFs）和长基因间非编码RNA（lincRNA）进行转录调控15,16,17。传统的差异表达分析忽略了这种复杂的基因相互作用，并假设特征间独立^性18,19。

图神经网络（GNN）的最新进展表明，在从基于 OMIC 的数据中提取重要信息用于癌症研究²⁰ 方面具有非凡的潜力，例如，识别共表达模块²¹。GNNs的先天能力使它们成为模拟基因之间错综复杂的关系和依赖关系的理想选择^22,23。

生物医学研究通常侧重于准确预测对照组的表型。这些任务通常表述为二元分类24,25,26。在这里，两个类标签通常编码为 1 和 0、true 和 false，甚至正负²⁷。

本研究旨在提供一种易于使用的协议，用于基于预训练的图注意力网络（GAT）参考模型生成转录组数据集的转录调控（mqTrans）视图。先前发表的工作²⁶ 中的多任务 GAT 框架用于将转录组学特征转换为 mqTrans 特征。使用来自加州大学圣克鲁斯分校（UCSC） Xena 平台²⁸ 的大型健康转录组数据集对参考模型（HealthModel）进行预训练，该模型定量测量了从调节因子（TF 和 lincRNA）到靶 mRNA 的转录调控。生成的 mqTrans 视图可用于构建预测模型和检测暗生物标志物。该协议利用来自癌症基因组图谱（TCGA）数据库²⁹ 的结肠腺癌（COAD）患者数据集作为说明性示例。在这种情况下，I 期或 II 期的患者被归类为阴性样本，而 III 期或 IV 期的患者被视为阳性样本。还比较了 26 种 TCGA 癌症类型中深色和传统生物标志物的分布。

HealthModel 管道的说明
该协议中采用的方法基于先前发布的框架²⁶，如 图 1 所示。首先，用户需要准备输入数据集，将其输入到建议的 HealthModel 管道中，并获取 mqTrans 特征。详细的数据制备说明在协议部分的第 2 节中提供。随后，用户可以选择将 mqTrans 特征与原始转录组特征相结合，或者仅继续使用生成的 mqTrans 特征。然后，生成的数据集将进行特征选择过程，用户可以灵活地在 k 倍交叉验证中选择他们的首选 k 值进行分类。该协议中使用的主要评估指标是准确性。

HealthModel²⁶ 将转录组学特征分为三个不同的组：TF（转录因子）、lincRNA（长基因间非编码 RNA）和 mRNA（信使 RNA）。TF 特征是根据人类蛋白质图谱^30,31 中可用的注释定义的。这项工作利用了 GTEx 数据集³² 中 lincRNA 的注释。属于 KEGG 数据库³³ 中第三级通路的基因被认为是 mRNA 特征。值得注意的是，如果 mRNA 特征表现出 TRRUST 数据库³⁴ 中记录的靶基因的调控作用，则将其重新分类为 TF 类。

该协议还手动生成调节因子（regulatory_geneIDs.csv）和靶标 mRNA （target_geneIDs.csv）的基因 ID 的两个示例文件。调控特征（TFs和lincRNAs）之间的成对距离矩阵由Pearson相关系数计算，并通过流行的工具加权基因共表达网络分析（WGCNA）³⁶ （adjacent_matrix.csv）进行聚类。用户可以直接将 HealthModel 管道与这些示例配置文件一起使用，以生成转录组数据集的 mqTrans 视图。

HealthModel的技术细节
HealthModel 将 TF 和 lincRNA 之间的复杂关系表示为图形，输入特征用作 V 表示的顶点，顶点间边矩阵指定为 E。每个样品都具有 K 调控特征，符号为 V^K×1。具体来说，数据集包含 425 个 TF 和 375 个 lincRNA，样本维数为 K = 425 + 375 = 800。为了建立边矩阵 E，这项工作使用了流行的工具 WGCNA³⁵。连接两个顶 Equation 1 点的成对权重表示为和 Equation 2 ，由 Pearson 相关系数确定。基因调控网络表现出无标度拓扑^结构36，其特征在于存在具有关键功能作用的枢纽基因。我们使用拓扑重叠度量（TOM）计算两个要素或顶点之间的相关性，如下所示：

Equation 3 (1)

Equation 4 (2)

软阈值β是使用 WGCNA 软件包中的“pickSoft Threshold”函数计算的。应用幂指数函数 _{a ij}，其中 Equation 5 表示不包括 i 和 j 的基因，并表示 Equation 6 顶点连通性。WGCNA 使用常用的差异度量将转录组学特征的表达谱聚类到多个模块中（ Equation 7 ³⁷.

HealthModel 框架最初被设计为多任务学习架构²⁶.该协议仅利用模型预训练任务来构建转录组mqTrans视图。用户可以选择使用额外的特定任务转录组样本在多任务图注意力网络下进一步完善预训练的 HealthModel。

特征选择和分类的技术细节
特征选择池实现了 11 种特征选择（FS）算法。其中，基于滤波器的FS算法有三种：使用最大信息系数（SK_mic）选择K个最佳特征，根据MIC的FPR（SK_fpr）选择K个特征，选择MIC错误发现率最高的K个特征（SK_fdr）。此外，三种基于树的 FS 算法使用具有 Gini 指数（DT_gini）、自适应提升决策树（AdaBoost）和随机森林（RF_fs）的决策树来评估单个特征。该池还包含两种包装方法：使用线性支持向量分类器（RFE_SVC）的递归特征消除和使用逻辑回归分类器（RFE_LR）的递归特征消除。最后，包括两种嵌入算法：具有排名靠前的 L1 特征重要性值（lSVC_L1）的线性 SVC 分类器和具有排名靠前的 L1 特征重要性值（LR_L1）的逻辑回归分类器。

分类器池使用七种不同的分类器来构建分类模型。这些分类器包括线性支持向量机（SVC）、高斯朴素贝叶斯（GNB）、逻辑回归分类器（LR）、k 最近邻（k 默认设置为 5 （KNN）、XGBoost、随机森林（RF）和决策树（DT）。

可以在命令行中设置数据集的随机拆分为训练：测试子集。演示的示例使用火车的比率：test = 8：2。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

注意：以下协议描述了主要模块的信息学分析过程和 Python 命令的详细信息。图 2 说明了该协议中使用的示例命令的三个主要步骤，有关更多技术细节，请参阅以前发表的作品^26,38。在计算机系统中的普通用户帐户下执行以下协议，并避免使用管理员或 root 帐户。这是一个计算协议，没有生物医学危害因素。

1. 准备 Python 环境

创建虚拟环境。
1. 本研究使用了 Python 编程语言和 Python 3.7 的 Python 虚拟环境（VE）。请按照下列步骤操作（图 3A）：
  conda create -n healthmodel python=3.7
  conda create 是用于创建新 VE 的命令。参数 -n 指定新环境的名称，在本例中为 healthmodel。 python=3.7 指定要安装的 Python 版本。选择支持上述命令的任何首选名称和 Python 版本。
2. 运行命令后，输出类似于 图 3B。输入 y 并等待该过程完成。
激活虚拟环境
1. 在大多数情况下，使用以下命令激活创建的 VE（图 3C）：
  conda 激活 healthmodel
2. 如果某些平台要求用户上传特定于平台的配置文件进行激活，请按照特定于平台的说明进行 VE 激活。
安装 PyTorch 1.13.1
1. PyTorch 是用于人工智能（AI）算法的流行 Python 包。以基于 CUDA 11.7 GPU 编程平台的 PyTorch 1.13.1 为例。在 https://pytorch.org/get-started/previous-versions/ 查找其他版本。使用以下命令（图 3D）：
  pip3 安装 torch torchvision torchaudio
  注意：强烈建议使用 PyTorch 版本 1.12 或更高版本。否则，安装所需的软件包 torch_geometric 可能具有挑战性，如torch_geometric官方网站上所述：https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html。
安装火炬几何的其他软件包
1. 按照 https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html 中的准则，使用命令安装以下软件包：torch_scatter、torch_sparse、torch_cluster 和 torch_spline_conv（图 3E）：
  pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
安装 torch-geometric 软件包。
1. 本研究需要 火炬几何 包的特定版本 2.2.0。运行命令（图 3F）：
  pip 安装 torch_geometric==2.2.0
安装其他软件包。
1. 像 pandas 这样的软件包通常默认可用。如果没有，请使用 pip 命令安装它们。例如，要安装 pandas 和 xgboost，请运行：
  pip 安装 pandas
  pip 安装 xgboost

2. 使用预训练的 HealthModel 生成 mqTrans 特征

下载代码和预训练模型。
1. 从网站下载代码和预训练的 HealthModel：http://www.healthinformaticslab.org/supp/resources.php，该网站名为 HealthModel-mqTrans-v1-00.tar.gz （图 4A）。下载的文件可以解压缩为用户指定的路径。已实施协议的详细表述和支持数据可在²⁶ 中找到。
引入参数以运行 HealthModel。
1. 首先，在命令行中将工作目录更改为 HealthModel-mqTrans 文件夹。使用以下语法运行代码：
  python main.py <数据文件夹> <模型文件夹> <输出文件夹>
  有关每个参数以及数据、模型和输出文件夹的详细信息如下：
  data 文件夹：这是源数据文件夹，每个数据文件都是 csv 格式。此数据文件夹包含两个文件（请参阅步骤 2.3 和 2.4 中的详细说明）。这些文件需要替换为个人数据。
  data.csv：转录组基质文件。第一行列出了特征（或基因）ID，第一列给出了样本ID。基因列表包括调控因子（TF 和 lincRNA）和调控的 mRNA 基因。
  label.csv：示例标签文件。第一列列出示例 ID，名称为“label”的列提供示例标签。
  model 文件夹：用于保存模型信息的文件夹：
  HealthModel.pth：预先训练的 HealthModel。
  regulatory_geneIDs.csv：本研究中使用的调控基因 ID。
  target_geneIDs.csv：本研究中使用的靶基因。
  adjacent_matrix.csv：调控基因的相邻基质。
  输出文件夹：输出文件写入此文件夹，由代码创建。
  test_target.csv：Z-归一化和插补后靶基因的基因表达值。
  pred_target.csv：靶基因的预测基因表达值。
  mq_target.csv：靶基因的预测基因表达值。
准备csv格式的转录组学矩阵文件。
1. 每行代表一个样本，每列代表一个基因（图4B）。将转录组数据矩阵文件命名为 data.csv 在 data 文件夹中。
  注意：此文件可以通过从 Microsoft Excel 等软件中以 .csv 格式手动保存数据矩阵来生成。转录组基质也可以通过计算机编程生成。
准备 csv 格式的标签文件。
1. 与转录组基质文件类似，将标签文件命名为数据文件夹中的label.csv（图4C）。
  注意：第一列给出了示例名称，每个示例的类标签在标题 为标签的列中给出。标签列中的 0 值表示此样本为负数，1 表示为阳性样本。
生成 mqTrans 特征。
1. 运行以下命令以生成 mqTrans 特征并获取 图 4D 所示的输出。mqTrans 特征将生成为文件 ./output/mq_targets.csv，标签文件将重新保存为文件 ./output/label.csv。为了便于进一步分析，mRNA基因的原始表达值也被提取为文件 ./output/test_target.csv。
  python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./输出

3. 选择 mqTrans 功能

功能选择代码的语法
1. 首先，将工作目录更改为 HealthModel-mqTrans 文件夹。使用以下语法：
  python ./FS_classification/testMain.py
  各参数详情如下：
  in-data-file：输入数据文件
  in-label-file：输入数据文件的标签
  输出文件夹：此文件夹中保存两个输出文件，包括 Output-score.xlsx （特征选择方法和对应分类器的精度）和 Output-SelectedFeatures.xlsx （每个特征选择算法的所选特征名称）。
  1. select_feature_number：选择要素数，范围从 1 到数据文件的特征数。
  2. test_size：设置要拆分的测试样品的比例。例如，0.2 表示输入数据集按 0.8：0.2 的比例随机拆分为 train：测试子集。
  3. combine：如果为 true，则将两个数据文件组合在一起以进行特征选择，即原始表达式值和 mqTrans 特征。如果为 false，则仅使用一个数据文件进行特征选择，即原始表达式值或 mqTrans 特征。
  4. 合并文件：如果合并为 true，请提供此文件名以保存合并的数据矩阵。
    注：此管道旨在演示生成的 mqTrans 特征在分类任务中如何执行，并直接使用第 2 节生成的文件进行以下操作。
运行特征选择算法以进行 mqTrans 特征选择。
1. 如果用户选择 mqTrans 特征或原始特征，则将 combine = False 。
2. 首先，选择 800 个原始特征，并将数据集拆分为训练：test=0.8：0.2：
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 False
3. 如果用户希望将 mqTrans 特征与原始表达式值组合以选择特征，则将 combine = True 转为。在这里，示范示例是选择 800 个特征并将数据集拆分为训练：test=0.8：0.2：
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  注意： 图 5 显示了输出信息。此协议所需的补充文件位于HealthModel-mqTrans-v1-00.tar文件夹（补充编码文件 1）中。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

评估转录组数据集的 mqTrans 视图
测试代码使用 11 种特征选择（FS）算法和 7 种分类器来评估转录组数据集生成的 mqTrans 视图对分类任务的贡献（图 6）。测试数据集由来自癌症基因组图谱（TCGA）数据库²⁹ 的 317 个结肠腺癌（COAD）组成。I期或II期的COAD患者被视为阴性样本，而III期或IV期的COAD患者为阳性样本。

测试代码中实现了 11 种 FS 算法。有三种基于滤波器的FS算法，包括通过MIC选择K最佳特征（SK_mic），通过MIC的FPR（SK_fpr）选择K特征，以及通过MIC的最高FDR（SK_fpr）选择K特征。三种基于树的FS算法分别通过基尼指数（DT_gini）、自适应提升决策树（AdaBoost）和随机森林（RF_fs）的决策树来评估各个特征。测试代码的 FS 池还评估两个包装器：使用线性支持向量分类器（SVC）（RFE_SVC）的递归特征消除（RFE）和使用逻辑回归分类器（RFE_LR）的 RFE，以及使用排名靠前的 L1 特征重要性值（lSVC_L1）的两种嵌入算法线性 SVC 分类器和具有排名靠前的 L1 特征重要性值（LR_L1）的逻辑回归分类器。

测试代码使用七种分类器构建分类模型，包括线性支持向量机（SVC）、高斯朴素贝叶斯（GNB）、逻辑回归分类器（LR）、k 最近邻、默认 k-5 （KNN）、XGBoost、随机森林（RF）和决策树（DT）。

图 6 显示了 mqTrans 特征、原始 mRNA 特征以及每种 FS 算法推荐的 mRNA 和 mqTrans 特征的组合子集的最大测试精度。

组合特征子集（mRNA+mqTrans）在“SK_fpr”FS方法上达到了最高的准确度0.7656，优于单个特征类型mqTrans（0.7188）和原始mRNA（0.7188）。对于其他 FS 算法，也可以观察到类似的模式。用户可以在输出文件 Output-SelectedFeatures.csv中检查所选要素。

检测深色生物标志物
先前的研究表明，表型组和对照组之间存在无差异表达的基因，其mqTrans值具有显着差异26,38,39。这些基因被称为暗生物标志物，因为传统的生物标志物检测研究通过它们的无差异表达忽略了它们。Microsoft Excel 中的统计分析函数 t.test 可用于定义如果统计 p 值小于 0.05 时以差分表示的特征。

在生成 mqTrans 值的 3062 个特征中，检测到 221 个暗生物标志物（图 7）。排名第三的基因ENSG00000163697（APBB2，淀粉样蛋白 β 前体蛋白结合家族 B 成员 2）显示出显着差异的 mqTrans 值（mqTrans.P = 2.03 x ^10-4），而其原始表达水平显示没有差异表达（mRNA.P = 3.80 x ^10-1）。关键字 APBB2 在 PubMed 数据库⁴⁰ 中命中了 27 篇出版物，但没有检测到与结肠或肠道的联系。

另一个基因ENSG00000048052（HDAC9，组蛋白脱乙酰酶9）具有差异表示的mqTrans值（mqTrans.P = 6.09 x ^10-3），同时在表型组和对照组之间保持几乎相同的正态分布（mRNA.P = 9.62 x ^10-1）。关键词 HDAC9 在 PubMed 数据库中发表了 417 篇出版物。三项研究还在摘要中提到了关键词“结肠”或“肠”41,42,43。但是，他们都没有研究HDAC9在结肠癌中的作用。

数据表明有必要从这些转录后活动中进一步评估这些深色生物标志物，例如翻译的蛋白质水平^44,45。

代谢相关深色和传统生物标志物的泛癌分布
筛选了与代谢相关的传统生物标志物，并将其与 TCGA 数据集³⁸ 中 26 种癌症类型的深色生物标志物进行了比较。两类生物标志物都经过统计评估，以辨别早期（I 期和 II 期）和晚期（III 期和 IV 期）癌症阶段的显着性水平。该评估对 p 值采用学生 t 检验，随后使用错误发现率（FDR）校正多重检验。 图 8 提供了 26 种癌症类型中每种癌症的详细数据。

FDR 校正的 p 值低于 0.05 的基因被归类为传统生物标志物。相比之下，深色生物标志物被定义为在 mqTrans 视图中 FDR 校正的 p 值低于 0.05 的生物标志物，同时在表达水平上没有表现出统计学上的显着差异。

图 9 显示，与大多数癌症类型的传统生物标志物相比，深色生物标志物普遍稀缺。值得注意的例外包括 BRCA、MESO 和 TGCT，它们表现出更普遍的深色生物标志物。研究表明，各种因素，包括转录因子、甲基化模式、基因突变和环境条件，都可以调节这些深色生物标志物的转录失调。由于重叠的非编码RNA转录本可能会混淆深色生物标志物的表达水平，可能会出现进一步的复杂性。一些暗生物标志物的转录失调得到了其差异蛋白水平^{的支持 44,45}。在传统研究中，暗生物标志物经常被忽视，并为未来的机制研究提供了有趣的途径。

图 1：此协议中的 HealthModel 和功能选择模块的概述。 如果用户熟悉 Python 编程，请替换特征选择池和分类器池中的特定算法。请点击这里查看此图的较大版本.

图 2：此协议的完整代码流。 （a）准备 Python 环境。首先，创建一个虚拟环境并安装基本软件包。有关综合说明，请参阅第 1 节。（b）生成 mqTrans 特征。通过逐步执行提供的代码来获取 mqTrans 功能部件。详细说明可在第 2 节中找到。（c）选择 mqTrans 功能。本节重点评估 mqTrans 功能。有关深入的详细信息，请参阅第 3 节。请点击这里查看此图的较大版本.

图 3：为 Python 准备环境。 （A）创建 healthmodel 的命令。（B）在创建 VE 过程中输入 y 。（C）激活 VE 的最常见命令。（D）安装火炬的命令 1.13.1。（E）为 火炬几何 包安装其他库。（F）安装 割炬几何 包。请点击这里查看此图的较大版本.

图 4：运行 HealthModel 以获取 mqTrans 功能部件。 （A）下载代码。（B）数据文件示例。每列都有一个调节因子的所有值，第一项是基因 ID。每行都给出给定样本的值，第一项是样本名称。（C）标签文件的示例。第一列给出示例名称，每个示例的类标签在标题为 label 的列中给出。标签列中的 0 值表示此样本处于活动状态，1 表示已死亡。（D） mqTrans 的输出。请点击这里查看此图的较大版本.

图 5：运行 mqTrans 特征的特征选择算法。 向用户显示特征选择算法的结果。请点击这里查看此图的较大版本.

图 6：每个特征选择算法的最大测试集精度。 横轴列出了特征选择算法，纵轴给出了精度值。直方图显示了三种设置的实验数据，即mqTrans、mRNA、mRNA+mqTrans。请点击这里查看此图的较大版本.

图 7：mqTrans 视图中 p 值最小的前 50 个暗生物标志物。 “黑暗生物标志物”一栏给出了黑暗生物标志物的名称。“mRNA.P”和“mqTrans.P”列是表型组和对照组之间的统计 t 检验 p 值。p 值的背景颜色介于 p 值 1.00（蓝色）和 0.00（红色）之间，白色表示 p 值 = 0.05。请点击这里查看此图的较大版本.

图 8：癌症基因组图谱（TCGA）中 26 种癌症在不同阶段的详细信息。 “队列”和“疾病组织”列描述了每个数据集的患者组和有疾病的组织。最后四列分别给出了发育阶段 I、II、III 和 IV 的样本数量。请点击这里查看此图的较大版本.

图 9：26 种癌症中暗生物标志物和传统生物标志物的数量。 横轴列出了 26 种癌症类型。纵轴给出了这些癌症类型的深色生物标志物和传统生物标志物的数量。请点击这里查看此图的较大版本.

补充编码文件1： HealthModel-mqTrans-v1-00.tar 请按此下载此文件。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

该协议的第 2 部分（使用预先训练的 HealthModel 生成 mqTrans 特征）是该协议中最关键的步骤。在第 1 节中准备计算工作环境后，第 2 节基于预训练的大型参考模型生成转录组数据集的 mqTrans 视图。第 3 节是为生物标志物检测和预测任务选择生成的 mqTrans 特征的示范性示例。用户可以使用自己的工具或代码在此 mqTrans 数据集上进行其他转录组学分析。

原始 HealthModel 框架可以使用多任务架构进一步完善预训练的 HealthModel，如²⁶ 中所述。该协议侧重于利用预训练的参考模型来生成转录组数据集的 mqTrans 视图。

默认的预训练参考模型是在健康样本上建立的，对于某些特定任务来说可能不是一个好的选择，例如，原发性和转移性癌症之间的研究。对于大型转录组数据集，计算速度也很慢。

该协议的意义在于提供最丰富的OMIC数据类型（即转录组）的互补mqTrans视图。从常规转录组学分析忽略的无差异表达基因中可以揭示暗生物标志物。最近的一项研究根据三个独立的队列（共 805 个样本）检测到转移性结肠癌（mCC）的七个深色生物标志物，共⁴⁴ 个样本。由于深色生物标志物的无差异表达，其湿实验室研究有限。然而，检测到的 mCC 暗生物标志物之一 YTHDC2 编码含有 2 的蛋白质 YTH 结构域，观察到其蛋白质水平与人胃癌^{细胞 46} 和结肠癌⁴⁷ 的转移状态呈正相关。暗生物标志物的新生物学见解仍有待通过体外和体内技术解决。

该协议被设计为完全模块化。在其他大型数据集（如原发性癌症）上预先训练的参考模型将有助于肿瘤转移的研究。该协议还将探索在其他生命领域的应用，包括植物、真菌和微生物。

该协议的计算效率计划通过并行化和算法优化来提高。

该协议描述了将转录组数据集转换为新的mqTrans视图的过程，并且转换后的基因mqTrans值定量测量与参考样品相比的转录调控变化。默认模型在健康转录组上进行了预训练，并作为参考 HealthModel 发布。

提供了两个下游任务的源代码，以方便生物医学研究人员轻松使用该协议。实验数据表明，仅使用原始表达水平，转换后的mqTrans特征可以改善预测任务。mqTrans 视图还可以揭示一些在原始转录组数据中没有差异表达的暗生物标志物的潜在表型连接。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

作者没有什么可透露的。

Acknowledgments

本研究得到了贵州省科技项目（ZK2023-297）、贵州省卫健委科技基金（gzwkj2023-565）、吉林省教育厅科技项目（JJKH20220245KJ JJKH20220226SK）、国家自然科学基金（U19A2061）、吉林省大数据智能计算重点实验室等单位的支持（20180622002JC）和中央高校基础科研基金（JLU.我们衷心感谢审稿编辑和三位匿名审稿人的建设性批评，这些批评在大大提高本协议的严谨性和清晰度方面发挥了重要作用。

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software