Generating the Transcriptional Regulation View of Transcriptomic Features for Prediction Task and Dark Biomarker Detection on Small Datasets

Kewei Li; Yusi Fan; Yaqing Liu; Hongmei Liu; Gongyou Zhang; Meiyu Duan; Lan Huang; Fengfeng Zhou

doi:10.3791/66030

JoVE Journal > Biology

Please note that all translations are automatically generated. Click here for the English version.

Biologia

छोटे डेटासेट पर भविष्यवाणी कार्य और डार्क बायोमार्कर डिटेक्शन के लिए ट्रांसक्रिप्टोमिक सुविधाओं का ट्रांसक्रिप्शनल विनियमन दृश्य उत्पन्न करना

Published: March 01, 2024

doi:

10.3791/66030

Kewei Li, Yusi Fan, Yaqing Liu, Hongmei Liu, Gongyou Zhang, Meiyu Duan, Lan Huang, Fengfeng Zhou

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University, ²School of Biology and Engineering,Guizhou Medical University

Summary

यहां, हम ट्रांसक्रिप्टोमिक डेटा को mqTrans व्यू में बदलने के लिए एक प्रोटोकॉल पेश करते हैं, जिससे डार्क बायोमार्कर की पहचान सक्षम हो जाती है। जबकि पारंपरिक ट्रांसक्रिप्टोमिक विश्लेषणों में अलग-अलग व्यक्त नहीं किए गए हैं, ये बायोमार्कर mqTrans दृश्य में अंतर अभिव्यक्ति प्रदर्शित करते हैं। दृष्टिकोण पारंपरिक तरीकों के लिए एक पूरक तकनीक के रूप में कार्य करता है, जो पहले अनदेखी बायोमार्कर का अनावरण करता है।

Abstract

ट्रांसक्रिप्टोम एक नमूने में कई जीनों के अभिव्यक्ति स्तर का प्रतिनिधित्व करता है और जैविक अनुसंधान और नैदानिक अभ्यास में व्यापक रूप से उपयोग किया गया है। शोधकर्ताओं ने आमतौर पर एक फेनोटाइप समूह और नमूनों के नियंत्रण समूह के बीच अंतर प्रतिनिधित्व के साथ ट्रांसक्रिप्टोमिक बायोमार्कर पर ध्यान केंद्रित किया। इस अध्ययन ने संदर्भ नमूनों के जटिल अंतर-जेनिक इंटरैक्शन को सीखने के लिए एक मल्टीटास्क ग्राफ-ध्यान नेटवर्क (जीएटी) सीखने की रूपरेखा प्रस्तुत की। एक प्रदर्शनकारी संदर्भ मॉडल को स्वस्थ नमूनों (हेल्थमॉडल) पर पूर्व-प्रशिक्षित किया गया था, जिसका उपयोग सीधे स्वतंत्र परीक्षण ट्रांसक्रिप्टोम के मॉडल-आधारित मात्रात्मक ट्रांसक्रिप्शनल विनियमन (एमक्यूट्रांस) दृश्य उत्पन्न करने के लिए किया जा सकता है। ट्रांसक्रिप्टोम के उत्पन्न mqTrans दृश्य को भविष्यवाणी कार्यों और अंधेरे बायोमार्कर का पता लगाने द्वारा प्रदर्शित किया गया था। गढ़ा गया शब्द “डार्क बायोमार्कर” इसकी परिभाषा से उपजा है कि एक अंधेरे बायोमार्कर ने mqTrans दृश्य में अंतर प्रतिनिधित्व दिखाया लेकिन इसके मूल अभिव्यक्ति स्तर में कोई अंतर अभिव्यक्ति नहीं है। अंतर अभिव्यक्ति की अनुपस्थिति के कारण पारंपरिक बायोमार्कर डिटेक्शन अध्ययनों में एक अंधेरे बायोमार्कर को हमेशा अनदेखा किया गया था। स्रोत कोड और पाइपलाइन HealthModelPipe के मैनुअल को http://www.healthinformaticslab.org/supp/resources.php से डाउनलोड किया जा सकता है।

Introduction

ट्रांसक्रिप्टोम में एक नमूने में सभी जीनों के भाव होते हैं और इसे माइक्रोएरे और आरएनए-सीक्यू¹ जैसी उच्च-थ्रूपुट तकनीकों द्वारा प्रोफाइल किया जा सकता है। डेटासेट में एक जीन के अभिव्यक्ति स्तर को ट्रांसक्रिप्टोमिक फीचर कहा जाता है, और फेनोटाइप और नियंत्रण समूहों के बीच एक ट्रांसक्रिप्टोमिक फीचर का अंतर प्रतिनिधित्व इस जीन को इस फेनोटाइप ^2,3 के बायोमार्कर के रूप में परिभाषित करता है। ट्रांसक्रिप्टोमिक बायोमार्कर का उपयोग रोग निदान⁴, जैविक तंत्र⁵, और उत्तरजीविता विश्लेषण ^6,7, आदि की जांच में बड़े पैमाने पर किया गया है।

स्वस्थ ऊतकों में जीन गतिविधि पैटर्न ^8,9 जीवन के बारे में महत्वपूर्ण जानकारी ले. ये पैटर्न अमूल्य अंतर्दृष्टि प्रदान करते हैं और सौम्य विकारों ^10,11 और घातक रोगों¹² के जटिल विकास प्रक्षेपवक्र को समझने के लिए आदर्श संदर्भ के रूप में कार्य करते हैं। जीन एक दूसरे के साथ बातचीत करते हैं, और प्रतिलेख उनकी जटिल बातचीत के बाद अंतिम अभिव्यक्ति स्तरों का प्रतिनिधित्व करते हैं। इस तरह के पैटर्न ट्रांसक्रिप्शनल रेगुलेशन नेटवर्क¹³ और मेटाबॉलिज्म नेटवर्क¹⁴, आदि के रूप में तैयार किए जाते हैं। मैसेंजर आरएनए (एमआरएनए) की अभिव्यक्तियों को ट्रांसक्रिप्शन कारकों (टीएफ) और लंबे इंटरजेनिक गैर-कोडिंग आरएनए (लिंसीआरएनए)15,16,17द्वारा ट्रांसक्रिप्शनल रूप से विनियमित किया जा सकता है। पारंपरिक अंतर अभिव्यक्ति विश्लेषण अंतर-सुविधा स्वतंत्रता^18,19 की धारणा के साथ इस तरह के जटिल जीन इंटरैक्शन को नजरअंदाज कर दिया।

ग्राफ तंत्रिका नेटवर्क (जीएनएन) में हाल की प्रगति कैंसर अध्ययन²⁰ के लिए ओएमआईसी आधारित डेटा से महत्वपूर्ण जानकारी निकालने में असाधारण क्षमता का प्रदर्शन, उदाहरण के लिए, सह-अभिव्यक्ति मॉड्यूल²¹ की पहचान करना. जीएनएन की जन्मजात क्षमता उन्हें जीन^22,23 के बीच जटिल संबंधों और निर्भरता मॉडलिंग के लिए आदर्श प्रदान करती है।

बायोमेडिकल अध्ययन अक्सर नियंत्रण समूह के खिलाफ एक फेनोटाइप की सटीक भविष्यवाणी करने पर ध्यान केंद्रित करते हैं। इस तरह के कार्यों को आमतौर पर द्विआधारी वर्गीकरण^24,25,26 के रूप में तैयार किया जाता है। यहां, दो वर्ग लेबल आम तौर पर 1 और 0, सही और गलत, या यहां तक कि सकारात्मक और नकारात्मक²⁷ के रूप में एन्कोड किए जाते हैं।

इस अध्ययन का उद्देश्य पूर्व-प्रशिक्षित ग्राफ-ध्यान नेटवर्क (GAT) संदर्भ मॉडल के आधार पर एक ट्रांसक्रिप्शनल डेटासेट के ट्रांसक्रिप्शनल रेगुलेशन (mqTrans) दृश्य को उत्पन्न करने के लिए उपयोग में आसान प्रोटोकॉल प्रदान करना है। पहले प्रकाशित कार्य²⁶ से मल्टीटास्क जीएटी फ्रेमवर्क का उपयोग ट्रांसक्रिप्टोमिक सुविधाओं को mqTrans सुविधाओं में बदलने के लिए किया गया था। कैलिफोर्निया विश्वविद्यालय, सांता क्रूज़ (UCSC) Xena प्लेटफ़ॉर्म²⁸ से स्वस्थ ट्रांसक्रिपटोम का एक बड़ा डेटासेट संदर्भ मॉडल (HealthModel) को पूर्व-प्रशिक्षित करने के लिए उपयोग किया गया था, जिसने मात्रात्मक रूप से नियामक कारकों (TFs और lincRNAs) से प्रतिलेखन नियमों को मापा लक्ष्य mRNAs के लिए। उत्पन्न mqTrans दृश्य का उपयोग भविष्यवाणी मॉडल बनाने और अंधेरे बायोमार्कर का पता लगाने के लिए किया जा सकता है। यह प्रोटोकॉल एक उदाहरण उदाहरण के रूप में कैंसर जीनोम एटलस (टीसीजीए) डेटाबेस²⁹ से कोलन एडेनोकार्सिनोमा (सीओएडी) रोगी डेटासेट का उपयोग करता है। इस संदर्भ में, चरण I या II में रोगियों को नकारात्मक नमूने के रूप में वर्गीकृत किया जाता है, जबकि चरण III या IV में सकारात्मक नमूने माने जाते हैं। 26 टीसीजीए कैंसर प्रकारों में अंधेरे और पारंपरिक बायोमार्कर के वितरण की भी तुलना की जाती है।

HealthModel पाइपलाइन का विवरण
इस प्रोटोकॉल में नियोजित पद्धति पहले प्रकाशित ढांचे²⁶ पर आधारित है, जैसा कि चित्र 1में उल्लिखित है। शुरू करने के लिए, उपयोगकर्ताओं को इनपुट डेटासेट तैयार करने, इसे प्रस्तावित हेल्थमॉडल पाइपलाइन में फीड करने और mqTrans सुविधाएँ प्राप्त करने की आवश्यकता होती है। विस्तृत डेटा तैयार करने के निर्देश प्रोटोकॉल अनुभाग की धारा 2 में प्रदान किए जाते हैं। इसके बाद, उपयोगकर्ताओं के पास mqTrans सुविधाओं को मूल ट्रांसक्रिप्टोमिक सुविधाओं के साथ संयोजित करने या केवल उत्पन्न mqTrans सुविधाओं के साथ आगे बढ़ने का विकल्प होता है। उत्पादित डेटासेट को तब एक सुविधा चयन प्रक्रिया के अधीन किया जाता है, जिसमें उपयोगकर्ताओं को वर्गीकरण के लिए k-fold क्रॉस-सत्यापन में k के लिए अपना पसंदीदा मान चुनने की सुविधा होती है। इस प्रोटोकॉल में उपयोग किया जाने वाला प्राथमिक मूल्यांकन मीट्रिक सटीकता है।

हेल्थमॉडल²⁶ ट्रांसक्रिप्टोमिक विशेषताओं को तीन अलग-अलग समूहों में वर्गीकृत करता है: टीएफ (ट्रांसक्रिप्शन फैक्टर), लिनसीआरएनए (लंबी इंटरजेनिक गैर-कोडिंग आरएनए), और एमआरएनए (मैसेंजर आरएनए)। TF सुविधाओं मानव प्रोटीन एटलस^30,31 में उपलब्ध एनोटेशन के आधार पर परिभाषित कर रहे हैं. यह कार्य GTEx डेटासेट³² से lincRNAs के एनोटेशन का उपयोग करता है। KEGG डेटाबेस³³ में तीसरे स्तर के रास्ते से संबंधित जीन को mRNA सुविधाओं के रूप में माना जाता है। यह ध्यान देने योग्य है कि यदि एक एमआरएनए सुविधा टीआरआरयूटी डेटाबेस³⁴ में प्रलेखित लक्ष्य जीन के लिए नियामक भूमिकाओं को प्रदर्शित करती है, तो इसे टीएफ वर्ग में पुनर्वर्गीकृत किया जाता है।

यह प्रोटोकॉल मैन्युअल रूप से नियामक कारकों (regulatory_geneIDs.csv) और लक्ष्य एमआरएनए (target_geneIDs.csv) के जीन आईडी के लिए दो उदाहरण फाइलें भी उत्पन्न करता है। नियामक सुविधाओं (TFs और lincRNAs) के बीच जोड़ीदार दूरी मैट्रिक्स की गणना पियर्सन सहसंबंध गुणांक द्वारा की जाती है और लोकप्रिय उपकरण भारित जीन सह-अभिव्यक्ति नेटवर्क विश्लेषण (WGCNA)³⁶ (adjacent_matrix.csv) द्वारा क्लस्टर किया जाता है। उपयोगकर्ता ट्रांसक्रिप्टोमिक डेटासेट के mqTrans दृश्य को उत्पन्न करने के लिए इन उदाहरण कॉन्फ़िगरेशन फ़ाइलों के साथ सीधे HealthModel पाइपलाइन का उपयोग कर सकते हैं।

HealthModel के तकनीकी विवरण
हेल्थमॉडल एक ग्राफ के रूप में टीएफ और लिनसीआरएनए के बीच जटिल संबंधों का प्रतिनिधित्व करता है, जिसमें इनपुट फीचर्स वी द्वारा निरूपित कोने के रूप में कार्य करते हैं और ई के रूप में नामित एक इंटर-वर्टेक्स एज मैट्रिक्स है। प्रत्येक नमूने को K नियामक विशेषताओं की विशेषता है, जिसे V^K×1 के रूप में दर्शाया गया है। विशेष रूप से, डेटासेट में 425 TFs और 375 lincRNAs शामिल थे, जिसके परिणामस्वरूप K = 425 + 375 = 800 की नमूना आयामीता होती है। एज मैट्रिक्स ई को स्थापित करने के लिए, इस काम ने लोकप्रिय टूल WGCNA³⁵ को नियोजित किया। और , के रूप में प्रतिनिधित्व किए गए दो शीर्षों को जोड़ने वाले युग्मित वजन पियर्सन सहसंबंध गुणांक द्वारा निर्धारित किया जाता है। जीन नियामक नेटवर्क एक स्केल-फ्री टोपोलॉजी³⁶ प्रदर्शित करता है, जो निर्णायक कार्यात्मक भूमिकाओं के साथ हब जीन की उपस्थिति की विशेषता है। हम दो विशेषताओं या शीर्षों के बीच सहसंबंध की गणना करते हैं, और , टोपोलॉजिकल ओवरलैप माप (टीओएम) का उपयोग निम्नानुसार करते हैं:

(1)

(2)

सॉफ्ट थ्रेशोल्ड β की गणना WGCNA पैकेज से ‘pickSoft थ्रेशोल्ड’ फ़ंक्शन का उपयोग करके की जाती है। पावर एक्सपोनेंशियल फ़ंक्शन a_ij लागू किया जाता है, जहां i और j को छोड़कर एक जीन का प्रतिनिधित्व करता है, और शीर्ष कनेक्टिविटी का प्रतिनिधित्व करता है। डब्ल्यूजीसीएनए आमतौर पर नियोजित असमानता उपाय का उपयोग करके कई मॉड्यूल में ट्रांसक्रिप्टोमिक सुविधाओं की अभिव्यक्ति प्रोफाइल को क्लस्टर करता है (³⁷.

HealthModel ढांचे मूल रूप से एक multitask सीखने वास्तुकला²⁶ के रूप में डिजाइन किया गया था. यह प्रोटोकॉल केवल ट्रांसक्रिप्टोमिक mqTrans दृश्य के निर्माण के लिए मॉडल पूर्व-प्रशिक्षण कार्य का उपयोग करता है। उपयोगकर्ता अतिरिक्त कार्य-विशिष्ट ट्रांसक्रिप्टोमिक नमूनों के साथ मल्टीटास्क ग्राफ ध्यान नेटवर्क के तहत पूर्व-प्रशिक्षित हेल्थमॉडल को और परिष्कृत करना चुन सकता है।

सुविधा चयन और वर्गीकरण के तकनीकी विवरण
सुविधा चयन पूल ग्यारह सुविधा चयन (एफएस) एल्गोरिदम लागू करता है। उनमें से, तीन फ़िल्टर-आधारित FS एल्गोरिदम हैं: अधिकतम सूचना गुणांक (SK_mic) का उपयोग करके K सर्वोत्तम सुविधाओं का चयन करना, MIC (SK_fpr) के FPR के आधार पर K सुविधाओं का चयन करना, और MIC (SK_fdr) की उच्चतम झूठी खोज दर के साथ K सुविधाओं का चयन करना। इसके अतिरिक्त, तीन पेड़-आधारित एफएस एल्गोरिदम गिनी इंडेक्स (DT_gini), अनुकूली बूस्टेड निर्णय पेड़ (एडाबूस्ट), और यादृच्छिक वन (RF_fs) के साथ एक निर्णय पेड़ का उपयोग करके व्यक्तिगत विशेषताओं का आकलन करते हैं। पूल में दो रैपर विधियां भी शामिल हैं: रैखिक समर्थन वेक्टर क्लासिफायरियर (RFE_SVC) के साथ रिकर्सिव फीचर एलिमिनेशन और लॉजिस्टिक रिग्रेशन क्लासिफायरियर (RFE_LR) के साथ रिकर्सिव फीचर एलिमिनेशन। अंत में, दो एम्बेडिंग एल्गोरिदम शामिल हैं: शीर्ष क्रम के L1 फीचर महत्व मूल्यों (lSVC_L1) के साथ रैखिक SVC क्लासिफायरियर और शीर्ष क्रम के L1 फीचर महत्व मूल्यों (LR_L1) के साथ लॉजिस्टिक रिग्रेशन क्लासिफायरियर।

क्लासिफायरियर पूल वर्गीकरण मॉडल बनाने के लिए सात अलग-अलग क्लासिफायर को नियुक्त करता है। इन क्लासिफायरों में रैखिक समर्थन वेक्टर मशीन (SVC), गाऊसी Naïve Bayes (GNB), लॉजिस्टिक रिग्रेशन क्लासिफायरियर (LR), k-निकटतम पड़ोसी, k डिफ़ॉल्ट रूप से 5 पर सेट (KNN), XGBoost, यादृच्छिक वन (RF), और निर्णय वृक्ष (DT) शामिल हैं।

ट्रेन में डेटासेट का यादृच्छिक विभाजन: परीक्षण सबसेट कमांड लाइन में सेट किया जा सकता है। प्रदर्शित उदाहरण ट्रेन के अनुपात का उपयोग करता है: परीक्षण = 8: 2।

Protocol

नोट: निम्नलिखित प्रोटोकॉल प्रमुख मॉड्यूल के सूचना विज्ञान विश्लेषणात्मक प्रक्रिया और पायथन कमांड के विवरण का वर्णन करता है। चित्रा 2 इस प्रोटोकॉल में उपयोग किए गए उदाहरण आदेशों के साथ तीन …

Representative Results

ट्रांसक्रिप्टोमिक डेटासेट के mqTrans दृश्य का मूल्यांकनपरीक्षण कोड ग्यारह फीचर चयन (एफएस) एल्गोरिदम और सात क्लासिफायर का उपयोग करता है ताकि यह मूल्यांकन किया जा सके कि ट्रांसक्रिप्टोमिक डेटासेट…

Discussion

प्रोटोकॉल की धारा 2 (mqTrans सुविधाओं को उत्पन्न करने के लिए पूर्व-प्रशिक्षित HealthModel का उपयोग करें) इस प्रोटोकॉल के भीतर सबसे महत्वपूर्ण कदम है। अनुभाग 1 में कम्प्यूटेशनल कार्य वातावरण तैयार करने के बाद, अनुभा…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

इस काम को सीनियर और जूनियर टेक्नोलॉजिकल इनोवेशन टीम (20210509055RQ), गुइझोउ प्रांतीय विज्ञान और प्रौद्योगिकी परियोजनाओं (ZK2023-297), गुइझोउ प्रांत के स्वास्थ्य आयोग के विज्ञान और प्रौद्योगिकी फाउंडेशन (gzwkj2023-565), जिलिन प्रांत के शिक्षा विभाग की विज्ञान और प्रौद्योगिकी परियोजना (JJKH20220245KJ और JJKH20220226SK), चीन के राष्ट्रीय प्राकृतिक विज्ञान फाउंडेशन (U19A2061), बिग डेटा इंटेलिजेंट कंप्यूटिंग की जिलिन प्रांतीय कुंजी प्रयोगशाला द्वारा समर्थित किया गया था (20180622002JC), और केंद्रीय विश्वविद्यालयों के लिए मौलिक अनुसंधान निधि, JLU। हम समीक्षा संपादक और तीन अनाम समीक्षकों को उनकी रचनात्मक आलोचनाओं के लिए अपनी ईमानदारी से प्रशंसा करते हैं, जो इस प्रोटोकॉल की कठोरता और स्पष्टता को काफी हद तक बढ़ाने में सहायक रहे हैं।

Materials

Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software

Riferimenti

Mutz, K. -. O., Heilkenbrinker, A., Lönne, M., Walter, J. -. G., Stahl, F. Transcriptome analysis using next-generation sequencing. Curr Opin in Biotechnol. 24 (1), 22-30 (2013).
Meng, G., Tang, W., Huang, E., Li, Z., Feng, H. A comprehensive assessment of cell type-specific differential expression methods in bulk data. Brief Bioinform. 24 (1), 516 (2023).
Iqbal, N., Kumar, P. Integrated COVID-19 Predictor: Differential expression analysis to reveal potential biomarkers and prediction of coronavirus using RNA-Seq profile data. Comput Biol Med. 147, 105684 (2022).
Ravichandran, S., et al. VB(10), a new blood biomarker for differential diagnosis and recovery monitoring of acute viral and bacterial infections. EBioMedicine. 67, 103352 (2021).
Lv, J., et al. Targeting FABP4 in elderly mice rejuvenates liver metabolism and ameliorates aging-associated metabolic disorders. Metabolism. 142, 155528 (2023).
Cruz, J. A., Wishart, D. S. Applications of machine learning in cancer prediction and prognosis. Cancer Inform. 2, 59-77 (2007).
Cox, D. R. . Analysis of Survival Data. , (2018).
Newman, A. M., et al. Robust enumeration of cell subsets from tissue expression profiles. Nat Methods. 12 (5), 453-457 (2015).
Ramilowski, J. A., et al. A draft network of ligand-receptor-mediated multicellular signalling in human. Nat Commun. 6 (1), 7866 (2015).
Xu, Y., et al. MiR-145 detection in urinary extracellular vesicles increase diagnostic efficiency of prostate cancer based on hydrostatic filtration dialysis method. Prostate. 77 (10), 1167-1175 (2017).
Wang, Y., et al. Profiles of differential expression of circulating microRNAs in hepatitis B virus-positive small hepatocellular carcinoma. Cancer Biomark. 15 (2), 171-180 (2015).
Hu, S., et al. Transcriptional response profiles of paired tumor-normal samples offer novel. Oncotarget. 8 (25), 41334-41347 (2017).
Xu, H., Luo, D., Zhang, F. DcWRKY75 promotes ethylene induced petal senescence in carnation (Dianthus caryophyllus L). Plant J. 108 (5), 1473-1492 (2021).
Niu, H., et al. Dynamic role of Scd1 gene during mouse oocyte growth and maturation. Int J Biol Macromol. 247, 125307 (2023).
Aznaourova, M., et al. Single-cell RNA sequencing uncovers the nuclear decoy lincRNA PIRAT as a regulator of systemic monocyte immunity during COVID-19. Proc Natl Acad Sci U S A. 119 (36), 2120680119 (2022).
Prakash, A., Banerjee, M. An interpretable block-attention network for identifying regulatory feature interactions. Brief Bioinform. 24 (4), (2023).
Zhai, Y., et al. Single-cell RNA sequencing integrated with bulk RNA sequencing analysis reveals diagnostic and prognostic signatures and immunoinfiltration in gastric cancer. Comput Biol Med. 163, 107239 (2023).
Duan, L., et al. Dynamic changes in spatiotemporal transcriptome reveal maternal immune dysregulation of autism spectrum disorder. Comput Biol Med. 151, 106334 (2022).
Zolotareva, O., et al. Flimma: a federated and privacy-aware tool for differential gene expression analysis). Genome Biol. 22 (1), 338 (2021).
Su, R., Zhu, Y., Zou, Q., Wei, L. Distant metastasis identification based on optimized graph representation of gene. Brief Bioinform. 23 (1), (2022).
Xing, X., et al. Multi-level attention graph neural network based on co-expression gene modules for disease diagnosis and prognosis. Bioinformatics. 38 (8), 2178-2186 (2022).
Bongini, P., Pancino, N., Scarselli, F., Bianchini, M. . BioGNN: How Graph Neural Networks Can Solve Biological Problems. Artificial Intelligence and Machine Learning for Healthcare: Vol. 1: Image and Data Analytics. , (2022).
Muzio, G., O’Bray, L., Borgwardt, K. Biological network analysis with deep learning. Brief Bioinform. 22 (2), 1515-1530 (2021).
Luo, H., et al. Multi-omics integration for disease prediction via multi-level graph attention network and adaptive fusion. bioRxiv. , (2023).
Feng, X., et al. Selecting multiple biomarker subsets with similarly effective binary classification performances. J Vis Exp. (140), e57738 (2018).
Duan, M., et al. Orchestrating information across tissues via a novel multitask GAT framework to improve quantitative gene regulation relation modeling for survival analysis. Brief Bioinform. 24 (4), (2023).
Chicco, D., Starovoitov, V., Jurman, G. The benefits of the Matthews correlation Coefficient (MCC) over the diagnostic odds ratio (DOR) in binary classification assessment. IEEE Access. 9, 47112-47124 (2021).
Goldman, M. J., et al. Visualizing and interpreting cancer genomics data via the Xena platform. Nat Biotechnol. 38 (6), 675-678 (2020).
Liu, J., et al. An integrated TCGA pan-cancer clinical data resource to drive high-quality survival outcome analytics. Cell. 173 (2), 400-416 (2018).
Uhlen, M., et al. Towards a knowledge-based human protein atlas. Nat Biotechnol. 28 (12), 1248-1250 (2010).
Hernaez, M., Blatti, C., Gevaert, O. Comparison of single and module-based methods for modeling gene regulatory. Bioinformatics. 36 (2), 558-567 (2020).
Consortium, G. The genotype-tissue expression (GTEx) project. Nat Genet. 45 (6), 580-585 (2013).
Kanehisa, M., et al. KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51, D587-D592 (2023).
Han, H., et al. TRRUST v2: an expanded reference database of human and mouse transcriptional. Nucleic Acids Res. 46, D380-D386 (2018).
Langfelder, P., Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics. 9, 559 (2008).
Sulaimanov, N., et al. Inferring gene expression networks with hubs using a degree weighted Lasso. Bioinformatics. 35 (6), 987-994 (2019).
Kogelman, L. J. A., Kadarmideen, H. N. Weighted Interaction SNP Hub (WISH) network method for building genetic networks. BMC Syst Biol. 8, 5 (2014).
Duan, M., et al. Pan-cancer identification of the relationship of metabolism-related differentially expressed transcription regulation with non-differentially expressed target genes via a gated recurrent unit network. Comput Biol Med. 148, 105883 (2022).
Duan, M., et al. Detection and independent validation of model-based quantitative transcriptional regulation relationships altered in lung cancers. Front Bioeng Biotechnol. 8, 582 (2020).
Fiorini, N., Lipman, D. J., Lu, Z. Towards PubMed 2.0. eLife. 6, 28801 (2017).
Liu, J., et al. Maternal microbiome regulation prevents early allergic airway diseases in mouse offspring. Pediatr Allergy Immunol. 31 (8), 962-973 (2020).
Childs, E. J., et al. Association of common susceptibility variants of pancreatic cancer in higher-risk patients: A PACGENE study. Cancer Epidemiol Biomarkers Prev. 25 (7), 1185-1191 (2016).
Wang, C., et al. Thailandepsins: bacterial products with potent histone deacetylase inhibitory activities and broad-spectrum antiproliferative activities. J Nat Prod. 74 (10), 2031-2038 (2011).
Lv, X., et al. Transcriptional dysregulations of seven non-differentially expressed genes as biomarkers of metastatic colon cancer. Genes (Basel). 14 (6), 1138 (2023).
Li, X., et al. Undifferentially expressed CXXC5 as a transcriptionally regulatory biomarker of breast cancer. Advanced Biology. , (2023).
Yuan, W., et al. The N6-methyladenosine reader protein YTHDC2 promotes gastric cancer progression via enhancing YAP mRNA translation. Transl Oncol. 16, 101308 (2022).
Tanabe, A., et al. RNA helicase YTHDC2 promotes cancer metastasis via the enhancement of the efficiency by which HIF-1α mRNA is translated. Cancer Lett. 376 (1), 34-42 (2016).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

Li, K., Fan, Y., Liu, Y., Liu, H., Zhang, G., Duan, M., Huang, L., Zhou, F. Generating the Transcriptional Regulation View of Transcriptomic Features for Prediction Task and Dark Biomarker Detection on Small Datasets. J. Vis. Exp. (205), e66030, doi:10.3791/66030 (2024).