A Knowledge Graph Approach to Elucidate the Role of Organellar Pathways in Disease <em>via</em> Biomedical Reports

Alexander  R. Pelletier; Dylan Steinecke; Dibakar Sigdel; Irsyad Adam; J. Harry Caufield; Vladimir Guevara-Gonzalez; Joseph Ramirez; Aarushi Verma; Kaitlyn Bali; Katherine Downs; Wei Wang; Alex Bui; Peipei Ping

doi:10.3791/65084

JoVE Journal > Biochemistry

Please note that all translations are automatically generated. Click here for the English version.

Bioquímica

बायोमेडिकल रिपोर्ट के माध्यम से रोग में ऑर्गेनेलर मार्गों की भूमिका को स्पष्ट करने के लिए एक ज्ञान ग्राफ दृष्टिकोण

Published: October 13, 2023

doi:

10.3791/65084

Alexander R. Pelletier^2,3, Dylan Steinecke^3,4, Dibakar Sigdel, Irsyad Adam, J. Harry Caufield, Vladimir Guevara-Gonzalez, Joseph Ramirez, Aarushi Verma, Kaitlyn Bali, Katherine Downs, Wei Wang^2,3, Alex Bui⁴, Peipei Ping^2,3,4,5

¹Department of Physiology,UCLA School of Medicine, ²Scalable Analytics Institute (ScAi) at Department of Computer Science,UCLA School of Engineering, ³NIH BRIDGE2AI Center at UCLA & NHLBI Integrated Cardiovascular Data Science Training Program,UCLA, ⁴Medical Informatics,University of California at Los Angeles (UCLA), ⁵Department of Medicine (Cardiology),UCLA School of Medicine

Summary

बायोमेडिकल रिपोर्ट में वर्णित माइटोकॉन्ड्रियल प्रोटीन और कार्डियोवैस्कुलर बीमारी के साथ उनके संबंधों की जांच के लिए एक कम्प्यूटेशनल प्रोटोकॉल, केसओलैप लिफ्ट और एक उपयोग मामला प्रस्तुत किया जाता है। इस प्रोटोकॉल को उपयोगकर्ता द्वारा चयनित सेलुलर घटकों और रोगों का अध्ययन करने के लिए आसानी से अनुकूलित किया जा सकता है।

Abstract

बायोमेडिकल रिपोर्ट की तेजी से बढ़ती और विशाल मात्रा, प्रत्येक में कई संस्थाएं और समृद्ध जानकारी होती है, बायोमेडिकल टेक्स्ट-माइनिंग अनुप्रयोगों के लिए एक समृद्ध संसाधन का प्रतिनिधित्व करती है। ये उपकरण जांचकर्ताओं को रोग विकृति और चिकित्सीय में नई अंतर्दृष्टि को उजागर करने के लिए इन खोजों को एकीकृत, अवधारणा और अनुवाद करने में सक्षम बनाते हैं। इस प्रोटोकॉल में, हम टेक्स्ट डेटासेट (जैसे, बायोमेडिकल साहित्य) से उपयोगकर्ता-चयनित जानकारी निकालकर सेलुलर घटकों और उनके रोग संघों की जांच करने के लिए एक नई कम्प्यूटेशनल पाइपलाइन, केसओलैप लिफ्ट प्रस्तुत करते हैं। सॉफ्टवेयर रोग-प्रासंगिक दस्तावेजों के भीतर उप-सेलुलर प्रोटीन और उनके कार्यात्मक भागीदारों की पहचान करता है। सॉफ्टवेयर के लेबल लांछन विधि के माध्यम से अतिरिक्त रोग-प्रासंगिक दस्तावेजों की पहचान की जाती है। परिणामी प्रोटीन-रोग संघों को प्रासंगिक बनाने और कई प्रासंगिक बायोमेडिकल संसाधनों से जानकारी को एकीकृत करने के लिए, आगे के विश्लेषण के लिए स्वचालित रूप से एक ज्ञान ग्राफ का निर्माण किया जाता है। हम इस पद्धति का उपयोग करके अलग-अलग कार्डियोवैस्कुलर रोग फेनोटाइप्स में माइटोकॉन्ड्रियल प्रोटीन की भूमिका को स्पष्ट करने का एक उदाहरण प्रदान करने के लिए ऑनलाइन डाउनलोड किए गए ~ 34 मिलियन पाठ दस्तावेजों के संग्रह के साथ एक उपयोग मामला प्रस्तुत करते हैं। इसके अलावा, प्रोटीन और बीमारी के बीच पहले से रिपोर्ट नहीं किए गए संबंधों की भविष्यवाणी करने के लिए परिणामी ज्ञान ग्राफ पर एक गहन शिक्षण मॉडल लागू किया गया था, जिसके परिणामस्वरूप अनुमानित संभावनाओं >0.90 और परीक्षण सेट पर 0.91 के रिसीवर ऑपरेटिंग विशेषता वक्र (एयूआरओसी) के तहत एक क्षेत्र के साथ 1,583 संबंध थे। इस सॉफ्टवेयर में विश्लेषण के लिए उपलब्ध कच्चे डेटा के व्यापक दायरे के साथ एक अत्यधिक अनुकूलन योग्य और स्वचालित वर्कफ़्लो है; इसलिए, इस पद्धति का उपयोग करके, प्रोटीन-रोग संघों को एक टेक्स्ट कॉर्पस के भीतर बढ़ी हुई विश्वसनीयता के साथ पहचाना जा सकता है।

Introduction

रोग से संबंधित प्रोटीन का अध्ययन रोगजनन के वैज्ञानिक ज्ञान को बढ़ाता है और संभावित चिकित्सीय की पहचान करने में मदद करता है। बायोमेडिकल प्रकाशनों के कई बड़े पाठ निगम, जैसे कि PubMed के 34 मिलियन लेख जिनमें प्रकाशन शीर्षक, सार और पूर्ण-पाठ दस्तावेज शामिल हैं, नए निष्कर्षों की रिपोर्ट करते हैं जो प्रोटीन को बीमारियों से जोड़ते हैं। हालांकि, ये निष्कर्ष विभिन्न स्रोतों में खंडित हैं और नई बायोमेडिकल अंतर्दृष्टि उत्पन्न करने के लिए एकीकृत किया जाना चाहिए। प्रोटीन-रोग संघों 1,2,3,4,5,6,7 को एकीकृत करने के लिए कई जैव चिकित्सा संसाधन मौजूद हैं। हालांकि, ये क्यूरेटेड संसाधन अक्सर अधूरे होते हैं और नवीनतम शोध निष्कर्षों को शामिल नहीं कर सकते हैं। बड़े टेक्स्ट कॉर्पोरेट में प्रोटीन-रोग संघों को निकालने और संश्लेषित करने के लिए टेक्स्ट-माइनिंग दृष्टिकोण आवश्यक हैं, जिसके परिणामस्वरूप वैज्ञानिक साहित्य में इन बायोमेडिकल अवधारणाओं की अधिक व्यापक समझ होगी।

प्रोटीन-रोग संबंधों 8,9,10,11,12,13,14 को उजागर करने के लिए कई बायोमेडिकल टेक्स्ट-माइनिंग दृष्टिकोण मौजूद हैं, और अन्य पाठ ^13,15,16,17 में उल्लिखित प्रोटीन^, बीमारियों या अन्य बायोमेडिकल संस्थाओं की पहचान करके^{इन संबंधों को} निर्धारित करने में योगदान करते हैं^।^18,19. हालांकि, इनमें से कई उपकरणों में सबसे अद्यतित साहित्य तक पहुंच की कमी है, कुछ के अपवाद के साथ जो समय-समय पर^{अपडेट} किए जाते हैं 8,11,13,15। इसी तरह, कई उपकरणों में भी अध्ययन का सीमित दायरा होता है, क्योंकि वे व्यापक पूर्वनिर्धारित बीमारियों या प्रोटीन ^9,13 तक ही सीमित होते हैं। पाठ के भीतर झूठी सकारात्मकता की पहचान के लिए कई दृष्टिकोण भी प्रवण हैं; दूसरों ने इन मुद्दों को प्रोटीन नामों की एक व्याख्यायोग्य और वैश्विक ब्लैकलिस्ट ^9,11 या उससे कम व्याख्या योग्य नाम इकाई पहचान तकनीक ^15,20 के साथ संबोधित किया है। जबकि अधिकांश संसाधन केवल पूर्व-गणना किए गए परिणाम प्रस्तुत करते हैं, कुछ उपकरण वेब ऐप्स या सुलभ सॉफ़्टवेयर कोड 8,9,11 के माध्यम से अन्तरक्रियाशीलता प्रदान करते हैं।

उपरोक्त सीमाओं को संबोधित करने के लिए, हम निम्नलिखित प्रोटोकॉल, केसओएलएपी को लेबल लांछन और पूर्ण पाठ (CaseOLAP LIFT) के साथ प्रस्तुत करते हैं, जो प्रोटीन (जैसे, सेलुलर घटक से जुड़े प्रोटीन) और पाठ डेटासेट से बीमारियों के बीच संबंधों की जांच करने के लिए एक लचीला और अनुकूलन योग्य मंच है। इस प्लेटफ़ॉर्म में जीन ऑन्कोलॉजी (जीओ) शब्द-विशिष्ट प्रोटीन (जैसे, ऑर्गेनेल-विशिष्ट प्रोटीन), लापता दस्तावेज़ विषय लेबल के लांछन, पूर्ण-पाठ दस्तावेजों के विश्लेषण, साथ ही विश्लेषण उपकरण और भविष्य कहनेवाला उपकरण (चित्रा 1, चित्रा 2, और तालिका 1) के स्वचालित क्यूरेशन शामिल हैं। CaseOLAP लिफ्ट उपयोगकर्ता द्वारा प्रदान किए गए जीओ शब्दों (जैसे, ऑर्गेनेल कम्पार्टमेंट) और कार्यात्मक रूप से संबंधित प्रोटीन का उपयोग करके स्ट्रिंग²¹, रिएक्टोम 22, और जीआरएनडीबी²³ का उपयोग करके ऑर्गेनेल-विशिष्ट प्रोटीन को क्यूरेट करता है। रोग-अध्ययन दस्तावेजों की पहचान उनके PubMed-एनोटेटेड मेडिकल सब्जेक्ट हेडर (MeSH) लेबल द्वारा की जाती है। ~ 15.1% अनलेबल दस्तावेजों के लिए, लेबल को आरोपित किया जाता है यदि शीर्षक में कम से कम एक एमईएसएच शब्द पर्यायवाची पाया जाता है या सार में कम से कम दो पाए जाते हैं। यह पहले से अवर्गीकृत प्रकाशनों को पाठ-खनन विश्लेषण में विचार करने में सक्षम बनाता है। CaseOLAP LIFT उपयोगकर्ता को एक निर्दिष्ट समय सीमा (जैसे, 2012-2022) के भीतर प्रकाशनों के अनुभागों (जैसे, केवल शीर्षक और सार, पूर्ण पाठ, या विधियों को छोड़कर पूर्ण पाठ) का चयन करने की अनुमति देता है। सॉफ्टवेयर प्रोटीन नामों के उपयोग के मामले-विशिष्ट ब्लैकलिस्ट को अर्ध-स्वचालित रूप से क्यूरेट करता है, जो अन्य दृष्टिकोणों में मौजूद गलत-सकारात्मक प्रोटीन-रोग संघों को महत्वपूर्ण रूप से कम करता है। कुल मिलाकर, ये सुधार अधिक अनुकूलन और स्वचालन को सक्षम करते हैं, विश्लेषण के लिए उपलब्ध डेटा की मात्रा का विस्तार करते हैं, और बड़े बायोमेडिकल टेक्स्ट कॉर्पोरेट से अधिक आत्मविश्वास प्रोटीन-रोग संघ उत्पन्न करते हैं।

केसओलैप लिफ्ट बायोमेडिकल ज्ञान को शामिल करता है और एक ज्ञान ग्राफ का उपयोग करके विभिन्न बायोमेडिकल अवधारणाओं के संबंध का प्रतिनिधित्व करता है, जिसका उपयोग ग्राफ में छिपे हुए संबंधों की भविष्यवाणी करने के लिए किया जाता है। हाल ही में, ग्राफ-आधारित गणना विधियों को जैविक सेटिंग्स पर लागू किया गया है, जिसमें बायोमेडिकल अवधारणाओं 24,25 को एकीकृत और व्यवस्थित करना, दवा पुन: उपयोग और विकास 26,27,28^, और प्रोटिओमिक्स डेटा ²⁹ से नैदानिक निर्णय लेने के लिए शामिल हैं।

ज्ञान ग्राफ के निर्माण की सेटिंग में केसओलैप लिफ्ट की उपयोगिताओं को प्रदर्शित करने के लिए, हम माइटोकॉन्ड्रियल प्रोटीन और कार्डियोवैस्कुलर बीमारी की आठ श्रेणियों के बीच संबंधों की जांच पर एक उपयोग मामले को उजागर करते हैं। बीमारियों से जुड़े शीर्ष माइटोकॉन्ड्रियल प्रोटीन और मार्गों की पहचान करने के लिए ~ 362,000 रोग-प्रासंगिक दस्तावेजों के साक्ष्य का विश्लेषण किया गया था। इसके बाद, इन प्रोटीनों, उनके कार्यात्मक रूप से संबंधित प्रोटीन, और उनके पाठ-खनन परिणामों को एक ज्ञान ग्राफ में शामिल किया गया था। बायोमेडिकल प्रकाशनों के भीतर अब तक रिपोर्ट नहीं किए गए प्रोटीन-रोग संघों की भविष्यवाणी करने के लिए एक गहन सीखने-आधारित लिंक भविष्यवाणी विश्लेषण में इस ग्राफ का लाभ उठाया गया था।

परिचय अनुभाग हमारे प्रोटोकॉल की पृष्ठभूमि जानकारी और उद्देश्यों का वर्णन करता है। निम्न अनुभाग कम्प्यूटेशनल प्रोटोकॉल के चरणों का वर्णन करता है। इसके बाद, इस प्रोटोकॉल के प्रतिनिधि परिणाम वर्णित हैं। अंत में, हम संक्षेप में कम्प्यूटेशनल प्रोटोकॉल उपयोग मामलों, फायदे, कमियों और भविष्य के अनुप्रयोगों पर चर्चा करते हैं।

Protocol

1. डॉकर कंटेनर चलाना टर्मिनल विंडो का उपयोग करके और डॉकर पुल Caseolap / caseolap_lift: नवीनतम में टाइप करके CaseOLAP लिफ्ट डॉकर कंटेनर डाउनलोड करें। एक निर्देशिका बनाएं जो सभी प्रोग्राम डेटा और आउटपुट (जैसे mkdir caseolap_lift_shared_folder) को संग्रहीत करेगी। डॉकर कंटेनर को कमांड डॉकर रन के साथ प्रारंभ करें – नाम caseolap_lift – it-v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/caseolap_lift: नवीनतम बैश फ़ोल्डर के लिए पूर्ण फ़ाइल पथ के रूप में PATH_TO_FOLDER के साथ (उदाहरण के लिए, / उपयोगकर्ता caseolap_lift_shared_folder/ अनुभाग 2 से भविष्य के आदेश इस टर्मिनल विंडो पर जारी किए जाएंगे। कंटेनर के भीतर लोचदार खोज शुरू करें। एक नई टर्मिनल विंडो में, डॉकर एक्सेक टाइप करें – यह – उपयोगकर्ता लोचदार caseolap_lift बैश / कार्यस्थान / start_elastic_search.sh।नोट: इस प्रोटोकॉल में, CaseOLAP लिफ्ट को इंटरैक्टिव रूप से चलाया जाता है, जिसमें प्रत्येक चरण क्रमिक रूप से किया जाता है। इस विश्लेषण को पैरामीटर.txt फ़ाइल के रूप में पास करके एंड-टू-एंड भी निष्पादित किया जा सकता है। इस अध्ययन में उपयोग किए जाने वाले पैरामीटर .txt / कार्यक्षेत्र / caseolap_lift / पैरामीटर .txt में हैं। प्रत्येक चरण पर अधिक विवरण तक पहुंचने के लिए, -सहायता ध्वज के साथ कमांड चलाएं, या GitHub रिपॉजिटरी (https://github.com/CaseOLAP/caseolap_lift) पर दस्तावेज़ीकरण पर जाएं। 2. रोगों और प्रोटीन की तैयारी CD/कार्यस्थान/caseolap_lift के साथ caseolap_lift फ़ोल्डर पर नेविगेट करें सुनिश्चित करें कि config/knowledge_base_links.json में डाउनलोड लिंक प्रत्येक नॉलेज बेस संसाधन के नवीनतम संस्करण के लिए अद्यतित और सटीक हैं। डिफ़ॉल्ट रूप से, फ़ाइलें केवल एक बार डाउनलोड की जाती हैं; इन फ़ाइलों को अद्यतन करने और पुन: डाउनलोड करने के लिए, चरण 2.4 में -R के साथ प्रीप्रोसेसिंग चरण चलाएँ। इस अध्ययन के लिए उपयोग करने के लिए जीओ शब्द और रोग श्रेणियां निर्धारित करें। सभी GO शब्दों और MeSH पहचानकर्ताओं के लिए क्रमशः http://geneontology.org/ और https://meshb.nlm.nih.gov/ पर पहचानकर्ताओं का पता लगाएं। कमांड-लाइन विकल्पों का उपयोग करके प्री-प्रोसेसिंग मॉड्यूल निष्पादित करें। यह प्रीप्रोसेसिंग चरण निर्दिष्ट बीमारियों को इकट्ठा करता है, अध्ययन करने के लिए प्रोटीन को सूचीबद्ध करता है, और पाठ-खनन के लिए प्रोटीन समानार्थक शब्द इकट्ठा करता है। -सी ध्वज का उपयोग करके उपयोगकर्ता-परिभाषित अध्ययन किए गए जीओ शब्दों को इंगित करें और -डी ध्वज का उपयोग करके रोग एमईएसएच पेड़ संख्याएं, और -ए के साथ संक्षिप्तीकरण निर्दिष्ट करें।उदाहरण आदेश:पायथन caseolap_lift.py प्रीप्रोसेसिंग -ए “सीएम एआरआर सीएचडी वीडी आईएचडी सीसीडी वीओओ ओटीएच” -डी “सी14.280.238,सी14.280.434 सी14.280.067,सी23.550.073 सी14.280.400 सी14.280.484 सी14.280.484 सी14.280.647 सी14.280.123 सी14.280.280.123 सी14.280.280.280.123 सी14.280.280.280C14.280.945, C14.280.459, C14.280.720” -c “GO:0005739” –शामिल समानार्थी शब्द शामिल हैं – शामिल हैं-ppi -k 1 -s 0.99 – शामिल pw-n 4 -r 0.5 –tfd आउटपुट फ़ोल्डर में पिछले चरण से श्रेणियाँ.txt, core_proteins.txt, और proteins_of_interest.txt फ़ाइलें जाँचें। सुनिश्चित करें कि श्रेणियों में सभी रोग श्रेणियां.txt सही हैं और core_proteins.txt और proteins_of_interest.txt के भीतर उचित मात्रा में प्रोटीन की पहचान की जाती है। यदि आवश्यक हो, तो चरण 2.4 दोहराएं, और प्रोटीन की अधिक या कम संख्या को शामिल करने के लिए मापदंडों को संशोधित करें।नोट: अध्ययन में शामिल प्रोटीन की संख्या क्रमशः प्रोटीन-प्रोटीन इंटरैक्शन, साझा प्रतिक्रिया मार्ग वाले प्रोटीन और प्रतिलेखन कारक निर्भरता वाले प्रोटीन को शामिल करने के लिए शामिल करने के लिए शामिल किया जाता है। उनकी विशिष्ट कार्यक्षमता अतिरिक्त झंडे जैसे -k, -s, -n, और -r (प्रलेखन देखें) के साथ निर्दिष्ट की जाती है। 3. टेक्स्ट-माइनिंग सुनिश्चित करें कि पिछले चरण से श्रेणियाँ.txt, core_proteins.txt, और proteins_of_interest.txt फ़ाइलें आउटपुट फ़ोल्डर में पाई जाती हैं। पाठ-माइनिंग के लिए इनपुट के रूप में इन फ़ाइलों का उपयोग करें। वैकल्पिक रूप से, कॉन्फ़िगरेशन फ़ोल्डर में दस्तावेज़ पार्सिंग और अनुक्रमण से संबंधित कॉन्फ़िगरेशन समायोजित करें। कॉन्फ़िगरेशन और समस्या निवारण8 के बारे में अधिक जानकारी के लिए CaseOLAP प्रोटोकॉल का पिछला संस्करण देखें। पायथन caseolap_lift.py text_mining के साथ टेक्स्ट-माइनिंग मॉड्यूल निष्पादित करें। अवर्गीकृत दस्तावेज़ों के विषयों को आरोपित करने के लिए -l ध्वज जोड़ें और रोग-प्रासंगिक दस्तावेज़ों का पूरा पाठ डाउनलोड करने के लिए -t ध्वज जोड़ें। अन्य वैकल्पिक झंडे डाउनलोड करने के लिए प्रकाशनों की एक तिथि सीमा निर्दिष्ट करते हैं और प्रोटीन नामों को स्क्रीन करने के लिए विकल्प प्रदान करते हैं (चरण 3.3 में वर्णित)। पार्स किए गए दस्तावेज़ का एक नमूना चित्र 3 में दिखाया गया है।उदाहरण आदेश: पायथन caseolap_lift.py text_mining -डी “2012-10-01,2022-10-01” -एल -टीनोट: कम्प्यूटेशनल प्रोटोकॉल समय का एक बड़ा हिस्सा चरण 3.2 पर खर्च किया जाता है, जो संभावित रूप से 24 घंटे से अधिक हो सकता है। रनटाइम डाउनलोड किए जाने वाले टेक्स्ट कॉर्पस के आकार पर निर्भर करेगा, जो तिथि सीमा पर भी निर्भर करेगा और लेबल लांछन और पूर्ण-पाठ कार्यक्षमता सक्षम है या नहीं। (अनुशंसित) प्रोटीन नामों को स्क्रीन करें। रोग-प्रासंगिक प्रकाशनों में पहचाने गए प्रोटीन नाम प्रोटीन रोग संघों में योगदान करते हैं, लेकिन झूठे सकारात्मक (यानी, अन्य शब्दों के साथ होमोनिम्स) से ग्रस्त हैं। इसे संबोधित करने के लिए, एक ब्लैकलिस्ट (कॉन्फ़िगरेशन / remove_these_synonyms.txt) में संभावित होमोनिम्स की गणना करें ताकि उन्हें डाउनस्ट्रीम चरणों से बाहर रखा जा सके।निरीक्षण करने के लिए नाम ढूंढें: परिणाम फ़ोल्डर के तहत, all_proteins या core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) के तहत उच्चतम आवृत्ति वाले प्रोटीन नाम और रुचि के स्कोर के आधार पर ranked_proteins में फ़ोल्डरों के तहत उच्चतम स्कोर वाले प्रोटीन नाम ढूंढें। यदि कई नाम हैं, तो शीर्ष-स्कोरिंग नामों के निरीक्षण को प्राथमिकता दें। नामों का निरीक्षण करें: 10 नाम-युक्त प्रकाशनों को प्रदर्शित करने के लिए पाइथन caseolap_lift.py text_mining -सी टाइप करें और उसके बाद प्रोटीन नाम दें। फिर, प्रत्येक नाम के लिए, जांचें कि क्या नाम प्रोटीन-विशिष्ट है। स्कोर की पुन: गणना करें: पायथन caseolap_lift.py text_mining -एस टाइप करें। चरण 3.1, चरण 3.2, और चरण 3.3 को तब तक दोहराएँ जब तक कि चरण 3.1 में दिए गए नाम सही न दिखाई दें. 4. परिणामों का विश्लेषण सुनिश्चित करें कि पाठ-माइनिंग परिणाम परिणाम फ़ोल्डर (जैसे, परिणाम /all_proteins और परिणाम /core_proteins निर्देशिकाओं और संबंधित फ़ाइलों) में हैं, जिनका उपयोग विश्लेषण चरण के लिए इनपुट के रूप में किया जाएगा। विशेष रूप से, प्रत्येक प्रोटीन-रोग संघ की ताकत को इंगित करने वाला एक स्कोर कैसोलैप में रिपोर्ट किया गया है.csv टेक्स्ट-माइनिंग के परिणाम। विश्लेषण के लिए टेक्स्ट-माइनिंग परिणामों के किस सेट का उपयोग करना है, यह निर्दिष्ट करके इंगित करें कि analyze_core_proteins केवल जीओ-टर्म संबंधित प्रोटीन को शामिल करना है या सभी कार्यात्मक रूप से संबंधित प्रोटीनों को शामिल करने के लिए analyze_all_proteins है। प्रत्येक बीमारी के लिए शीर्ष प्रोटीन और मार्गों की पहचान करें। महत्वपूर्ण प्रोटीन-रोग संघों को उन लोगों के रूप में परिभाषित किया जाता है जिनके स्कोर एक निर्दिष्ट सीमा से अधिक होते हैं। जेड-स्कोर प्रत्येक रोग श्रेणी के भीतर केसओएलएपी स्कोर को बदल देता है, और एक निर्दिष्ट सीमा ( -जेड ध्वज द्वारा इंगित) से ऊपर के स्कोर वाले प्रोटीन को महत्वपूर्ण मानता है।नोट: प्रत्येक बीमारी के लिए महत्वपूर्ण जैविक मार्गों को स्वचालित रूप से प्रतिक्रिया मार्ग विश्लेषण के लिए इनपुट के रूप में महत्वपूर्ण प्रोटीन का उपयोग करके पहचाना जाता है। ऐसे सभी प्रोटीन analysis_results फ़ोल्डर में परिणामी result_table.csv में रिपोर्ट किए जाते हैं, और प्रासंगिक आंकड़े और मार्ग विश्लेषण परिणाम स्वचालित रूप से analysis_results फ़ोल्डर में उत्पन्न होते हैं।उदाहरण आदेश: पायथन caseolap_lift.py analyze_results -z 3.0 –analyze_core_proteins विश्लेषण परिणामों की समीक्षा करें, और आवश्यकतानुसार समायोजित करें। प्रोटीन की संख्या और इसलिए, प्रत्येक रोग श्रेणी के लिए महत्वपूर्ण समृद्ध प्रतिक्रिया मार्ग विश्लेषण में उपयोग किए जाने वाले जेड-स्कोर सीमा पर निर्भर करते हैं। उत्पादन/analysis_results/zscore_cutoff_table.csv पर उत्पन्न एक जेड-स्कोर तालिका, प्रत्येक रोग श्रेणी के लिए महत्वपूर्ण प्रोटीन की संख्या को इंगित करती है ताकि प्रत्येक रोग श्रेणी के लिए महत्वपूर्ण कई प्रोटीन ों का उत्पादन करते हुए जितना संभव हो उतना जेड-स्कोर सीमा के चयन में सहायता मिल सके। 5. पूर्वानुमानित विश्लेषण एक ज्ञान ग्राफ बनाएँ।सुनिश्चित करें कि आवश्यक फ़ाइलें परिणाम फ़ोल्डर में हैं, जिसमें all_proteins या core_proteins फ़ोल्डर्स (चरण 3.2) के तहत टेक्स्ट-माइनिंग परिणामों से प्रीप्रोसेसिंग (चरण 2.4) और कैसोलैप से उत्पन्न केजी फ़ोल्डर शामिल हैं.csv शामिल हैं। ज्ञान ग्राफ़ डिज़ाइन करें. डाउनस्ट्रीम कार्य के आधार पर, पूर्ण ज्ञान ग्राफ़ के घटकों को शामिल या बाहर करें। ज्ञान ग्राफ में टेक्स्ट-माइनिंग और चरण 2.4 (चित्रा 4) में उपयोग किए जाने वाले ज्ञान आधार संसाधनों के कनेक्शन से प्रोटीन-रोग स्कोर शामिल हैं। include_mesh झंडे के साथ एमईएसएच रोग वृक्ष, include_ppi के साथ स्ट्रिंग से प्रोटीन-प्रोटीन इंटरैक्शन, include_pw के साथ साझा प्रतिक्रिया मार्ग और जीआरएनडीबी / जीटीईएक्स से प्रतिलेखन कारक निर्भरता – include_tfd के साथ शामिल करें। ज्ञान ग्राफ़ निर्माण मॉड्यूल चलाएँ। निर्दिष्ट करके विश्लेषण के लिए टेक्स्ट-माइनिंग परिणामों के किस सेट का उपयोग करना है – analyze_core_proteins केवल जीओ-टर्म संबंधित प्रोटीन या सभी कार्यात्मक रूप से संबंधित प्रोटीन को शामिल करने के लिए analyze_all_proteins शामिल करना है। डिफ़ॉल्ट रूप से, कच्चे केसओएलएपी स्कोर प्रोटीन और रोग नोड्स के बीच किनारे के वजन के रूप में लोड किए जाते हैं; किनारे के वजन को मापने के लिए, -use_z_score, या गैर-नकारात्मक जेड-स्कोर को -scale_z_score के साथ इंगित करें।उदाहरण आदेश: पायथन caseolap_lift.py prepare_knowledge_graph –scale_z_score नए प्रोटीन-रोग संघों की भविष्यवाणी करें।सुनिश्चित करें कि ज्ञान ग्राफ़ फ़ाइलें, merged_edges.tsv और merged_nodes.tsv, पिछले चरण (चरण 5.1.3) से आउटपुट हैं। अजगर kg_analysis/run_kg_analysis.py टाइप करके वैज्ञानिक साहित्य में प्रोटीन-रोग संघों की भविष्यवाणी करने के लिए ज्ञान ग्राफ भविष्यवाणी स्क्रिप्ट चलाएं। यह ग्रैप30 के साथ लागू किया गया है और ज्ञान ग्राफ एम्बेडिंग का उत्पादन करने के लिए डिस्ट्रमल्ट31 का उपयोग करता है, जिसका उपयोग एक बहु-परत परसेप्ट्रॉन प्रोटीन-रोग संघों की भविष्यवाणी करने के लिए करता है। आउटपुट /kg_analysis फ़ोल्डर में, अनुमानित संभाव्यता >0.90 (भविष्यवाणियां.csv) और मॉडल मूल्यांकन मैट्रिक्स (eval_results.csv) के साथ भविष्यवाणियां सहेजी जाती हैं।नोट: इस काम में, चुने हुए मॉडल पैरामीटर (जैसे, एम्बेडिंग विधि, लिंक भविष्यवाणी मॉडल, हाइपरपैरामीटर) प्रतिनिधि अध्ययन के लिए तैयार किए गए थे। यह कोड एक उदाहरण और अन्य विश्लेषणों के लिए एक प्रारंभिक बिंदु के रूप में कार्य करता है। मॉडल मापदंडों का पता लगाने के लिए, ग्रैपे के प्रलेखन (https://github.com/AnacletoLAB/grape) को देखें।

Representative Results

माइटोकॉन्ड्रियल प्रोटीन (तालिका 2) और आठ हृदय रोग श्रेणियों (तालिका 3) के बीच संबंधों का अध्ययन करने के लिए इस प्रोटोकॉल के बाद प्रतिनिधि परिणाम तैयार किए गए थे। इन श्रेणियों में, हमें 2012 से अक्टूबर 2022 तक प्रकाशित 363,567 प्रकाशन मिले (362,878 एमईएसएच मेटाडेटा द्वारा वर्गीकृत, 6,923 लेबल लांछन द्वारा वर्गीकृत)। सभी प्रकाशनों में शीर्षक थे, 276,524 में सार था, और 51,065 में पूर्ण पाठ उपलब्ध था। कुल मिलाकर, प्रकाशनों के भीतर 1,687 पूछताछ किए गए माइटोकॉन्ड्रियल प्रोटीन में से 584 की पहचान की गई थी, जबकि उनके 8,026 में से 3,284 कार्यात्मक रूप से संबंधित प्रोटीन की पहचान की गई थी। कुल मिलाकर, सभी रोग श्रेणियों में महत्वपूर्ण स्कोर के साथ 14 अद्वितीय प्रोटीन की पहचान की गई, जिसमें 3.0 की जेड-स्कोर सीमा थी (चित्रा 5)। इन प्रोटीनों के रिएक्टोम मार्ग विश्लेषण ने सभी बीमारियों के लिए महत्वपूर्ण 12 मार्गों का खुलासा किया (चित्रा 6)। सभी प्रोटीन, मार्ग, रोग और स्कोर को एक ज्ञान ग्राफ (तालिका 4) में एकीकृत किया गया था। इस ज्ञान ग्राफ का उपयोग 12,688 नए प्रोटीन-रोग संघों की भविष्यवाणी करने के लिए किया गया था और 1,583 उच्च-आत्मविश्वास भविष्यवाणियों को प्राप्त करने के लिए 0.90 के संभाव्यता स्कोर के साथ फ़िल्टर किया गया था। दो प्रोटीन-रोग संघों का एक हाइलाइट किया गया उदाहरण चित्रा 7 में दिखाया गया है, जो प्रोटीन से संबंधित अन्य प्रासंगिक जैविक संस्थाओं के संदर्भ में सचित्र है। मॉडल मूल्यांकन मैट्रिक्स तालिका 5 में रिपोर्ट किए गए हैं। चित्र 1: वर्कफ़्लो का डायनेमिक दृश्य. यह आंकड़ा इस वर्कफ़्लो के चार प्रमुख चरणों का प्रतिनिधित्व करता है. सबसे पहले, प्रासंगिक प्रोटीन को उपयोगकर्ता द्वारा प्रदान किए गए जीओ शब्दों (जैसे, सेलुलर घटकों) के आधार पर क्यूरेट किया जाता है, और रोग श्रेणियां उपयोगकर्ता द्वारा प्रदान की गई बीमारी एमईएसएच पहचानकर्ताओं के आधार पर तैयार की जाती हैं। दूसरा, प्रोटीन और बीमारियों के बीच संबंधों की गणना पाठ-खनन चरण में की जाती है। एक निश्चित तिथि सीमा के भीतर प्रकाशन डाउनलोड और अनुक्रमित किए जाते हैं। रोग-अध्ययन प्रकाशनों की पहचान की जाती है (एमईएसएच लेबल के माध्यम से और वैकल्पिक रूप से आरोपित लेबल के माध्यम से), और उनके पूर्ण ग्रंथों को डाउनलोड और अनुक्रमित किया जाता है। प्रोटीन नामों को प्रकाशनों के भीतर पूछताछ की जाती है और प्रोटीन-रोग एसोसिएशन स्कोर की गणना करने के लिए उपयोग किया जाता है। इसके बाद, टेक्स्ट-माइनिंग के बाद, ये स्कोर शीर्ष प्रोटीन और मार्ग संघों की पहचान करने में मदद करते हैं। अंत में, बायोमेडिकल नॉलेज बेस के भीतर इन प्रोटीनों, बीमारियों और उनके संबंधों को शामिल करते हुए एक ज्ञान ग्राफ का निर्माण किया जाता है। निर्मित ज्ञान ग्राफ के आधार पर नवीन प्रोटीन-रोग संघों की भविष्यवाणी की जाती है। ये चरण बायोमेडिकल नॉलेज बेस और PubMed से सबसे हाल ही में उपलब्ध डेटा का उपयोग करते हैं। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें. चित्र 2: वर्कफ़्लो का तकनीकी आर्किटेक्चर। इस वर्कफ़्लो का तकनीकी विवरण इस आरेख में सचित्र है. उपयोगकर्ता रोग श्रेणियों और जीओ टर्म (एस) के एमईएसएच ट्री नंबर प्रदान करता है। पाठ दस्तावेज़ PubMed से डाउनलोड किए जाते हैं, रोग-प्रासंगिक दस्तावेजों की पहचान प्रदान किए गए MeSH लेबल के आधार पर की जाती है, और विषय-संकेत MeSH लेबल के बिना दस्तावेज़ ों को आरोपित श्रेणी लेबल प्राप्त होते हैं। प्रदान किए गए जीओ शब्द (ओं) से जुड़े प्रोटीन प्राप्त किए जाते हैं। इस प्रोटीन सेट को प्रोटीन को शामिल करने के लिए विस्तारित किया जाता है जो प्रोटीन-प्रोटीन इंटरैक्शन, साझा जैविक मार्गों और प्रतिलेखन कारक निर्भरता के माध्यम से कार्यात्मक रूप से संबंधित हैं। इन प्रोटीनों को रोग-प्रासंगिक दस्तावेजों के भीतर पूछताछ की जाती है और केसओएलएपी द्वारा स्कोर किया जाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें. चित्रा 3: संसाधित दस्तावेज़ का एक उदाहरण। एक पार्स किए गए, अनुक्रमित पाठ दस्तावेज़ का एक उदाहरण यहां प्रस्तुत किया गया है। क्रम में, प्रासंगिक फ़ील्ड अनुक्रमणिका नाम (_index, _type), PubMed ID (_id, pmid), दस्तावेज़ उपधाराएँ (शीर्षक, सार, full_text, परिचय, विधियाँ, परिणाम, चर्चा), और अन्य मेटाडेटा (वर्ष, MeSH, स्थान, पत्रिका) इंगित करते हैं. केवल प्रदर्शन उद्देश्यों के लिए, दस्तावेज़ उपखंडों को दीर्घवृत्त के साथ छोटा किया जाता है। MeSH फ़ील्ड में दस्तावेज़ विषय होते हैं, जिन्हें कभी-कभी हमारे लेबल-लांछन चरण द्वारा प्रदान किया जा सकता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें. चित्रा 4: ज्ञान ग्राफ स्कीमा और बायोमेडिकल संसाधन। यह आंकड़ा ज्ञान ग्राफ स्कीमा को दर्शाता है। प्रत्येक नोड और किनारा क्रमशः एक नोड या किनारे प्रकार का प्रतिनिधित्व करता है। कार्डियोवैस्कुलर बीमारियों (सीवीडी) और प्रोटीन के बीच के किनारों को केसओएलएपी स्कोर द्वारा भारित किया जाता है। प्रोटीन-प्रोटीन इंटरैक्शन (पीपीआई) किनारों को स्ट्रिंग आत्मविश्वास स्कोर द्वारा भारित किया जाता है। जीटीईएक्स-व्युत्पन्न प्रतिलेखन कारक निर्भरता (टीएफडी) किनारे, एमईएसएच-व्युत्पन्न रोग पेड़ के किनारे, और प्रतिक्रिया-व्युत्पन्न मार्ग किनारे अभारित हैं। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें. चित्रा 5: शीर्ष प्रोटीन-रोग संघ। यह आंकड़ा माइटोकॉन्ड्रियल प्रोटीन को प्रत्येक रोग श्रेणी के लिए महत्वपूर्ण प्रस्तुत करता है। 3.0 की सीमा का उपयोग करके महत्वपूर्ण प्रोटीन की पहचान करने के लिए प्रत्येक श्रेणी के भीतर केसओएलएपी स्कोर पर जेड-स्कोर परिवर्तन लागू किया गया था। (शीर्ष) प्रत्येक बीमारी के लिए महत्वपूर्ण माइटोकॉन्ड्रियल प्रोटीन की संख्या: ये वायलिन प्लॉट प्रत्येक रोग श्रेणी में प्रोटीन के लिए जेड-स्कोर के वितरण को दर्शाते हैं। प्रत्येक रोग श्रेणी के लिए महत्वपूर्ण प्रोटीन की कुल संख्या प्रत्येक वायलिन प्लॉट के ऊपर दिखाई गई है। सभी बीमारियों में कुल 14 अद्वितीय प्रोटीन ों की पहचान महत्वपूर्ण के रूप में की गई थी, और कुछ प्रोटीन कई बीमारियों के लिए महत्वपूर्ण थे। (नीचे) शीर्ष स्कोरिंग प्रोटीन: हीटमैप शीर्ष 10 प्रोटीन प्रदर्शित करता है जो सभी बीमारियों में उच्चतम औसत जेड-स्कोर प्राप्त करते हैं। रिक्त मान प्रोटीन और बीमारी के बीच कोई प्राप्त स्कोर का प्रतिनिधित्व नहीं करते हैं। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें. चित्रा 6: शीर्ष मार्ग-रोग संघ। यह आंकड़ा अध्ययन की गई रोग श्रेणियों से जुड़े शीर्ष जैविक मार्गों को दर्शाता है, जैसा कि प्रतिक्रिया मार्ग विश्लेषण के माध्यम से निर्धारित किया गया है। सभी मार्ग विश्लेषण पी < 0.05 के साथ फ़िल्टर किए गए थे। हीटमैप मान मार्ग के भीतर सभी प्रोटीनों के औसत जेड-स्कोर का प्रतिनिधित्व करते हैं। (शीर्ष) सभी बीमारियों के बीच संरक्षित मार्ग: कुल मिलाकर, 14 प्रोटीन ों को सभी रोग श्रेणियों के लिए प्रासंगिकता के साथ पहचाना गया था, और सभी रोग श्रेणियों के बीच 12 संरक्षित मार्गों का पता चला था। समान जैविक कार्यों के साथ मार्गों को जोड़ने के लिए मार्ग पदानुक्रमित संरचना के आधार पर एक डेंड्रोग्राम का निर्माण किया गया था। डेंड्रोग्राम ऊंचाई मार्ग पदानुक्रम के भीतर सापेक्ष गहराई का प्रतिनिधित्व करती है; व्यापक जैविक कार्यों में लंबे अंग होते हैं, और अधिक विशिष्ट मार्गों में छोटे अंग होते हैं। (नीचे) एक रोग श्रेणी से अलग मार्ग: प्रत्येक बीमारी में एक महत्वपूर्ण जेड-स्कोर प्राप्त करने वाले प्रोटीन का उपयोग करके पाथवे विश्लेषण किया गया था। प्रत्येक बीमारी से जुड़े सबसे कम पी-मूल्यों वाले शीर्ष तीन मार्गों को तारांकन द्वारा दिखाया और इंगित किया जाता है। रास्ते कई बीमारियों में शीर्ष तीन के भीतर हो सकते हैं। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें. चित्रा 7: ज्ञान ग्राफ पूरा करने के लिए गहरी शिक्षा का अनुप्रयोग। रोग-विशिष्ट ज्ञान ग्राफ पर गहरी शिक्षा लागू करने का एक उदाहरण इस आंकड़े में प्रस्तुत किया गया है। प्रोटीन और बीमारी के बीच छिपे हुए संबंधों की भविष्यवाणी की जाती है, और इन्हें नीले रंग में इंगित किया जाता है। दोनों भविष्यवाणियों के लिए गणना की गई संभावनाएं प्रदर्शित की जाती हैं, जिसमें 0.0 से 1.0 तक के मान होते हैं और 1.0 के साथ एक मजबूत भविष्यवाणी का संकेत मिलता है। ज्ञात इंटरैक्शन वाले कई प्रोटीन शामिल हैं, जो प्रोटीन-प्रोटीन इंटरैक्शन, प्रतिलेखन कारक निर्भरता और साझा जैविक मार्गों का प्रतिनिधित्व करते हैं। विज़ुअलाइज़ेशन के लिए, हाइलाइट किए गए उदाहरण की प्रासंगिकता के साथ कुछ नोड्स का एक सबग्राफ दिखाया गया है। कुंजी: आईएचडी = इस्केमिक हृदय रोग; आर-एचएसए-1430728 = चयापचय; O14949 = साइटोक्रोम बी-सी 1 कॉम्प्लेक्स सबयूनिट 8; पी 17568 = एनएडीएच डिहाइड्रोजनेज (यूबिक्विनोन) 1 बीटा सबकॉम्प्लेक्स सबयूनिट 7; Q9NYF8 Bcl-2-संबद्ध प्रतिलेखन कारक 1, स्कोर: 7.24 x 10−7; पी 49821 = एनएडीएच डिहाइड्रोजनेज (यूबिक्विनोन) फ्लैवोप्रोटीन 1, माइटोकॉन्ड्रियल, स्कोर: 1.06 x 10−5; पी 31930 = साइटोक्रोम बी-सी 1 कॉम्प्लेक्स सबयूनिट 1, माइटोकॉन्ड्रियल, स्कोर: 4.98 x 10−5; P99999 = साइटोक्रोम सी, स्कोर: 0.399। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें. तालिका 1: वर्कफ़्लो और दर-सीमित चरण. यह तालिका वर्कफ़्लो के प्रत्येक चरण के लिए कम्प्यूटेशनल समय के मोटे अनुमान प्रस्तुत करती है। पाइपलाइन के घटकों को शामिल करने के विकल्प विश्लेषण को पूरा करने के लिए आवश्यक कुल रनटाइम को बदल देंगे। हार्डवेयर विनिर्देशों और सॉफ्टवेयर सेटिंग्स सहित उपलब्ध कम्प्यूटेशनल संसाधनों के आधार पर कुल समय अनुमान भिन्न होता है। एक मोटे अनुमान के रूप में, प्रोटोकॉल को हमारे कम्प्यूटेशनल सर्वर पर निष्पादित करने के लिए 36 घंटे का सक्रिय रनटाइम लगा, जिसमें छह कोर, 32 जीबी रैम और 2 टीबी स्टोरेज था, लेकिन यह अन्य उपकरणों पर तेज या धीमा हो सकता है। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें। तालिका 2: सेलुलर घटक प्रोटीन की स्वचालित असेंबली। यह तालिका किसी दिए गए सेलुलर घटक (यानी, जीओ शब्द) से जुड़े प्रोटीन की संख्या को दर्शाती है, प्रोटीन-प्रोटीन इंटरैक्शन (पीपीआई), साझा मार्ग (पीडब्ल्यू), और प्रतिलेखन कारक निर्भरता (टीएफडी) के माध्यम से उनसे संबंधित प्रोटीन कार्यात्मक रूप से संबंधित हैं। कुल प्रोटीन की संख्या संयुक्त सभी पूर्व श्रेणियों से प्रोटीन की संख्या है। सभी कार्यात्मक रूप से संबंधित प्रोटीन केसओलैप लिफ्ट के डिफ़ॉल्ट मापदंडों का उपयोग करके प्राप्त किए गए थे। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें। तालिका 3: एमईएसएच लेबल-लांछन आंकड़े। यह तालिका रोग श्रेणियों, श्रेणी में शामिल सभी बीमारियों के मूल शब्द के रूप में उपयोग किए जाने वाले एमईएसएच ट्री नंबर, 2012-2022 से प्रत्येक श्रेणी में पाए जाने वाले पबमेड लेखों की संख्या और लेबल-लांछन चरण के आधार पर शामिल अतिरिक्त लेखों की संख्या प्रदर्शित करती है। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें। तालिका 4: ज्ञान ग्राफ निर्माण आंकड़े। यह तालिका निर्मित ज्ञान ग्राफ़ के आकार के आंकड़ों का वर्णन करती है, जिसमें विभिन्न नोड्स और किनारे प्रकार शामिल हैं। केसओएलएपी स्कोर एक प्रोटीन और कार्डियोवैस्कुलर बीमारी (सीवीडी) श्रेणी के बीच संबंधों का प्रतिनिधित्व करते हैं। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें। तालिका 5: ज्ञान ग्राफ भविष्यवाणी आंकड़े और सत्यापन। यह तालिका उपन्यास / छिपे हुए प्रोटीन-रोग संघों के ज्ञान ग्राफ लिंक भविष्यवाणी के लिए मूल्यांकन मैट्रिक्स की रिपोर्ट करती है। ज्ञान ग्राफ किनारों को 70/30 प्रशिक्षण और परीक्षण डेटासेट में विभाजित किया गया था, और किनारों की ग्राफ कनेक्टिविटी दोनों डेटासेट में संरक्षित की गई थी। सटीकता सही ढंग से वर्गीकृत भविष्यवाणियों के अनुपात को इंगित करती है, जबकि संतुलित सटीकता वर्ग असंतुलन के लिए सही होती है। विशिष्टता सही ढंग से वर्गीकृत नकारात्मक भविष्यवाणियों के अनुपात को इंगित करती है। परिशुद्धता सभी सकारात्मक भविष्यवाणियों में से सही सकारात्मक भविष्यवाणियों के अनुपात को इंगित करती है, जबकि रिकॉल सभी सकारात्मक किनारों (यानी, टेक्स्ट-माइनिंग के माध्यम से पहचाने जाने वाले प्रोटीन-रोग संघों) में से सही सकारात्मक भविष्यवाणियों के अनुपात को इंगित करता है। एफ 1 स्कोर परिशुद्धता और याद का हार्मोनिक माध्य है। रिसीवर ऑपरेटिंग विशेषता वक्र (AUROC) के तहत क्षेत्र बताता है कि मॉडल सकारात्मक और नकारात्मक भविष्यवाणियों के बीच कितनी अच्छी तरह अंतर करता है, जिसमें 1.0 एक आदर्श क्लासिफायर का संकेत देता है। प्रेसिजन-रिकॉल कर्व (एयूपीआरसी) के तहत क्षेत्र अलग-अलग संभाव्यता थ्रेसहोल्ड पर परिशुद्धता और रिकॉल के बीच व्यापार-बंद को मापता है, जिसमें उच्च मूल्य बेहतर प्रदर्शन का संकेत देते हैं। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें।

Discussion

केसओलैप लिफ्ट शोधकर्ताओं को कार्यात्मक प्रोटीन (जैसे, सेलुलर घटक, जैविक प्रक्रिया, या आणविक कार्य से जुड़े प्रोटीन) और जैविक श्रेणियों (जैसे, बीमारियों) के बीच संबंधों की जांच करने का अधिकार देता है। वर्णित प्रोटोकॉल को निर्दिष्ट अनुक्रम में निष्पादित किया जाना चाहिए, प्रोटोकॉल अनुभाग 2 और प्रोटोकॉल अनुभाग 3 सबसे महत्वपूर्ण कदम हैं, क्योंकि प्रोटोकॉल अनुभाग 4 और प्रोटोकॉल अनुभाग 5 उनके परिणामों पर निर्भर करते हैं। प्रोटोकॉल अनुभाग 1 के विकल्प के रूप में, CaseOLAP लिफ्ट कोड को GitHub रिपॉजिटरी (https://github.com/CaseOLAP/caseolap_lift) से क्लोन और एक्सेस किया जा सकता है। यह ध्यान दिया जाना चाहिए कि सॉफ्टवेयर विकास के दौरान परीक्षण के बावजूद, बग हो सकते हैं। यदि हां, तो असफल कदम दोहराया जाना चाहिए। यदि समस्या बनी रहती है, तो यह सुनिश्चित करने के लिए प्रोटोकॉल अनुभाग 1 को दोहराने की सिफारिश की जाती है कि डॉकर कंटेनर के नवीनतम संस्करण का उपयोग किया जाता है। अतिरिक्त समर्थन के लिए GitHub रिपॉजिटरी पर एक समस्या बनाकर आगे की सहायता उपलब्ध है।

यह विधि जांचकर्ताओं को रुचि की संस्थाओं की पहचान करने और उनके बीच संभावित संबंधों को प्रकट करने में सक्षम करके परिकल्पना पीढ़ी का समर्थन करती है, जो मौजूदा जैव चिकित्सा संसाधनों में आसानी से सुलभ नहीं हो सकती है। परिणामी प्रोटीन-रोग संघ शोधकर्ताओं को स्कोर की व्याख्या योग्य मैट्रिक्स के माध्यम से नई अंतर्दृष्टि प्राप्त करने की अनुमति देते हैं: लोकप्रियता स्कोर एक बीमारी के संबंध में सबसे अधिक अध्ययन किए गए प्रोटीन का संकेत देते हैं, विशिष्टता स्कोर प्रोटीन के लिए सबसे अद्वितीय बीमारियों का संकेत देते हैं, और संयुक्त केसओएलएपी स्कोर दोनों का एक संयोजन है। झूठी-सकारात्मक पहचान (जैसे, होमोनिम्स के कारण) को रोकने के लिए, कुछ टेक्स्ट-माइनिंग टूल ^9,11 से बचने के लिए शब्दों की ब्लैकलिस्ट का उपयोग करते हैं। इसी तरह, केसओलैप लिफ्ट भी एक ब्लैकलिस्ट का उपयोग करता है लेकिन उपयोगकर्ता को ब्लैकलिस्ट को उनके उपयोग के मामले में तैयार करने की अनुमति देता है। उदाहरण के लिए, कोरोनरी धमनी रोग (सीएडी) का अध्ययन करते समय, “सीएडी” को प्रोटीन “कैसपेज़-सक्रिय डीऑक्सीराइबोन्यूक्लिज़” का नाम नहीं माना जाना चाहिए। हालांकि, अन्य विषयों का अध्ययन करते समय, “सीएडी” आमतौर पर प्रोटीन का उल्लेख कर सकता है।

CaseOLAP लिफ्ट पाठ खनन के लिए उपलब्ध डेटा की मात्रा के अनुकूल है। तिथि सीमा कार्यक्षमता कम्प्यूटेशनल बोझ को कम करती है और परिकल्पना पीढ़ी के लिए लचीलापन पैदा करती है (उदाहरण के लिए, अध्ययन करना कि प्रोटीन-रोग संघ पर वैज्ञानिक ज्ञान समय के साथ कैसे बदल गया है)। इस बीच, लेबल लांछन और पूर्ण-पाठ घटक टेक्स्ट-माइनिंग के लिए उपलब्ध डेटा के दायरे को बढ़ाते हैं। कम्प्यूटेशनल लागत को कम करने के लिए दोनों घटक डिफ़ॉल्ट रूप से अक्षम हैं, लेकिन उपयोगकर्ता किसी भी घटक को शामिल करने का निर्णय ले सकता है। लेबल लांछन रूढ़िवादी है, और यह अधिकांश प्रकाशनों को सही ढंग से वर्गीकृत करता है (87% परिशुद्धता) लेकिन अन्य श्रेणी लेबल (2% रिकॉल) को याद करता है। यह विधि वर्तमान में एक नियम-आधारित अनुमानी पर निर्भर करती है जो रोग कीवर्ड से मेल खाती है, और दस्तावेज़ विषय मॉडलिंग तकनीकों के उपयोग के माध्यम से प्रदर्शन को बढ़ाने की योजना है। चूंकि कई अवर्गीकृत रिपोर्टें हाल के प्रकाशन होती हैं, इसलिए हाल की तिथि सीमा (जैसे, पिछले 3 वर्षों के भीतर सभी प्रकाशनों) की जांच करने वाले अध्ययनों को लेबल लांछन को अक्षम करके बेहतर सेवा दी जाती है। पूर्ण-पाठ घटक रनटाइम और संग्रहण आवश्यकताओं को बढ़ाता है। विशेष रूप से, केवल कुछ दस्तावेजों में पूर्ण पाठ उपलब्ध है (हमारे अध्ययन में दस्तावेजों का ~ 14%)। यह मानते हुए कि प्रकाशन ों के विधि अनुभाग में उल्लिखित प्रोटीन नामों के रोग विषयों से संबंधित होने की संभावना कम है, विधि अनुभाग को छोड़कर पूर्ण-पाठ लेखों को क्वेरी करने की सिफारिश की जाती है।

परिणामी प्रोटीन-रोग एसोसिएशन स्कोर पारंपरिक विश्लेषणों जैसे क्लस्टरिंग, आयामीता में कमी, या संवर्धन विश्लेषण (जैसे, जीओ, मार्ग) के लिए उपयोगी हैं, इस सॉफ्टवेयर पैकेज में शामिल कुछ कार्यान्वयन के साथ। मौजूदा बायोमेडिकल ज्ञान के भीतर इन स्कोर को प्रासंगिक बनाने के लिए, एक ज्ञान ग्राफ स्वचालित रूप से बनाया जाता है और ग्राफ विज़ुअलाइज़ेशन टूल (जैसे, नियो4जे³², साइटोस्केप³³) का उपयोग करके पता लगाया जा सकता है। ज्ञान ग्राफ का उपयोग भविष्य कहनेवाला विश्लेषण (उदाहरण के लिए, असूचित प्रोटीन-रोग संबंधों की लिंक भविष्यवाणी, प्रोटीन नेटवर्क का सामुदायिक पता लगाने, पुरस्कार एकत्र करने वाले पथ-चलने के तरीके) के लिए भी किया जा सकता है।

हमने अनुमानित प्रोटीन-रोग संघों के लिए मॉडल मूल्यांकन मैट्रिक्स की जांच की है (तालिका 5)। मॉडल प्रत्येक प्रोटीन-रोग संघ को 0.0 और 1.0 के बीच एक संभाव्यता स्कोर प्रदान करता है, जिसमें 1.0 के करीब स्कोर भविष्यवाणी में उच्च स्तर के आत्मविश्वास का संकेत देता है। मॉडल प्रदर्शन का आंतरिक मूल्यांकन, जो AUROC, सटीकता, संतुलित सटीकता, विशिष्टता और याद करने सहित विभिन्न मैट्रिक्स पर आधारित था, ने अपने काम में उत्कृष्ट समग्र प्रदर्शन का संकेत दिया। हालांकि, मूल्यांकन ने मॉडल की सटीकता (0.15) के लिए एक खराब स्कोर पर भी प्रकाश डाला, जिसके परिणामस्वरूप कम एयूपीआरसी और एफ 1 स्कोर दोनों थे। इस मीट्रिक को बेहतर बनाने के लिए भविष्य के अध्ययन मॉडल के समग्र प्रदर्शन को बढ़ाने में मदद करेंगे। हम कल्पना करते हैं कि यह अधिक परिष्कृत ज्ञान ग्राफ एम्बेडिंग और ग्राफ भविष्यवाणी मॉडल को लागू करके प्राप्त किया जा सकता है। मॉडल की 0.15 की सटीकता के आधार पर, जांचकर्ताओं को लगभग 15% सकारात्मक पहचान की उम्मीद करनी चाहिए; विशेष रूप से, मॉडल द्वारा अनुमानित सभी 12,688 प्रोटीन-रोग संघों में से, लगभग 15% सच्चे-सकारात्मक संघ हैं। इसे केवल उच्च संभावना स्कोर (जैसे, >0.90) के साथ प्रोटीन-रोग संघों पर विचार करके कम किया जा सकता है; हमारे उपयोग के मामले में, 0.90 की संभावना सीमा के साथ फ़िल्टरिंग ने 1,583 संघों की उच्च-आत्मविश्वास भविष्यवाणियों को जन्म दिया। जांचकर्ताओं को उच्च वैधता सुनिश्चित करने के लिए इन भविष्यवाणियों का मैन्युअल रूप से निरीक्षण करने में भी मदद मिल सकती है (उदाहरण के लिए चित्रा 7 देखें)। हमारी भविष्यवाणियों के एक बाहरी मूल्यांकन ने निर्धारित किया कि एक व्यापक क्यूरेटेड डेटाबेस DisGeNet¹⁹ से 310 प्रोटीन-रोग संघों में से 103 की पहचान हमारे टेक्स्ट-माइनिंग अध्ययन में की गई थी, और 88 अतिरिक्त संघों की भविष्यवाणी हमारे ज्ञान ग्राफ विश्लेषण द्वारा संभाव्यता स्कोर >0.90 के साथ की गई थी।

कुल मिलाकर, केसओलैप लिफ्ट में कार्यात्मक प्रोटीन समूहों और बड़े टेक्स्ट कॉर्पोरेट में बीमारी की कई श्रेणियों के बीच संबंधों के कस्टम विश्लेषण को डिजाइन करने में बेहतर लचीलापन और प्रयोज्यता है। यह पैकेज एक नए उपयोगकर्ता के अनुकूल कमांड लाइन इंटरफ़ेस में सुव्यवस्थित है और एक डॉकर कंटेनर के रूप में जारी किया गया है, इस प्रकार प्रोग्रामिंग वातावरण और सॉफ़्टवेयर निर्भरताओं को कॉन्फ़िगर करने से जुड़े मुद्दों को कम करता है। कार्डियोवैस्कुलर बीमारियों में माइटोकॉन्ड्रियल प्रोटीन का अध्ययन करने के लिए केसओलैप लिफ्ट पाइपलाइन को आसानी से अनुकूलित किया जा सकता है; उदाहरण के लिए, इस तकनीक के भविष्य के अनुप्रयोगों में किसी भी जीओ शर्तों और किसी भी बायोमेडिकल श्रेणी से जुड़े किसी भी प्रोटीन के बीच संबंधों की जांच शामिल हो सकती है। इसके अलावा, इस टेक्स्ट-माइनिंग प्लेटफॉर्म द्वारा पहचाने गए रैंक किए गए प्रोटीन-रोग संघ उन्नत प्राकृतिक भाषा तकनीकों के उपयोग के लिए डेटासेट की तैयारी में महत्वपूर्ण हैं। परिणामी ज्ञान ग्राफ जांचकर्ताओं को इन निष्कर्षों को जैविक रूप से सूचनात्मक ज्ञान में परिवर्तित करने में सक्षम बनाता है और अनुवर्ती ग्राफ-आधारित विश्लेषण की नींव रखता है।

Declarações

The authors have nothing to disclose.

Acknowledgements

इस कार्य को नेशनल इंस्टीट्यूट ऑफ हेल्थ (एनआईएच) आर 35 HL135772 पी.पी., एनआईएच टी32 HL13945 ए.आर.पी. और डी.एस., एनआईएच टी32 EB016640 ए.आर.पी., नेशनल साइंस फाउंडेशन रिसर्च ट्रेनीशिप (एनआरटी) 1829071 ए.आर.पी. और डी.एस., एनआईएच आर01 HL146739 से आई.ए., जे.आर., ए.वी., के.बी.

Materials

Software – Docker

Docker

N/A

docker.com

Referências

The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
Rehm, H. L., et al. ClinGen – The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
Caulfield, M., et al. . The National Genomics Research and Healthcare Knowledgebase. , (2019).
Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
Yu, K. -. H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
Wei, C. -. H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
Wei, C. -. H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
. Neo4j Graph Data Platform Available from: https://neo4j.com/ (2022)
Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citar este artigo

Pelletier, A. R., Steinecke, D., Sigdel, D., Adam, I., Caufield, J. H., Guevara-Gonzalez, V., Ramirez, J., Verma, A., Bali, K., Downs, K., Wang, W., Bui, A., Ping, P. A Knowledge Graph Approach to Elucidate the Role of Organellar Pathways in Disease via Biomedical Reports. J. Vis. Exp. (200), e65084, doi:10.3791/65084 (2023).

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Declarações

Acknowledgements

Materials

Referências

Tags

Play Video

Citar este artigo

View Video

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Declarações

Acknowledgements

Materials

Referências

Tags

Play Video

Citar este artigo

View Video

✖

To prove you're not a robot, please enter the text in the image below