हम एक प्रोटोकॉल और संबद्ध प्रोग्रामिंग कोड के साथ-साथ मेटाडाटा नमूनों को मुहावरे की क्लाउड-आधारित स्वचालित पहचान का समर्थन करने के लिए प्रस्तुत करते हैं-श्रेणी संघ जैव चिकित्सा साहित्य में उपयोगकर्ता चयनित ज्ञान डोमेन में अद्वितीय अवधारणाओं का प्रतिनिधित्व करता है । वाक्यांश-श्रेणी इस प्रोटोकॉल द्वारा मात्रा निर्धारित संघ चयनित ज्ञान डोमेन में गहराई विश्लेषण में सुविधा कर सकते हैं ।
जैव चिकित्सा शाब्दिक डेटा का तेजी से संचय अभी तक मैनुअल curation और विश्लेषण की मानवीय क्षमता से अधिक है, उपंयास पाठ खनन उपकरण आवश्यक वैज्ञानिक रिपोर्टों की बड़ी मात्रा से जैविक अंतर्दृष्टि निकालने के लिए । संदर्भ-संवेदी अर्थ ऑनलाइन एनालिटिकल प्रोसेसिंग (caseolap) पाइपलाइन, २०१६ में विकसित, सफलतापूर्वक मूलपाठ डेटा के विश्लेषण के माध्यम से यूज़र-डिफ़ाइंड वाक्यांश-श्रेणी संबंधों को quantifies. caseolap में कई बायोमेडिकल अनुप्रयोग हैं ।
हमने एक क्लाउड-आधारित वातावरण के लिए एक प्रोटोकॉल विकसित किया है जो एंड-टू-एंड वाक्यांश-माइनिंग और विश्लेषण प्लेटफ़ॉर्म का समर्थन करते हैं । हमारे प्रोटोकॉल डेटा preprocessing शामिल (उदाहरण के लिए, डाउनलोड, निष्कर्षण, और पाठ दस्तावेज़ पार्स), अनुक्रमण और लोचदार खोज के साथ खोज, एक कार्यात्मक दस्तावेज़ संरचना पाठ-घन कहा जाता है, और बढ़ाता वाक्यांश-श्रेणी संबंध बनाना कोर caseolap एल्गोरिथ्म का उपयोग कर रहा है ।
हमारे डेटा preprocessing शामिल सभी दस्तावेजों के लिए कुंजी मूल्य मैपिंग उत्पन्न करता है । पूर्वसंसाधित डेटा निकायों सहित दस्तावेज़ों की खोज करने के लिए अनुक्रमित होता है, जो टेक्स्ट-क्यूब निर्माण और caseolap स्कोर परिकलन को और भी सुगम बनाता है. प्राप्त कच्चे caseolap स्कोर एकीकृत विश्लेषण की एक श्रृंखला का उपयोग कर व्याख्या कर रहे हैं, विमीयता कमी सहित, clustering, लौकिक, और भौगोलिक विश्लेषण । इसके अतिरिक्त, caseolap स्कोर का उपयोग ग्राफ़िकल डेटाबेस बनाने के लिए किया जाता है, जो दस्तावेज़ों के अर्थ मैपिंग को सक्षम करता है ।
caseolap वाक्यांश-श्रेणी संबंधों को एक सटीक (पहचान संबंध), संगत (उच्च पुनरुद्धिक), और कुशल तरीके से (प्रक्रियाओं १००,००० शब्द/ इस प्रोटोकॉल के बाद, उपयोगकर्ताओं को अपने स्वयं के विन्यास और caseolap के अनुप्रयोगों का समर्थन करने के लिए एक बादल कंप्यूटिंग वातावरण का उपयोग कर सकते हैं. इस मंच बढ़ाया पहुंच प्रदान करता है और व्यापक जैव चिकित्सा अनुसंधान अनुप्रयोगों के लिए वाक्यांश खनन उपकरण के साथ जैव चिकित्सा समुदाय के अधिकार ।
वाक्यांश के अध्ययन के लिए पाठ फ़ाइलों के लाखों लोगों के मैनुअल मूल्यांकन-श्रेणी एसोसिएशन (जैसे, आयु समूह प्रोटीन एसोसिएशन के लिए) एक स्वचालित कंप्यूटेशनल विधि द्वारा प्रदान की दक्षता के साथ अतुलनीय है । हम क्लाउड-आधारित संदर्भ-संवेदी अर्थ ऑनलाइन एनालिटिकल प्रोसेसिंग (caseolap) प्लेटफ़ॉर्म के रूप में एक वाक्यांश-खनन विधि के रूप में वाक्यांश की स्वचालित गणना के लिए लागू करना चाहते हैं-बायोमेडिकल संदर्भ में श्रेणी संघ.
caseolap प्लेटफ़ॉर्म, जो पहले २०१६1में परिभाषित किया गया था, बहुत कुशल है डेटा प्रबंधन और गणना के पारंपरिक तरीकों की तुलना में इसकी कार्यात्मक दस्तावेज़ प्रबंधन के कारण पाठ कहा जाता है-घन2,3, 4, जो अंतर्निहित पदानुक्रम और पड़ोस को बनाए रखते हुए दस्तावेज़ों को वितरित करता है । इसमें निकाय-श्रेणी संघ के अध्ययन के लिए बायोमेडिकल रिसर्च5 में आवेदन किया गया है । caseolap प्लेटफ़ॉर्म में डेटा की डाउनलोड और निष्कर्षण, पार्स करना, अनुक्रमण, पाठ-क्यूब निर्माण, निकाय गणना, और caseolap स्कोर परिकलन सहित छः प्रमुख चरण होते हैं; जो प्रोटोकॉल का मुख्य फोकस है (चित्र 1, चित्र 2, तालिका 1)।
caseolap एल्गोरिथ्म को कार्यांवित करने के लिए, उपयोगकर्ता रुचि की श्रेणियां सेट करता है (उदा., रोग, संकेत और लक्षण, आयु समूह, निदान) और रुचि के निकाय (उदा., प्रोटीन, ड्रग्स) । इस लेख में शामिल एक श्रेणी का एक उदाहरण ‘ आयु समूह ‘ है, जिसमें ‘ शिशु ‘, ‘ बाल ‘, ‘ किशोर ‘, और ‘ वयस्क ‘ पाठ के कक्षों के रूप में-घन और प्रोटीन नाम (समानार्थी) और संस्थाओं के रूप में संक्षिप्त रूप हैं । चिकित्सा विषय शीर्षकों (मेष) परिभाषित श्रेणियों (तालिका 2) के लिए इसी प्रकाशनों को पुनः प्राप्त करने के लिए लागू कर रहे हैं । मेश वर्णनकर्ता ( चित्र 3में दिखाया गया नमूना) विशिष्टता के भिन्न स्तर पर प्रकाशनों के लिए खोज की अनुमति देने के लिए एक श्रेणीबद्ध ट्री संरचना में व्यवस्थित होते हैं । caseolap प्लेटफ़ॉर्म निकाय के साथ संबद्ध दस्तावेज़ों के curation के लिए डेटा अनुक्रमण और खोज कार्यक्षमता का उपयोग करता है, जो निकाय गणना मैपिंग और caseolap स्कोर परिकलन में दस्तावेज़ की सुविधा प्रदान करता है.
caseolap स्कोर परिकलन का विवरण पिछले प्रकाशन1,5में उपलब्ध है । यह स्कोर अंतर्निहित टेक्स्ट-क्यूब दस्तावेज़ संरचना के आधार पर विशिष्ट रैंकिंग मानदंडों का उपयोग करके परिकलित किया जाता है । अंतिम स्कोर अखंडता, लोकप्रियता, और विशिष्टताका उत्पाद है । अखंडता का वर्णन करता है कि क्या एक प्रतिनिधि निकाय एक अभिन्न अर्थ इकाई है जो सामूहिक रूप से एक सार्थक अवधारणा को संदर्भित करती है । यूज़र-डिफ़ाइंड वाक्यांश की अखंडता को १.० के रूप में लिया जाता है क्योंकि यह साहित्य में एक मानक वाक्यांश के रूप में खड़ा होता है । शेष अन्य कोशिकाओं की तुलना में दस्तावेजों के एक सबसेट में एक वाक्यांश के सापेक्ष प्रासंगिकता का प्रतिनिधित्व करता है । यह सबसे पहले लक्ष्य डेटा सेट में प्रोटीन नाम की घटना की तुलना करके एक विशिष्ट सेल के लिए एक इकाई की प्रासंगिकता की गणना करता है और एक सामान्यीकृत विशिष्टता स्कोर उपलब्ध कराता है । लोकप्रियता तथ्य यह है कि एक उच्च लोकप्रियता स्कोर के साथ वाक्यांश का प्रतिनिधित्व करता है दस्तावेज़ों के एक सबसेट में अधिक बार दिखाई देता है । एक सेल में दुर्लभ प्रोटीन नाम कम क्रमित हैं, जबकि उनकी आवृत्ति में वृद्धि आवृत्ति के लघुगणक समारोह के कार्यान्वयन के कारण एक ह्रासमान प्रतिफल है । मात्रात्मक रूप से मापने की ये तीन अवधारणाएं किसी कक्ष और कक्षों के ऊपर निकाय की (1) शब् द आवृत्ति पर निर्भर करती है और (2) कक्ष के अंदर और कक्षों के भीतर उस निकाय (दस् तावेज़ फ़्रीक्वेंसी) वाले दस् तावेज़ों की संख् या ।
हम एक pubmed डाटासेट और हमारे एल्गोरिथ्म का उपयोग कर दो प्रतिनिधि परिदृश्यों का अध्ययन किया है. हम कैसे mitochondrial प्रोटीन मेष वर्णनकर्ता के दो अद्वितीय श्रेणियों के साथ जुड़े रहे हैं में रुचि रखते हैं; “आयु समूहों” और “पोषण और चयापचय रोगों” । विशेष रूप से, हम 20 साल से १५,७२८,२५० प्रकाशनों प्राप्त pubmed द्वारा एकत्र प्रकाशनों (१९९८ २०१८ के लिए), उन के बीच में, ८,१२३,४५८ अद्वितीय सार पूर्ण मेष वर्णनकर्ता पड़ा है । तदनुसार, १,८४२ मानव mitochondrial प्रोटीन नाम (संकेताक्षर और समानार्थी सहित), uniprot से अधिग्रहीत (uniprot.org) के रूप में अच्छी तरह से mitocarta 2.0 से (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do>), व्यवस्थित कर रहे है जांच. हमारे प्रोटोकॉल का उपयोग करके इन ८,८९९,०१९ प्रकाशनों और संस्थाओं के साथ उनके संघों का अध्ययन किया गया; हम एक पाठ-घन का निर्माण किया और संबंधित caseolap स्कोर की गणना ।
हम प्रदर्शित किया है कि caseolap एल्गोरिथ्म सार्थक अंतर्दृष्टि की निकासी के लिए शाब्दिक डेटा की बड़ी मात्रा पर एक ज्ञान आधारित श्रेणी के लिए एक वाक्यांश आधारित मात्रात्मक संबद्धता बना सकते हैं । हमारे प्रोटोकॉल के बाद, एक एक वांछित पाठ बनाने के लिए caseolap फ्रेमवर्क का निर्माण कर सकते हैं-घन और यों तो caseolap स्कोर गणना के माध्यम से इकाई श्रेणी संघों. प्राप्त कच्चे caseolap स्कोर विमीयता कमी, clustering, लौकिक और भौगोलिक विश्लेषण, साथ ही साथ एक ग्राफिकल डाटाबेस जो दस्तावेजों की अर्थ मानचित्रण सक्षम बनाता है के निर्माण सहित एकीकृत विश्लेषण के लिए लिया जा सकता है ।
एल्गोरिथ्म की प्रयोज्यता । यूज़र-डिफ़ाइंड एंटिटीज़ के उदाहरण, प्रोटीन्स के अलावा, जीन नामों, दवाओं, विशिष्ट संकेतों और लक्षणों की सूची उनके संक्षिप्त और समानार्थी शब्द सहित हो सकती है । इसके अलावा, वहां श्रेणी के चयन के लिए कई विकल्प है विशिष्ट उपयोगकर्ता की सुविधा के लिए जैव चिकित्सा विश्लेषण परिभाषित (जैसे, शरीर रचना विज्ञान [एक], अनुशासन और व्यवसाय [एच], घटनाएं और प्रक्रियाओं [जी]) । हमारे दो का उपयोग मामलों में, सभी वैज्ञानिक प्रकाशनों और उनके शाब्दिक डेटा medline खोज इंजन के रूप में pubmed का उपयोग कर डेटाबेस से प्राप्त कर रहे हैं, दोनों चिकित्सा के राष्ट्रीय पुस्तकालय द्वारा प्रबंधित । हालांकि, caseolap प्लेटफ़ॉर्म के अंय डेटाबेस के लिए लागू किया जा सकता है जिसमें मूलपाठ डेटा के साथ बायोमेडिकल दस्तावेज़ जैसे एफडीए प्रतिकूल इवेंट रिपोर्टिंग सिस्टम (faers) । यह एक खुला डेटाबेस चिकित्सा प्रतिकूल घटनाओं और एफडीए के लिए प्रस्तुत दवा त्रुटि रिपोर्टों के बारे में जानकारी से युक्त है । medline और faers के विपरीत, रोगियों से इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड युक्त अस्पतालों में डेटाबेस जनता के लिए खुला नहीं कर रहे हैं और स्वास्थ्य बीमा पोर्टेबिलिटी और जवाबदेही हिपाआ के रूप में जाना जाता अधिनियम द्वारा प्रतिबंधित कर रहे हैं.
caseolap एल्गोरिथ्म सफलतापूर्वक विभिंन प्रकार के डेटा (उदा., समाचार आलेखों)1पर लागू किया गया है। बायोमेडिकल दस्तावेजों में इस एल्गोरिथ्म का कार्यान्वयन २०१८5में किया गया है. caseolap एल्गोरिथ्म के प्रयोज्यता के लिए आवश्यकताएं है कि प्रत्येक दस्तावेज़ अवधारणाओं के साथ संबद्ध कीवर्ड के साथ असाइन किया जाना चाहिए (उदाहरण के लिए, बायोमेडिकल प्रकाशनों में मेश वर्णनकर्ता, समाचार आलेखों में कीवर्ड) । अगर कीवर्ड नहीं मिले हैं, तो कोई भी शीर्ष प्रतिनिधि वाक्यांश एकत्र करने और हमारे प्रोटोकॉल को लागू करने से पहले निकाय सूची बनाने के लिए6,7 ऑटोफ्रेज़ लागू कर सकता है. हमारा प्रोटोकॉल autophrase को निष्पादित करने के लिए चरण प्रदान नहीं करता है ।
अन्य एल्गोरिदम के साथ तुलना. एक डेटा का उपयोग करने की अवधारणा-घन8,9,10 और एक पाठ-घन 2,3,4 नई प्रगति के साथ २००५ के बाद से विकसित किया गया है डेटा खनन अधिक लागू करने के लिए. डाटा माइनिंग और बिजनेस इंटेलिजेंस में ऑनलाइन एनालिटिकल प्रोसेसिंग (OLAP)11,12,13,14,15 की अवधारणा १९९३ पर वापस चली जाती है । OLAP, सामांय में, एकाधिक सिस्टमों से जानकारी एकत्रित करता है, और इसे बहु-आयामी स्वरूप में संग्रहीत करता है । डेटा माइनिंग में लागू किए गए विभिन्न प्रकार के OLAP सिस्टम हैं । उदाहरण के लिए (1) संकर लेनदेन/विश्लेषणात्मक प्रसंस्करण (htap)16,17, (2) बहुआयामी olap (molap)18,19-घन आधारित, और (3) आनुपतिक olap (rolap)20।
विशेष रूप से, caseolap एल्गोरिथम की तुलना कई मौजूदा एल्गोरिदम के साथ की गई है, विशेष रूप से, उनके वाक्यांश फॉल्ट एंहांसमेंट के साथ, जिसमें TF-idf + seg, एमसीएक्स + seg, एमसीएक्स और segphrase शामिल हैं । इसके अलावा, repphrase (आरपी, भी segphrase + के रूप में जाना जाता है) अपने ही अपक्षरण विविधताओं के साथ तुलना की गई है, सहित (1) आरपी अखंडता को मापने के बिना शामिल (आरपी कोई INT), (2) आरपी लोकप्रियता उपाय शामिल बिना (आरपी कोई पॉप), और (3) आरपी के बिना विशिष्टता (आरपी कोई जिले) शामिल उपाय । बेंचमार्क परिणाम fangbo ताओ एट अल.1द्वारा अध्ययन में दिखाया गया है ।
डेटा माइनिंग पर अभी भी चुनौतियां हैं जो डेटाबेस से डेटा को सहेजने और पुनर्प्राप्त करने पर अतिरिक्त कार्यक्षमता जोड़ सकती हैं । संदर्भ-संवेदी अर्थ एनालिटिकल प्रोसेसिंग (caseolap) व्यवस्थित रूप से इलास्टिक खोज को लाखों दस्तावेज़ों (प्रोटोकॉल 5) के अनुक्रमण डेटाबेस बनाने के लिए लागू करता है । पाठ-क्यूब उपयोगकर्ता-प्रदत्त श्रेणियों (प्रोटोकॉल 6) के साथ अनुक्रमणित डेटा पर निर्मित एक दस्तावेज़ संरचना है । यह पाठ-क्यूब के कक्ष के भीतर और पूरे दस्तावेज़ों की कार्यक्षमता बढ़ाता है और किसी विशिष्ट कक्ष (प्रोटोकॉल 8) पर दस्तावेज़ और दस्तावेज़ आवृत्ति पर निकायों की शब्द आवृत्ति की गणना करने की अनुमति देता है । अंतिम caseolap स्कोर एक अंतिम स्कोर (प्रोटोकॉल 9) आउटपुट के लिए इन आवृत्ति गणना का इस्तेमाल करता है. २०१८ में, हम इस एल्गोरिथ्म को लागू करने के लिए ecm प्रोटीन और छह हृदय रोगों का अध्ययन करने के लिए प्रोटीन रोग संघों का विश्लेषण. इस अध्ययन का विवरण liem, d.a. एट अल.5द्वारा अध्ययन में पाया जा सकता है । यह दर्शाता है कि caseolap व्यापक रूप से रोगों और तंत्र की एक किस्म की खोज जैव चिकित्सा समुदाय में इस्तेमाल किया जा सकता है ।
एल्गोरिथ्म की सीमाएं । वाक्यांश खनन ही एक तकनीक का प्रबंधन और शाब्दिक डेटा से महत्वपूर्ण अवधारणाओं को पुनः प्राप्त है । एक गणितीय मात्रा (वेक्टर) के रूप में निकाय-श्रेणी संबद्धता की खोज करते समय, इस तकनीक को polarity (जैसे, सकारात्मक या नकारात्मक झुकाव) संबद्धता का पता लगाने में असमर्थ है । एक निर्दिष्ट निकायों और श्रेणियों के साथ पाठ cude दस्तावेज़ संरचना का उपयोग डेटा के मात्रात्मक संक्षिप्तीकरण का निर्माण कर सकते हैं, लेकिन सूक्ष्म granularities के साथ एक गुणात्मक अवधारणा तक नहीं पहुंचा जा सकता है । कुछ अवधारणाओं को लगातार अतीत से अब तक विकसित कर रहे हैं । किसी विशिष्ट निकाय-श्रेणी संबद्धता के लिए प्रस्तुत किए गए संक्षिप्तीकरण में पूरे साहित्य में सभी घटनाएं शामिल होती हैं. इस नवाचार के लौकिक प्रचार की कमी हो सकती है । भविष्य में, हम इन सीमाओं को संबोधित करने की योजना बना रहे हैं ।
भविष्य के अनुप्रयोगों । दुनिया में संचित डेटा का लगभग ९०% असंरचित टेक्स्ट डेटा में है । एक प्रतिनिधि वाक्यांश और पाठ में एम्बेडेड निकायों के संबंध ढूँढना नई प्रौद्योगिकियों के कार्यान्वयन के लिए एक बहुत ही महत्वपूर्ण कार्य है (जैसे, मशीन लर्निंग, जानकारी निष्कर्षण, आर्टिफिशियल इंटेलिजेंस). टेक्स्ट-डेटा मशीन को पठनीय बनाने के लिए, डेटा को डेटाबेस में संगठित करने की आवश्यकता होती है, जिस पर उपकरण की अगली परत लागू की जा सकती है । भविष्य में, इस एल्गोरिथ्म डेटा खनन जानकारी की पुनर्प्राप्ति और निकाय श्रेणी संघों के परिमाणन के लिए और अधिक कार्यात्मक बनाने में एक महत्वपूर्ण कदम हो सकता है.
The authors have nothing to disclose.
यह काम राष्ट्रीय हृदय, फेफड़ों, और रक्त संस्थान द्वारा भाग में समर्थित था: R35 HL135772 (पी पिंग के लिए); नेशनल इंस्टीट्यूट ऑफ जनरल मेडिकल साइंसेज: U54 GM114833 (P. Ping, K. Watson, और W. Wang); U54 GM114838 (to जे. हान); hellen & लैरी होग फाउंडेशन और डॉ एस setty से एक उपहार; और ucla (P. Ping) में T.C. laubisch बंदोबस्ती ।