Biz bir iletişim kuralı ve ilişkili programlama kodu aynı zamanda bir bulut tabanlı otomatik kimliği kullanıcı seçili bilgi etki Biyomedikal edebiyat alanındaki benzersiz kavramları temsil eden ifadeler-Kategori Derneği desteklemek için meta veri örnekleri mevcut. Bu iletişim kuralı tarafından sayısal ifade-Kategori Derneği derinlik analizi seçili bilgi etki alanındaki kolaylaştırabilir.
Biyomedikal metinsel veri hızlı birikimi çok insan kapasitesi manuel küratörlüğü ve analiz, biyolojik anlayışlar bilimsel raporlar çok sayıda ayıklamak için roman metin madenciliği araçları gerektiren aştı. 2016 yılında geliştirilen bağlam duyarlı anlamsal çevrimiçi analitik işleme (CaseOLAP) boru hattı, başarıyla metinsel veri analizi sayesinde kullanıcı tanımlı tümcecik-Kategori ilişkilerini quantifies. CaseOLAP birçok Biyomedikal uygulamalar vardır.
Uçtan uca ifade-araştırma ve analizler platformu destekleyen bir bulut tabanlı ortamı için bir protokol geliştirdik. Bizim iletişim kuralı veri (örneğin, indirme, ayıklama ve metin belgeleri ayrıştırma) ön işleme içerir, dizin oluşturma ve işlevsel belge yapısı oluşturma Elasticsearch ile arama metin-küp ve ifade-Kategori ilişkileri miktarının denilen çekirdek CaseOLAP algoritmasıyla.
Bizim veri ön işleme tüm belgeler dahil için anahtar-değer eşlemeleri oluşturur. Önişlenmiş veri metin-küp oluşturma ve CaseOLAP puanı hesaplama daha da kolaylaştıran bir arama varlıklar, dahil olmak üzere belgelerin taşımak için dizine alınır. Elde edilen ham CaseOLAP puanları dimensionality azaltma, kümeleme, zamansal, dahil olmak üzere bütünleştirici analizleri ve coğrafi analizi bir dizi kullanarak yorumlanır. Ayrıca, CaseOLAP puanları belgelerinin anlamsal eşleme sağlar grafik bir veritabanı oluşturmak için kullanılır.
CaseOLAP ifade-Kategori ilişkileri bir doğru (tanımlayan ilişkiler) tanımlar, tutarlı (son derece tekrarlanabilir) ve verimli biçimde (süreçleri 100.000 kelime/sn). Bu iletişim kuralı kullanıcılar kendi yapılandırmalarını ve CaseOLAP uygulamaları desteklemek için bir bulut bilgi işlem ortamı erişebilir. Bu platform geliştirilmiş erişilebilirlik sunmaktadır ve Biyomedikal topluluğu yaygın Biyomedikal Araştırma uygulamaları için ifade-madencilik araçları ile güçlendiriyor.
Metin dosyaları ifade-Kategori Derneği incelenmesi için milyonlarca el ile değerlendirilmesi (e.g., yaş grubu için protein Derneği) otomatik hesaplama yöntemi tarafından sağlanan verimlilik ile eşsiz olduğu. İfade-Kategori Derneği Biyomedikal bağlamında otomatik hesaplama için bir ifade-araştırma yöntemi olarak bulut tabanlı bağlam duyarlı anlamsal çevrimiçi analitik işleme (CaseOLAP) platform tanıtmak istiyorum.
İlk 20161‘ de tanımlanan, CaseOLAP platformu metin-küp2,3gördü onun işlevsel belge yönetimi nedeniyle veri yönetimi ve hesaplama geleneksel yöntemlerle karşılaştırıldığında çok etkilidir, temel hiyerarşi ve mahalleler koruyarak belgeleri dağıtan 4,. Varlık-Kategori Derneği çalışmaya Biyomedikal Araştırma5 ‘ te uygulanmıştır. CaseOLAP platformu indirme ve veri, ayrıştırma, dizin oluşturma, metin-küp oluşturma, varlık sayısı ve CaseOLAP puanı hesaplama çıkarılması da dahil olmak üzere altı önemli adımlardan oluşur; (Resim 1, Resim 2, Tablo 1) protokolünün ana odak olduğu.
CaseOLAP algoritması uygulamak için kullanıcı kategorileri ilginç (e.g., hastalık, belirti ve bulgular, yaş grupları, Tanı) ve faiz (örneğin, proteinler, uyuşturucu) varlığı kadar ayarlar. Bu makalede bulunan bir kategori bir örnek olarak hücreleri metin-küp ve protein adları (eş anlamlı) ve kısaltmaların varlıklar olarak ‘Yaş grupları’ sahip ‘Bebek’, ‘çocuk’, ‘gençlik’ ve ‘yetişkin’ alt kategorileri olduğunu. Medical Subject Headings (MeSH) tanımlanmış kategoriler (Tablo 2) karşılık gelen yayınları almak için geçerli olur. Kafes tanımlayıcıları arama ( şekil 3‘ te gösterilen bir örnek) özgüllük düzeyleri değişen, yayınlar için izin vermek için bir hiyerarşik ağaç yapısında düzenlenir. CaseOLAP platformu küratörlüğü daha da kolaylaştırmak belge varlık sayısı eşleme ve CaseOLAP puanı hesaplama belgelerin bir varlıkla ilişkili veri dizin oluşturma ve arama işlevini kullanır.
CaseOLAP puanı hesaplama ayrıntılarını önceki yayınları1,5‘ te kullanılabilir. Bu puanı temel metin-küp belge yapısına göre belirli sıralama ölçütleri kullanarak hesaplanır. Final skoru bütünlük, popülerlikve açıklıkürünüdür. Bütünlüğü temsil edici bir varlık topluca anlamlı bir kavram ifade eder ayrılmaz bir anlamsal birimi olup açıklar. Kullanıcı tanımlı tümcecik bütünlük literatürde standart bir ifade gibi duruyor çünkü 1.0 için alınır. Farklılığını bir ifade içinde bir alt belge diğer hücreler diğerleri ile karşılaştırıldığında farklıdır göreceli uygunluğunu gösterir. İlk hedef veri kümesindeki protein adı geçtiği karşılaştırarak bir varlık alaka özel bir hücreye hesaplar ve normalleştirilmiş bir açıklık Puan sağlar. Popülerlik temsil daha yüksek popülerlik puan ile ifade aslında daha sık belgeleri bir alt kümede görüntülenir. Bir artış söz onların frekans frekans Logaritmik fonksiyonu uygulanması nedeniyle azalan bir dönüş varken bir hücre adlarında nadir protein düşük, sıralanır. Bu üç kavram kantitatif ölçüm varlık (1) Dönem sıklığı bir hücre ve hücre ve (2) Bu varlığın (belge frekans) hücre içinde ve hücreler üzerinde olan belge sayısı bağlıdır.
PubMed veri kümesi ve bizim algoritma kullanarak iki temsilci senaryoları inceledik. Biz ilgilenen nasıl mitokondrial proteinler MeSH tanımlayıcıları; iki benzersiz kategori ile ilişkili “Yaş grupları” ve “beslenme ve metabolik hastalıklar”. Özellikle, aralarında 15,728,250 yayınlar PubMed (1998-2018) tarafından toplanan 20 yıl yayınlardan alındı, 8,123,458 benzersiz özetleri full MeSH tanımlayıcıları oldu. UniProt (uniprot.org) hem de MitoCarta2.0 alınan buna göre 1,842 insan mitokondriyal protein adı (dahil kısaltmalar ve eş anlamlı), (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), sistematik inceledi. Bu 8,899,019 yayınlar ve varlıkları ile onların dernekler bizim iletişim kuralı kullanılarak incelenmiştir; Biz metin küp inşa ve ilgili CaseOLAP puanları hesaplanır.
CaseOLAP algoritması çok sayıda anlamlı yorumlara çıkarım için metinsel veri üzerinde bir ifade dayalı nicel Derneği bilgi tabanlı, kategori oluşturabilirsiniz göstermiştir. Bizim iletişim kuralı bir istediğiniz bir metin küp oluşturmak ve varlık-Kategori dernekler aracılığıyla CaseOLAP puanı hesaplama ölçmek için CaseOLAP çerçeve inşa edebilirsiniz. Elde edilen ham CaseOLAP puanları dimensionality azaltma, kümeleme, zamansal ve coğrafi analizi gibi belgelerin anlamsal eşleme sağlayan grafik bir veritabanı oluşturulması da dahil olmak üzere bütünleştirici analizleri alınabilir.
Algoritma uygulanabilirliği. Proteinler başka kullanıcı tanımlı varlıkları örnekleri listesini gen adları, uyuşturucu, özel işaretler ve onların kısaltmalar ve eş anlamlılar gibi belirtiler olabilir. Ayrıca, belirli kullanıcı tanımlı Biyomedikal analizleri (örneğin, anatomi [A], disiplin ve meslek [H], olayları ve işlemleri [G]) kolaylaştırmak Kategori seçim için birçok seçenek vardır. Bizim iki durumlarda kullanın, tüm bilimsel yayınları ve metin verilerini arama motoru olarak kullanarak PubMed MEDLINE veritabanından alınır, her ikisi de National Library of Medicine tarafından yönetilen. Ancak, CaseOLAP platformu ile metin verileri gibi FDA olumsuz olay raporlama sistemi (FAERS) Biyomedikal belgeleri içeren ilgi diğer veritabanları için uygulanabilir. Bu tıbbi olumsuz olaylar ve FDA ilaç hata raporları hakkında bilgi içeren açık bir veritabanıdır. MEDLINE ve FAERS, aksine veritabanları hastanelerde hastaların elektronik sağlık kayıtları içeren halka açık değil ve durum sigorta taşınabilirlik ve Accountability Act HIPAA bilinen tarafından kısıtlanır.
CaseOLAP algoritması verileri (örneğin, haber makaleleri)1. farklı türleri için başarıyla uygulandı Biyomedikal belgelerde bu algoritma uygulaması 20185‘ te yapılmıştır. Uygulanabilirliği için gerekenler CaseOLAP algoritması, her belge kavramları (örneğin, kafes tanımlayıcıları Biyomedikal yayınlarda, haber makaleleri anahtar kelimeler) ile ilişkili anahtar kelimeler ile atanmalıdır. Anahtar kelimeler bulundu değil, bir Autophrase6,7 en iyi temsilcisi ifadeler toplamak ve bizim iletişim kuralı uygulamadan önce varlık liste oluşturmak için uygulayabilirsiniz. Bizim iletişim kuralı Autophrase gerçekleştirmek için adım sağlamaz.
Diğer algoritmalar ile karşılaştırma. Bir veri-küp8,9,10 ve metin-küp2,3,4 kullanarak kavramı veri madenciliği daha uygun hale getirmek için yeni gelişmeler ile 2005 yılından bu yana gelişen. Çevrimiçi analitik işleme (OLAP)11,12,13,14,15 dakika içinde veri madenciliği ve iş zekası kavramı geri 1993 için gider. OLAP, genel olarak, birden çok sistemi bilgileri toplar ve çok boyutlu bir biçimde depolar. Veri madenciliği içinde uygulanan OLAP sistemleri farklı türleri vardır. Örneğin (1) Hybrid hareket/analitik işleme (HTAP)16,17, (2) çok boyutlu OLAP (MOLAP)18,19-ve (3) temel ilişkisel OLAP (ROLAP)20küp.
Özellikle, CaseOLAP algoritması ile çok sayıda varolan algoritmaları, özellikle, TF dahil olmak üzere kendi ifade bölümleme geliştirmeleri ile karşılaştırılmıştır-IDF + Seg, MCX + Seg, MCX ve SegPhrase. Ayrıca, RepPhrase (RP, da SegPhrase + bilinir) (1) dahil bütünlük ölçü birimi (RP Hayır INT) olmadan RP, RP (2) dahil popülerlik ölçü birimi (RP No POP) olmadan ve RP (3) olmadan da dahil olmak üzere kendi ablasyon varyasyonları ile karşılaştırıldığında Açıklık ölçü birimi (RP Hayır DIS) dahil. Benchmark sonuçları çalışmada Fangbo Tao ve ark.1tarafından gösterilir.
Orada hala üzerinde tasarruf ve verileri veritabanından ek işlevler ekleyebilirsiniz hangi veri madenciliği zorlukları vardır. Bağlam duyarlı anlamsal analitik işleme (CaseOLAP) belgeleri (iletişim kuralı 5) milyonlarca dizin oluşturma bir veritabanı oluşturmak için Elasticsearch sistematik olarak uygular. Metin-küp dizin oluşturulmuş veriler kullanıcı tarafından sağlanan kategorileri (Protokolü 6) üzerinde yerleşik bir belge yapısıdır. Bu belgeler içinde ve arasında metin-küp hücre için işlevselliği artırır ve Dönem sıklığı varlıkların bir belge ve belgenin frekans belirli bir hücrenin üstünde (protokol 8) hesaplamak için bize izin. CaseOLAP sonuca bir final skoru çıkış için bu frekans hesaplamalar kullanır (Protokolü 9). 2018 yılında, biz ECM protein ve protein-hastalık ilişkileri analiz etmek için altı kalp hastalıkları eğitim için bu algoritma hayata. Bu çalışmanın ayrıntıları çalışmada Liem, D.A. vd.5bulunabilir. CaseOLAP çeşitli hastalıklar ve mekanizmaları keşfetmek Biyomedikal toplumda yaygın olarak kullanılabileceğini gösteren.
Algoritma sınırlamaları. İfade incelemesi kendisi yönetmek ve önemli kavramları metinsel veri almak için bir tekniktir. Varlık-Kategori Derneği matematiksel miktarı (vektör) bulurken, bu teknik Derneğin polarizasyon (örneğin, pozitif veya negatif eğim) anlamaya değiştiremiyor. Bir nicel atanan varlıkları ve Kategoriler metin-Cude belge yapısıyla kullanan veri özetini oluşturabilirsiniz, ancak nitel bir kavram ile mikroskobik granularities ulaştı. Bazı kavramlar sürekli şimdi geçmiş zamana kadar değişmektedir. Bir özel varlık-Kategori ilişkisi için sunulan özetleme edebiyat boyunca tüm olaylar içerir. Bu yenilik zamansal yayma olmayabilir. Gelecekte, bu sınırlamaları gidermek planlıyoruz.
Gelecekteki uygulamalar. Dünyada birikmiş veri yaklaşık yüzde 90’ını yapılandırılmamış metin verilerindedir. Bir temsilci ifade ve metinde gömülü varlık ilişkisi bulma yeni teknolojiler (örneğin, Makine öğrenimi, bilgi ayıklama, yapay zeka) uygulanması için çok önemli bir görevdir. Makine metin verilerini kolay okunur hale getirmek için veri üzerinde araçları bir sonraki katman uygulanabilecek veritabanında düzenlenmesi gerekir. Gelecekte, bu algoritma veri madenciliği bilgi alınmasını ve miktar, varlık-Kategori ilişkisi için daha işlevsel hale getirmek çok önemli bir adım olabilir.
The authors have nothing to disclose.
Bu eser kısmen Ulusal kalp, akciğer ve kan Enstitüsü tarafından desteklenmiştir: R35 HL135772 (için s. Ping); Genel tıbbi Bilimler Ulusal Enstitüsü: U54 GM114833 (için s. Ping, K. Watson ve W. Wang); U54 GM114838 (için J. Han); Hellen & Larry Hoag Vakfı ve Dr. S. Setty hediyesi; ve UCLA (için s. Ping) T.C. Laubisch bağış.