Cloud-baseret sætning minedrift og analyse af brugerdefinerede sætning-kategori Association i biomedicinsk publikationer

Published: February 23, 2019

doi:

Dibakar Sigdel*^1,2, Vincent Kyi*^1,2, Aiden Zhang*¹, Shaun P. Setty, David A. Liem^2,4, Yu Shi, Xuan Wang, Jiaming Shen, Wei Wang^6,7, JiaWei Han, Peipei Ping^2,4,6

¹The NIH BD2K Center of Excellence in Biomedical Computing,University of California, Los Angeles, ²Department of Physiology,University of California, Los Angeles, ³Department of Pediatric and Adult Congenital Heart Surgery,Miller Children’s and Women’s Hospital and Long Beach Memorial Hospital, ⁴Department of Medicine/Cardiology,University of California, Los Angeles, ⁵NIH BD2K Program Centers of Excellence for Big Data Computing — KnowEng Center, Department of Computer Science,University of Illinois at Urbana-Champaign (UIUC), ⁶Scalable Analytics Institute (ScAi),University of California, Los Angeles, ⁷Department of Computer Science,University of California, Los Angeles

Summary

Vi præsenterer en protokol og tilknyttede programmeringskode samt metadata prøver at støtte en cloud-baseret automatiseret identifikation af sætninger-kategori sammenslutning, der repræsenterer unikke koncepter i brugeren valgte viden domænet i biomedicinske litteratur. Sætning-kategori foreningen kvantificeres ved denne protokol kan lette dybtgående analyse i domænet valgte viden.

Abstract

Den hurtige ophobning af biomedicinske tekstdata har langt oversteget den menneskelige kapacitet manuel datasikring og analyse, nødvendiggør nye text mining værktøjer til at udtrække biologiske indsigter fra store mængder af videnskabelige rapporter. Context-aware semantiske Online Analytical Processing (CaseOLAP) rørledningen, udviklet i 2016, kvantificerer med held brugerdefinerede sætning-kategori relationer gennem en analyse af tekstdata. CaseOLAP har mange biomedicinske programmer.

Vi har udviklet en protokol til en cloud-baseret miljø støtte ende til sætning-minedrift og analyser platform. Vores protokol omfatter data forbehandling (fx, downloade, udvinding og parsing tekstdokumenter), indeksering og søgning med Elasticsearch, at skabe en funktionel dokumentstruktur kaldes tekst-Cube, og kvantificere sætning-kategori relationer ved hjælp af core CaseOLAP algoritme.

Vores data forbehandling genererer nøgle-værdi tilknytninger for alle dokumenter, der er involveret. Den forhåndsbehandlede data er indekseret til at udføre en søgning af dokumenter, herunder enheder, som yderligere letter tekst-kubeoprettelse og CaseOLAP score beregning. De opnåede rå CaseOLAP scorer fortolkes ved hjælp af en række Integrativ analyser, herunder dimensionalitet reduktion, klyngedannelse, tidsmæssige, og geografiske analyser. Derudover bruges CaseOLAP scores til at oprette en grafisk database, som giver mulighed for semantisk kortlægning af dokumenter.

CaseOLAP definerer sætning-kategori relationer i en nøjagtig (identificerer relationer), ensartede (stærkt reproducerbare), og effektiv måde (processer 100.000 ord/sek). Efter denne protokol, kan brugere få adgang til en cloud-computing miljø for at støtte deres egen konfigurationer og applikationer af CaseOLAP. Denne platform byder på forbedret tilgængelighed og bemyndiger det biomedicinske Fællesskabet med sætning-mining værktøjer til udbredt biomedicinsk forskning applikationer.

Introduction

Manuel evaluering af millioner af tekstfiler for studiet af sætning-kategori association (e.g., aldersgruppe til protein association) er uforlignelig med effektivitet leveret af et automatiseret beregningsudstyr. Vi ønsker at indføre cloud-baserede Context-aware semantiske Online Analytical Processing (CaseOLAP) platform som en sætning-mining metode til automatisk beregning af sætning-kategori association i forbindelse med biomedicinske.

CaseOLAP platform, som først blev defineret i 2016¹, er meget effektiv i forhold til de traditionelle metoder til administration af data og beregning på grund af dets funktionelle dokumentstyring kaldet tekst-Cube²^,³^, ⁴, som distribuerer dokumenter samtidig opretholde underliggende hierarki og kvarterer. Det har været anvendt i biomedicinsk forskning⁵ at studere enhed-kategori association. CaseOLAP platform består af seks hovedtrin herunder download og udtræk af data, parsing, indeksering, tekst-kubeoprettelse, enhed tælle og CaseOLAP score beregning; der er det vigtigste fokus i protokol (figur 1, figur 2, tabel 1).

For at implementere CaseOLAP-algoritme, indstiller brugeren kategorier af interesse (f.eks. sygdom, tegn og symptomer, aldersgrupper, diagnose) og enheder af interesse (f.eks. proteiner, lægemidler). Et eksempel på en kategori, der er medtaget i denne artikel er “Aldersgrupper”, som har ‘Barn’, ‘barn’, ‘unge’, og ‘voksen’ underkategorier som celler i tekst-Cube og protein navne (synonymer) og forkortelser som enheder. Medicinsk emneoverskrifter (MeSH) er gennemført for at hente publikationer svarende til de fastlagte kategorier (tabel 2). MeSH deskriptorer er organiseret i en hierarkisk træstruktur til at tillade, Søg efter publikationer på forskellige niveauer af specificitet (et eksempel vist i figur 3). CaseOLAP platform udnytter data indeksering og søgning funktionalitet til datasikring af dokumenterne tilknyttet en enhed som yderligere letter dokument til enhed tæller kortlægning og CaseOLAP score beregning.

Detaljerne i CaseOLAP score beregning er tilgængelig i tidligere publikationer¹^,⁵. Denne score er beregnet ved hjælp af specifikke ranking kriterier baseret på underliggende tekst-Cube dokumentstruktur. Det endelige resultat er et produkt af integritet, popularitetog særpræg. Integritet beskriver om en repræsentativ enhed er en integreret semantiske enhed, der kollektivt refererer til en meningsfuld koncept. Integritet af den brugerdefinerede udtryk sættes til 1,0 fordi det står som en standard sætning i litteraturen. Særpræg repræsenterer den relative relevansen af en sætning i en delmængde af dokumenter i forhold til resten af de øvrige celler. Det første beregnes relevansen af en enhed til en bestemt celle ved at sammenligne forekomsten af protein navn i target datasæt og giver en normaliseret særpræg score. Popularitet repræsenterer, at sætning med en højere popularitet score vises oftere i en delmængde af dokumenter. Sjældne protein navne i en celle er placeret lavt, mens en stigning i hyppigheden af omtale har en faldende afkast på grund af gennemførelsen af den logaritmiske funktion af frekvens. Kvantitativ måling af disse tre begreber afhænger (1) udtrykket hyppigheden af objektet over en celle og på tværs af celler og (2) antallet af dokumenter med denne enhed (dokument frekvens) inden for cellen og på tværs af cellerne.

Vi har studeret to repræsentative scenarier ved hjælp af en PubMed datasæt og vores algoritme. Vi er interesseret i hvordan mitokondrielle proteiner er forbundet med to unikke kategorier af MeSH deskriptorer; “Aldersgrupper” og “ernæringsmæssige og metaboliske sygdomme”. Især er vi hentet 15,728,250 publikationer fra 20 års udgivelser indsamlet af PubMed (1998 til 2018), blandt dem, 8,123,458 unikke abstracts har haft fuld MeSH deskriptorer. Derfor 1,842 menneskelige mitokondrie protein navne (herunder forkortelser og synonymer), erhvervet fra UniProt (uniprot.org) og MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), systematisk undersøgt. Deres foreninger med disse 8,899,019 publikationer og enheder blev undersøgt ved hjælp af vores protokol; vi konstrueret en tekst-Cube og beregnet de respektive CaseOLAP noder.

Protocol

Bemærk: Vi har udviklet denne protokol baseret på programmeringssproget Python. Hvis du vil køre dette program, har Anaconda Python og Git pre-installeret på enheden. De kommandoer, der er fastsat i denne protokol er baseret på Unix miljø. Denne protokol giver detaljer af downloade data fra PubMed (MEDLINE) database, parsing data og oprette en cloud computing platform for sætning minedrift og kvantificering af bruger-definerede objekt-kategori association. 1. at få kode og python opsætning af miljøvariable Download eller klon kode repository fra Github (https://github.com/CaseOLAP/caseolap) eller ved at skrive ‘git klon https://github.com/CaseOLAP/caseolap.git’ i terminal-vinduet. Naviger til mappen ‘caseolap’. Dette er rod bibliotek i projektet. Inden for denne mappe, bliver mappen ‘data’ udfyldes med flere datasæt, som du fremskridt gennem disse trin i protokollen. Mappen ‘input’ er for brugerangivne data. Logmappen ” har logfiler til fejlfinding. Mappen ‘resultat’ er, hvor de endelige resultater vil blive gemt. Ved hjælp af Terminalvindue, gå til mappen hvor du klonede vores GitHub opbevaringssted. Opret CaseOLAP miljø ved hjælp af filen ‘environment.yml’ ved at skrive ‘conda env oprette -f environment.yaml’ i terminal. Derefter aktivere miljøet ved at skrive ‘kilde aktivere caseolap’ i terminalen. 2. hente dokumenter Sørg for, at FTP-adressen i ‘ftp_configuration.json’ i config mappen er den samme som den årlige Baseline eller daglige opdateringsfiler linkadresse, fundet i link (https://www.nlm.nih.gov/databases/download/pubmed_medline.html) . Du kan hente baseline kun eller opdatere sat filer kun, ‘true’ i filen ‘download_config.json’ i mappen ‘config’. Som standard, det henter og uddrag både baseline og opdatere filer. En prøve af udtrukne XML-data kan ses på (https://github.com/CaseOLAP/caseolap-pipelines/blob/master/data/extracted-data-sample.xml) Skriv ‘python run_download.py’ i terminal-vinduet til at hente abstracts fra Pubmed databasen. Dette vil oprette en mappe kaldet ‘ftp.ncbi.nlm.nih.gov’ i den aktuelle mappe. Denne proces kontrollerer integriteten af de overførte data og returnerer det til destinationsmappen. Gå til Logmappen ” at læse logmeddelelser i ‘download_log.txt’, hvis hentningen mislykkes. Hvis processen er fuldført, vil de debugging beskeder af downloadprocessen printes ud i denne logfil. Når overførslen er færdig, navigere gennem ‘ftp.ncbi.nlm.nih.gov’ for at sikre at der er ‘updatefiles’ eller ‘basefiles’ eller begge mapper baseret på download konfiguration i ‘download_config.json’. Fil statistik bliver tilgængelige på ‘filestat.txt’ i mappen ‘data’. 3. fortolkning af dokumenter Sørg for, at downloadet og uddraget data er tilgængelige på ‘ftp.ncbi.nlm.nih.gov’ mappen fra trin 2. Denne mappe er mappen input data i dette trin. Du kan ændre skemaet parsing af data, skal du vælge parametre i ‘parsing_config.json’ fil i mappen ‘config’ ved at angive deres værdi til ‘true’. Som standard, det analyserer den PMID, forfattere, abstrakt, MeSH, placering, journal, offentliggørelsesdato. Skriv ‘python run_parsing.py’ i terminal til at parse dokumenter fra downloadede (eller ekstraheret) filer. Dette trin analyserer alle overførte XML-filer og opretter en python ordbog for hvert dokument med nøgler (e.g., PMID, forfattere, abstrakt, MeSH af filen baseret på parsing skema setup på trin 3.2). Når data parsing er afsluttet, så sørg for, at parsede data er gemt i den fil kaldet ‘pubmed.json’ i data bibliotek. En prøve af parsede data er tilgængelige på figur 3. Gå til Logmappen ” at læse logmeddelelser i ‘parsing_log.txt’ i tilfælde af parsing processen fejler. Hvis processen er fuldført, vil de debugging beskeder printes ud i logfilen. 4. mesh PMID kortlægning Sørg for at parsede data (‘pubmed.json’) er tilgængelige på ‘data’ bibliotek. Skriv ‘python run_mesh2pmid.py’ i terminal til at udføre MeSH PMID kortlægning. Dette skaber en tilknytningstabel, hvor hver af trådnet indsamler tilknyttede PMIDs. En enkelt PMID kan falde ind under de flere MeSH termer. Når tilknytningen er afsluttet, Sørg for at der er ‘mesh2pmid.json’ i data bibliotek. En prøve af top 20 kortlægning statistik er tilgængelig i tabel-2, tal 4 og 5. Gå til Logmappen ” at læse logmeddelelser i ‘mesh2pmid_mapping_log.txt’, hvis denne proces mislykkes. Hvis processen er fuldført, bliver tilknytningen debugging beskeder printes ud i denne logfil. 5. dokument indeksering Download programmet Elasticsearch fra https://www.elastic.co. I øjeblikket, er download tilgængelig på (https://www.elastic.co/downloads/elasticsearch). For at downloade softwaren i remote skyen, skal du skrive ‘wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-x.x.x.tar.gz’ i terminalen. Kontroller, at ‘x.x.x’ i den ovenstående kommando er erstattet af ordentlig versionsnummer. Sørg for at downloadet ‘elasticsearch-x.x.x.tar.gz”fil vises i rodmappen og derefter udpakke filerne ved at skrive ‘tar xvzf elasticsearch-x.x.x.tar.gz’ i terminal-vinduet. Åbne en ny terminal og gå til ElasticSearch bin-mappen ved at skrive “cd Elasticsearch/bin” i terminalen fra rodmappen. Start Elasticsearch server ved at skrive ‘. / Elasticsearch “i terminal-vinduet. Sørg for, at serveren er startet uden fejlmeddelelser. I tilfælde af fejl på Start Elasticsearch server, skal du følge instruktionerne på (https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html). Ændre indholdet i ‘index_init_config.json’ i ‘config’ Register at indstille indeks indledning. Som standard vil det Vælg alle elementer til stede. Skriv ‘python run_index_init.py’ i terminal til at indlede et indeks database i Elasticsearch server. Dette initialiserer indeks med et sæt af kriterier, der er kendt som indeksoplysninger (f.eks. index navn, type, antal skårene, antallet af replikaer). Du vil se meddelelsen nævner indekset er blevet oprettet. Vælg elementerne i ‘index_populate_config.json’ i mappen ‘config’ ved at angive deres værdi til ‘true’. Som standard vil det Vælg alle elementer til stede. Sørg for, at parsede data (‘pubmed.json’) findes i mappen ‘data’. Skriv ‘python run_index_populate.py’ i terminal for at udfylde indekset ved at oprette bulk data med to komponenter. En første komponent er en ordbog med metadataoplysninger om de indeksnavn, type, og bulk-id (fx ‘PMID’). A anden komponent er en data dictionary indeholdende alle oplysninger om tags (fx ‘titel’, ‘abstract’, ‘Maske’). Gå til Logmappen ” at læse logmeddelelser i ‘indexing_log.txt’, hvis denne proces mislykkes. Hvis processen er fuldført, vil de debugging beskeder af indeksering printes ud i logfilen. 6. tekst-kubeoprettelse Download den nyeste MeSH træet findes på (https://www.nlm.nih.gov/mesh/filelist.html). Den aktuelle version af koden bruger MeSH træ 2018 som ‘meshtree2018.bin’ i mappen input. Define arter af interesse (f.eks. sygdom navne, aldersgrupper, køn). En kategori kan omfatte en eller flere MeSH deskriptorer (https://meshb-prev.nlm.nih.gov/treeView). Indsamle MeSH-id’er for en kategori. Gemme navnene på kategorierne i filen ‘textcube_config.json’ i config mappen (se en prøve af kategorien i ‘Aldersgruppe’ i den downloadede version af ‘textcube_config.json’ fil). Sætte de indsamlede kategorier af MeSH-id’er i en linje adskilt af et mellemrum. Gem filen kategori som ‘categories.txt’ i mappen ‘input’ (ser et udsnit af ‘Aldersgruppe’ MeSH-id’er i den downloadede version af ‘categories.txt’ fil). Denne algoritme vælger automatisk alle efterkommer MeSH deskriptorer. Et eksempel på rodnoder og efterkommere er præsenteret i fig. 4. Sørg for at ‘mesh2pmid.json’ er i mappen ‘data’. Hvis træet MeSH er blevet opdateret med et andet navn (fx ‘meashtree2019.bin’) i ‘input’ Register, Sørg for, at dette ordentligt repræsenteret i datastien input i filen ‘run_textube.py’. Skriv ‘python run_textcube.py’ i terminal for at oprette et dokument datastruktur kaldet tekst-kube. Dette skaber en samling af dokumenter (PMIDs) for hver kategori. Et enkelt dokument (PMID) kan falde ind under flere kategorier, (Se tabel 3A, tabel 3B, figur 6A og figur 7A). Når tekst-Cube oprettelsen trin er afsluttet, så sørg for, at følgende datafiler gemmes i mappen ‘data’: (1) en celle til PMID tabel som “textcube_cell2pmid.json”, (2) en PMID til celle tilknytningstabel som “textcube_pmid2cell.json”, (3) en samling af alle efterkommer MeSH termer til en celle som “meshterms_per_cat.json” (4) tekst-Cube data statistikker som “textcube_stat.txt”. Gå til Logmappen ” at læse logmeddelelser i ‘textcube_log.txt’, hvis denne proces mislykkes. Hvis processen er fuldført, vil de debugging beskeder af tekst-kubeoprettelse printes ud i logfilen. 7. enhed tæller Oprette brugerdefinerede enheder (fx, protein navne, gener, kemikalier). Sætte en enhed og dens forkortelser i en enkelt linje adskilt af “|”. Gem filen enhed som ‘entities.txt’ i mappen ‘input’. En stikprøve af enheder kan findes i tabel 4. Sørg for at Elasticsearch server kører. Ellers skal du gå til trin 5.2 og 5.3 at genstarte serveren og Elasticsearch. Det forventes at have en indekseret database kaldet ‘pubmed’ i din Elasticsearch server, som blev oprettet i trin 5. Sørg for at ‘textcube_pmid2cell.json’ er i mappen ‘data’. Skriv ‘python run_entitycount.py’ i terminal enhed tæller kunne udføres. Dette søger dokumenterne fra de indekserede database og tæller enhed i hvert dokument samt indsamler PMIDs, hvor enheder blev fundet. Når først den enhed tæller er færdig, Sørg for, at de endelige resultater gemmes som ‘entitycount.txt’ og ‘entityfound_pmid2cell.json’ i mappen ‘data’. Gå til Logmappen ” at læse logmeddelelser i ‘entitycount_log.txt’, hvis denne proces mislykkes. Hvis processen er fuldført, vil de debugging beskeder af den enhed tæller printes ud i logfilen. 8. Metadata opdatering Sørg for at alle input data (‘entitycount.txt’, ‘textcube_pmid2cell.json’, ‘entityfound_pmid2cell.txt’) i mappen ‘data’. Disse er inputdata for Metadata opdatering. Skriv ‘python run_metadata_update.py’ i terminal for at opdatere metadataene. Dette forbereder en samling af metadata (fx cellenavn, tilknyttede MeSH, PMIDs) repræsenterer hver tekstdokument i cellen. En prøve af tekst-Cube metadata er præsenteret i tabel 3A og tabel 3B. Når Metadata opdateringen er gennemført, så sørg for, at ‘metadata_pmid2pcount.json’ og ‘metadata_cell2pmid.json’ filer gemmes i ‘data’ bibliotek. Gå til Logmappen ” at læse logmeddelelser i ‘metadata_update_log.txt’, hvis denne proces mislykkes. Hvis processen er fuldført, vil de debugging beskeder af metadata opdatering printes ud i logfilen. 9. CaseOLAP score beregning Kontroller, at ‘metadata_pmid2pcount.json’ og ‘metadata_cell2pmid.json’ filer findes i mappen ‘data’. Disse er de input data for score beregning. Skriv ‘python run_caseolap_score.py’ i terminal til at udføre CaseOLAP score beregning. Dette beregner CaseOLAP score enheder baseret på bruger-definerede kategorier. CaseOLAP score er produktet af integritet, popularitetog særpræg. Når score beregning er afsluttet, så sørg for, at dette gemmer resultater i flere filer (f.eks. popularitet som ‘pop.csv’, særpræg som ‘dist.csv’, CaseOLAP score som ‘caseolap.csv’), i mappen ‘resultat’. Resumé af CaseOLAP score beregning er også præsenteret i tabel 5. Gå til Logmappen ” at læse logmeddelelser i ‘caseolap_score_log.txt’, hvis denne proces mislykkes. Hvis processen er fuldført, vil de debugging beskeder CaseOLAP score beregningsmetode printes ud i logfilen.

Representative Results

For at producere prøveresultater, vi gennemført CaseOLAP algoritme i to emne overskrifter/deskriptorer: “Aldersgrupper” og “Ernæringsmæssige og metaboliske sygdomme” som use cases. Aldersgrupper. Vi valgte alle 4 underkategorier af “Aldersgrupper” (spædbarn, barn, teenager og voksen) som celler i en tekst-terning. Fremstillet metadata og statistikker er vist i tabel 3A. Sammenligning af antallet af dokumenter blandt tekst-Cube celler vises i figur 6A. Voksen indeholder 172,394 dokumenter som er det højeste tal på tværs af alle celler. De voksne og unge underkategorier har det højeste antal delte dokumenter (26,858 dokumenter). Især omfattede disse dokumenter enheden af vores interesse kun (dvs. mitokondrielle proteiner). Venn-diagram i figur 6B repræsenterer antallet enheder (dvs. mitokondrielle proteiner) fundet i hver celle, og flere overlapninger mellem cellerne. Antallet af proteiner deles inden for alle aldersgrupper underkategorier er 162. Underkategorien voksen skildrer det højeste antal unikke proteiner (151) efterfulgt af barnet (16), spædbarn (8) og unge (1). Vi beregnet protein-alder gruppe association som en CaseOLAP score. Top 10 proteiner (baseret på deres gennemsnitlige CaseOLAP score) tilknyttet spædbarn, barn, teenager og voksen underkategorier er Sterol 26-hydroxylase, Alpha-et B kæde, 25-hydroxyvitamin D-1 alpha-hydroxylase, Serotransferrin, citrat syntase, L-seryl-tRNA, natrium/kalium-transporterer ATPase-subunit alpha-3, Glutathione S-transferase omega-1, NADPH: adrenodoxin oxidoreductase og mitokondriel peptid methionin sulfoxid reduktase (vist i figur 6 c). Underkategorien voksne viser 10 heatmap celler med en højere støtteintensitet i forhold til heatmap celler teenager, barn og spædbarn underkategori, der angiver, at de top 10 mitokondrielle proteiner udviser de stærkeste foreninger til voksen underkategori. Mitokondrie protein Sterol 26-hydroxylase har høj foreninger i alle alder underkategorier, som fremgår af heatmap celler med højere intensitet i forhold til de andre 9 mitokondrielle proteiner heatmap celler. Den statistiske fordeling af den absolutte forskel i score mellem to grupper viser den følgende udvalg for betyde forskellen med et 99% konfidensinterval: (1) den gennemsnitlige forskel mellem ‘ADLT’ og ‘INFT’ ligger i intervallet (0.029 til 0.042), (2) gennemsnitlige forskel mellem ‘ADLT’ og ‘CHLD’ ligger i intervallet (0.021 til 0.030), (3) den gennemsnitlige forskel mellem ‘ADLT’ og ‘ADOL’ ligger i intervallet (0.020 til 0.029), (4) den gennemsnitlige forskel mellem ‘ADOL’ og ‘INFT’ ligger i intervallet (0.015 til 0,022), (5) den gennemsnitlige forskel mellem ‘ADOL’ og ‘CHLD’ ligger i intervallet (0,007 til 0.010), (6) den gennemsnitlige forskel mellem ‘CHLD’ og ‘INFT’ ligger i intervallet (0.011 til 0.016). Ernæringsmæssige og metaboliske sygdomme. Vi valgte 2 underkategorier af “Ernæringsmæssige og metaboliske sygdomme” (dvs., stofskiftesygdom og ernæringsmæssige lidelser) at oprette 2 celler i en tekst-kube. Fremstillet metadata og statistikker er vist i tabel 3B. Sammenligning af antallet af dokumenter blandt tekst-Cube celler vises i figur 7A. Underkategori stofskiftesygdom indeholder 54,762 dokumenter efterfulgt af 19,181 dokumenter i ernæringsmæssige lidelser. Underkategorier metabolisk sygdom og ernæringsmæssige lidelser har 7,101 delte dokumenter. Især omfattede disse dokumenter enheden af vores interesse kun (dvs. mitokondrielle proteiner). Venn-diagram i figur 7B repræsenterer antallet af enheder, der findes i hver celle, og flere overlapninger mellem cellerne. Vi beregnet protein-“Ernærings- og stofskiftesygdomme” foreningen som en CaseOLAP score. Top 10 proteiner (baseret på deres gennemsnitlige CaseOLAP score) tilknyttet denne brugstilfældet er Sterol 26-hydroxylase, Alpha-et B kæde, L-seryl-tRNA, citrat syntase, tRNA pseudouridine SYNTASE A, 25-hydroxyvitamin D-1 alpha-hydroxylase, NADPH Glutathione S-transferase omega-1: adrenodoxin oxidoreductase, mitokondrie peptid methionin sulfoxid reduktase, Plasminogen aktivator inhibitor 1 (vist i figur 7C). Over halvdelen (54%) alle proteiner er delt mellem underkategorier metaboliske sygdomme og ernæringsmæssige lidelser (397 proteiner). Interessant, næsten halvdelen (43%) af alle tilknyttede proteiner i underkategorien stofskiftesygdom er unikke (300 proteiner), ernæringsmæssige lidelser udviser kun få unikke proteiner (35). Alpha-et B kæde viser den stærkeste tilknytning til underkategori metaboliske sygdomme. Sterol 26-hydroxylase, mitokondrie viser den stærkeste association i underkategorien ernæringsmæssige lidelser, indikerer, at denne mitokondrie protein er yderst relevante i undersøgelser beskriver ernæringsmæssige lidelser. Den statistiske fordeling af den absolutte forskel i score mellem to grupper ‘MBD’ og ‘NTD’ viser intervallet (0.046 til 0.061) for den gennemsnitlige forskel som et 99% konfidensinterval. Figur 1. Dynamisk visning af arbejdsprocessen CaseOLAP. Dette tal repræsenterer de 5 vigtigste trin i arbejdsprocessen CaseOLAP. I trin 1 begynder arbejdsprocessen ved at downloade og uddrager tekstmæssige dokumenter (f.eks. fra PubMed). I trin 2 parses udtrukne data for at oprette et datakatalog for hvert dokument samt en MeSH PMID kortlægning. I trin 3, er data indekseringen udført for at lette hurtig og effektiv enhed søgning. I trin 4 udføres gennemførelsen af brugerangivne kategorioplysninger (e.g., root MeSH for hver celle) til at konstruere en tekst-terning. I trin 5 gennemføres enhed tæller operationen over indeksdata til at beregne CaseOLAP noder. Disse trin gentages i en iterativ måde at opdatere systemet med de seneste oplysninger fås i en offentlig database (fx PubMed). Venligst klik her for at se en større version af dette tal. Figur 2. Tekniske arkitektur CaseOLAP arbejdsproces. Dette tal repræsenterer de tekniske detaljer i CaseOLAP arbejdsproces. Data fra arkivet PubMed er indsamlet fra PubMed FTP-serveren. Brugeren opretter forbindelse til cloud server (fx AWS connectivity) via deres enhed og skaber en Download rørledning, som henter og uddrag data hen til en lokal genplacerer i skyen. Udtrukne data er struktureret, kontrolleret og bragt til en korrekt format med en Data Parsing rørledning. Samtidig oprettes en maske til PMID tilknytningstabel under parsing trin, der bruges til tekst-terning opførelse. Parsede data gemmes som en JSON som nøgle-værdi ordbog format med dokumentmetadata (fx PMID, MeSH, publishing år). Indeksering skridt yderligere forbedrer data ved at implementere Elasticsearch for at håndtere bulk data. Næste, tekst-Cube er lavet med bruger-definerede kategorier ved at gennemføre MeSH PMID kortlægning. Når tekst-Cube dannelse og indeksering trin er afsluttet, udføres en enhed tæller. Grev objektdataene er gennemført til tekst-kube-metadata. Endelig er CaseOLAP score beregnes baseret på underliggende tekst-kubestrukturen. Venligst klik her for at se en større version af dette tal. Figur 3. Et udsnit af en parsede dokument. En stikprøve af parsede data er præsenteret i denne figur. De parsede data er arrangeret som en nøgle / værdi-par, som er kompatibel med indeksering og dokument oprettelse af metadata. I denne figur, en PMID (f.eks., “25896987”) fungerer som en nøgle og samling af tilknyttede oplysninger (f.eks. titel, Journal, offentliggør dato, abstrakt, MeSH, stoffer, afdeling og beliggenhed) som værdi. Den første anvendelse af sådanne dokumentmetadata er opførelsen af MeSH til PMID kortlægning (figur 5 og tabel 2), som gennemføres senere til at oprette tekst-kube og til beregning af CaseOLAP score med brugerangivne enheder og kategorier. Venligst klik her for at se en større version af dette tal. Figur 4. Et udsnit af et MeSH træ. ‘Alder gruppernes MeSH træet er tilpasset fra træet datastrukturen i NIH database (MeSH træ 2018, ). MeSH deskriptorer er gennemført med deres node id’er (f.eks. personer [M01], aldersgrupper [M01.060], teenager [M01.060.057], voksen [M01.060.116], barn [M01.060.406], spædbarn [M01.060.703]) at indsamle de dokumenter, der er relevante for et bestemt MeSH descriptor ( Tabel 3A). Venligst klik her for at se en større version af dette tal. Figur 5. MeSH PMID kortlægning i aldersgrupper. Dette tal viser antallet af tekstdokumenter (hver forbundet med en PMID) indsamlet i henhold til trådnet deskriptorerne i “Aldersgrupper” som en boble plot. Trådnet PMID kortlægning er genereret for at give det nøjagtige antal dokumenter, der opsamlet under trådnet deskriptorerne. Et samlet antal på 3,062,143 unikke dokumenter blev indsamlet under de 18 efterkommere MeSH deskriptorer (Se tabel 2). Jo højere valgt antallet af PMIDs under en bestemt MeSH deskriptor, jo større radius af den boble, der repræsenterer trådnet descriptor. For eksempel, det højeste antal dokumenter, der blev indsamlet under trådnet descriptor “Voksen” (1,786,371 dokumenter), der henviser til, at færrest mulige tekstdokumenter blev indsamlet under trådnet descriptor “Spædbarn, Postmature” (62 dokumenter).Et yderligere eksempel maskestørrelser PMID kortlægning gives for “Ernæringsmæssige og metaboliske sygdomme” (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). Et samlet antal på 422,039 unikke dokumenter blev indsamlet under 361 efterkommer MeSH beskriverne i “Ernæringsmæssige og metaboliske sygdomme”. Det højeste antal dokumenter, der blev indsamlet under trådnet descriptor “Fedme” (77,881 dokumenter) efterfulgt af “Diabetes Mellitus, Type 2” (61,901 dokumenter), der henviser til “glykogen lagring sygdom, Skriv VIII” udstillet færrest mulige dokumenter (1 dokument ). En relateret tabel er også tilgængelig online på (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). Venligst klik her for at se en større version af dette tal. Figur 6. “Aldersgrupper” som en use case. Dette tal præsenterer resultaterne fra en use case for CaseOLAP platform. I dette tilfælde protein navne og deres forkortelser (se eksempel i tabel 4) er gennemført som enheder og “Aldersgrupper” herunder cellerne: spædbarn (INFT), barn (CHLD), teenager (ADOL) og voksen (ADLT), gennemføres som underkategorier (Se Tabel 3A). (A) Antal dokumenter i “Aldersgrupper”: Dette zonekort viser antallet dokumenter, der er fordelt på tværs af cellerne i “Alderen grupper” (yderligere oplysninger om tekst-Cube oprettelse Se protokol 4 og tabel 3A). Et højere antal dokumenter er præsenteret med en mørkere intensiteten af heatmap celle (Se skalaen). Et enkelt dokument kan indgå i mere end én celle. Heatmap præsenterer antallet af dokumenter inden for en celle langs den diagonale placering (f.eks. ADLT indeholder 172,394 dokumenter som er det højeste tal på tværs af alle celler). Den nondiagonal holdning udgør antallet af dokumenter, der falder ind under to celler (f.eks. ADLT og ADOL har 26,858 delte dokumenter). (B) . Virksomheden tæller i “Aldersgrupper”: Venn-diagram repræsenterer antallet af proteiner, der findes i de fire celler repræsenterer “Aldersgrupper” (INFT, CHLD, ADOL og ADLT). Antallet af proteiner deles inden for alle celler er 162. Aldersgruppe ADLT skildrer det højeste antal unikke proteiner (151) efterfulgt af CHLD (16), INFT (8) og ADOL (1). (C) CaseOLAP score præsentation i “Aldersgrupper”: De øverste 10 proteiner med de højeste gennemsnitlige CaseOLAP scorer i hver gruppe er præsenteret i en zonekort. En højere CaseOLAP score er præsenteret med en mørkere intensiteten af heatmap celle (Se skalaen). Protein navne vises på venstre kolonne og celler (INFT, CHLD, ADOL, ADLT) der vises langs x-aksen. Nogle proteiner viser en stærk tilknytning til en bestemt aldersgruppe (f.eks Sterol 26-hydroxylase, alpha-et B kæde og L-seryl-tRNA har stærke associationer til ADLT, mens natrium/kalium-transporterer ATPase subunit alpha-3 har en stærk forening med INFT). Venligst klik her for at se en større version af dette tal. Figur 7. “Ernærings- og stofskiftesygdomme” som en use case: dette tal præsenterer resultaterne fra en anden brugstilfældet af CaseOLAP platform. I dette tilfælde protein navne og deres forkortelser (se eksempel i tabel 4) er gennemført som enheder og “Ernæringsmæssige og metabolisk sygdom” herunder de to celler: metabolisk sygdom (MBD) og ernæringsmæssige lidelser (NTD) gennemføres som underkategorier (Se tabel 3B). (A). antal dokumenter i “Ernæringsmæssige og metaboliske sygdomme”: denne heatmap viser antallet af tekstdokumenter i cellerne i “Ernæringsmæssige og metaboliske sygdomme” (for oplysninger om tekst-kubeoprettelse Se protokol 4 og tabel 3B ). Et højere antal dokumenter er præsenteret med en mørkere intensiteten af heatmap celle (Se skala). Et enkelt dokument kan indgå i mere end én celle. Heatmap præsenterer det samlede antal dokumenter inden for en celle langs den diagonale placering (f.eks., MBD indeholder 54,762 dokumenter som er det højeste tal på tværs af de to celler). Positionen nondiagonal angiver antallet af dokumenter deles af de to celler (f.eks., MBD og NTD har 7,101 delte dokumenter). (B). enhed tæller i “Ernæringsmæssige og metaboliske sygdomme”: Venn-diagram repræsenterer antallet af proteiner, der findes i de to celler, der repræsenterer “Ernæringsmæssige og metaboliske sygdomme” (MBD og NTD). Antallet af proteiner deles i to celler er 397. Cellen MBD skildrer 300 unikke proteiner, og cellen NTD skildrer 35 unikke proteiner. (C). CaseOLAP score præsentation i “Ernæringsmæssige og metaboliske sygdomme”: top 10 proteiner med de højeste gennemsnitlige CaseOLAP score i “Ernæringsmæssige og metaboliske sygdomme” er præsenteret i en zonekort. En højere CaseOLAP score er præsenteret med en mørkere intensiteten af heatmap celle (Se skala). Protein navne vises på venstre kolonne og celler (MBD og NTD) vises langs x-aksen. Nogle proteiner viser en stærk association til en specifik sygdom kategori (fx alfa-et B kæden har en høj association med metabolisk sygdom og sterol 26-hydroxylase har en høj association med ernæringsmæssige lidelser). Venligst klik her for at se en større version af dette tal. Tidsforbrug (procentdel af den samlede tid) Trin i CaseOLAP platform Algoritme og datastruktur af CaseOLAP platform Kompleksiteten af algoritme og datastruktur Oplysninger om trin 40% Downloading ogParsing Iteration og træ parsing algoritmer Iteration med indlejrede loop og konstant multiplikation: O(n^2), O (log n). Hvor ‘n’ er antal gentagelser. Henter pipeline gentages hver procedure over flere filer. Parsing af et enkelt dokument kører hver procedure over træstrukturen af rå XML-data. 30% Indeksering, søgning og tekst kubeoprettelse Iteration, søgealgoritmer af Elasticsearch (sortering, Lucene indeks, prioritetskøer, finite stat maskiner, bit siddet hacks, regex forespørgsler) Kompleksitet relateret til Elasticsearch (https://www.elastic.co/) Dokumenter indekseres ved at gennemføre iteration proces over data dictionary. Tekst-kubeoprettelse implementerer dokument meta-data og brugerangivne kategorioplysninger. 30% Enhed tælle og CaseOLAP beregning Iteration i integritet, popularitet, særpræg beregning O(1), O(n^2), flere kompleksitet relateret til caseOLAP Score beregning baseret på iteration typer. Enhed tæller drift viser en liste over dokumenterne og gøre en tælle funktion over listen. Grev objektdataene bruges til at beregne CaseOLAP score. Tabel 1. Algoritmer og kompleksitet. Denne tabel indeholder oplysninger om den tid (procentdel af samlede tidsforbrug) om procedurer (fx, downloade, parsing), datastruktur og detaljer om de implementerede algoritmer i CaseOLAP-platformen. CaseOLAP gennemfører professionel indeksering og søgning program kaldet Elasticsearch. Yderligere oplysninger om kompleksiteten i forbindelse med Elasticsearch og interne algoritmer kan findes på (https://www.elastic.co). MeSH deskriptorer Antal af PMIDs indsamlet Voksen 1,786,371 Midaldrende 1,661,882 Alderen 1,198,778 Teenager 706,429 Ung voksen 486,259 Barn 480,218 Alderen, 80 og derover 453,348 Barn, børnehaveklasse 285,183 Spædbarn 218,242 Spædbarn, nyfødt 160,702 Spædbarn, tidlig 17,701 Spædbarn, lav fødselsvægt 5,707 Svagelige ældre 4,811 Spædbarn, meget lav fødselsvægt 4,458 Spædbarn, små for gestationsalder 3,168 Spædbarn, ekstremt for tidligt 1,171 Spædbarn, ekstremt lav fødselsvægt 1,003 Spædbarn, Postmature 62 Tabel 2. MeSH PMID kortlægning statistikker. Denne tabel præsenterer alle efterkommer MeSH deskriptorer fra “Aldersgrupper” og deres antal indsamlet PMIDs (tekstdokumenter). Visualisering af disse statistikker er præsenteret i figur 5. A Spædbarn (INFT) Barn (CHLD) Teenager (ADOL) Voksen (ADLT) MeSH root-ID M01.060.703 M01.060.406 M01.060.057 M01.060.116 Antal underordnede MeSH beskrivelser 9 2 1 6 Antallet af PMIDs valgt 16,466 26,907 35,158 172,394 Antallet af enheder fundet 233 297 257 443 B Metaboliske sygdomme (MBD) Ernæringsmæssige lidelser (NTD) MeSH root-ID C18.452 C18.654 Antallet af efterkommer MeSHdeskriptorer 308 53 Antallet af PMIDs indsamlet 54,762 19,181 Antallet af enheder fundet 697 432 Tabel 3. Tekst-Cube Metadata. En tabelform visning af tekst-Cube metadata er præsenteret. Tabellerne indeholder oplysninger om kategorierne og MeSH descriptor rødder og efterkommere, som er iværksat for at indsamle dokumenter i hver celle. Tabellen indeholder også statistik over de dokumenter, der opsamlet og enheder. (A) “Aldersgrupper”: Dette er en tabelform visning af “Aldersgrupper” herunder spædbarn (INFT), barn (CHLD), teenager (ADOL) og voksen (ADLT) og deres MeSH root id’er, antallet af efterkommer MeSH deskriptorer, antallet af valgte PMIDs og antal fundet enheder. (B) “Ernæringsmæssige og metaboliske sygdomme”: Dette er en tabelform visning af “Ernæringsmæssige og metaboliske sygdomme” herunder stofskiftesygdom (MBD) og ernæringsmæssige lidelser (NTD) med deres MeSH root-id’er, antallet af efterkommer MeSH deskriptorer, antal valgte PMIDs og antallet af fundne enheder. Protein navne og synonymer Forkortelser N-acetylglutamate syntase, mitokondrie, aminosyre acetyltransferase, N-acetylglutamate syntase lang form; N-acetylglutamate syntase kort form; N-acetylglutamate syntase bevaret domæneformular] (EF 2.3.1.1) Protein/nucleic acid deglycase DJ-1 (Maillard deglycase) (Oncogene DJ1) (Parkinsons sygdom protein 7) (parkinsonisme-associerede deglycase) (Protein DJ-1) (EF 3.1.2.-) (EF 3.5.1.-) (EF 3.5.1.124) (DJ-1) Pyruvat carboxylase, mitokondrie (pyrodruesyre carboxylase) (EF 6.4.1.1) (PCB) BCL-2-bindende komponent 3 (p53 op-regulerede modulator af apoptose) (JFY-1) BH3-interagere domæne død agonist [BH3-interagere domæne død agonist p15 (p15 bud); BH3-interagere domæne død agonist p13; BH3-interagere domæne død agonist p11] (p22 bud) (BUD) (p13 bud) (p11 bud) ATP syntase subunit alpha, mitokondrie (ATP syntase F1 subunit alpha) Cytokrom P450 11B2, mitokondrie (aldosteron syntase) (syntese af aldosteron enzym) (CYPXIB2) (cytokrom P-450Aldo) (cytokrom P-450_C_18) (18 i Steroid-hydroxylase) (ALDOS) (EF 1.14.15.4) (EF 1.14.15.5) 60 kDa heat shock protein, mitokondrie (60 kDa chaperonin) (Chaperonin 60) (CPN60) (Heat shock protein 60) (mitokondriets matrix protein P1) (P60 lymfocyt protein) (HSP-60) (Hsp60) (HuCHA60) (EF 3.6.4.9) Caspase-4 (is og Ced-3 homolog 2) (Protease TX) [kløvet i: Caspase-4 subunit 1; Caspase-4 subunit 2] (CASP-4) (EF 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1) Tabel 4. Prøve tabellen Entity. Denne tabel viser stikprøve af enheder implementeret i vores to brugstilfælde: “Aldersgrupper” og “Ernæringsmæssige og metaboliske sygdomme” (figur 6 og figur 7, tabel 3A,B). Enhederne, der omfatter protein navne, synonymer og forkortelser. Hver enhed (med dets synonymer og forkortelser) er valgt én efter én og er gået gennem enhed søgehandling over indekserede data (Se protokol 3 og 5). Søgningen producerer en liste over dokumenter, som yderligere lette enhed tæller operationen. Mængder Bruger defineret Beregnet Ligning af mængden Betydningen af mængden Integritet Ja Nej Integriteten af bruger defineret enheder anses for at være 1,0. Repræsenterer en meningsfuld sætning. Talværdi er 1.0, når det er allerede en etableret sætning. Popularitet Nej Ja Popularitet ligningen i figur 1 (Workflow og algoritme) fra reference 5, «Materialer og metoder» sektion. Baseret på sigt hyppigheden af sætning inden i en celle. Normaliseret af samlede sigt hyppigheden af cellen. Stigning i sigt frekvens har faldende resultat. Særpræg Nej Ja Særpræg ligningen i figur 1 (Workflow og algoritme) fra reference 5, «Materialer og metoder» sektion. Baseret på sigt frekvens og dokument frekvens i en celle og på tværs af de tilstødende celler. Normaliseret af samlede sigt frekvens og dokument frekvens. Kvantitativt, er det sandsynligheden for, at en sætning er enestående i en bestemt celle. CaseOLAP score Nej Ja CaseOLAP score ligningen i figur 1 (Workflow og algoritme) fra reference 5, «Materialer og metoder» sektion. Baseret på integritet, popularitet og særpræg. Numeriske værdi falder altid inden for 0 til 1. Kvantitativt repræsenterer CaseOLAP score foreningen sætning-kategori Tabel 5. CaseOLAP ligninger: The CaseOLAP algoritme er udviklet af Fangbo Tao og Jiawei Han et al. i 20161. Kort, denne tabel præsenterer CaseOLAP score beregningen bestående af tre komponenter: integritet, popularitet, og særpræg og deres tilknyttede matematisk betydning. I vores brugstilfælde integritet score for proteiner er 1,0 (den maksimale score) fordi de står som etablerede objektnavne. CaseOLAP noder i vores brugstilfælde kan ses i figur 6 c og figur 7C.

Discussion

Vi har vist, at CaseOLAP algoritme kan skabe en sætning baseret kvantitative association til en videnbaseret kategori over store mængder af tekstmæssige data for udvinding af meningsfuld indsigt. Efter vores protokol, kan man bygge CaseOLAP rammer for at oprette en ønskede tekst-kube og kvantificere enhed-kategori foreninger gennem CaseOLAP score beregning. De opnåede rå CaseOLAP scorer kan tages til Integrativ analyser herunder dimensionalitet reduktion, klyngedannelse, tidsmæssige og geografiske analyse, samt oprettelsen af en grafisk database, som giver mulighed for semantisk kortlægning af dokumenter.

Anvendelighed af algoritmen. Eksempler på brugerdefinerede enheder end proteiner, kunne være en liste over gen navne, narkotika, specifikke tegn og symptomer, herunder deres forkortelser og synonymer. Derudover er der mange muligheder for kategori udvalg at fremme bestemte brugerdefinerede biomedicinske analyser (fx anatomi [A], disciplin og besættelse [H], fænomener og processer [G]). I vores to use cases, hentes alle videnskabelige publikationer og deres tekstdata fra MEDLINE databasen ved hjælp af PubMed som søgemaskine, som begge forvaltes af National Library of Medicine. CaseOLAP platform kan dog anvendes til andre databaser af interesse der indeholder biomedicinsk dokumenter med tekstdata som den FDA negative begivenhed Reporting System (FAERS). Dette er en åben database, der indeholder oplysninger om medicinske hændelser og medicin fejlrapporter indsendt til FDA. I modsætning til MEDLINE og FAERS, databaser i hospitaler der indeholder elektroniske patientjournaler fra patienter er ikke åbne for offentligheden og er begrænset af Health Insurance mobilitet og Accountability Act kendt som HIPAA.

CaseOLAP algoritme har været anvendt med succes til de forskellige typer af data (f.eks. nyhedsartikler)¹. Gennemførelsen af denne algoritme i biomedicinsk dokumenter der er sket i 2018⁵. Kravene til anvendelighed af CaseOLAP algoritme er, at hver af dokumenterne, der skal tildeles med nøgleord forbundet med begreber (fx MeSH deskriptorer i biomedicinsk publikationer, søgeord i nyhedsartikler). Hvis søgeord ikke er fundet, kan man anvende Autophrase⁶^,⁷ for at indsamle top repræsentativt vendinger og opbygge listen enhed før vores protokollens gennemførelsesregler. Vores protokol giver ikke skridt til at udføre Autophrase.

Sammenligning med andre algoritmer. Begrebet ved hjælp af en datakube⁸^,⁹^,¹⁰ og en tekst-Cube²^,³^,⁴ har været under udvikling siden 2005 med nye fremskridt at gøre datamining mere gældende. Begrebet Online Analytical Processing (OLAP)¹¹^,¹²^,¹³^,¹⁴^,¹⁵ i datamining og business intelligence går tilbage til 1993. OLAP, i almindelighed, aggregater oplysninger fra flere systemer, og gemmer det i en multi-dimensional format. Der er forskellige typer af OLAP-systemer implementeres i datamining. For eksempel (1) Hybrid transaktionen/analytisk behandling (HTAP)¹⁶^,¹⁷, (2) flerdimensionelle OLAP-(MOLAP)¹⁸^,¹⁹-terning baseret, og (3) relationelle OLAP (ROLAP)²⁰.

Specifikt, CaseOLAP algoritme er blevet sammenlignet med talrige eksisterende algoritmer, specifikt, med deres sætning segmentering forbedringer, herunder TF-IDF + Seg, MCX + Seg, MCX og SegPhrase. Desuden RepPhrase (RP, også kendt som SegPhrase +) er blevet sammenlignet med sin egen ablation variationer, herunder (1) RP uden integritet foranstaltning indarbejdet (RP No INT), (2) RP uden popularitet foranstaltning indarbejdet (RP nej POP) og (3) RP uden den Særpræg foranstaltning indarbejdet (RP ingen DIS). Benchmarkresultater er vist i undersøgelsen af Fangbo Tao et al.¹.

Der er stadig udfordringer på datamining, som kan tilføje ekstra funktionalitet i gemning og hentning af data fra databasen. Kontekstbevidste semantiske Analytical Processing (CaseOLAP) gennemfører systematisk Elasticsearch for at opbygge en indeksering database over millioner af dokumenter (protokol 5). Tekst-Cube er en dokumentstruktur, bygget over de indekserede data med brugerangivne kategorier (protokol 6). Dette forbedrer funktionalitet til dokumenter inden for og på tværs af cellen i tekst-terning og tillader os at beregne udtrykket frekvensen i enhederne over et dokument, og dokumentet frekvens over en bestemt celle (protokol 8). Den endelige CaseOLAP score udnytter disse frekvens beregninger for at udlæse en endelig score (protokol 9). I 2018 gennemført vi denne algoritme for at studere ECM proteiner og seks hjertesygdomme analysere protein-sygdom foreninger. Detaljerne i denne undersøgelse kan findes i undersøgelsen af Liem, D.A. et al.⁵. Angiver, at CaseOLAP kunne være almindeligt anvendt i biomedicinsk Fællesskabet at udforske en række forskellige sygdomme og mekanismer.

Begrænsninger af algoritmen. Sætning minedrift, selv er en teknik til at styre og hente vigtige begreber fra tekstdata. Samtidig med at opdage enhed-kategori association som en matematisk mængde (vektor), er denne teknik ude af stand til at finde ud af polaritet (fx, positiv eller negativ hældning) for foreningen. Man kan bygge den kvantitative sammendrag af de data, der udnytter tekst-Cude dokumentstrukturen med tildelte enheder og kategorier, men en kvalitativ koncept med mikroskopiske granularities ikke kan nås. Nogle begreber konstant udvikling fra sidste indtil nu. Summarization præsenteret for en bestemt enhed-kategori Sammenslutningen omfatter alle forekomster overalt i litteraturen. Dette kan mangle den tidsmæssige spredning af innovation. I fremtiden planlægger vi at løse disse begrænsninger.

Fremtidige anvendelser. Omkring 90% af de akkumulerede data i verden er i de ustrukturerede tekstdata. At finde en repræsentativ sætning og relation til de enheder, der er indlejret i teksten er en meget vigtig opgave for gennemførelsen af nye teknologier (f.eks. maskinen læring, Information udvinding, kunstig intelligens). For at gøre tekstdataene maskine læsbar, skal data være organiseret i databasen over som det næste lag af værktøjer kunne gennemføres. Fremover vil kan denne algoritme være et afgørende skridt i at gøre datamining mere funktionel for hentning af oplysninger og kvantificering af enhed-kategori foreninger.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbejde blev støttet i en del af National Heart, Lung, og Blood Institute: R35 HL135772 (til P. Ping); National Institute of General Medical Sciences: U54 GM114833 (til P. Ping, K. Watson, og W. Wang); U54 GM114838 (til J. Han); en gave fra Hellen & Larry Hoag Foundation og Dr. S. Setty; og TC Laubisch begavelse på UCLA (til P. Ping).

References

Tao, F., Zhuang, H., et al. Phrase-Based Summarization in Text Cubes. IEEE Data Engineering Bulletin. , 74-84 (2016).
Ding, B., Zhao, B., Lin, C. X., Han, J., Zhai, C. TopCells: Keyword-based search of top-k aggregated documents in text cube. IEEE 26th International Conference on Data Engineering (ICDE). , 381-384 (2010).
Ding, B., et al. Efficient Keyword-Based Search for Top-K Cells in Text Cube. IEEE Transactions on Knowledge and Data Engineering. 23 (12), 1795-1810 (2011).
Liu, X., et al. A Text Cube Approach to Human, Social and Cultural Behavior in the Twitter Stream.Social Computing, Behavioral-Cultural Modeling and Prediction. Lecture Notes in Computer Science. 7812, (2013).
Liem, D. A., et al. Phrase Mining of Textual Data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology-Heart and Circulatory. , (2018).
Shang, J., et al. Automated Phrase Mining from Massive Text Corpora. IEEE Transactions on Knowledge and Data Engineering. 30 (10), 1825-1837 (2018).
Liu, J., Shang, J., Wang, C., Ren, X., Han, J. Mining Quality Phrases from Massive Text Corpora. Proceedings ACM-Sigmod International Conference on Management of Data. , 1729-1744 (2015).
Lee, S., Kim, N., Kim, J. A Multi-dimensional Analysis and Data Cube for Unstructured Text and Social Media. IEEE Fourth International Conference on Big Data and Cloud Computing. , 761-764 (2014).
Lin, C. X., Ding, B., Han, J., Zhu, F., Zhao, B. Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. IEEE Data Mining. , 905-910 (2008).
Hsu, W. J., Lu, Y., Lee, Z. Q. Accelerating Topic Exploration of Multi-Dimensional Documents Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE International. , 1520-1527 (2017).
Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26 (1), 65-74 (1997).
Ravat, F., Teste, O., Tournier, R. Olap aggregation function for textual data warehouse. ICEIS – 9th International Conference on Enterprise Information Systems, Proceedings. , 151-156 (2007).
Ho, C. T., Agrawal, R., Megiddo, N., Srikant, R. Range Queries in OLAP Data Cubes. SIGMOD Conference. , (1997).
Saxena, V., Pratap, A. Olap Cube Representation for Object- Oriented Database. International Journal of Software Engineering & Applications. 3 (2), (2012).
Maniatis, A. S., Vassiliadis, P., Skiadopoulos, S., Vassiliou, Y. Advanced visualization for OLAP. DOLAP. , (2003).
Bog, A. . Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and its Application. , 7-13 (2013).
Özcan, F., Tian, Y., Tözün, P. Hybrid Transactional/Analytical Processing: A Survey. In Proceedings of the ACM International Conference on Management of Data (SIGMOD). , 1771-1775 (2017).
Hasan, K. M. A., Tsuji, T., Higuchi, K. An Efficient Implementation for MOLAP Basic Data Structure and Its Evaluation. International Conference on Database Systems for Advanced Applications. , 288-299 (2007).
Nantajeewarawat, E. Advances in Databases: Concepts, Systems and Applications. DASFAA 2007. Lecture Notes in Computer Science. 4443, (2007).
Shimada, T., Tsuji, T., Higuchi, K. A storage scheme for multidimensional data alleviating dimension dependency. Third International Conference on Digital Information Management. , 662-668 (2007).

Play Video

PDF

DOI

Cite This Article

Sigdel, D., Kyi, V., Zhang, A., Setty, S. P., Liem, D. A., Shi, Y., Wang, X., Shen, J., Wang, W., Han, J., Ping, P. Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications. J. Vis. Exp. (144), e59108, doi:10.3791/59108 (2019).

Cloud-baseret sætning minedrift og analyse af brugerdefinerede sætning-kategori Association i biomedicinsk publikationer

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

References

Tags

Play Video

Cite This Article

View Video

Cloud-baseret sætning minedrift og analyse af brugerdefinerede sætning-kategori Association i biomedicinsk publikationer

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below