Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications

Dibakar Sigdel; Vincent Kyi; Aiden Zhang; Shaun P. Setty; David  A. Liem; Yu Shi; Xuan Wang; Jiaming Shen; Wei Wang; JiaWei Han; Peipei Ping

doi:10.3791/59108

JoVE Journal > Medicine

Médecine

Skybaserte uttrykket gruvedrift og analyse av brukerdefinerte uttrykk kategori Association i biomedisinsk publikasjoner

Published: February 23, 2019

doi:

10.3791/59108

Dibakar Sigdel*^1,2, Vincent Kyi*^1,2, Aiden Zhang*¹, Shaun P. Setty, David A. Liem^2,4, Yu Shi, Xuan Wang, Jiaming Shen, Wei Wang^6,7, JiaWei Han, Peipei Ping^2,4,6

¹The NIH BD2K Center of Excellence in Biomedical Computing,University of California, Los Angeles, ²Department of Physiology,University of California, Los Angeles, ³Department of Pediatric and Adult Congenital Heart Surgery,Miller Children’s and Women’s Hospital and Long Beach Memorial Hospital, ⁴Department of Medicine/Cardiology,University of California, Los Angeles, ⁵NIH BD2K Program Centers of Excellence for Big Data Computing — KnowEng Center, Department of Computer Science,University of Illinois at Urbana-Champaign (UIUC), ⁶Scalable Analytics Institute (ScAi),University of California, Los Angeles, ⁷Department of Computer Science,University of California, Los Angeles

Summary

Vi presenterer en protokoll og tilknyttede programmeringskode, samt metadata prøver å støtte en skybasert automatisk identifikasjon av uttrykk-kategori forening som representerer unike konsepter i valgte kunnskap brukerdomene i biomedisinsk litteratur. Uttrykk kategori foreningen kvantifisert ved denne protokollen kan lette grundig analyse i valgte kunnskap domenet.

Abstract

Rask akkumulering av biomedisinsk tekstdata har langt overskredet menneskelig kapasitet av manuell konservering og analyse, nødvendiggjør romanen tekst-gruvedrift verktøy for å trekke ut biologiske innsikt fra store mengder av vitenskapelige rapporter. Rørledningen kontekstfølsomme semantisk Online Analytical Processing (CaseOLAP), utviklet i 2016, kvantifiserer vellykket brukerdefinerte uttrykk-kategori relasjoner gjennom analyse av tekstdata. CaseOLAP har mange biomedisinsk programmer.

Vi har utviklet en protokoll for en skybasert miljø som støtter ende-til-ende uttrykk-mining og analyser plattform. Våre protokollen inneholder data forbehandling (f.eks nedlasting utvinning og analyse av tekstdokumenter), indeksering og søking med Elasticsearch, opprette en funksjonell dokumentstruktur kalt tekst-Cube og kvantifisere uttrykk-kategori relasjoner ved hjelp av core CaseOLAP algoritmen.

Våre data forbehandling genererer nøkkelverdi tilordninger for alle dokumenter som er involvert. Preprocessed dataene er indeksert for å utføre et søk dokumenter inkludert enheter, som muliggjør ytterligere tekst-Cube etableringen og CaseOLAP score beregning. Innhentet rå CaseOLAP poengene blir tolket med en rekke integrerende analyser, inkludert dimensionality reduksjon, klynger, timelig, og geografiske analyser. I tillegg brukes CaseOLAP poengene til å opprette en grafisk database, som gjør semantisk kartlegging av dokumentene.

CaseOLAP definerer uttrykk-kategori relasjoner i en nøyaktig (angir relasjoner), konsekvent (svært reproduserbar), og effektiv måte (prosesser 100.000 ord/sek). Etter denne protokollen, kanne brukernes adgang en cloud-computing miljø for å støtte sine egne konfigurasjoner og bruk av CaseOLAP. Denne plattformen tilbyr forbedret tilgjengelighet og utdanner biomedisinsk fellesskapet med uttrykk-gruvedrift verktøy for utbredt biomedisinsk forskning programmer.

Introduction

Manuell vurdering av millioner av tekstfiler for studier av uttrykk-kategori association (f.eks., aldersgruppe protein Association) er makeløs med effektiviteten av en automatisert datametode. Vi ønsker å innføre den skybaserte kontekstfølsomme semantisk Online Analytical Processing (CaseOLAP) plattformen som en setning-mining metode for automatisk beregning av uttrykk-kategorien tilknytning i biomedisinsk sammenheng.

CaseOLAP-plattformen, som var først definert i 2016¹, er svært effektiv i forhold til tradisjonelle metoder for databehandling og beregning på grunn av sin funksjonelle dokumentbehandling kalt tekst-Cube²^,³^, ⁴, som distribuerer dokumenter samtidig opprettholde underliggende hierarki og nabolag. Det har vært brukt i biomedisinsk forskning⁵ å studere enhet-kategori association. Den CaseOLAP består av seks hovedtrinn inkludert nedlasting og utvinning av data, analyse, indeksering, tekst-Cube etableringen, enhet teller og CaseOLAP score beregning; som er hovedfokus for protokollen (figur 1, figur 2, tabell 1).

For å implementere CaseOLAP algoritmen, angir brukeren kategorier av interesse (f.eks sykdom, tegn og symptomer, aldersgrupper, diagnose) og enheter av interesse (f.eks proteiner, narkotika). Et eksempel på en kategori i denne artikkelen er ‘Alder grupper’, som har “Barn”, “child”, “ungdom”, og “voksen” underkategorier som celler av tekst-Cube og protein navn (synonymer) og forkortelser som enheter. Overskrifter for medisinske tema (MeSH) er implementert for å hente publikasjoner tilsvarer definerte kategoriene (tabell 2). MeSH beskrivelsene er organisert i en hierarkisk trestruktur tillater søk etter publikasjoner med varierende nivåer av spesifisitet (et eksempel som vist i Figur 3). CaseOLAP plattform benytter data fulltekstindeksering og funksjonaliteten for konservering av dokumenter knyttet til en enhet som ytterligere forenkler dokumentet til antall enhetstilordning og CaseOLAP score beregning.

Detaljer om CaseOLAP poeng beregningen er tilgjengelig i tidligere publikasjoner¹^,⁵. Dette regnet med utvalgte vilkår basert på underliggende dokumentstruktur for tekst-Cube. Sluttresultatet er et produkt av integritet, popularitetog egenart. Integritet beskriver om en representant enhet er en integrert semantisk enhet som refererer til et meningsfullt begrep. Integriteten til brukerdefinerte uttrykket er tatt å være 1.0 fordi det står som et standard uttrykk i litteraturen. Egenart representerer relativ relevansen av et uttrykk i en undergruppe av dokumenter i forhold til resten av de andre cellene. Det først beregner relevansen av en enhet til en bestemt celle ved å sammenligne forekomsten av protein navnet i datasettet mål og gir en normalisert egenart poengsum. Popularitet representerer at uttrykk med høyere popularitet poengsum vises oftere i en undergruppe av dokumenter. Sjeldne protein navn i en celle er rangert lavt, mens en økning i frekvensen av nevner har en avtagende avkastning på grunn av gjennomføringen av den logaritmiske funksjonen av frekvens. Kvantitativt måle disse tre konseptene avhenger av (1) begrepet frekvensen på enheten over en celle og over cellene og (2) antallet dokumenter har enheten (dokumentet frekvens) i cellen og over cellene.

Vi har studert to representant scenarier bruke PubMed dataset og vår algoritme. Vi er interessert i hvordan mitokondrie proteiner er forbundet med to unike kategoriene MeSH beskrivelser; “Aldersgrupper” og “ernæringsmessige og metabolske sykdommer”. Spesielt vi hentet 15,728,250 publikasjoner fra 20 år publikasjoner samlet av PubMed (1998 til 2018), blant dem, 8,123,458 unike Sammendrag har full MeSH beskrivelsene. Følgelig 1,842 menneskelige mitokondrie protein navn (inkludert forkortelser og synonymer), kjøpt fra UniProt (uniprot.org) og MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), er systematisk undersøkt. Tilknytning med disse 8,899,019 publikasjoner og enheter ble studert med våre protokollen; Vi bygget en tekst-kube og beregnet den respektive CaseOLAP score.

Protocol

Merk: Vi har utviklet denne protokollen basert på programmeringsspråket Python. For å kjøre dette programmet, har Anaconda Python og Git forhåndsinstallert på enheten. Kommandoene i denne protokollen er basert på Unix-miljø. Denne protokollen gir detaljene laste ned data fra PubMed (MEDLINE) database analyse av dataene og sette opp en cloud computing plattform for det uttrykket og kvantifisering av brukerdefinerte enhet-kategori association. 1. får koden og python miljøoppsett Last ned eller klone koden oppbevaringssted Github (https://github.com/CaseOLAP/caseolap) eller ved å skrive ‘git klone https://github.com/CaseOLAP/caseolap.git’ i terminalvinduet. Naviger til mappen “caseolap”. Dette er rotkatalogen på prosjektet. Innenfor denne mappen fylles mappen “data” med flere datasett som du avanserer gjennom disse trinnene i protokollen. “Input” katalogen er gitt data. ‘ Loggkatalogen ‘ har loggfiler for feilsøkingsformål. ‘Resultat’ katalogen er der de endelige resultatene vil bli lagret. Bruker terminalvinduet, gå til katalogen der du har klonet våre GitHub oppbevaringssted. Opprette CaseOLAP miljøet benytter filen ‘environment.yml’ ved å skrive “conda konv opprette -f environment.yaml’ i terminalen. Deretter aktivere miljøet ved å skrive “kilde aktivere caseolap” i terminalen. 2. nedlasting dokumenter Kontroller at FTP-adressen i ‘ftp_configuration.json’ i config-mappen er det samme som årlige opprinnelige eller daglig oppdateringsfilene Lenkeadressen, finnes i linken (https://www.nlm.nih.gov/databases/download/pubmed_medline.html) . For å laste ned planlagte bare eller oppdatere satt filer bare ‘true’ i filen “download_config.json” i mappen “config”. Som standard, den nedlesser og trekker ut både baseline og oppdatere filer. Et utvalg av utdraget XML-data kan sees på (https://github.com/CaseOLAP/caseolap-pipelines/blob/master/data/extracted-data-sample.xml) Skriv inn ‘python run_download.py’ i terminalvinduet laste ned utdrag fra Pubmed databasen. Dette vil opprette en katalog som heter “ftp.ncbi.nlm.nih.gov” i gjeldende mappe. Denne prosessen kontrollerer integriteten for de nedlastede dataene og trekker den ut til målmappen. Gå til ‘ loggkatalogen ‘ lese loggmeldingene i ‘download_log.txt’ i tilfelle nedlastingsprosessen mislykkes. Hvis prosessen er fullført, skrives feilsøkings meldingene av nedlastingsprosessen i loggfilen. Når nedlastingen er fullført, kan du navigere gjennom “ftp.ncbi.nlm.nih.gov” for å sikre at det er ‘updatefiles’ eller ‘basefiles’ eller begge mapper basert på nedlasting konfigurasjon i ‘download_config.json’. Filen statistikken bli tilgjengelig på “filestat.txt” i mappen “data”. 3. analyse av dokumenter Kontroller at nedlastede og utdraget er tilgjengelig hos ‘ftp.ncbi.nlm.nih.gov’ fra trinn 2. Denne mappen er mappen inndataene i dette trinnet. For å endre skjemaet for data-analyse, Velg parametere i “parsing_config.json”-filen i mappen “config” ved å sette verdien til ‘ekte’. Som standard, analyseres den PMID, forfattere, abstrakte, MeSH, plassering, journal, publiseringsdato. Skriv inn ‘python run_parsing.py’ i terminalen å analysere dokumenter fra nedlastede (eller utdraget) filer. Dette trinnet analyserer alle nedlastede XML-filer og opprettes en python ordliste for hvert dokument med nøkler (f.eks., PMID, forfattere, sammendrag, MeSH av filen basert på analyse av oppsett på trinn 3.2). Når data analyse er fullført, må du kontrollere at analyserte data lagres i filen som heter “pubmed.json” i datamappen. Et utvalg av analyserte data er tilgjengelig på Figur 3. Gå til ‘ loggkatalogen ‘ lese loggmeldingene i ‘parsing_log.txt’ i tilfelle analyse av prosessen mislykkes. Hvis prosessen er fullført, skrives feilsøkings meldingene i loggfilen. 4. mesh til PMID kartlegging Kontroller at analyserte data (‘pubmed.json’) er tilgjengelig i mappen “data”. Skriv inn ‘python run_mesh2pmid.py’ i terminalen å utføre MeSH til PMID kartlegging. Dette oppretter en tilordning tabell hvor hver av MeSH samler tilknyttet PMIDs. En enkelt PMID kan falle under flere MeSH vilkårene. Når tilordningen er fullført, kontroller at det er “mesh2pmid.json” i datamappen. Et utvalg av topp 20 kartlegging statistikken er tilgjengelig i tabell-2, tallene 4 og 5. Gå til ‘ loggkatalogen ‘ lese loggmeldingene i ‘mesh2pmid_mapping_log.txt’ i tilfelle denne prosessen mislykkes. Hvis prosessen er fullført, skrives feilsøkings meldingene tilordnet i loggfilen. 5. dokumentet indeksering Laste ned programmet Elasticsearch fra https://www.elastic.co. Nedlastingen er for øyeblikket tilgjengelig på (https://www.elastic.co/downloads/elasticsearch). For å laste ned programvaren i eksterne skyen, skriver du inn ‘wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-x.x.x.tar.gz’ i terminalen. Kontroller at “x.x.x” i over kommandoen er erstattet av riktig versjonsnummeret. Kontroller den nedlastede “elasticsearch-x.x.x.tar.gz”-filen vises i rotkatalogen og deretter pakke ut filene ved å skrive “tar xvzf elasticsearch-x.x.x.tar.gz’ i terminalvinduet. Åpne en ny terminal, og gå til ElasticSearch bin-katalogen ved å skrive ‘cd Elasticsearch/bin’ i terminalen fra rotmappen. Start Elasticsearch serveren ved å skrive “. / Elasticsearch’ i terminalvinduet. Kontroller at serveren er startet uten feilmeldinger. I tilfelle feil på starter Elasticsearch server, kan du følge instruksjonene på (https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html). Endre innholdet i de ‘index_init_config.json’ i ‘konfigurasjon’ katalog angi indeks innvielse. Som standard merkes alle elementer stede. Skriv inn ‘python run_index_init.py’ i terminalen å starte en indeks-database i Elasticsearch server. Dette starter indeksen med et kriteriesett kalles indeksinformasjon (f.eks indeksnavnet, navn, antall skår, antall replikaer). Du vil se meldingen nevner indeksen er opprettet. Velg elementene i den “index_populate_config.json” i mappen “config” ved å sette verdien til ‘ekte’. Som standard merkes alle elementer stede. Kontroller at analyserte data (“pubmed.json”) finnes i mappen “data”. Skriv inn ‘python run_index_populate.py’ i terminalen å fylle indeksen ved å opprette bulk data med to komponenter. En første komponenten er en ordbok med metadatainformasjon om indeksnavnet, navn, og bulk id (f.eks ‘PMID’). A andre komponenten er en data-ordboken som inneholder all informasjon om kodene (f.eks ‘tittel’, “abstrakt”, “MeSH”). Gå til ‘ loggkatalogen ‘ lese loggmeldingene i ‘indexing_log.txt’ i tilfelle denne prosessen mislykkes. Hvis prosessen er fullført, skrives feilsøkings meldingene av indeksering i loggfilen. 6. tekst-cube etableringen Last ned den nyeste MeSH treet på (https://www.nlm.nih.gov/mesh/filelist.html). Gjeldende versjon av koden bruker MeSH treet 2018 som ‘meshtree2018.bin’ i input-mappen. Define kategoriene av interesse (f.eks sykdom navn, aldersgrupper, kjønn). En kategori kan inneholde én eller flere MeSH beskrivelser (https://meshb-prev.nlm.nih.gov/treeView). Samle MeSH IDer for en kategori. Lagre navnene på kategoriene i filen ‘textcube_config.json’ i config katalogen (se eksempel på kategorien i “Aldersgruppe” inne det dataoverførte versjonen av “textcube_config.json”-filen). Samlet kategoriene MeSH IDer innlegge en linje atskilt med mellomrom. Lagre filen kategori som “categories.txt” i mappen “input” (se utvalg av “Aldersgruppe” MeSH IDer i den nedlastede versjonen av ‘categories.txt’ filen). Denne algoritmen velger automatisk alle etterkommer MeSH beskrivelsene. Et eksempel på rotnoder og etterkommere presenteres i Figur 4. Kontroller at “mesh2pmid.json” i mappen “data”. Hvis MeSH treet er oppdatert med et annet navn (f.eks “meashtree2019.bin”) i “input”-mappen, kontrollerer du at dette er skikkelig representert i inndataene banen i filen ‘run_textube.py’. Skriv inn ‘python run_textcube.py’ i terminalen å lage en dokumentet datastruktur kalt tekst-kube. Dette skaper en samling dokumenter (PMIDs) for hver kategori. Et enkelt dokument (PMID) kan falle under flere kategorier (se tabell 3A, 3B tabell, figur 6A og figur 7A). Når tekst-Cube etableringen trinn er fullført, kontroller at følgende datafiler blir lagret i mappen “data”: (1) en celle PMID tabellen som “textcube_cell2pmid.json”, (2) en PMID til celle tilordningstabellen som “textcube_pmid2cell.json”, (3) samling av alle etterkommer MeSH termer for en celle som “meshterms_per_cat.json” (4) tekst-Cube data statistikk som “textcube_stat.txt”. Gå til ‘ loggkatalogen ‘ lese loggmeldingene i ‘textcube_log.txt’ i tilfelle denne prosessen mislykkes. Hvis prosessen er fullført, skrives feilsøkings meldingene tekst-Cube etableringen i loggfilen. 7. enhet teller Opprette brukerdefinerte enheter (f.eks protein navn, gener, kjemikalier). Sette en enhet og dens forkortelser på en linje med “|”. Lagre filen enhet som “entities.txt” i mappen “input”. Et utvalg av enheter finnes i Tabell 4. Kontroller at Elasticsearch serveren kjører. Ellers, gå til trinn 5.2 og 5.3 å starte Elasticsearch serveren. Det er forventet å ha en indeksert database kalt “pubmed” i din Elasticsearch server som ble opprettet i trinn 5. Kontroller at “textcube_pmid2cell.json” i mappen “data”. Skriv inn ‘python run_entitycount.py’ i terminalen enhet teller operasjonen. Dette søker dokumentene fra indeksert databasen og teller enheten i hvert dokument samt samler PMIDs der enheter ble funnet. Når enheten opptellingen er fullført, kontroller at de endelige resultatene lagres som ‘entitycount.txt’ og ‘entityfound_pmid2cell.json”i mappen”data”. Gå til ‘ loggkatalogen ‘ lese loggmeldingene i ‘entitycount_log.txt’ i tilfelle denne prosessen mislykkes. Hvis prosessen er fullført, skrives feilsøkings meldingene av enhet greven i loggfilen. 8. metadataoppdatering Kontroller at alle inndata (‘entitycount.txt’, ‘textcube_pmid2cell.json’, ‘entityfound_pmid2cell.txt’) i mappen “data”. Dette er inndataene for metadataoppdatering. Skriv inn ‘python run_metadata_update.py’ i terminalen oppdatere metadata. Forberedes en samling av metadata (f.eks celle navnet, tilknyttet MeSH, PMIDs) som representerer hver tekstdokument i cellen. Et utvalg av tekst-Cube metadata er presentert i tabell 3A og tabell 3B. Når Metadata oppdateringen er fullført, kontroller at ‘metadata_pmid2pcount.json’ og ‘metadata_cell2pmid.json’ lagres i “data”-katalogen. Gå til ‘ loggkatalogen ‘ lese loggmeldingene i ‘metadata_update_log.txt’ i tilfelle denne prosessen mislykkes. Hvis prosessen er fullført, skrives feilsøkings meldingene av metadata i loggfilen. 9. CaseOLAP score beregning Kontroller at ‘metadata_pmid2pcount.json’ og ‘metadata_cell2pmid.json’ filene finnes i mappen “data”. Dette er inndataene for score beregning. Skriv inn ‘python run_caseolap_score.py’ i terminalen å utføre CaseOLAP score beregning. Den beregner CaseOLAP score på enhetene basert på egendefinerte kategorier. Det CaseOLAP snes er produktet av integritet, popularitetog egenart. Når score beregning er fullført, må du kontrollere at dette lagrer resultatene i flere filer (f.eks popularitet som ‘pop.csv’, egenart som ‘dist.csv’, CaseOLAP score som ‘caseolap.csv’), i mappen ‘resultat’. Sammendrag av CaseOLAP poeng beregningen er også presentert i tabell 5. Gå til ‘ loggkatalogen ‘ lese loggmeldingene i ‘caseolap_score_log.txt’ i tilfelle denne prosessen mislykkes. Hvis prosessen er fullført, skrives feilsøkings meldingene CaseOLAP score beregning i loggfilen.

Representative Results

For å produsere prøven resultater, vi implementert CaseOLAP algoritmen i to emne overskrifter/beskrivelser: “Aldersgrupper” og “Ernæringsmessige og metabolske sykdommer” som brukstilfeller. Aldersgrupper. Vi valgte alle 4 underkategorier av “Aldersgrupper” (spedbarn, barn, ungdom og voksne) som celler i en tekst-kube. Innhentet metadataene og statistikk vises i tabellen 3A. Sammenligning av dokumenter blant tekst-Cube cellene vises i figur 6A. Voksen inneholder 172,394 dokumenter som er det høyeste tallet i alle celler. Den voksne og ungdom underkategorier har det høyeste antallet delte dokumenter (26,858 dokumenter). Spesielt inkludert disse dokumentene enheten for vår interesse bare (dvs. mitokondrie proteiner). Venn-diagram i figur 6B representerer antall enheter (dvs. mitokondrie proteiner) funnet i hver celle, og i flere overlappinger mellom cellene. Proteiner delt i alle aldersgrupper underkategorier er 162. Den voksen underkategorien viser høyeste antall unike proteiner (151) etterfulgt av barn (16), spedbarn (8) og ungdom (1). Vi beregnet protein-alder gruppen foreningen som en CaseOLAP poengsum. Topp 10 proteiner (basert på poengsummen deres gjennomsnittlige CaseOLAP) knyttet til spedbarn, barn, ungdom og voksen underkategorier er Sterol 26-hydroksylase, Alpha-crystallin B kjeden, 25-hydroksyvitamin D-1 alpha-hydroksylase, Serotransferrin, Citrate syntase, L-seryl-tRNA, natrium/kalium-transport ATPase-delenhet alfa-3, Glutathione-S-transferase-omega-1, NADPH: adrenodoxin oxidoreductase og mitokondrie peptid metionin sulfoxide reduktase (vist i figur 6C). Den voksen underkategorien viser 10 heatmap celler med en høyere intensitet sammenlignet heatmap cellene av ungdom, barn og spedbarn underkategori, indikerer at topp 10 mitokondrie proteiner ha de sterkeste tilknytningene til voksen underkategori. Mitokondrielt protein Sterol 26-hydroksylase har høy assosiasjoner i alle alder underkategorier som er demonstrert av heatmap celler med høyere intensiteter sammenlignet heatmap cellene i andre 9 mitokondrie proteiner. Statistisk fordeling av den absolutte forskjellen i score mellom to grupper viser følgende for bety forskjellen med en 99% konfidensintervall: (1) betyr forskjellen mellom ‘ADLT’ og ‘INFT’ ligger i området (0.029 til 0.042), (2) betyr forskjellen mellom ‘ADLT’ og ‘CHLD’ ligger i området (0.021 til 0.030), (3) betyr forskjellen mellom ‘ADLT’ og ‘ADOL’ ligger i området (0.020 til 0.029), (4) betyr forskjellen mellom ‘ADOL’ og ‘INFT’ ligger i området (0.015 til 0.022), (5) betyr forskjellen mellom ‘ADOL’ og ‘CHLD’ ligger i området (0.007 til 0.010), (6) betyr forskjellen mellom ‘CHLD’ og ‘INFT’ ligger i området (0,011 til 0.016). Ernæringsmessige og metabolske sykdommer. Vi valgte 2 underkategorier av “Ernæringsmessige og metabolske sykdommer” (dvs. metabolsk sykdom og ernæringsmessige lidelser) opprette 2 celler i en tekst-kube. Innhentet metadataene og statistikk vises i tabellen 3B. Sammenligning av dokumenter blant tekst-Cube cellene vises i figur 7A. Underkategori metabolsk sykdom inneholder 54,762 dokumenter etterfulgt av 19,181 dokumenter i ernæringsmessige lidelser. Den underkategorier metabolsk sykdom og ernæringsmessige lidelser har 7,101 delte dokumenter. Spesielt inkludert disse dokumentene enheten for vår interesse bare (dvs. mitokondrie proteiner). Venn-diagram i figur 7B representerer antall enheter i hver celle, og i flere overlappinger mellom cellene. Vi beregnet protein-“Ernæringsmessige og metabolske sykdommer” foreningen som en CaseOLAP poengsum. Topp 10 proteiner (basert på poengsummen deres gjennomsnittlige CaseOLAP) knyttet til denne bruk-saken er Sterol 26-hydroksylase, Alpha-crystallin B kjede, L-seryl-tRNA, Citrate syntase, tRNA pseudouridine syntase A, 25-hydroksyvitamin D-1 alpha-hydroksylase, Glutathione-S-transferase omega-1, NADPH: adrenodoxin oxidoreductase, mitokondrie peptid metionin sulfoxide reduktase, Plasminogen aktivator inhibitor 1 (vist i figur 7C). Mer enn halvparten (54%) alle proteiner deles mellom underkategorier metabolske sykdommer og ernæringsmessige lidelser (397 proteiner). Interessant, nesten halvparten (43%) alle tilhørende proteiner i metabolsk sykdom underkategorien er unik (300 proteiner), mens ernæringsmessige lidelser viser bare noen unike proteiner (35). Alpha-crystallin B kjeden viser den sterkeste association underkategori metabolske sykdommer. Sterol 26-hydroksylase, mitokondrie viser den sterkeste association i ernæringsmessige lidelser underkategorien, som indikerer at dette mitokondrie protein er svært relevant i studier som beskriver ernæringsmessige lidelser. Statistisk fordeling av den absolutte forskjellen i score mellom to grupper ‘MBD’ og ‘NTD’ viser (0.046 til 0.061) betyr forskjellen som en 99% konfidensintervall. Figur 1. Dynamisk visning av CaseOLAP arbeidsflyten. Dette tallet representerer 5 hovedtrinnene i CaseOLAP arbeidsflyten. I trinn 1 starter arbeidsflyten av dataoverfører og utdrager tekstlig dokumenter (for eksempel fra PubMed). I trinn 2 analyseres hentet data for å opprette en data-ordboken for hvert dokument som en maske til PMID kartlegging. I trinn 3, er data indeksering gjennomført for å lette rask og effektiv enhet søk. I trinn 4 utføres implementering av brukerangitt kategoriinformasjon (f.eks., rot MeSH for hver celle) for å konstruere en tekst-kube. I trinn 5, er enhet teller operasjonen gjennomført over indeksdataene beregne CaseOLAP score. Denne fremgangsmåten gjentas i en iterativ måte oppdatere systemet med den nyeste informasjonen tilgjengelig i en offentlig database (f.eks PubMed). Klikk her for å se en større versjon av dette tallet. Figur 2. Teknisk arkitektur i CaseOLAP arbeidsflyten. Dette tallet representerer de tekniske detaljene for CaseOLAP arbeidsflyten. Data fra PubMed repositoriet er Hentet fra PubMed FTP-serveren. Brukeren kobler til Sky server (f.eks AWS connectivity) via deres apparat og skaper en nedlasting rørledning som laster ned og trekker ut dataene til et lokale oppbevaringssted i skyen. Hentet data er strukturert, bekreftet og brakt til en riktig format med en Data analyse rørledning. Samtidig, opprettes en MeSH PMID kartlegging tabellen under analyse av trinnet, som brukes for tekst-Cube konstruksjon. Analyserte dataene lagres som en JSON som nøkkel-verdi ordbok-format med dokumentmetadata (f.eks PMID, MeSH, publisering år). Indeksering skritt videre forbedrer dataene ved å implementere Elasticsearch å håndtere bulk data. Deretter opprettes tekst-kuben med brukerdefinerte kategorier ved å implementere MeSH til PMID kartlegging. Når tekst-Cube dannelse og indeksering trinn er fullført, utføres en enhet teller. Enhet teller data implementeres til tekst-Cube metadataene. Til slutt, CaseOLAP score er beregnet basert på den underliggende tekst-Cube-strukturen. Klikk her for å se en større versjon av dette tallet. Figur 3. Et utvalg av avlese analyserte dokumenter. Et utvalg av analyserte data vises i denne illustrasjonen. Analyserte dataene er ordnet som en nøkkel-verdi-par som er kompatibel med indeksering og dokumentet metadata etableringen. I dette tallet en PMID (f.eks “25896987”) fungerer som en nøkkel og samling av tilknyttet informasjon (f.eks. tittel, Journal, publisere dato, abstrakte, MeSH, stoffer, avdeling og plassering) er som verdi. Første bruk av slike dokumentmetadata er byggingen av MeSH til PMID kartlegging (figur 5 og tabell 2), som implementeres senere å lage tekst-kuben og beregne CaseOLAP score med brukerangitt enheter og Kategorier. Klikk her for å se en større versjon av dette tallet. Figur 4. Et eksempel på en MeSH-treet. ‘Alder gruppene MeSH treet er tilpasset fra treet datastrukturen i NIH databasen (MeSH treet 2018, ). MeSH beskrivelsene er implementert med sine node IDer (f.eks personer [M01], aldersgrupper [M01.060], ungdom [M01.060.057], voksen [M01.060.116], barn [M01.060.406], spedbarn [M01.060.703]) å samle dokumenter gjelder for en bestemt MeSH Beskrivelse ( Tabell 3A). Klikk her for å se en større versjon av dette tallet. Figur 5. Maske til PMID kartlegging i aldersgrupper. Dette tallet viser antall tekstdokumenter (hver koblet med en PMID) samlet under MeSH beskrivelsene i “Aldersgrupper” som en boble plott. MeSH til PMID kartlegging genereres for å gi nøyaktig antall dokumenter samlet under MeSH beskrivelsene. Totalt 3,062,143 unike dokumenter ble samlet under 18 etterkommer MeSH beskrivelsene (se tabell 2). Jo høyere merket antall PMIDs under en bestemt MeSH beskrivelse, jo større radius av boble representerer MeSH beskrivelsen. For eksempel, det høyeste antallet dokumenter ble samlet under MeSH beskrivelsen “Voksen” (1,786,371 dokumenter), mens færrest tekstdokumenter ble samlet under MeSH beskrivelsen “Spedbarn, Postmature” (62 dokumenter).Flere eksempler på MeSH PMID kartlegging gis for “Ernæringsmessige og metabolske sykdommer” (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). Totalt 422,039 unike dokumenter ble samlet under 361 etterkommer MeSH beskrivelsene i “Ernæringsmessige og metabolske sykdommer”. Høyeste antall dokumenter som ble samlet inn under MeSH beskrivelsen “Fedme” (77,881 dokumenter) etterfulgt av “Diabetes Mellitus, Type 2” (61,901 dokumenter), mens “glykogen lagring sykdom, Type VIII” utstilt færrest dokumenter (1 dokument ). En relatert tabell er også tilgjengelig online på (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). Klikk her for å se en større versjon av dette tallet. Figur 6. “Aldersgrupper” som et brukstilfelle. Dette tallet presenterer resultatene fra et brukstilfelle for CaseOLAP-plattformen. I dette tilfellet protein navn og deres forkortelser (se eksemplar i Tabell 4) implementeres som enheter og “Aldersgrupper” inkludert cellene: spedbarn (INFT), barn (CHLD), ungdom (ADOL) og voksen (ADLT), implementeres som underkategorier (se Tabellen 3A). (A) Antall dokumenter i “Alder grupper”: Dette varmekartet viser antall dokumenter fordelt over cellene i “Alderen grupper” (for detaljer på tekst-Cube etableringen se Protocol 4 og tabellen 3A). Et høyere antall dokumenter er presentert med en mørkere intensiteten av heatmap celle (se skalaen). Ett dokument kan inkluderes i mer enn én celle. Heatmap viser dokumenter i en celle langs den diagonale posisjonen (f.eks ADLT inneholder 172,394 dokumenter som er det høyeste tallet i alle celler). Nondiagonal posisjon representerer antall dokumenter som faller under to celler (f.eks ADLT og ADOL har 26,858 delte dokumenter). (B) . Enhet teller i “Alder grupper”: Venn-diagrammet representerer antall proteiner som finnes i fire cellene representerer “Aldersgrupper” (INFT, CHLD, ADOL og ADLT). Proteiner delt i alle celler er 162. Aldersgruppen ADLT viser høyeste antall unike proteiner (151) etterfulgt av CHLD (16), INFT (8) og ADOL (1). (C) CaseOLAP score presentasjon i “Alder grupper”: Topp 10 proteiner med høyest gjennomsnittlig CaseOLAP score i hver gruppe presenteres i en varmekart. Et høyere CaseOLAP resultat er presentert med en mørkere intensiteten av heatmap celle (se skalaen). Protein navnene vises i venstre kolonne og cellene (INFT, CHLD, ADOL, ADLT) vises langs x-aksen. Noen proteiner viser en sterk tilknytning til en bestemt aldersgruppe (f.eks Sterol 26-hydroksylase, alpha-crystallin B kjede og L-seryl-tRNA har sterke assosiasjoner med ADLT, mens natrium/kalium-transport ATPase delenhet alfa-3 har en sterk assosiasjon med INFT). Klikk her for å se en større versjon av dette tallet. Figur 7. “Ernæringsmessige og metabolske sykdommer” som et brukstilfelle: dette tallet presenterer resultatene fra et annet brukstilfelle for CaseOLAP-plattformen. I dette tilfellet protein navn og deres forkortelser (se eksempel på Tabell 4) implementeres som enheter og “Ernæringsmessige og metabolske sykdommer” inkludert de to cellene: metabolsk sykdom (MBD) og ernæringsmessige lidelser (NTD) implementeres som underkategorier (se tabell 3B). (A). antall dokumenter i “Ernæringsmessige og metabolske sykdommer”: denne heatmap viser antall dokumenter i cellene i “Ernæringsmessige og metabolske sykdommer” (for detaljer om tekst-Cube etablering se Protocol 4 og tabell 3B ). Et høyere antall dokumenter er presentert med en mørkere intensiteten av heatmap celle (se skala). Ett dokument kan inkluderes i mer enn én celle. Heatmap viser totalt antall dokumenter i en celle langs den diagonale posisjonen (f.eks MBD inneholder 54,762 dokumenter som er det høyeste antallet på de to cellene). Nondiagonal posisjon representerer antall dokumenter som deles av de to cellene (f.eks MBD og NTD har 7,101 delte dokumenter). (B). enhet teller i “Ernæringsmessige og metabolske sykdommer”: Venn-diagrammet representerer antall proteiner som finnes i de to cellene representerer “Ernæringsmessige og metabolske sykdommer” (MBD og NTD). Proteiner delt i to cellene er 397. MBD cellen viser 300 unike proteiner og NTD cellen skildrer 35 unike proteiner. (C). CaseOLAP score presentasjon i “Ernæringsmessige og metabolske sykdommer”: topp 10 proteiner med høyest gjennomsnittlig CaseOLAP score i “Ernæringsmessige og metabolske sykdommer” presenteres i en varmekart. Et høyere CaseOLAP resultat er presentert med en mørkere intensiteten av heatmap celle (se skala). Protein navnene vises i venstre kolonne og celler (MBD og NTD) vises langs x-aksen. Noen proteiner viser en sterk tilknytning til en bestemt sykdom kategori (eksempelvis alpha-crystallin B kjeden har en høy samarbeid med metabolsk sykdom og sterol 26-hydroksylase har en høy samarbeid med ernæringsmessige lidelser). Klikk her for å se en større versjon av dette tallet. Tid (prosent av total tid) Trinnene i CaseOLAP plattformen Algoritmen og datastrukturen av CaseOLAP-plattformen Kompleks algoritme og datastruktur Detaljer om trinnene 40% Nedlasting ogAnalysering Gjentakelse og tre analyse av algoritmer Gjentakelse nestet løkke og konstant multiplikasjon: O(n^2), O (log n). Hvor ‘n’ er ingen av gjentakelser. Rørledningen nedlasting gjentas hver prosedyre over flere filer. Analysen av et enkelt dokument kjører hver prosedyre over trestrukturen for ømt punkt XML data. 30% Indeksere, søke og tekst kube etableringen Gjentakelse søkealgoritmer av Elasticsearch (sortering, Lucene indeks, prioritet køer, endelige Tilstandsmaskiner, bit twiddling hacks, regex spørringer) Kompleksitet knyttet til Elasticsearch (https://www.elastic.co/) Dokumentene er indeksert ved å implementere gjentakelse prosessen over datakatalog. Tekst-Cube etableringen implementerer dokumentet metadata og gitt kategoriinformasjon. 30% Enhet teller og CaseOLAP beregning Gjentakelse i integritet, popularitet, egenart beregning O(1), O(n^2), flere komplikasjoner relatert til caseOLAP Score beregning basert på gjentakelse typer. Enhet teller drift viser dokumentene og gjør en telle over listen. Enhet teller dataene brukes til å beregne CaseOLAP score. Tabell 1. Algoritmer og kompleksiteten. Denne tabellen presenterer informasjon om tiden (prosentandel av total tid) på prosedyrer (f.eks nedlasting, analyse), data og informasjon om algoritmer som er implementert i CaseOLAP-plattformen. CaseOLAP implementerer profesjonell indeksering og søkeprogrammet kalt Elasticsearch. Tilleggsinformasjon om kompleksiteten Elasticsearch og interne algoritmer kan finnes på (https://www.elastic.co). MeSH beskrivelser Mange av PMIDs samlet Voksen 1,786,371 Middelaldrende 1,661,882 Alderen 1,198,778 Ungdom 706,429 Unge voksne 486,259 Barn 480,218 Alderen, 80 og over 453,348 Barn førskolen 285,183 Spedbarn 218,242 Spedbarn, nyfødte 160,702 Spedbarn, tidlig 17,701 Spedbarn, lav fødselsvekt 5,707 Skrøpelig eldre 4,811 Spedbarn, svært lav fødselsvekt 4,458 Spedbarn, små for svangerskapsdiabetes alder 3,168 Spedbarn, svært tidlig 1.171, et Spedbarn, ekstremt lav fødselsvekt 1,003 Spedbarn, Postmature 62 Tabell 2. Maske PMID kartlegging statistikk. Denne tabellen presenterer alle etterkommer MeSH beskrivelser fra “Aldersgrupper” og deres antall samlet PMIDs (dokumenter). Visualisering av statistikken vises i figur 5. A Spedbarn (INFT) Barn (CHLD) Ungdom (ADOL) Voksen (ADLT) MeSH rot-ID M01.060.703 M01.060.406 M01.060.057 M01.060.116 Antall etterkommer MeSH beskrivelser 9 2 1 6 Antall PMIDs valgt 16,466 26,907 35,158 172,394 Antall enheter funnet 233 297 257 443 B Metabolske sykdommer (MBD) Ernæringsmessige lidelser (NTD) MeSH rot-ID C18.452 C18.654 Antall etterkommer MeSHbeskrivelsene 308 53 Antall PMIDs samlet 54,762 19,181 Antall enheter funnet 697 432 Tabell 3. Tekst-Cube Metadata. En tabellvisning av tekst-Cube metadata er presentert. Tabellene gir informasjon om kategorier og MeSH descriptor røtter og etterkommere, som er gjennomført for å samle dokumenter i hver celle. Tabellen inneholder også statistikk samlet dokumenter og enheter. (A) “Alder grupper”: Dette er et tabellformet visning av “Aldersgrupper” inkludert spedbarn (INFT), barn (CHLD), ungdom (ADOL) og voksen (ADLT) og deres MeSH rot IDer, etterkommer MeSH beskrivelsene, antall valgte PMIDs og antall enheter. (B) “Ernæringsmessige og metabolske sykdommer”: Dette er et tabellformet visning av “Ernæringsmessige og metabolske sykdommer” inkludert metabolsk sykdom (MBD) og ernæringsmessige lidelser (NTD) med deres MeSH rot IDer, antall etterkommer MeSH beskrivelser, antall valgte PMIDs og antall funnet enheter. Protein navn og synonymer Forkortelser N-acetylglutamate syntase, mitokondrie, aminosyre acetyltransferase, N-acetylglutamate syntase lang form; N-acetylglutamate syntase kortformen; N-acetylglutamate syntase bevart domeneformular] (EC 2.3.1.1) Protein/nukleinsyre syre deglycase DJ-1 (Maillard deglycase) (Oncogene DJ1) (Parkinsons sykdom protein 7) (Parkinsonism-assosiert deglycase) (Protein DJ-1) (EU 3.1.2.-) (EU 3.5.1.-) (EC 3.5.1.124) (DJ-1) Pyruvate carboxylase, mitokondrie (Pyruvic carboxylase) (EC 6.4.1.1) (PCB) BCL-2-bindende komponent 3 (p53 opp-regulert modulator av apoptose) (JFY-1) BH3-påvirker domenet død Agonistiske [BH3-samspill domene død Agonistiske p15 (p15 bud); BH3-påvirker domenet død Agonistiske p13; BH3-påvirker domenet død Agonistiske p11] (p22 bud) (BUD) (p13 bud) (p11 bud) ATP syntase delenhet alpha, mitokondrie (ATP syntase F1 delenhet alpha) Cytochrome P450 11B2, mitokondrie (aldosteron syntase) (aldosteron-syntetisere enzym) (CYPXIB2) (Cytochrome P-450Aldo) (Cytochrome P-450_C_18) (Steroid 18-hydroksylase) (ALDOS) (EC 1.14.15.4) (EC 1.14.15.5) 60 kDa varme sjokk protein, mitokondrie (60 kDa chaperonin) (Chaperonin 60) (CPN60) (varme sjokk protein 60) (mitokondrie matrix protein P1) (P60 lymfocytt protein) (HSP-60) (Hsp60) (HuCHA60) (EC 3.6.4.9) Caspase-4 (is og Ced-3 homolog 2) (Protease TX) [kløyvde i: Caspase-4 delenhet 1; Caspase-4 delenhet 2] (CASP-4) (EC 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1) Tabell 4. Prøve enhet tabell. Denne tabellen viser utvalget av enheter i våre to bruksmåter: “Aldersgrupper” og “Ernæringsmessige og metabolske sykdommer” (figur 6 og figur 7, tabell 3A,B). Enhetene inkluderer protein navn, synonymer og forkortelser. Hver enhet (med synonymer og forkortelser) er valgt enkeltvis og overføres via søkeoperasjonen enhet over indeksert data (se protokoll 3 og 5). Søket ikke gir en oversikt over dokumenter som ytterligere forenkler enhet teller operasjonen. Antall Brukerdefinerte Beregnet Ligningen for antallet Betydningen av antallet Integritet ja nei Integriteten til brukeren definert selskaper vurderes å være 1.0. Representerer en meningsfull setning. Numerisk verdi er 1.0 når det er allerede en etablert setning. Popularitet nei ja Popularitet ligningen i figur 1 (arbeidsflyt og algoritmen) fra referanse 5, “materialer og metoder”. Basert på begrepet hyppigheten av uttrykket i en celle. Normalisert med totalt begrepet frekvensen av cellen. Økning i begrepet frekvens har avtagende resultatet. Særpreg nei ja Egenart ligningen i figur 1 (arbeidsflyt og algoritmen) fra referanse 5, “materialer og metoder”. Basert på begrepet frekvens og dokumentet frekvens i en celle og de omkringliggende cellene. Normalisert av totale begrepet frekvens og dokumentet frekvens. Kvantitativt, er det sannsynligheten for at en setning er unike i en bestemt celle. CaseOLAP score nei ja CaseOLAP score ligningen i figur 1 (arbeidsflyt og algoritmen) fra referanse 5, “materialer og metoder”. Basert på integritet, popularitet og egenart. Tallverdi faller alltid innenfor 0 til 1. Kvantitativt representerer CaseOLAP snes tilknytningen uttrykk-kategori Tabell 5. CaseOLAP ligninger: The CaseOLAP algoritmen ble utviklet av Fangbo Tao og Jiawei Han et al. i 20161. Kort, denne tabellen gir CaseOLAP poeng beregningen som består av tre komponenter: integritet, popularitet, og egenart og deres tilknyttede matematiske betydning. I vår brukstilfeller, integritet for proteiner er 1.0 (maksimal poeng) fordi de stå som etablerte entitetsnavn. CaseOLAP score i våre brukstilfeller kan ses i figur 6C og figur 7C.

Discussion

Vi har vist at CaseOLAP algoritmen kan lage et uttrykk basert kvantitative tilknytning til en kunnskapsbasert kategori over store mengder tekstdata for utvinning av meningsfull innblikk. Etter vår protokoll, kan en bygge CaseOLAP rammen for å opprette en ønsket tekst-kube og kvantifisere enhet-kategori foreninger gjennom CaseOLAP score beregning. Innhentet rå CaseOLAP poengene kan tas til integrerende analyser inkludert dimensionality reduksjon, klynger, tid og analyse, samt etablering av en grafisk database som lar semantisk kartlegging av dokumentene.

Anvendelse av algoritmen. Eksempler på brukerdefinerte enheter, enn proteiner, kan være en liste over genet navn, narkotika, spesifikke tegn og symptomer inkludert forkortelser og synonymer. Videre er det mange valg for kategori valg å lette bestemt brukerdefinerte biomedisinsk analyser (f.eks anatomi [A], disiplin og okkupasjon [H], fenomener og prosesser [G]). I våre to brukstilfeller, alle vitenskapelige publikasjoner og tekstlig dataene hentes fra MEDLINE databasen bruker PubMed som søkemotor, både administreres av National Library of Medicine. Men kan CaseOLAP plattformen brukes til andre databaser av interesse som inneholder biomedisinsk dokumenter med tekstdata som det FDA ugunstig Event Reporting System (FAERS). Dette er en åpen database som inneholder informasjon om medisinske bivirkninger og medisiner feilrapporter innsendt til FDA. I motsetning til MEDLINE og FAERS, databaser i sykehus med elektroniske helse poster fra pasienter er ikke åpent for publikum og er begrenset av Health Insurance Portability and Accountability Act kjent som HIPAA.

CaseOLAP algoritmen har vært anvendt på ulike data (f.eks nyhetsartikler)¹. Gjennomføringen av denne algoritmen i biomedisinsk dokumenter er gjort i 2018⁵. Krav for anvendelse av CaseOLAP algoritmen er at hver av dokumentene skal tilordnes med nøkkelord tilknyttet begrepene (f.eks MeSH beskrivelsene i biomedisinsk publikasjoner, søkeord i artikler). Hvis søkeordene ikke er funnet, kan man bruke Autophrase⁶^,⁷ å samle topp representant setninger og bygge enhetslisten før du implementerer våre protokollen. Våre protokollen gir ikke foranstaltningen å utføre Autophrase.

Sammenligning med andre algoritmer. Konseptet med å bruke en Data-Cube⁸^,⁹^,¹⁰ og en tekst-Cube²^,³^,⁴ har utviklet siden 2005 med nye fremskritt å gjøre datautvinning mer gjeldende. Begrepet Online analytisk behandling (OLAP)¹¹^,¹²^,¹³^,¹⁴^,¹⁵ datautvinning og forretningsintelligens går tilbake til 1993. OLAP, vanligvis samler informasjon fra flere systemer, og lagrer den i et multi-dimensjonale format. Det finnes forskjellige typer OLAP-systemer i dataanalyse. For eksempel (1) Hybrid transaksjon/Analytical Processing (HTAP)¹⁶^,¹⁷, (2) flerdimensjonale OLAP (MOLAP)¹⁸^,¹⁹-kuben basert, og (3) relasjonelle OLAP (ROLAP)²⁰.

Spesielt CaseOLAP algoritmen har blitt sammenlignet med mange eksisterende algoritmer, spesielt med sine uttrykket segmentering forbedringer, inkludert TF-IDF + Seg, MCX + Seg, MCX og SegPhrase. Videre RepPhrase (RP, også kjent som SegPhrase +) har blitt sammenlignet med egen ablasjon varianter, inkludert (1) RP uten integritet mål innlemmet (RP No INT), (2) RP uten popularitet mål innlemmet (RP ingen POP) og (3) RP uten den Egenart mål innlemmet (RP ingen DIS). Benchmark resultater vises i studiet av Fangbo Tao et al.¹.

Det er fortsatt utfordringer på datautvinning som kan legge ekstra funksjonalitet over lagre og hente data fra databasen. Kontekst-klar semantisk Analytical Processing (CaseOLAP) implementerer systematisk Elasticsearch å bygge en indeksering database millioner dokumenter (protokollen 5). Tekst-kuben er en dokumentstruktur som er bygget over indeksert data med brukerangitt kategorier (protokollen 6). Dette forbedrer funksjonaliteten til dokumenter innen og over cellen tekst-kuben og tillate oss å beregne begrepet frekvensen av enhetene over et dokument og dokumentet frekvens over en bestemt celle (protokoll 8). Sluttresultatet CaseOLAP benytter disse frekvens beregningene sende sluttresultatet (protokollen 9). I 2018 implementert vi denne algoritmen for å studere ECM proteiner og seks hjertesykdommer analysere protein-sykdommen foreninger. Detaljer om denne studien kan finnes i studiet av Liem, D.A. et al.⁵. Angir at CaseOLAP kan bli mye brukt i biomedisinsk samfunnet å utforske en rekke sykdommer og mekanismer.

Begrensninger av algoritmen. Uttrykket gruvedrift selv er en teknikk for å administrere og hente viktige begreper fra tekstdata. Mens enhet-kategorien tilknytning som et matematisk antall (vektor), er denne teknikken ikke utpønske polariteten (f.eks positiv eller negativ helling) til foreningen. En kan bygge den kvantitative oppsummeringen av data bruker tekst-Cude dokumentstrukturen med tildelte enheter og kategorier, men en kvalitativ konsept med mikroskopiske granularities kan ikke nås. Noen begreper er kontinuerlig utvikling fra siste till nå. Sammendragsstruktur presentert for en bestemt enhet-kategori foreningen inkluderer alle incidences hele litteraturen. Dette kan mangle timelige utbredelsen av innovasjon. I fremtiden planlegger vi å håndtere disse begrensningene.

Fremtidige anvendelser. Ca 90% av akkumulerte dataene i verden er i ustrukturert tekstdata. Finne en representant setning og forhold til enheter som er innebygd i teksten er en svært viktig oppgave for implementering av ny teknologi (f.eks maskinlæring, henting av informasjon, kunstig intelligens). For å gjøre tekst-dataene maskinen lesbar, må data organiseres i databasen som neste lag av verktøy kan implementeres. I fremtiden, kan denne algoritmen være et viktig skritt i å gjøre datautvinning mer funksjonell for henting av informasjon og måling av enhet-kategori tilknytningene.

Divulgations

The authors have nothing to disclose.

Acknowledgements

Dette arbeidet var støttes delvis av nasjonale hjerte, lunge og blod Institute: R35 HL135772 (til P. Ping); National Institute of General Medical Sciences: U54 GM114833 (til P. Ping, K. Watson og W. Wang); U54 GM114838 (å J. Han); en gave fra Hellen & Larry Hoag Foundation og Dr. S. Setty; og TC Laubisch legat ved UCLA (til P. Ping).

References

Tao, F., Zhuang, H., et al. Phrase-Based Summarization in Text Cubes. IEEE Data Engineering Bulletin. , 74-84 (2016).
Ding, B., Zhao, B., Lin, C. X., Han, J., Zhai, C. TopCells: Keyword-based search of top-k aggregated documents in text cube. IEEE 26th International Conference on Data Engineering (ICDE). , 381-384 (2010).
Ding, B., et al. Efficient Keyword-Based Search for Top-K Cells in Text Cube. IEEE Transactions on Knowledge and Data Engineering. 23 (12), 1795-1810 (2011).
Liu, X., et al. A Text Cube Approach to Human, Social and Cultural Behavior in the Twitter Stream.Social Computing, Behavioral-Cultural Modeling and Prediction. Lecture Notes in Computer Science. 7812, (2013).
Liem, D. A., et al. Phrase Mining of Textual Data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology-Heart and Circulatory. , (2018).
Shang, J., et al. Automated Phrase Mining from Massive Text Corpora. IEEE Transactions on Knowledge and Data Engineering. 30 (10), 1825-1837 (2018).
Liu, J., Shang, J., Wang, C., Ren, X., Han, J. Mining Quality Phrases from Massive Text Corpora. Proceedings ACM-Sigmod International Conference on Management of Data. , 1729-1744 (2015).
Lee, S., Kim, N., Kim, J. A Multi-dimensional Analysis and Data Cube for Unstructured Text and Social Media. IEEE Fourth International Conference on Big Data and Cloud Computing. , 761-764 (2014).
Lin, C. X., Ding, B., Han, J., Zhu, F., Zhao, B. Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. IEEE Data Mining. , 905-910 (2008).
Hsu, W. J., Lu, Y., Lee, Z. Q. Accelerating Topic Exploration of Multi-Dimensional Documents Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE International. , 1520-1527 (2017).
Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26 (1), 65-74 (1997).
Ravat, F., Teste, O., Tournier, R. Olap aggregation function for textual data warehouse. ICEIS – 9th International Conference on Enterprise Information Systems, Proceedings. , 151-156 (2007).
Ho, C. T., Agrawal, R., Megiddo, N., Srikant, R. Range Queries in OLAP Data Cubes. SIGMOD Conference. , (1997).
Saxena, V., Pratap, A. Olap Cube Representation for Object- Oriented Database. International Journal of Software Engineering & Applications. 3 (2), (2012).
Maniatis, A. S., Vassiliadis, P., Skiadopoulos, S., Vassiliou, Y. Advanced visualization for OLAP. DOLAP. , (2003).
Bog, A. . Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and its Application. , 7-13 (2013).
Özcan, F., Tian, Y., Tözün, P. Hybrid Transactional/Analytical Processing: A Survey. In Proceedings of the ACM International Conference on Management of Data (SIGMOD). , 1771-1775 (2017).
Hasan, K. M. A., Tsuji, T., Higuchi, K. An Efficient Implementation for MOLAP Basic Data Structure and Its Evaluation. International Conference on Database Systems for Advanced Applications. , 288-299 (2007).
Nantajeewarawat, E. Advances in Databases: Concepts, Systems and Applications. DASFAA 2007. Lecture Notes in Computer Science. 4443, (2007).
Shimada, T., Tsuji, T., Higuchi, K. A storage scheme for multidimensional data alleviating dimension dependency. Third International Conference on Digital Information Management. , 662-668 (2007).

Play Video

PDF

DOI

Citer Cet Article

Sigdel, D., Kyi, V., Zhang, A., Setty, S. P., Liem, D. A., Shi, Y., Wang, X., Shen, J., Wang, W., Han, J., Ping, P. Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications. J. Vis. Exp. (144), e59108, doi:10.3791/59108 (2019).

Skybaserte uttrykket gruvedrift og analyse av brukerdefinerte uttrykk kategori Association i biomedisinsk publikasjoner

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

References

Tags

Play Video

Citer Cet Article

View Video

Skybaserte uttrykket gruvedrift og analyse av brukerdefinerte uttrykk kategori Association i biomedisinsk publikasjoner

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

References

Tags

Play Video

Citer Cet Article

View Video

✖

To prove you're not a robot, please enter the text in the image below