Vi presenterer en protokoll og tilknyttede programmeringskode, samt metadata prøver å støtte en skybasert automatisk identifikasjon av uttrykk-kategori forening som representerer unike konsepter i valgte kunnskap brukerdomene i biomedisinsk litteratur. Uttrykk kategori foreningen kvantifisert ved denne protokollen kan lette grundig analyse i valgte kunnskap domenet.
Rask akkumulering av biomedisinsk tekstdata har langt overskredet menneskelig kapasitet av manuell konservering og analyse, nødvendiggjør romanen tekst-gruvedrift verktøy for å trekke ut biologiske innsikt fra store mengder av vitenskapelige rapporter. Rørledningen kontekstfølsomme semantisk Online Analytical Processing (CaseOLAP), utviklet i 2016, kvantifiserer vellykket brukerdefinerte uttrykk-kategori relasjoner gjennom analyse av tekstdata. CaseOLAP har mange biomedisinsk programmer.
Vi har utviklet en protokoll for en skybasert miljø som støtter ende-til-ende uttrykk-mining og analyser plattform. Våre protokollen inneholder data forbehandling (f.eks nedlasting utvinning og analyse av tekstdokumenter), indeksering og søking med Elasticsearch, opprette en funksjonell dokumentstruktur kalt tekst-Cube og kvantifisere uttrykk-kategori relasjoner ved hjelp av core CaseOLAP algoritmen.
Våre data forbehandling genererer nøkkelverdi tilordninger for alle dokumenter som er involvert. Preprocessed dataene er indeksert for å utføre et søk dokumenter inkludert enheter, som muliggjør ytterligere tekst-Cube etableringen og CaseOLAP score beregning. Innhentet rå CaseOLAP poengene blir tolket med en rekke integrerende analyser, inkludert dimensionality reduksjon, klynger, timelig, og geografiske analyser. I tillegg brukes CaseOLAP poengene til å opprette en grafisk database, som gjør semantisk kartlegging av dokumentene.
CaseOLAP definerer uttrykk-kategori relasjoner i en nøyaktig (angir relasjoner), konsekvent (svært reproduserbar), og effektiv måte (prosesser 100.000 ord/sek). Etter denne protokollen, kanne brukernes adgang en cloud-computing miljø for å støtte sine egne konfigurasjoner og bruk av CaseOLAP. Denne plattformen tilbyr forbedret tilgjengelighet og utdanner biomedisinsk fellesskapet med uttrykk-gruvedrift verktøy for utbredt biomedisinsk forskning programmer.
Manuell vurdering av millioner av tekstfiler for studier av uttrykk-kategori association (f.eks., aldersgruppe protein Association) er makeløs med effektiviteten av en automatisert datametode. Vi ønsker å innføre den skybaserte kontekstfølsomme semantisk Online Analytical Processing (CaseOLAP) plattformen som en setning-mining metode for automatisk beregning av uttrykk-kategorien tilknytning i biomedisinsk sammenheng.
CaseOLAP-plattformen, som var først definert i 20161, er svært effektiv i forhold til tradisjonelle metoder for databehandling og beregning på grunn av sin funksjonelle dokumentbehandling kalt tekst-Cube2,3, 4, som distribuerer dokumenter samtidig opprettholde underliggende hierarki og nabolag. Det har vært brukt i biomedisinsk forskning5 å studere enhet-kategori association. Den CaseOLAP består av seks hovedtrinn inkludert nedlasting og utvinning av data, analyse, indeksering, tekst-Cube etableringen, enhet teller og CaseOLAP score beregning; som er hovedfokus for protokollen (figur 1, figur 2, tabell 1).
For å implementere CaseOLAP algoritmen, angir brukeren kategorier av interesse (f.eks sykdom, tegn og symptomer, aldersgrupper, diagnose) og enheter av interesse (f.eks proteiner, narkotika). Et eksempel på en kategori i denne artikkelen er ‘Alder grupper’, som har “Barn”, “child”, “ungdom”, og “voksen” underkategorier som celler av tekst-Cube og protein navn (synonymer) og forkortelser som enheter. Overskrifter for medisinske tema (MeSH) er implementert for å hente publikasjoner tilsvarer definerte kategoriene (tabell 2). MeSH beskrivelsene er organisert i en hierarkisk trestruktur tillater søk etter publikasjoner med varierende nivåer av spesifisitet (et eksempel som vist i Figur 3). CaseOLAP plattform benytter data fulltekstindeksering og funksjonaliteten for konservering av dokumenter knyttet til en enhet som ytterligere forenkler dokumentet til antall enhetstilordning og CaseOLAP score beregning.
Detaljer om CaseOLAP poeng beregningen er tilgjengelig i tidligere publikasjoner1,5. Dette regnet med utvalgte vilkår basert på underliggende dokumentstruktur for tekst-Cube. Sluttresultatet er et produkt av integritet, popularitetog egenart. Integritet beskriver om en representant enhet er en integrert semantisk enhet som refererer til et meningsfullt begrep. Integriteten til brukerdefinerte uttrykket er tatt å være 1.0 fordi det står som et standard uttrykk i litteraturen. Egenart representerer relativ relevansen av et uttrykk i en undergruppe av dokumenter i forhold til resten av de andre cellene. Det først beregner relevansen av en enhet til en bestemt celle ved å sammenligne forekomsten av protein navnet i datasettet mål og gir en normalisert egenart poengsum. Popularitet representerer at uttrykk med høyere popularitet poengsum vises oftere i en undergruppe av dokumenter. Sjeldne protein navn i en celle er rangert lavt, mens en økning i frekvensen av nevner har en avtagende avkastning på grunn av gjennomføringen av den logaritmiske funksjonen av frekvens. Kvantitativt måle disse tre konseptene avhenger av (1) begrepet frekvensen på enheten over en celle og over cellene og (2) antallet dokumenter har enheten (dokumentet frekvens) i cellen og over cellene.
Vi har studert to representant scenarier bruke PubMed dataset og vår algoritme. Vi er interessert i hvordan mitokondrie proteiner er forbundet med to unike kategoriene MeSH beskrivelser; “Aldersgrupper” og “ernæringsmessige og metabolske sykdommer”. Spesielt vi hentet 15,728,250 publikasjoner fra 20 år publikasjoner samlet av PubMed (1998 til 2018), blant dem, 8,123,458 unike Sammendrag har full MeSH beskrivelsene. Følgelig 1,842 menneskelige mitokondrie protein navn (inkludert forkortelser og synonymer), kjøpt fra UniProt (uniprot.org) og MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), er systematisk undersøkt. Tilknytning med disse 8,899,019 publikasjoner og enheter ble studert med våre protokollen; Vi bygget en tekst-kube og beregnet den respektive CaseOLAP score.
Vi har vist at CaseOLAP algoritmen kan lage et uttrykk basert kvantitative tilknytning til en kunnskapsbasert kategori over store mengder tekstdata for utvinning av meningsfull innblikk. Etter vår protokoll, kan en bygge CaseOLAP rammen for å opprette en ønsket tekst-kube og kvantifisere enhet-kategori foreninger gjennom CaseOLAP score beregning. Innhentet rå CaseOLAP poengene kan tas til integrerende analyser inkludert dimensionality reduksjon, klynger, tid og analyse, samt etablering av en grafisk database som lar semantisk kartlegging av dokumentene.
Anvendelse av algoritmen. Eksempler på brukerdefinerte enheter, enn proteiner, kan være en liste over genet navn, narkotika, spesifikke tegn og symptomer inkludert forkortelser og synonymer. Videre er det mange valg for kategori valg å lette bestemt brukerdefinerte biomedisinsk analyser (f.eks anatomi [A], disiplin og okkupasjon [H], fenomener og prosesser [G]). I våre to brukstilfeller, alle vitenskapelige publikasjoner og tekstlig dataene hentes fra MEDLINE databasen bruker PubMed som søkemotor, både administreres av National Library of Medicine. Men kan CaseOLAP plattformen brukes til andre databaser av interesse som inneholder biomedisinsk dokumenter med tekstdata som det FDA ugunstig Event Reporting System (FAERS). Dette er en åpen database som inneholder informasjon om medisinske bivirkninger og medisiner feilrapporter innsendt til FDA. I motsetning til MEDLINE og FAERS, databaser i sykehus med elektroniske helse poster fra pasienter er ikke åpent for publikum og er begrenset av Health Insurance Portability and Accountability Act kjent som HIPAA.
CaseOLAP algoritmen har vært anvendt på ulike data (f.eks nyhetsartikler)1. Gjennomføringen av denne algoritmen i biomedisinsk dokumenter er gjort i 20185. Krav for anvendelse av CaseOLAP algoritmen er at hver av dokumentene skal tilordnes med nøkkelord tilknyttet begrepene (f.eks MeSH beskrivelsene i biomedisinsk publikasjoner, søkeord i artikler). Hvis søkeordene ikke er funnet, kan man bruke Autophrase6,7 å samle topp representant setninger og bygge enhetslisten før du implementerer våre protokollen. Våre protokollen gir ikke foranstaltningen å utføre Autophrase.
Sammenligning med andre algoritmer. Konseptet med å bruke en Data-Cube8,9,10 og en tekst-Cube2,3,4 har utviklet siden 2005 med nye fremskritt å gjøre datautvinning mer gjeldende. Begrepet Online analytisk behandling (OLAP)11,12,13,14,15 datautvinning og forretningsintelligens går tilbake til 1993. OLAP, vanligvis samler informasjon fra flere systemer, og lagrer den i et multi-dimensjonale format. Det finnes forskjellige typer OLAP-systemer i dataanalyse. For eksempel (1) Hybrid transaksjon/Analytical Processing (HTAP)16,17, (2) flerdimensjonale OLAP (MOLAP)18,19-kuben basert, og (3) relasjonelle OLAP (ROLAP)20.
Spesielt CaseOLAP algoritmen har blitt sammenlignet med mange eksisterende algoritmer, spesielt med sine uttrykket segmentering forbedringer, inkludert TF-IDF + Seg, MCX + Seg, MCX og SegPhrase. Videre RepPhrase (RP, også kjent som SegPhrase +) har blitt sammenlignet med egen ablasjon varianter, inkludert (1) RP uten integritet mål innlemmet (RP No INT), (2) RP uten popularitet mål innlemmet (RP ingen POP) og (3) RP uten den Egenart mål innlemmet (RP ingen DIS). Benchmark resultater vises i studiet av Fangbo Tao et al.1.
Det er fortsatt utfordringer på datautvinning som kan legge ekstra funksjonalitet over lagre og hente data fra databasen. Kontekst-klar semantisk Analytical Processing (CaseOLAP) implementerer systematisk Elasticsearch å bygge en indeksering database millioner dokumenter (protokollen 5). Tekst-kuben er en dokumentstruktur som er bygget over indeksert data med brukerangitt kategorier (protokollen 6). Dette forbedrer funksjonaliteten til dokumenter innen og over cellen tekst-kuben og tillate oss å beregne begrepet frekvensen av enhetene over et dokument og dokumentet frekvens over en bestemt celle (protokoll 8). Sluttresultatet CaseOLAP benytter disse frekvens beregningene sende sluttresultatet (protokollen 9). I 2018 implementert vi denne algoritmen for å studere ECM proteiner og seks hjertesykdommer analysere protein-sykdommen foreninger. Detaljer om denne studien kan finnes i studiet av Liem, D.A. et al.5. Angir at CaseOLAP kan bli mye brukt i biomedisinsk samfunnet å utforske en rekke sykdommer og mekanismer.
Begrensninger av algoritmen. Uttrykket gruvedrift selv er en teknikk for å administrere og hente viktige begreper fra tekstdata. Mens enhet-kategorien tilknytning som et matematisk antall (vektor), er denne teknikken ikke utpønske polariteten (f.eks positiv eller negativ helling) til foreningen. En kan bygge den kvantitative oppsummeringen av data bruker tekst-Cude dokumentstrukturen med tildelte enheter og kategorier, men en kvalitativ konsept med mikroskopiske granularities kan ikke nås. Noen begreper er kontinuerlig utvikling fra siste till nå. Sammendragsstruktur presentert for en bestemt enhet-kategori foreningen inkluderer alle incidences hele litteraturen. Dette kan mangle timelige utbredelsen av innovasjon. I fremtiden planlegger vi å håndtere disse begrensningene.
Fremtidige anvendelser. Ca 90% av akkumulerte dataene i verden er i ustrukturert tekstdata. Finne en representant setning og forhold til enheter som er innebygd i teksten er en svært viktig oppgave for implementering av ny teknologi (f.eks maskinlæring, henting av informasjon, kunstig intelligens). For å gjøre tekst-dataene maskinen lesbar, må data organiseres i databasen som neste lag av verktøy kan implementeres. I fremtiden, kan denne algoritmen være et viktig skritt i å gjøre datautvinning mer funksjonell for henting av informasjon og måling av enhet-kategori tilknytningene.
The authors have nothing to disclose.
Dette arbeidet var støttes delvis av nasjonale hjerte, lunge og blod Institute: R35 HL135772 (til P. Ping); National Institute of General Medical Sciences: U54 GM114833 (til P. Ping, K. Watson og W. Wang); U54 GM114838 (å J. Han); en gave fra Hellen & Larry Hoag Foundation og Dr. S. Setty; og TC Laubisch legat ved UCLA (til P. Ping).