Vi præsenterer en protokol og tilknyttede programmeringskode samt metadata prøver at støtte en cloud-baseret automatiseret identifikation af sætninger-kategori sammenslutning, der repræsenterer unikke koncepter i brugeren valgte viden domænet i biomedicinske litteratur. Sætning-kategori foreningen kvantificeres ved denne protokol kan lette dybtgående analyse i domænet valgte viden.
Den hurtige ophobning af biomedicinske tekstdata har langt oversteget den menneskelige kapacitet manuel datasikring og analyse, nødvendiggør nye text mining værktøjer til at udtrække biologiske indsigter fra store mængder af videnskabelige rapporter. Context-aware semantiske Online Analytical Processing (CaseOLAP) rørledningen, udviklet i 2016, kvantificerer med held brugerdefinerede sætning-kategori relationer gennem en analyse af tekstdata. CaseOLAP har mange biomedicinske programmer.
Vi har udviklet en protokol til en cloud-baseret miljø støtte ende til sætning-minedrift og analyser platform. Vores protokol omfatter data forbehandling (fx, downloade, udvinding og parsing tekstdokumenter), indeksering og søgning med Elasticsearch, at skabe en funktionel dokumentstruktur kaldes tekst-Cube, og kvantificere sætning-kategori relationer ved hjælp af core CaseOLAP algoritme.
Vores data forbehandling genererer nøgle-værdi tilknytninger for alle dokumenter, der er involveret. Den forhåndsbehandlede data er indekseret til at udføre en søgning af dokumenter, herunder enheder, som yderligere letter tekst-kubeoprettelse og CaseOLAP score beregning. De opnåede rå CaseOLAP scorer fortolkes ved hjælp af en række Integrativ analyser, herunder dimensionalitet reduktion, klyngedannelse, tidsmæssige, og geografiske analyser. Derudover bruges CaseOLAP scores til at oprette en grafisk database, som giver mulighed for semantisk kortlægning af dokumenter.
CaseOLAP definerer sætning-kategori relationer i en nøjagtig (identificerer relationer), ensartede (stærkt reproducerbare), og effektiv måde (processer 100.000 ord/sek). Efter denne protokol, kan brugere få adgang til en cloud-computing miljø for at støtte deres egen konfigurationer og applikationer af CaseOLAP. Denne platform byder på forbedret tilgængelighed og bemyndiger det biomedicinske Fællesskabet med sætning-mining værktøjer til udbredt biomedicinsk forskning applikationer.
Manuel evaluering af millioner af tekstfiler for studiet af sætning-kategori association (e.g., aldersgruppe til protein association) er uforlignelig med effektivitet leveret af et automatiseret beregningsudstyr. Vi ønsker at indføre cloud-baserede Context-aware semantiske Online Analytical Processing (CaseOLAP) platform som en sætning-mining metode til automatisk beregning af sætning-kategori association i forbindelse med biomedicinske.
CaseOLAP platform, som først blev defineret i 20161, er meget effektiv i forhold til de traditionelle metoder til administration af data og beregning på grund af dets funktionelle dokumentstyring kaldet tekst-Cube2,3, 4, som distribuerer dokumenter samtidig opretholde underliggende hierarki og kvarterer. Det har været anvendt i biomedicinsk forskning5 at studere enhed-kategori association. CaseOLAP platform består af seks hovedtrin herunder download og udtræk af data, parsing, indeksering, tekst-kubeoprettelse, enhed tælle og CaseOLAP score beregning; der er det vigtigste fokus i protokol (figur 1, figur 2, tabel 1).
For at implementere CaseOLAP-algoritme, indstiller brugeren kategorier af interesse (f.eks. sygdom, tegn og symptomer, aldersgrupper, diagnose) og enheder af interesse (f.eks. proteiner, lægemidler). Et eksempel på en kategori, der er medtaget i denne artikel er “Aldersgrupper”, som har ‘Barn’, ‘barn’, ‘unge’, og ‘voksen’ underkategorier som celler i tekst-Cube og protein navne (synonymer) og forkortelser som enheder. Medicinsk emneoverskrifter (MeSH) er gennemført for at hente publikationer svarende til de fastlagte kategorier (tabel 2). MeSH deskriptorer er organiseret i en hierarkisk træstruktur til at tillade, Søg efter publikationer på forskellige niveauer af specificitet (et eksempel vist i figur 3). CaseOLAP platform udnytter data indeksering og søgning funktionalitet til datasikring af dokumenterne tilknyttet en enhed som yderligere letter dokument til enhed tæller kortlægning og CaseOLAP score beregning.
Detaljerne i CaseOLAP score beregning er tilgængelig i tidligere publikationer1,5. Denne score er beregnet ved hjælp af specifikke ranking kriterier baseret på underliggende tekst-Cube dokumentstruktur. Det endelige resultat er et produkt af integritet, popularitetog særpræg. Integritet beskriver om en repræsentativ enhed er en integreret semantiske enhed, der kollektivt refererer til en meningsfuld koncept. Integritet af den brugerdefinerede udtryk sættes til 1,0 fordi det står som en standard sætning i litteraturen. Særpræg repræsenterer den relative relevansen af en sætning i en delmængde af dokumenter i forhold til resten af de øvrige celler. Det første beregnes relevansen af en enhed til en bestemt celle ved at sammenligne forekomsten af protein navn i target datasæt og giver en normaliseret særpræg score. Popularitet repræsenterer, at sætning med en højere popularitet score vises oftere i en delmængde af dokumenter. Sjældne protein navne i en celle er placeret lavt, mens en stigning i hyppigheden af omtale har en faldende afkast på grund af gennemførelsen af den logaritmiske funktion af frekvens. Kvantitativ måling af disse tre begreber afhænger (1) udtrykket hyppigheden af objektet over en celle og på tværs af celler og (2) antallet af dokumenter med denne enhed (dokument frekvens) inden for cellen og på tværs af cellerne.
Vi har studeret to repræsentative scenarier ved hjælp af en PubMed datasæt og vores algoritme. Vi er interesseret i hvordan mitokondrielle proteiner er forbundet med to unikke kategorier af MeSH deskriptorer; “Aldersgrupper” og “ernæringsmæssige og metaboliske sygdomme”. Især er vi hentet 15,728,250 publikationer fra 20 års udgivelser indsamlet af PubMed (1998 til 2018), blandt dem, 8,123,458 unikke abstracts har haft fuld MeSH deskriptorer. Derfor 1,842 menneskelige mitokondrie protein navne (herunder forkortelser og synonymer), erhvervet fra UniProt (uniprot.org) og MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), systematisk undersøgt. Deres foreninger med disse 8,899,019 publikationer og enheder blev undersøgt ved hjælp af vores protokol; vi konstrueret en tekst-Cube og beregnet de respektive CaseOLAP noder.
Vi har vist, at CaseOLAP algoritme kan skabe en sætning baseret kvantitative association til en videnbaseret kategori over store mængder af tekstmæssige data for udvinding af meningsfuld indsigt. Efter vores protokol, kan man bygge CaseOLAP rammer for at oprette en ønskede tekst-kube og kvantificere enhed-kategori foreninger gennem CaseOLAP score beregning. De opnåede rå CaseOLAP scorer kan tages til Integrativ analyser herunder dimensionalitet reduktion, klyngedannelse, tidsmæssige og geografiske analyse, samt oprettelsen af en grafisk database, som giver mulighed for semantisk kortlægning af dokumenter.
Anvendelighed af algoritmen. Eksempler på brugerdefinerede enheder end proteiner, kunne være en liste over gen navne, narkotika, specifikke tegn og symptomer, herunder deres forkortelser og synonymer. Derudover er der mange muligheder for kategori udvalg at fremme bestemte brugerdefinerede biomedicinske analyser (fx anatomi [A], disciplin og besættelse [H], fænomener og processer [G]). I vores to use cases, hentes alle videnskabelige publikationer og deres tekstdata fra MEDLINE databasen ved hjælp af PubMed som søgemaskine, som begge forvaltes af National Library of Medicine. CaseOLAP platform kan dog anvendes til andre databaser af interesse der indeholder biomedicinsk dokumenter med tekstdata som den FDA negative begivenhed Reporting System (FAERS). Dette er en åben database, der indeholder oplysninger om medicinske hændelser og medicin fejlrapporter indsendt til FDA. I modsætning til MEDLINE og FAERS, databaser i hospitaler der indeholder elektroniske patientjournaler fra patienter er ikke åbne for offentligheden og er begrænset af Health Insurance mobilitet og Accountability Act kendt som HIPAA.
CaseOLAP algoritme har været anvendt med succes til de forskellige typer af data (f.eks. nyhedsartikler)1. Gennemførelsen af denne algoritme i biomedicinsk dokumenter der er sket i 20185. Kravene til anvendelighed af CaseOLAP algoritme er, at hver af dokumenterne, der skal tildeles med nøgleord forbundet med begreber (fx MeSH deskriptorer i biomedicinsk publikationer, søgeord i nyhedsartikler). Hvis søgeord ikke er fundet, kan man anvende Autophrase6,7 for at indsamle top repræsentativt vendinger og opbygge listen enhed før vores protokollens gennemførelsesregler. Vores protokol giver ikke skridt til at udføre Autophrase.
Sammenligning med andre algoritmer. Begrebet ved hjælp af en datakube8,9,10 og en tekst-Cube2,3,4 har været under udvikling siden 2005 med nye fremskridt at gøre datamining mere gældende. Begrebet Online Analytical Processing (OLAP)11,12,13,14,15 i datamining og business intelligence går tilbage til 1993. OLAP, i almindelighed, aggregater oplysninger fra flere systemer, og gemmer det i en multi-dimensional format. Der er forskellige typer af OLAP-systemer implementeres i datamining. For eksempel (1) Hybrid transaktionen/analytisk behandling (HTAP)16,17, (2) flerdimensionelle OLAP-(MOLAP)18,19-terning baseret, og (3) relationelle OLAP (ROLAP)20.
Specifikt, CaseOLAP algoritme er blevet sammenlignet med talrige eksisterende algoritmer, specifikt, med deres sætning segmentering forbedringer, herunder TF-IDF + Seg, MCX + Seg, MCX og SegPhrase. Desuden RepPhrase (RP, også kendt som SegPhrase +) er blevet sammenlignet med sin egen ablation variationer, herunder (1) RP uden integritet foranstaltning indarbejdet (RP No INT), (2) RP uden popularitet foranstaltning indarbejdet (RP nej POP) og (3) RP uden den Særpræg foranstaltning indarbejdet (RP ingen DIS). Benchmarkresultater er vist i undersøgelsen af Fangbo Tao et al.1.
Der er stadig udfordringer på datamining, som kan tilføje ekstra funktionalitet i gemning og hentning af data fra databasen. Kontekstbevidste semantiske Analytical Processing (CaseOLAP) gennemfører systematisk Elasticsearch for at opbygge en indeksering database over millioner af dokumenter (protokol 5). Tekst-Cube er en dokumentstruktur, bygget over de indekserede data med brugerangivne kategorier (protokol 6). Dette forbedrer funktionalitet til dokumenter inden for og på tværs af cellen i tekst-terning og tillader os at beregne udtrykket frekvensen i enhederne over et dokument, og dokumentet frekvens over en bestemt celle (protokol 8). Den endelige CaseOLAP score udnytter disse frekvens beregninger for at udlæse en endelig score (protokol 9). I 2018 gennemført vi denne algoritme for at studere ECM proteiner og seks hjertesygdomme analysere protein-sygdom foreninger. Detaljerne i denne undersøgelse kan findes i undersøgelsen af Liem, D.A. et al.5. Angiver, at CaseOLAP kunne være almindeligt anvendt i biomedicinsk Fællesskabet at udforske en række forskellige sygdomme og mekanismer.
Begrænsninger af algoritmen. Sætning minedrift, selv er en teknik til at styre og hente vigtige begreber fra tekstdata. Samtidig med at opdage enhed-kategori association som en matematisk mængde (vektor), er denne teknik ude af stand til at finde ud af polaritet (fx, positiv eller negativ hældning) for foreningen. Man kan bygge den kvantitative sammendrag af de data, der udnytter tekst-Cude dokumentstrukturen med tildelte enheder og kategorier, men en kvalitativ koncept med mikroskopiske granularities ikke kan nås. Nogle begreber konstant udvikling fra sidste indtil nu. Summarization præsenteret for en bestemt enhed-kategori Sammenslutningen omfatter alle forekomster overalt i litteraturen. Dette kan mangle den tidsmæssige spredning af innovation. I fremtiden planlægger vi at løse disse begrænsninger.
Fremtidige anvendelser. Omkring 90% af de akkumulerede data i verden er i de ustrukturerede tekstdata. At finde en repræsentativ sætning og relation til de enheder, der er indlejret i teksten er en meget vigtig opgave for gennemførelsen af nye teknologier (f.eks. maskinen læring, Information udvinding, kunstig intelligens). For at gøre tekstdataene maskine læsbar, skal data være organiseret i databasen over som det næste lag af værktøjer kunne gennemføres. Fremover vil kan denne algoritme være et afgørende skridt i at gøre datamining mere funktionel for hentning af oplysninger og kvantificering af enhed-kategori foreninger.
The authors have nothing to disclose.
Dette arbejde blev støttet i en del af National Heart, Lung, og Blood Institute: R35 HL135772 (til P. Ping); National Institute of General Medical Sciences: U54 GM114833 (til P. Ping, K. Watson, og W. Wang); U54 GM114838 (til J. Han); en gave fra Hellen & Larry Hoag Foundation og Dr. S. Setty; og TC Laubisch begavelse på UCLA (til P. Ping).