Vi presenterar ett protokoll samt associerade programmeringskod och metadata prover att stödja en moln-baserade automatisk identifiering av fraser-kategori intresseorganisation unika koncept i användarens valda kunskap domän i biomedicinsk litteratur. Fras-kategori föreningen kvantifieras i detta protokoll kan underlätta fördjupad analys i domänen valda kunskap.
Snabb ackumulation av biomedicinska textbaserade data har långt överskridit den mänskliga förmågan av manuell samlingsvård och analys, vilket nödvändiggör nya textutvinning verktyg för att extrahera biologiska insikter från stora volymer av vetenskapliga rapporter. Rörledningen kontextmedvetna semantiska Online Analytical Processing (CaseOLAP), utvecklat under 2016, kvantifierar framgångsrikt användardefinierade fras-kategori relationer genom analys av textdata. CaseOLAP har många biomedicinska tillämpningar.
Vi har utvecklat ett protokoll för en molnbaserade miljö som stöder slutpunkt till slutpunkt fras-gruv- och analyser plattform. Våra protokoll innehåller data förbehandling (t.ex. nedladdning, utvinning och parsning textdokument), indexering och sökning med Elasticsearch, att skapa en funktionell dokumentstrukturen kallas Text-Cube och kvantifiera fras-kategori relationer med core CaseOLAP algoritm.
Våra data förbehandling genererar nyckel-värde-mappningar för alla dokument som är inblandade. Förbearbetade data indexeras för att utföra en sökning av dokument, inklusive enheter, vilket ytterligare underlättar Text-Cube skapandet och CaseOLAP poäng beräkning. De erhållna CaseOLAP Råpoäng tolkas med hjälp av en serie av integrativ analyser, inklusive dimensionalitet minskning, klustring, temporal, och geografiska analyser. Dessutom används CaseOLAP poängen för att skapa en grafisk databas, vilket möjliggör semantiska kartläggning av dokumenten.
CaseOLAP definierar fras-kategori relationer på ett korrekt (identifierar relationer), konsekvent (mycket reproducerbara), och effektivt sätt (processer 100.000 ord per sekund). Efter detta protokoll, kan användare komma åt en molnbaserade miljö för att stödja sina egna konfigurationer och tillämpningar av CaseOLAP. Denna plattform erbjuder ökad tillgänglighet och ger biomedicinska gemenskapen med fras-mining verktyg för utbredd biomedicinsk forskning.
Manuell utvärdering av miljontals textfiler för studien av fras-kategori association (e.g., åldersgrupp till protein association) är makalös med effektivitet som tillhandahålls av en automatiserad beräkningsmöjlighet. Vi vill införa den molnbaserade kontextmedvetna semantiska Online Analytical Processing (CaseOLAP) plattformen som fras-mining metod för automatisk uträkning av fras-kategori association i biomedicinsk samband.
Den CaseOLAP plattformen, som först definierades i 20161, är mycket effektiv jämfört med de traditionella metoderna för datahantering och uträkningen på grund av dess funktionella dokumenthantering kallas Text-Cube2,3, 4, som distribuerar dokumenten bibehållen underliggande hierarkin och stadsdelar. Det har tillämpats i biomedicinsk forskning5 att studera entitet-kategori association. CaseOLAP plattformen består av sex stora steg inklusive nedladdning och extraktion av data, parsning, indexering, Text-Cube skapande, enhet antal och CaseOLAP poäng beräkning; som är i fokus i protokollet (figur 1, figur 2, tabell 1).
För att genomföra CaseOLAP algoritmen, ställer användaren in kategorier av intresse (t.ex. sjukdom, tecken och symtom, åldersgrupper, diagnos) och personer av intresse (till exempel proteiner, droger). Ett exempel på en kategori som ingår i denna artikel är ‘Åldersgrupper’, som har ‘Barn’, ‘barn’, ‘ungdomar’, och ‘vuxen’ underkategorier som celler av Text-Cube och protein namn (synonymer) och förkortningar som enheter. Medical Subject Headings (MeSH) genomförs för att hämta publikationer som motsvarar de angivna kategorierna (tabell 2). MeSH deskriptorer är organiserade i en hierarkisk trädstruktur för att tillåta sökning efter publikationer vid olika nivåer av specificitet (ett urval visas i figur 3). CaseOLAP plattformen använder tredjeparts data indexering och Sök funktionen för curation av de dokument som är associerade med en entitet som ytterligare underlättar dokument enhet räkna kartläggning och CaseOLAP poäng beräkning.
Detaljerna i CaseOLAP poäng beräkning finns i tidigare publikationer1,5. Denna poäng beräknas använda specifika rankingkriterier baserat på underliggande Text-Cube dokumentstruktur. Slutresultatet är en produkt av integritet, popularitetoch särskiljningsförmåga. Integritet beskriver om en representativ enhet är en semantisk enhet som kollektivt refererar till ett meningsfullt koncept. Integritet i användardefinierade frasen tas vara 1.0 eftersom det står som en vanlig fras i litteraturen. Särskiljningsförmåga representerar den relativa betydelsen av en fras i en delmängd av dokument jämfört med resten av de andra cellerna. Den första beräknar relevansen av en entitet till en viss cell genom att jämföra förekomsten av protein namnet i målet datauppsättningen och ger en normaliserad särskiljningsförmåga poäng. Popularitet representerar det faktum att frasen med en högre popularitet poäng visas oftare i en delmängd av dokument. Sällsynt protein namn i en cell rankas lågt, medan en ökning av deras frekvens nämna har en avtagande avkastning på grund av genomförandet av den logaritmiska funktionen frekvens. Kvantitativt mäta dessa tre begrepp beror på (1) termen frekvensen för entiteten över en cell och mellan cellerna och (2) antalet dokument som har denna enhet (dokument frekvens) inom cellen och mellan cellerna.
Vi har studerat två representativa scenarier med hjälp av en PubMed-datamängd och vår algoritm. Vi är intresserade i hur mitokondrie proteiner är associerade med två unika kategorier av MeSH deskriptorer; ”Åldersgrupper” och ”närings- och metabola sjukdomar”. Specifikt vi Hämtad 15,728,250 publikationer från 20 års publikationer samlas in av PubMed (1998 till 2018), bland dem, 8,123,458 unika abstracts har haft full MeSH deskriptorer. Således 1 842 mänskligt mitokondrie protein namn (inklusive förkortningar och synonymer), förvärvade från UniProt (har) samt MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), systematiskt undersökt. Sammanslutningar med dessa 8,899,019 publikationer och enheter studerades med hjälp av våra protokoll. Vi konstruerade en Text-kub och beräknas respektive CaseOLAP poängen.
Vi har visat att den CaseOLAP algoritmen kan skapa en fras baserat kvantitativa association är en kunskapsbaserad kategori över stora volymer av textdata för utvinning av meningsfulla insikter. Efter våra protokoll, kan man bygga CaseOLAP ramen för att skapa en önskad Text-kub och kvantifiera entitet-kategori föreningar genom CaseOLAP poäng beräkning. De erhållna CaseOLAP Råpoäng kan tas till integrativ analyser inklusive dimensionalitet minskning, klustring, tidsmässiga och geografiska analys, samt skapandet av en grafisk databas som möjliggör semantiska kartläggning av dokumenten.
Tillämplighet av algoritmen. Exempel på användardefinierade enheter, än proteiner, kan vara en lista av genen namn, droger, särskilda tecken och symtom inklusive deras förkortningar och synonymer. Dessutom finns det många alternativ för kategorin markering att underlätta specifika användardefinierade biomedicinska analyser (t.ex. anatomi [A], disciplin och ockupationen [H], fenomen och processer [G]). I våra två användningsfall, alla vetenskapliga publikationer och deras textbaserade data hämtas från databasen MEDLINE via PubMed som sökmotor, båda förvaltas av National Library of Medicine. CaseOLAP plattformen får dock tillämpas till andra databaser av intresse som innehåller biomedicinsk dokument med textbaserade data såsom den FDA negativa Event Reporting System (FAERS). Detta är en öppen databas som innehåller information om medicinska biverkningar och medicinering felrapporter till FDA. I motsats till MEDLINE och FAERS, databaser på sjukhus som innehåller elektroniska patientjournaler från patienter är inte öppna för allmänheten och är begränsade av Health Insurance Portability och Accountability Act kallas HIPAA.
CaseOLAP algoritm har tillämpats framgångsrikt på olika typer av data (t.ex. nyhetsartiklar)1. Genomförandet av denna algoritm i biomedicinsk dokument har gjorts i 20185. Kraven för tillämpligheten av CaseOLAP algoritm är att varje dokument bör tilldelas med nyckelord som är associerade med begreppen (MeSH beskrivare i biomedicinsk publikationer, sökord i nyhetsartiklar). Om nyckelord inte finns, kan man tillämpa Autophrase6,7 för att samla in övre representativa fraser och bygga entitetslistan innan du implementerar våra protokoll. Våra protokoll ger inte steget för att utföra Autophrase.
Jämförelse med andra algoritmer. Begreppet med en datakub8,9,10 och en Text-Cube2,3,4 har utvecklats sedan 2005 med nya framsteg att göra datautvinning mer tillämpbar. Begreppet Online Analytical Processing (OLAP)11,12,13,14,15 i datautvinning och business intelligence går tillbaka till 1993. OLAP, i allmänhet, aggregerar information från flera system och lagrar den i en multi-dimensionell format. Det finns olika typer av OLAP-system som genomförts i datautvinning. Till exempel (1) Hybrid transaktionen/analytisk bearbetning (HTAP)16,17, (2) flerdimensionell OLAP (MOLAP)18,19-kub baserat, och (3) Relations-OLAP (ROLAP)20.
Specifikt, CaseOLAP algoritmen har jämförts med ett flertal befintliga algoritmer, specifikt, med deras fras segmentering förbättringar, inklusive TF-IDF + Seg, MCX + Seg, MCX och SegPhrase. Dessutom RepPhrase (RP, även känd som SegPhrase +) har jämförts med dess egna ablation variationer, inklusive (1) RP utan integritet åtgärden införlivas (RP No INT), (2) RP utan popularitet åtgärden införlivas (RP nr POP) och (3) RP utan den Särskiljningsförmåga åtgärd införlivats (RP nr DIS). Resultaten visas i studien av Fangbo Tao et al.1.
Det finns fortfarande utmaningar på datautvinning som kan lägga till ytterligare funktionalitet över spara och hämta data från databasen. Kontextmedvetna semantiska Analytical Processing (CaseOLAP) genomför systematiskt Elasticsearch för att bygga en indexering databas med miljontals dokument (protokoll 5). Text-kuben är en dokumentstruktur byggd över indexerade data med användaren kategorier (protokoll 6). Detta förbättrar funktionaliteten till handlingar inom och över cellen av Text-kuben och tillåta oss att beräkna term frekvens enheter över ett dokument och dokumentet frekvens över en viss cell (protokoll nr 8). CaseOLAP slutresultatet använder tredjeparts dessa frekvens beräkningar att mata en slutpoäng (protokoll nr 9). 2018 genomfört vi denna algoritm för att studera ECM proteiner och sex hjärtsjukdomar att analysera protein-sjukdom föreningar. Detaljerna i denna studie kan hittas i studien av Liem, D.A. et al.5. indikerar att CaseOLAP kan användas allmänt i biomedicinska gemenskapen att utforska en mängd sjukdomar och mekanismer.
Begränsningar av algoritmen. Fras gruvdrift själv är en teknik att hantera och hämta viktiga begrepp från textbaserade data. Samtidigt upptäcka enhet-kategori association som en matematisk kvantitet (vector), är denna teknik inte att räkna ut polaritet (t.ex., positiv eller negativ lutning) föreningen. Man kan bygga den kvantitativa Sammanfattning av data använder Text-Cude dokumentstrukturen med tilldelade enheter och kategorier, men ett kvalitativa koncept med mikroskopiska granularities inte kan nås. Några begrepp utvecklas kontinuerligt från tidigare till nu. Den sammanfattning som presenteras för en specifik enhet-kategori förening omfattar alla incidenter under hela litteraturen. Detta kanske saknar temporal förökningen av innovation. I framtiden planerar vi att ta itu med dessa begränsningar.
Framtida tillämpningar. Omkring 90% av de ackumulerade data i världen är i ostrukturerad textdata. Att hitta en representativ fras och relation till de enheter som är inbäddade i texten är en mycket viktig uppgift för genomförande av ny teknik (t.ex., Machine Learning, Information utvinning, artificiell intelligens). För att göra text-data maskin läsbar, behöver data organiseras i databasen som nästa lager av verktyg kunde genomföras. Denna algoritm kan i framtiden vara ett avgörande steg i att göra datautvinning mer funktionell för hämtning av information och kvantifiering av de entitet-kategori föreningarna.
The authors have nothing to disclose.
Detta arbete var stöds delvis av nationella hjärta, lungor och blod Institute: R35 HL135772 (till s. Ping); National Institute of General Medical Sciences: U54 GM114833 (till s. Ping, K. Watson och W. Wang); U54 GM114838 (till J. Han); en gåva från Hellen & Larry Hoag Foundation och Dr. S. liggsoffa; och T.C. Laubisch endowment vid UCLA (till s. Ping).