Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications

Dibakar Sigdel; Vincent Kyi; Aiden Zhang; Shaun P. Setty; David  A. Liem; Yu Shi; Xuan Wang; Jiaming Shen; Wei Wang; JiaWei Han; Peipei Ping

doi:10.3791/59108

JoVE Journal > Medicine

Please note that all translations are automatically generated. Click here for the English version.

Médecine

Molnbaserade fras gruvdrift och analys av användardefinierade fras-kategori Association i biomedicinsk publikationer

Published: February 23, 2019

doi:

10.3791/59108

Dibakar Sigdel*^1,2, Vincent Kyi*^1,2, Aiden Zhang*¹, Shaun P. Setty, David A. Liem^2,4, Yu Shi, Xuan Wang, Jiaming Shen, Wei Wang^6,7, JiaWei Han, Peipei Ping^2,4,6

¹The NIH BD2K Center of Excellence in Biomedical Computing,University of California, Los Angeles, ²Department of Physiology,University of California, Los Angeles, ³Department of Pediatric and Adult Congenital Heart Surgery,Miller Children’s and Women’s Hospital and Long Beach Memorial Hospital, ⁴Department of Medicine/Cardiology,University of California, Los Angeles, ⁵NIH BD2K Program Centers of Excellence for Big Data Computing — KnowEng Center, Department of Computer Science,University of Illinois at Urbana-Champaign (UIUC), ⁶Scalable Analytics Institute (ScAi),University of California, Los Angeles, ⁷Department of Computer Science,University of California, Los Angeles

Summary

Vi presenterar ett protokoll samt associerade programmeringskod och metadata prover att stödja en moln-baserade automatisk identifiering av fraser-kategori intresseorganisation unika koncept i användarens valda kunskap domän i biomedicinsk litteratur. Fras-kategori föreningen kvantifieras i detta protokoll kan underlätta fördjupad analys i domänen valda kunskap.

Abstract

Snabb ackumulation av biomedicinska textbaserade data har långt överskridit den mänskliga förmågan av manuell samlingsvård och analys, vilket nödvändiggör nya textutvinning verktyg för att extrahera biologiska insikter från stora volymer av vetenskapliga rapporter. Rörledningen kontextmedvetna semantiska Online Analytical Processing (CaseOLAP), utvecklat under 2016, kvantifierar framgångsrikt användardefinierade fras-kategori relationer genom analys av textdata. CaseOLAP har många biomedicinska tillämpningar.

Vi har utvecklat ett protokoll för en molnbaserade miljö som stöder slutpunkt till slutpunkt fras-gruv- och analyser plattform. Våra protokoll innehåller data förbehandling (t.ex. nedladdning, utvinning och parsning textdokument), indexering och sökning med Elasticsearch, att skapa en funktionell dokumentstrukturen kallas Text-Cube och kvantifiera fras-kategori relationer med core CaseOLAP algoritm.

Våra data förbehandling genererar nyckel-värde-mappningar för alla dokument som är inblandade. Förbearbetade data indexeras för att utföra en sökning av dokument, inklusive enheter, vilket ytterligare underlättar Text-Cube skapandet och CaseOLAP poäng beräkning. De erhållna CaseOLAP Råpoäng tolkas med hjälp av en serie av integrativ analyser, inklusive dimensionalitet minskning, klustring, temporal, och geografiska analyser. Dessutom används CaseOLAP poängen för att skapa en grafisk databas, vilket möjliggör semantiska kartläggning av dokumenten.

CaseOLAP definierar fras-kategori relationer på ett korrekt (identifierar relationer), konsekvent (mycket reproducerbara), och effektivt sätt (processer 100.000 ord per sekund). Efter detta protokoll, kan användare komma åt en molnbaserade miljö för att stödja sina egna konfigurationer och tillämpningar av CaseOLAP. Denna plattform erbjuder ökad tillgänglighet och ger biomedicinska gemenskapen med fras-mining verktyg för utbredd biomedicinsk forskning.

Introduction

Manuell utvärdering av miljontals textfiler för studien av fras-kategori association (e.g., åldersgrupp till protein association) är makalös med effektivitet som tillhandahålls av en automatiserad beräkningsmöjlighet. Vi vill införa den molnbaserade kontextmedvetna semantiska Online Analytical Processing (CaseOLAP) plattformen som fras-mining metod för automatisk uträkning av fras-kategori association i biomedicinsk samband.

Den CaseOLAP plattformen, som först definierades i 2016¹, är mycket effektiv jämfört med de traditionella metoderna för datahantering och uträkningen på grund av dess funktionella dokumenthantering kallas Text-Cube²^,³^, ⁴, som distribuerar dokumenten bibehållen underliggande hierarkin och stadsdelar. Det har tillämpats i biomedicinsk forskning⁵ att studera entitet-kategori association. CaseOLAP plattformen består av sex stora steg inklusive nedladdning och extraktion av data, parsning, indexering, Text-Cube skapande, enhet antal och CaseOLAP poäng beräkning; som är i fokus i protokollet (figur 1, figur 2, tabell 1).

För att genomföra CaseOLAP algoritmen, ställer användaren in kategorier av intresse (t.ex. sjukdom, tecken och symtom, åldersgrupper, diagnos) och personer av intresse (till exempel proteiner, droger). Ett exempel på en kategori som ingår i denna artikel är ‘Åldersgrupper’, som har ‘Barn’, ‘barn’, ‘ungdomar’, och ‘vuxen’ underkategorier som celler av Text-Cube och protein namn (synonymer) och förkortningar som enheter. Medical Subject Headings (MeSH) genomförs för att hämta publikationer som motsvarar de angivna kategorierna (tabell 2). MeSH deskriptorer är organiserade i en hierarkisk trädstruktur för att tillåta sökning efter publikationer vid olika nivåer av specificitet (ett urval visas i figur 3). CaseOLAP plattformen använder tredjeparts data indexering och Sök funktionen för curation av de dokument som är associerade med en entitet som ytterligare underlättar dokument enhet räkna kartläggning och CaseOLAP poäng beräkning.

Detaljerna i CaseOLAP poäng beräkning finns i tidigare publikationer¹^,⁵. Denna poäng beräknas använda specifika rankingkriterier baserat på underliggande Text-Cube dokumentstruktur. Slutresultatet är en produkt av integritet, popularitetoch särskiljningsförmåga. Integritet beskriver om en representativ enhet är en semantisk enhet som kollektivt refererar till ett meningsfullt koncept. Integritet i användardefinierade frasen tas vara 1.0 eftersom det står som en vanlig fras i litteraturen. Särskiljningsförmåga representerar den relativa betydelsen av en fras i en delmängd av dokument jämfört med resten av de andra cellerna. Den första beräknar relevansen av en entitet till en viss cell genom att jämföra förekomsten av protein namnet i målet datauppsättningen och ger en normaliserad särskiljningsförmåga poäng. Popularitet representerar det faktum att frasen med en högre popularitet poäng visas oftare i en delmängd av dokument. Sällsynt protein namn i en cell rankas lågt, medan en ökning av deras frekvens nämna har en avtagande avkastning på grund av genomförandet av den logaritmiska funktionen frekvens. Kvantitativt mäta dessa tre begrepp beror på (1) termen frekvensen för entiteten över en cell och mellan cellerna och (2) antalet dokument som har denna enhet (dokument frekvens) inom cellen och mellan cellerna.

Vi har studerat två representativa scenarier med hjälp av en PubMed-datamängd och vår algoritm. Vi är intresserade i hur mitokondrie proteiner är associerade med två unika kategorier av MeSH deskriptorer; ”Åldersgrupper” och ”närings- och metabola sjukdomar”. Specifikt vi Hämtad 15,728,250 publikationer från 20 års publikationer samlas in av PubMed (1998 till 2018), bland dem, 8,123,458 unika abstracts har haft full MeSH deskriptorer. Således 1 842 mänskligt mitokondrie protein namn (inklusive förkortningar och synonymer), förvärvade från UniProt (har) samt MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), systematiskt undersökt. Sammanslutningar med dessa 8,899,019 publikationer och enheter studerades med hjälp av våra protokoll. Vi konstruerade en Text-kub och beräknas respektive CaseOLAP poängen.

Protocol

Obs: Vi har utvecklat detta protokoll baserat på programmeringsspråket Python. När du kör det här programmet har Anaconda Python och Git pre-installerat på enheten. De kommandon som anges i detta protokoll baseras på Unix-miljö. Detta protokoll ger i detalj för att hämta data från PubMed (MEDLINE) databas, analysera data och ställa in en molnbaserade datortjänster plattform för fras gruv- och kvantifiering av användardefinierade enhet-kategori association. 1. att få koden och python miljö setup Ladda ner eller klon kod arkivet från Github (https://github.com/CaseOLAP/caseolap) eller genom att skriva ‘git klona https://github.com/CaseOLAP/caseolap.git’ i terminal-fönstret. Navigera till katalogen ‘caseolap’. Detta är rotkatalogen på projektet. I denna katalog fylls katalogen ‘data’ med flera datamängder som du framsteg genom dessa steg i protokollet. Den ‘input’ katalogen är för användaren data. ‘Logga’ katalogen har loggfiler för felsökning. Den ‘resultat’ katalogen är där de slutliga resultaten kommer att lagras. Använda terminal-fönstret, gå till katalogen där du klonad våra GitHub-databasen. Skapa en CaseOLAP miljö med hjälp av ‘environment.yml’-filen genom att skriva ‘conda env skapa -f environment.yaml’ i terminal. Aktivera sedan miljön genom att skriva ‘Källa aktivera caseolap’ i terminalen. 2. nedladdning av dokument Kontrollera att FTP-adressen i ‘ftp_configuration.json’ i konfigurationskatalogen är samma som årliga baslinjen eller dagliga uppdateringsfiler länkadressen, Funna i länken (https://www.nlm.nih.gov/databases/download/pubmed_medline.html) . För att ladda ner uppdateringen eller originalplan endast anges filer enbart ‘sann’ i ‘download_config.json’-filen i katalogen ‘config’. Som standard, den hämtar och extraherar både vid baslinjen och uppdatera filer. Ett urval av extraherade XML-data kan ses på (https://github.com/CaseOLAP/caseolap-pipelines/blob/master/data/extracted-data-sample.xml) Skriv ‘python run_download.py’ i terminalfönstret för att hämta abstracts från databasen Pubmed. Detta kommer att skapa en katalog som heter ‘ftp.ncbi.nlm.nih.gov’ i den aktuella katalogen. Denna process kontrollerar integriteten för den nedladdade data och extrakt det till målkatalogen. Gå till loggkatalogen ” att läsa loggmeddelanden i ‘download_log.txt’ hämtningsprocessen misslyckas. Om processen slutförs utan problem, kommer att felsökning meddelanden av nedladdningen skrivas ut i loggfilen. När nedladdningen är klar, navigera genom ‘ftp.ncbi.nlm.nih.gov’ för att se till att det är ‘updatefiles’ eller ‘basefiles’ eller båda katalogerna utifrån ladda ner konfigurationen i ‘download_config.json’. Fil statistiken blir tillgänglig på ‘filestat.txt’ i katalogen ‘data’. 3. analysera dokument Kontrollera att hämtade och extraherade data finns på ‘ftp.ncbi.nlm.nih.gov’ katalog från steg 2. Denna katalog är katalogen indata i det här steget. Data-parsning schemat väljer du parametrar i ‘parsing_config.json’-filen i katalogen ‘config’ genom att ange deras värde på ‘true’. Som standard den tolkar den PMID, författare, abstrakt, MeSH, läge, tidning, publiceringsdatum. Skriv ‘python run_parsing.py’ i terminalen för att parsa dokument från nedladdade (eller extraherade) filer. Här steget tolkar alla nedladdade XML-filer och skapar en python ordbok för varje dokument med nycklar (e.g., PMID, författare, abstrakt, MeSH av filen baserat på parsning schema installationen vid steg 3,2). När data parsning är klar, kontrollera att analyserad data sparas i en fil som heter ‘pubmed.json’ i datakatalogen. Ett urval av analyserad data finns på figur 3. Gå till loggkatalogen ” att läsa loggmeddelanden i ‘parsing_log.txt’ i parsning processen misslyckas. Om processen slutförs utan problem, ska felsökningsmeddelanden skrivas i loggfilen. 4. mesh PMID-mappningen Kontrollera att analyserad data (‘pubmed.json’) är tillgängliga på katalogen ‘data’. Skriv ‘python run_mesh2pmid.py’ i terminalen för att utföra MeSH PMID-mappningen. Detta skapar en Mappningstabell där var och en av MeSH samlar associerade PMIDs. En enda PMID kan omfattas av flera MeSH-termer. När kartläggningen är klar, se till att det är ‘mesh2pmid.json’ i datakatalogen. Ett urval av topp 20 mappning statistiken finns i tabell-2, figurerna 4 och 5. Gå till loggkatalogen ” att läsa loggmeddelanden i ‘mesh2pmid_mapping_log.txt’ denna processen misslyckas. Om processen slutförs utan problem, kommer att felsökning meddelanden av kartläggning skrivas ut i loggfilen. 5. dokument indexering Hämta programmet Elasticsearch från https://www.elastic.co. Nedladdningen är för närvarande tillgänglig på (https://www.elastic.co/downloads/elasticsearch). För att ladda ner programvaran i remote molnet, skriv ‘wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-x.x.x.tar.gz’ i terminalen. Kontrollera att ‘x.x.x’ i kommandot ovan ersätts med rätt versionsnummer. Kontrollera att den Hämta ‘elasticsearch-x.x.x.tar.gz’-filen visas i rotkatalogen och sedan extrahera filerna genom att skriva ‘tar xvzf elasticsearch-x.x.x.tar.gz’ i terminal-fönstret. Öppna en ny terminal och gå till ElasticSearch bin-katalogen genom att skriva ‘cd Elasticsearch/bin’ i terminalen från rotkatalogen. Starta Elasticsearch servern genom att skriva ‘. / Elasticsearch’ i terminal-fönstret. Kontrollera att servern är igång utan felmeddelanden. Vid fel på starta Elasticsearch server, Följ instruktionerna på (https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html). Ändra innehållet i den ‘index_init_config.json’ i ‘config’ directory ställa index initiering. Som standard väljs alla objekt som finns. Skriv ‘python run_index_init.py’ i terminalen för att initiera en index-databas i Elasticsearch servern. Detta initierar indexet med en uppsättning kriterier som kallas indexinformation (t.ex. Indexnamn som, typ, antal skärvor, antal repliker). Du kommer att se meddelandet att nämna index skapas. Markera objekt i den ‘index_populate_config.json’ i ‘config’ katalogen genom att ange deras värde på ‘true’. Som standard väljs alla objekt som finns. Kontrollera att analyserad data (‘pubmed.json’) är närvarande i katalogen ‘data’. Skriv ‘python run_index_populate.py’ i terminalen för att befolka index genom att skapa stora mängder data med två komponenter. En första komponenten är en ordlista med metadatainformation om Indexnamn, typ, och bulk-id (t.ex. ‘PMID’). A andra komponenten är en dataordlista som innehåller all information om Taggar (t.ex. ‘title’, ‘abstrakt’, ‘MeSH’). Gå till loggkatalogen ” att läsa loggmeddelanden i ‘indexing_log.txt’ denna processen misslyckas. Om processen slutförs utan problem, kommer att felsökning meddelanden av indexering skrivas ut i loggfilen. 6. text-cube skapandet Hämta den senaste MeSH Tree finns på (https://www.nlm.nih.gov/mesh/filelist.html). Den aktuella versionen av koden använder MeSH Tree 2018 som ‘meshtree2018.bin’ i katalogen ingång. Definiera kategorierna av intresse (t.ex. sjukdom namn, åldersgrupper, kön). En kategori kan innehålla en eller flera MeSH deskriptorer (https://meshb-prev.nlm.nih.gov/treeView). Samla MeSH-ID för en kategori. Spara namnen på kategorierna i filen ‘textcube_config.json’ i konfigurationskatalogen (se urval av kategorin ‘Åldersgrupp’ i den nedladdade versionen av ‘textcube_config.json’-fil). Sätta de insamlade kategorierna av MeSH-ID i en linje som avgränsade med ett blanksteg. Spara filen kategori som ‘categories.txt’ i ‘input’ katalogen (se urval av ‘Åldersgrupp’ MeSH-ID: N i den nedladdade versionen av ‘categories.txt’-fil). Denna algoritm väljs automatiskt alla underordnade MeSH deskriptorer. Ett exempel på rotnoder och ättlingar presenteras i figur 4. Kontrollera att ‘mesh2pmid.json’ är i katalogen ‘data’. Om trädet MeSH har uppdaterats med ett annat namn (t.ex., ‘meashtree2019.bin’) i ‘input’ directory, se till att detta är väl representerade i indata sökvägen i filen ‘run_textube.py’. Skriv ‘python run_textcube.py’ i terminalen för att skapa ett dokument-datastruktur kallas Text-Cube. Detta skapar en samling dokument (PMIDs) för varje kategori. Ett enda dokument (PMID) kan falla under flera kategorier (se tabell 3A, tabell 3B, figur 6A och figur 7A). När Text-Cube skapande steg är klar, se till att följande datafiler sparas i katalogen ‘data’: (1) en cell PMID tabellen ”textcube_cell2pmid.json”, (2) en PMID till cell mappningstabellen som ”textcube_pmid2cell.json”, (3) en samling av alla underordnade MeSH-termer för en cell som ”meshterms_per_cat.json”, (4) Text-Cube data statistik som ”textcube_stat.txt”. Gå till loggkatalogen ” att läsa loggmeddelanden i ‘textcube_log.txt’ denna processen misslyckas. Om processen slutförs utan problem, kommer att felsökningsmeddelanden skapelsens Text-kuben skrivas ut i loggfilen. 7. enhet antal Skapa användardefinierade enheter (t.ex. protein namn, gener, kemikalier). Sätta en person och dess förkortningar i en enda rad avgränsas med ”|”. Spara filen enhet som ‘entities.txt’ i ‘input’ katalog. Ett urval av enheter kan hittas i tabell 4. Kontrollera att Elasticsearch server körs. Gå annars till steg 5.2 och 5.3 starta om Elasticsearch servern. Det förväntas ha en indexerad databas som kallas ‘pubmed’ i serverns Elasticsearch som var etablerad i steg 5. Kontrollera att ‘textcube_pmid2cell.json’ är i katalogen ‘data’. Skriv ‘python run_entitycount.py’ i terminalen för entiteten Count-åtgärd. Detta söker dokumenten från indexerade databasen och räknar entiteten i varje dokument som samlar in de PMIDs där enheter hittades. När antalet enhet är klar, se till att de slutliga resultaten sparas som ‘entitycount.txt’ och ‘entityfound_pmid2cell.json’ i katalogen ‘data’. Gå till loggkatalogen ” att läsa loggmeddelanden i ‘entitycount_log.txt’ denna processen misslyckas. Om processen slutförs utan problem, kommer att felsökning meddelanden av entiteten räkningen skrivas ut i loggfilen. 8. Metadata update Kontrollera att alla indata (‘entitycount.txt’, ‘textcube_pmid2cell.json’, ‘entityfound_pmid2cell.txt’) är i katalogen ‘data’. Dessa är indata för Metadata Update. Skriv ‘python run_metadata_update.py’ i terminalen för att uppdatera metadata. Detta förbereder en samling av metadata (t.ex. cellnamn, associerade MeSH, PMIDs) som representerar varje textdokument i cellen. Ett urval av Text-Cube metadata presenteras i tabell 3A och tabell 3B. När Metadata uppdateringen är klar, se till att ‘metadata_pmid2pcount.json’ och ‘metadata_cell2pmid.json’ filer sparas i ‘data’ katalog. Gå till loggkatalogen ” att läsa loggmeddelanden i ‘metadata_update_log.txt’ denna processen misslyckas. Om processen slutförs utan problem, kommer att felsökning meddelanden av uppdatering av metadata skrivas ut i loggfilen. 9. CaseOLAP poäng beräkning Kontrollera att ‘metadata_pmid2pcount.json’ och ‘metadata_cell2pmid.json’ filer finns i katalogen ‘data’. Dessa är indata för beräkning av poäng. Skriv ‘python run_caseolap_score.py’ i terminalen för att utföra CaseOLAP poäng beräkning. Detta beräknar CaseOLAP poäng av enheter baserat på användardefinierade kategorier. CaseOLAP är produkten av integritet, popularitetoch särskiljningsförmåga. När poäng uträkningen är klar, se till att detta sparar resultaten i flera filer (t.ex. popularitet som ‘pop.csv’, särskiljningsförmåga som ‘dist.csv’, CaseOLAP poäng som ‘caseolap.csv’), i katalogen ‘leda’. Sammanfattningen av CaseOLAP poäng beräkningen presenteras också i tabell 5. Gå till loggkatalogen ” att läsa loggmeddelanden i ‘caseolap_score_log.txt’ denna processen misslyckas. Om processen slutförs utan problem, kommer att felsökningsmeddelanden CaseOLAP poäng beräkning skrivas ut i loggfilen.

Representative Results

För att producera provresultaten, vi genomfört CaseOLAP algoritmen i två ämne rubriker/beskrivare: ”åldersgrupper” och ”näringsmässiga och metabola sjukdomar” som användningsfall. Åldersgrupper. Vi valde alla 4 underkategorier av ”åldersgrupper” (spädbarn, barn, ungdomar och vuxna) som celler i en Text-kub. Den erhållna metadata och statistik redovisas i tabell 3A. Jämförelse av antal dokument bland Text-Cube cellerna visas i figur 6A. Vuxen innehåller 172,394 dokument som är det högsta antalet över alla celler. Vuxna och ungdomar underkategorierna har det högsta antalet delade dokument (26,858). Bland annat ingår dessa dokument personen för vårt intresse endast (dvs mitokondrie proteiner). I Venn-diagram i figur 6B representerar antalet enheter (dvs mitokondrie proteiner) hittade inom varje cell och inom flera överlappningar bland cellerna. Antalet proteiner delas inom alla åldersgrupper underkategorier är 162. Adult underkategorin skildrar det högsta antalet unika proteiner (151) följt av barn (16), spädbarn (8) och ungdomar (1). Vi beräknade föreningens protein-ålder grupp som en CaseOLAP poäng. Topp 10 proteinerna (baserat på deras genomsnittliga CaseOLAP poäng) är associerad med spädbarn, barn, ungdomar och vuxna underkategorier är Sterol 26-hydroxylas, Alpha-crystallin B kedjan, 25-hydroxyvitamin d-1 alpha-hydroxylas, Serotransferrin, citrat syntas, L-seryl-tRNA, natrium/kalium-transport ATPas subenhet alpha-3, Glutathione S-transferas omega-1, NADPH: adrenodoxin mitokondriskt och mitokondrie peptid metionin sulfoxid reduktas (visas i figur 6 c). Adult underkategorin visar 10 heatmap celler med en högre intensitet jämfört med heatmap cellerna av ungdomar, barn och spädbarn underkategori, som anger att de toppa 10 mitokondrie proteinerna uppvisar de starkaste associationerna till vuxen underkategorin. Den mitokondriella protein Sterol 26-hydroxylas har höga sammanslutningar i alla ålder underkategorier som framgår av heatmap celler med högre stödnivåer jämfört med heatmap cellerna i de andra 9 mitokondriella proteinerna. Statistiska fördelningen av den absoluta skillnaden i poäng mellan två grupper visar följande utbud av genomsnittliga differensen med en 99% konfidensintervall: (1) den genomsnittliga skillnaden mellan ‘ADLT’ och ‘INFT’ ligger i intervallet (0,029 till 0,042), (2) genomsnittliga skillnaden mellan ‘ADLT’ och ‘CHLD’ ligger i intervallet (0,021 till 0,030), (3) den genomsnittliga skillnaden mellan ‘ADLT’ och ‘ADOL’ ligger i intervallet (0,020 till 0,029), (4) den genomsnittliga skillnaden mellan ‘ADOL’ och ‘INFT’ ligger i intervallet (0,015 till 0,022), (5) den genomsnittliga skillnaden mellan ‘ADOL’ och ‘CHLD’ ligger i intervallet (0,007 till 0,010), (6) den genomsnittliga skillnaden mellan ‘CHLD’ och ‘INFT’ ligger i intervallet (0,011 till 0,016). Närings- och metabola sjukdomar. Vi valde 2 underkategorier av ”näringsmässiga och metabola sjukdomar” (dvs, metabola sjukdomar och nutrition) att skapa 2 celler i en Text-kub. Den erhållna metadata och statistik redovisas i tabell 3B. Jämförelse av antal dokument bland Text-Cube cellerna visas i figur 7A. Underkategorin metabola sjukdomen innehåller 54,762 dokument följt av 19.181 dokument i Nutrition. De underkategorier ämnesomsättningssjukdom och Nutrition har 7,101 delade dokument. Bland annat ingår dessa dokument personen för vårt intresse endast (dvs mitokondrie proteiner). I Venn-diagram i figur 7B representerar antalet enheter som finns inom varje cell och inom flera överlappningar mellan cellerna. Vi beräknade protein-”närings- och metabola sjukdomar” föreningen som en CaseOLAP poäng. Topp 10 proteinerna (baserat på deras genomsnittliga CaseOLAP poäng) är associerad med denna användningsfall är Sterol 26-hydroxylas, Alpha-crystallin B kedja, L-seryl-tRNA, citrat-syntas, tRNA pseudouridine synthase A, 25-hydroxyvitamin d-1 alpha-hydroxylas, Glutathione S-transferas omega-1, NADPH: adrenodoxin mitokondriskt, mitokondriell peptid metionin sulfoxid reduktas, Plasminogen aktivator inhibitor 1 (visas i figur 7 c). Mer än hälften (54%) av alla proteiner delas mellan underkategorier metabola sjukdomar och näringsmässiga störningar (397 proteiner). Intressant, nästan hälften (43%) av alla associerade proteiner i ämnesomsättningssjukdom underkategorin är unik (300 proteiner), medan Nutrition uppvisar endast några unika proteiner (35). Alpha-crystallin B kedjan visar starkaste associationen till underkategori metabola sjukdomar. Sterol 26-hydroxylas, mitokondriell visar starkaste föreningen i Nutrition underkategorin, vilket indikerar att detta mitokondriell protein är mycket relevant i studier som beskriver Nutrition. Den statistiska fördelningen av den absoluta skillnaden i poäng mellan två grupper ‘MBD’ och ‘NTD’ visas intervallet (0.046 till 0,061) för den genomsnittliga skillnaden som en 99% konfidensintervall. Figur 1. Dynamisk vy av CaseOLAP arbetsflödet. Denna siffra representerar de 5 stora steg i arbetsflödet CaseOLAP. I steg 1 börjar arbetsflödet genom att hämta och extrahera text dokument (t.ex. från PubMed). I steg 2 tolkas extraherade data för att skapa en dataordlista för varje dokument samt en MeSH PMID-mappningen. I steg 3 bedrivs dataindexerings för att underlätta snabb och effektiv enhet Sök. I steg 4 genomförs av användaren kategoriinformation (t.ex.., roten MeSH för varje cell) en Text-kub. I steg 5 genomförs enhet räkna operationen över indexdata för att beräkna CaseOLAP poängen. Dessa steg upprepas i en iterativ sätt att uppdatera systemet med den senaste informationen finns i en offentlig databas (t.ex. PubMed). Klicka här för att se en större version av denna siffra. Figur 2. Teknisk arkitektur av CaseOLAP arbetsflödet. Denna siffra representerar de tekniska detaljerna av CaseOLAP arbetsflödet. Data från databasen PubMed erhålls från PubMed FTP-servern. Användaren ansluter till servern (t.ex. AWS connectivity) via sin enhet och skapar en Hämta Pipeline som hämtar och extraherar data till en lokal databas i molnet. Extraherade data är strukturerad, verifierade och förde till en rätt format med en Data parsning Pipeline. Samtidigt skapas en maska till PMID mappningstabellen under parsning steg, som används för Text-Cube konstruktion. Analyserad data lagras som en JSON som nyckel-värde ordbok-format med dokumentets metadata (t ex PMID, MeSH, publicerande år). De indexering-steg längre förbättrar data genom att implementera Elasticsearch för att hantera stora mängder data. Nästa, Text-kuben skapas med användardefinierade kategorier genom att implementera MeSH PMID-mappningen. När Text-Cube bildning och indexering steg genomförs, bedrivs en enhet räkna. Räkna entitetsdata genomförs till Text-Cube metadata. Slutligen beräknas CaseOLAP poängen baserat på den underliggande Text-kub strukturen. Klicka här för att se en större version av denna siffra. Figur 3. Ett prov av en analyserad dokument. Ett urval av analyserad data presenteras i denna siffra. Analyserad data är ordnade som en nyckel-värde-par som är kompatibel med indexering och dokument metadata skapelse. I denna figur, en PMID (t.ex., ”25896987”) fungerar som en nyckel och samling av tillhörande information (t.ex. titel, Journal, publicera datum, abstrakt, MeSH, ämnen, institutionen och läge) är som värde. Allra första tillämpningen av sådana dokumentmetadata är byggandet av MeSH till PMID kartläggning (figur 5 och tabell 2), som implementeras senare att skapa Text-kuben och att beräkna CaseOLAP poängen med användaren enheter och Kategorier. Klicka här för att se en större version av denna siffra. Figur 4. Ett prov av ett MeSH-träd. ‘Ålder gruppernas MeSH tree är anpassad i trädstrukturen data tillgängliga i databasen NIH (MeSH Tree 2018, ). MeSH deskriptorer genomförs med deras nod ID: N (t.ex. personer [M01], åldersgrupper [M01.060], ungdomspsykiatri [M01.060.057], vuxen [M01.060.116], barn [M01.060.406], spädbarn [M01.060.703]) att samla in dokument som är relevanta för en specifik MeSH deskriptor ( Tabell 3A). Klicka här för att se en större version av denna siffra. Figur 5. MeSH PMID-mappningen i åldersgrupper. Denna figur visar antalet textdokument (vart och länkad med en PMID) som samlas in enligt MeSH beskrivare i ”grupper” som en bubbla tomt. MeSH PMID-mappningen genereras för att ge det exakta antalet dokument samlade under MeSH beskrivare. Det totala antalet 3,062,143 unika dokument insamlades under 18 ättling MeSH beskrivare (se tabell 2). Ju högre markerad antalet PMIDs under en specifik MeSH deskriptor, den större radien av bubblan representerar MeSH deskriptorn. Till exempel det högsta antalet dokument insamlades under MeSH deskriptorn ”vuxen” (1,786,371 dokument), medan det minsta antalet textdokument samlades under MeSH deskriptorn ”spädbarn, Postmature” (62 dokument).Ett ytterligare exempel på MeSH PMID kartläggning ges för ”näringsmässiga och metabola sjukdomar” (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). Det totala antalet 422,039 unika dokument insamlades under 361 ättling MeSH beskrivare i ”näringsmässiga och metabola sjukdomar”. Det högsta antalet dokument insamlades under MeSH deskriptorn ”fetma” (77,881 dokument) följt av ”Diabetes Mellitus typ 2” (61,901 dokument), medan ”glykogen lagring sjukdom, typ VIII” ställde ut det minsta antalet dokument (1 dokument ). En relaterad tabell finns också på (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). Klicka här för att se en större version av denna siffra. Figur 6. ”Åldersgrupper” som ett användningsfall. Denna siffra presenterar resultaten från ett användningsfall för CaseOLAP-plattformen. I detta fall protein namn och deras förkortningar (se exempel i tabell 4) genomförs som enheter och ”åldersgrupper” inklusive cellerna: spädbarn (INFT), barn (CHLD), ungdomar (ADOL) och vuxen (ADLT), implementeras som underkategorier (se Tabell 3A). (A) Antal dokument i ”åldersgrupper”: Denna värmekarta visar antalet handlingar fördelade över cellerna i ”åldern grupper” (för information om Text-Cube skapande se protokoll 4 och tabell 3A). Ett högre antal dokument presenteras med en mörkare intensitet av heatmap cell (se skalan). Ett enda dokument kan ingå i fler än en cell. Heatmap presenterar antalet dokument inom en cell längs diagonal position (t.ex. ADLT innehåller 172,394 dokument som är det högsta antalet över alla celler). Den nondiagonal ståndpunkten utgör antalet dokument som faller under två celler (t.ex. ADLT och ADOL har 26,858 delade dokument). (B) . Enhet räknas i ”åldersgrupper”: Venndiagram representerar antalet proteiner som finns i de fyra cellerna representerar ”åldersgrupper” (INFT, CHLD, ADOL och ADLT). Antalet proteiner delas inom alla celler är 162. Åldersgruppen ADLT skildrar det högsta antalet unika proteiner (151) följt av CHLD (16), INFT (8) och ADOL (1). (C) CaseOLAP poäng presentation i ”åldersgrupper”: Topp 10 proteinerna med högsta genomsnittliga CaseOLAP betyg i varje grupp presenteras i en intensitetskarta. En högre CaseOLAP poäng presenteras med en mörkare intensitet av heatmap cell (se skalan). Protein namnen visas i den vänstra kolumnen och cellerna (INFT CHLD, ADOL, ADLT) visas längs x-axeln. Vissa proteiner visar en stark koppling till en viss åldersgrupp (t.ex. växtsteroler 26-hydroxylas, alpha-crystallin B chain och L-seryl-tRNA har starka associationer med ADLT, medan natrium/kalium-transport ATPas subenhet alpha-3 har ett starkt samband med INFT). Klicka här för att se en större version av denna siffra. Figur 7. ”Närings- och metabola sjukdomar” som ett användningsfall: denna siffra presenterar resultaten från ett annat användningsfall för CaseOLAP-plattformen. I detta fall protein namn och deras förkortningar (se exempel i tabell 4) genomförs som enheter och ”näringsmässiga och ämnesomsättningssjukdom” inklusive de två cellerna: ämnesomsättningssjukdom (MBD) och nutrition (NTD) genomförs som underkategorier (se tabell 3B). (A). antal dokument i ”näringsmässiga och metabola sjukdomar”: denna heatmap skildrar antalet textdokument i cellerna i ”näringsmässiga och metabola sjukdomar” (för information om Text-Cube skapandet se protokoll 4 och tabell 3B ). Ett högre antal dokument presenteras med en mörkare intensitet av heatmap cell (se skala). Ett enda dokument kan ingå i fler än en cell. Heatmap presenterar det totala antalet dokument inom en cell längs diagonal position (t.ex. MBD innehåller 54,762 dokument som är det högsta antalet över de två cellerna). Den nondiagonal ståndpunkten utgör antalet dokument som delas av de två cellerna (t.ex. MBD och NTD har 7,101 delade dokument). (B). enhet räknas i ”näringsmässiga och metabola sjukdomar”: Venndiagram representerar antalet proteiner som finns i två celler som representerar ”näringsmässiga och metabola sjukdomar” (MBD och NTD). Antalet proteiner delas inom de två cellerna är 397. Cellen MBD skildrar 300 unika proteiner, och cellen NTD skildrar 35 unika proteiner. (C). CaseOLAP poäng presentation i ”näringsmässiga och metabola sjukdomar”: topp 10 proteinerna med högsta genomsnittliga CaseOLAP betyg i ”näringsmässiga och metabola sjukdomar” presenteras i en intensitetskarta. En högre CaseOLAP poäng presenteras med en mörkare intensitet av heatmap cell (se skala). Protein namnen visas i den vänstra kolumnen och celler (MBD och NTD) visas längs x-axeln. Vissa proteiner visar en stark koppling till en viss sjukdom kategori (t.ex., alpha-crystallin B kedjan har ett högt samband med metabola sjukdomar och växtsteroler 26-hydroxylas har ett högt samband med Nutrition). Klicka här för att se en större version av denna siffra. Tid (procentandel av total tid) Stegen i den CaseOLAP plattformen Algoritm och datastrukturen för CaseOLAP plattformen Komplexiteten av algoritmen och datastruktur Detaljer av steg 40% Dataöverföring ochParsning Iteration och träd parsning algoritmer Iteration med kapslad loop och konstant multiplikation: O(n^2), O (log n). Där ‘n’ är antal iterationer. Rörledningen Downloading itererar varje förfarande över flera filer. Tolkning av ett enda dokument körs varje förfarande över trädstrukturen för rå XML-data. 30% Indexering, sökning och Text kub skapandet Iteration, sökalgoritmer av Elasticsearch (sortering, Lucene index, prioriteringsköer, ändliga tillståndsmaskiner, lite tråkigt hacks, regex-frågor) Komplexitet som relaterade till Elasticsearch (https://www.elastic.co/) Dokument indexeras genom att genomföra processen iteration över dataordlistan. Text-Cube skapandet implementerar dokument meta-data och användaren kategoriinformation. 30% Enheten räknar och CaseOLAP beräkning Iteration i integritet, popularitet, särskiljningsförmåga beräkning O(1), O(n^2), flera komplikationer relaterade till caseOLAP poäng beräkning baserad på iteration typer. Enhet räkna drift listar handlingarna och göra en greve operation över listan. Enhet räkna data används för att beräkna CaseOLAP poäng. Tabell 1. Algoritmer och komplexitet. Denna tabell presenterar information om den tid (procentandel av total tid) på förfarandena (t.ex. nedladdning, parsning), datastruktur och Detaljer om de genomförda algoritmerna i CaseOLAP plattform. CaseOLAP genomför professionella indexering och sökprogram som kallas Elasticsearch. Ytterligare information om komplikationer relaterade till Elasticsearch och interna algoritmer kan hittas på (https://www.elastic.co). MeSH deskriptorer Antal av PMIDs samlade Vuxen 1,786,371 Mitten i åldern 1,661,882 I åldern 1,198,778 Ungdomspsykiatri 706,429 Ung vuxen 486,259 Barn 480,218 Åldern, 80 och över 453,348 Barn, förskola 285,183 Spädbarn 218,242 Spädbarn, nyfödda 160,702 Spädbarn, för tidig 17,701 Spädbarn, låg födelsevikt 5,707 Sköra äldre 4 811 Spädbarn, mycket låg födelsevikt 4,458 Spädbarn, liten för gestationsålder 3 168 Spädbarn, extremt för tidigt födda 1,171 Spädbarn, extremt låg födelsevikt 1 003 Spädbarn, Postmature 62 Tabell 2. MeSH PMID mappning statistik. Denna tabell visar alla underordnade MeSH deskriptorer från ”åldersgrupper” och deras antal insamlade PMIDs (textdokument). Visualisering av statistiken presenteras i figur 5. A Spädbarn (INFT) Barn (CHLD) Ungdomar (ADOL) Vuxen (ADLT) MeSH rot-ID M01.060.703 M01.060.406 M01.060.057 M01.060.116 Antal underordnade MeSH beskrivningar 9 2 1 6 Antalet PMIDs som valt 16,466 26,907 35,158 172,394 Antal enheter hittades 233 297 257 443 B Metabola sjukdomar (MBD) Nutrition (NTD) MeSH rot-ID C18.452 C18.654 Antalet underordnade MeSHdeskriptorer 308 53 Antal PMIDs insamlade 54,762 19.181 Antal enheter hittades 697 432 Tabell 3. Text-Cube Metadata. En tabellvy med Text-Cube metadata presenteras. Tabellerna innehåller information om kategorierna och MeSH descriptor rötter och ättlingar, som genomförs för att samla dokument i varje cell. Tabellen ger också statistiken över insamlade dokument och enheter. (A) ”Åldersgrupper”: detta är en tabellform visning av ”åldersgrupper” inklusive spädbarn (INFT), barn (CHLD), ungdomar (ADOL) och vuxen (ADLT) och deras MeSH rot-ID, antal underordnade MeSH deskriptorer, antalet valda PMIDs och antalet hittade enheter. (B) ”Näringsmässiga och metabola sjukdomar”: detta är en tabellform visning av ”näringsmässiga och metabola sjukdomar” inklusive ämnesomsättningssjukdom (MBD) och nutrition (NTD) med deras MeSH root-ID, antal underordnade MeSH deskriptorer, antal valda PMIDs och antalet hittade enheter. Protein namn och synonymer Förkortningar N-acetylglutamatsyntas syntas, mitokondriell, aminosyra kolinacetyltransferas, N-acetylglutamatsyntas syntas långa formen; N-acetylglutamatsyntas syntas kort form; N-acetylglutamatsyntas syntas bevarad domänen bildar] (EG 2.3.1.1) Protein/nucleic acid deglycase DJ-1 (Maillard deglycase) (onkogen DJ1) (Parkinsons sjukdom protein 7) (Parkinsonism-associerad deglycase) (Protein DJ-1) (EG 3.1.2.-) (EG 3.5.1.-) (EG 3.5.1.124) (DJ-1 OCH ANDRA) Pyruvat ribulosbisfosfatkarboxylas, mitokondrie (Pyrodruvsyra ribulosbisfosfatkarboxylas) (EG 6.4.1.1) (PCB) BCL-2-bindande del 3 (p53 uppreglerat modulator av apoptos) (JFY-1 OCH ANDRA) BH3-interagera domän död agonist [BH3-interagera domän död agonist p15 (p15 bud); BH3-interagera domän död agonist p13; BH3-interagera domän död agonist p11] (p22 bud) (BUD) (p13 bud) (p11 bud) ATP synthase subenhet alpha, mitokondrie (ATP synthase F1 subenhet alpha) Cytokrom P450 11B2, mitokondrie (Aldosteron synthase) (Aldosteron-syntetisera enzym) (CYPXIB2) (cytokrom P-450Aldo) (cytokrom P-450_C_18) (Steroid 18-hydroxylas) (ALDOS) (EG 1.14.15.4) (EG 1.14.15.5) 60 kDa heat shock protein, mitokondrie (60 kDa detta) (detta 60) (CPN60) (Heat shock protein 60) (Mitochondrial matrix protein P1) (P60 lymfocyter protein) (HSP-60) (Hsp60) (HuCHA60) (EG 3.6.4.9) Kaspas-4 (is och Ced-3 homolog 2) (proteas TX) [klyvs till: kaspas-4 delenhet 1; Kaspas-4 subenhet 2] (CASP-4 OCH ANDRA) (EG 3.4.22.57) (ICH-2) (ICE(rel)-II) (Mih1) Tabell 4. Prova enhet tabell. Denna tabell visar urvalet av enheter som genomförts i våra två användningsfall: ”åldersgrupper” och ”näringsmässiga och metabola sjukdomar” (figur 6 och figur 7, tabell 3A,B). Enheterna inkludera protein namn, synonymer och förkortningar. Varje entitet (med dess synonymer och förkortningar) är valda taget och leds genom enhet sökåtgärden över indexerade data (se protokoll 3 och 5). Sökningen ger en lista över dokument som ytterligare underlättar enhet räkna operationen. Kvantiteter Användardefinierade Beräknas Ekvationen för kvantiteten Innebörden av kvantiteten Integritet Ja Nej Integritet för användare definierade enheter anses vara 1,0. Representerar en beskrivande fras. Numeriskt värde är 1.0 när det redan är ett etablerat begrepp. Popularitet Nej Ja Popularitet ekvation i figur 1 (arbetsflöde och algoritm) från referens 5, avsnittet ”material och metoder”. Baserat på sikt ofta frasen inom en cell. Normaliserade totala term frekvens av cellen. Ökning av term frekvens har minskande resultatet. Särskiljningsförmåga Nej Ja Särskiljningsförmåga ekvation i figur 1 (arbetsflöde och algoritm) från referens 5, avsnittet ”material och metoder”. Baserat på sikt frekvens och dokument frekvens inom en cell och över de närliggande cellerna. Normaliserade av totala term frekvens och dokument frekvens. Kvantitativt, är det sannolikheten att en fras är unika i en specifik cell. CaseOLAP poäng Nej Ja CaseOLAP poäng ekvation i figur 1 (arbetsflöde och algoritm) från referens 5, avsnittet ”material och metoder”. Baserad på integritet, popularitet och särskiljningsförmåga. Numeriskt värde omfattas alltid 0 till 1. Kvantitativt representerar CaseOLAP poängen föreningen fras-kategori Tabell 5. CaseOLAP ekvationer: The CaseOLAP algoritmen utvecklades av Fangbo Tao och Jiawei Han et al. i 20161. Kort, denna tabell presenterar CaseOLAP poäng beräkning bestående av tre komponenter: integritet, popularitet, och särskiljningsförmåga och deras associerade matematisk innebörd. I vår användningsfall, integritet för proteiner är 1.0 (maximal poäng) eftersom de står som etablerade entitetsnamn. CaseOLAP poängen i vår användningsfall kan ses i figur 6 c och figur 7 c.

Discussion

Vi har visat att den CaseOLAP algoritmen kan skapa en fras baserat kvantitativa association är en kunskapsbaserad kategori över stora volymer av textdata för utvinning av meningsfulla insikter. Efter våra protokoll, kan man bygga CaseOLAP ramen för att skapa en önskad Text-kub och kvantifiera entitet-kategori föreningar genom CaseOLAP poäng beräkning. De erhållna CaseOLAP Råpoäng kan tas till integrativ analyser inklusive dimensionalitet minskning, klustring, tidsmässiga och geografiska analys, samt skapandet av en grafisk databas som möjliggör semantiska kartläggning av dokumenten.

Tillämplighet av algoritmen. Exempel på användardefinierade enheter, än proteiner, kan vara en lista av genen namn, droger, särskilda tecken och symtom inklusive deras förkortningar och synonymer. Dessutom finns det många alternativ för kategorin markering att underlätta specifika användardefinierade biomedicinska analyser (t.ex. anatomi [A], disciplin och ockupationen [H], fenomen och processer [G]). I våra två användningsfall, alla vetenskapliga publikationer och deras textbaserade data hämtas från databasen MEDLINE via PubMed som sökmotor, båda förvaltas av National Library of Medicine. CaseOLAP plattformen får dock tillämpas till andra databaser av intresse som innehåller biomedicinsk dokument med textbaserade data såsom den FDA negativa Event Reporting System (FAERS). Detta är en öppen databas som innehåller information om medicinska biverkningar och medicinering felrapporter till FDA. I motsats till MEDLINE och FAERS, databaser på sjukhus som innehåller elektroniska patientjournaler från patienter är inte öppna för allmänheten och är begränsade av Health Insurance Portability och Accountability Act kallas HIPAA.

CaseOLAP algoritm har tillämpats framgångsrikt på olika typer av data (t.ex. nyhetsartiklar)¹. Genomförandet av denna algoritm i biomedicinsk dokument har gjorts i 2018⁵. Kraven för tillämpligheten av CaseOLAP algoritm är att varje dokument bör tilldelas med nyckelord som är associerade med begreppen (MeSH beskrivare i biomedicinsk publikationer, sökord i nyhetsartiklar). Om nyckelord inte finns, kan man tillämpa Autophrase⁶^,⁷ för att samla in övre representativa fraser och bygga entitetslistan innan du implementerar våra protokoll. Våra protokoll ger inte steget för att utföra Autophrase.

Jämförelse med andra algoritmer. Begreppet med en datakub⁸^,⁹^,¹⁰ och en Text-Cube²^,³^,⁴ har utvecklats sedan 2005 med nya framsteg att göra datautvinning mer tillämpbar. Begreppet Online Analytical Processing (OLAP)¹¹^,¹²^,¹³^,¹⁴^,¹⁵ i datautvinning och business intelligence går tillbaka till 1993. OLAP, i allmänhet, aggregerar information från flera system och lagrar den i en multi-dimensionell format. Det finns olika typer av OLAP-system som genomförts i datautvinning. Till exempel (1) Hybrid transaktionen/analytisk bearbetning (HTAP)¹⁶^,¹⁷, (2) flerdimensionell OLAP (MOLAP)¹⁸^,¹⁹-kub baserat, och (3) Relations-OLAP (ROLAP)²⁰.

Specifikt, CaseOLAP algoritmen har jämförts med ett flertal befintliga algoritmer, specifikt, med deras fras segmentering förbättringar, inklusive TF-IDF + Seg, MCX + Seg, MCX och SegPhrase. Dessutom RepPhrase (RP, även känd som SegPhrase +) har jämförts med dess egna ablation variationer, inklusive (1) RP utan integritet åtgärden införlivas (RP No INT), (2) RP utan popularitet åtgärden införlivas (RP nr POP) och (3) RP utan den Särskiljningsförmåga åtgärd införlivats (RP nr DIS). Resultaten visas i studien av Fangbo Tao et al.¹.

Det finns fortfarande utmaningar på datautvinning som kan lägga till ytterligare funktionalitet över spara och hämta data från databasen. Kontextmedvetna semantiska Analytical Processing (CaseOLAP) genomför systematiskt Elasticsearch för att bygga en indexering databas med miljontals dokument (protokoll 5). Text-kuben är en dokumentstruktur byggd över indexerade data med användaren kategorier (protokoll 6). Detta förbättrar funktionaliteten till handlingar inom och över cellen av Text-kuben och tillåta oss att beräkna term frekvens enheter över ett dokument och dokumentet frekvens över en viss cell (protokoll nr 8). CaseOLAP slutresultatet använder tredjeparts dessa frekvens beräkningar att mata en slutpoäng (protokoll nr 9). 2018 genomfört vi denna algoritm för att studera ECM proteiner och sex hjärtsjukdomar att analysera protein-sjukdom föreningar. Detaljerna i denna studie kan hittas i studien av Liem, D.A. et al.⁵. indikerar att CaseOLAP kan användas allmänt i biomedicinska gemenskapen att utforska en mängd sjukdomar och mekanismer.

Begränsningar av algoritmen. Fras gruvdrift själv är en teknik att hantera och hämta viktiga begrepp från textbaserade data. Samtidigt upptäcka enhet-kategori association som en matematisk kvantitet (vector), är denna teknik inte att räkna ut polaritet (t.ex., positiv eller negativ lutning) föreningen. Man kan bygga den kvantitativa Sammanfattning av data använder Text-Cude dokumentstrukturen med tilldelade enheter och kategorier, men ett kvalitativa koncept med mikroskopiska granularities inte kan nås. Några begrepp utvecklas kontinuerligt från tidigare till nu. Den sammanfattning som presenteras för en specifik enhet-kategori förening omfattar alla incidenter under hela litteraturen. Detta kanske saknar temporal förökningen av innovation. I framtiden planerar vi att ta itu med dessa begränsningar.

Framtida tillämpningar. Omkring 90% av de ackumulerade data i världen är i ostrukturerad textdata. Att hitta en representativ fras och relation till de enheter som är inbäddade i texten är en mycket viktig uppgift för genomförande av ny teknik (t.ex., Machine Learning, Information utvinning, artificiell intelligens). För att göra text-data maskin läsbar, behöver data organiseras i databasen som nästa lager av verktyg kunde genomföras. Denna algoritm kan i framtiden vara ett avgörande steg i att göra datautvinning mer funktionell för hämtning av information och kvantifiering av de entitet-kategori föreningarna.

Divulgations

The authors have nothing to disclose.

Acknowledgements

Detta arbete var stöds delvis av nationella hjärta, lungor och blod Institute: R35 HL135772 (till s. Ping); National Institute of General Medical Sciences: U54 GM114833 (till s. Ping, K. Watson och W. Wang); U54 GM114838 (till J. Han); en gåva från Hellen & Larry Hoag Foundation och Dr. S. liggsoffa; och T.C. Laubisch endowment vid UCLA (till s. Ping).

References

Tao, F., Zhuang, H., et al. Phrase-Based Summarization in Text Cubes. IEEE Data Engineering Bulletin. , 74-84 (2016).
Ding, B., Zhao, B., Lin, C. X., Han, J., Zhai, C. TopCells: Keyword-based search of top-k aggregated documents in text cube. IEEE 26th International Conference on Data Engineering (ICDE). , 381-384 (2010).
Ding, B., et al. Efficient Keyword-Based Search for Top-K Cells in Text Cube. IEEE Transactions on Knowledge and Data Engineering. 23 (12), 1795-1810 (2011).
Liu, X., et al. A Text Cube Approach to Human, Social and Cultural Behavior in the Twitter Stream.Social Computing, Behavioral-Cultural Modeling and Prediction. Lecture Notes in Computer Science. 7812, (2013).
Liem, D. A., et al. Phrase Mining of Textual Data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology-Heart and Circulatory. , (2018).
Shang, J., et al. Automated Phrase Mining from Massive Text Corpora. IEEE Transactions on Knowledge and Data Engineering. 30 (10), 1825-1837 (2018).
Liu, J., Shang, J., Wang, C., Ren, X., Han, J. Mining Quality Phrases from Massive Text Corpora. Proceedings ACM-Sigmod International Conference on Management of Data. , 1729-1744 (2015).
Lee, S., Kim, N., Kim, J. A Multi-dimensional Analysis and Data Cube for Unstructured Text and Social Media. IEEE Fourth International Conference on Big Data and Cloud Computing. , 761-764 (2014).
Lin, C. X., Ding, B., Han, J., Zhu, F., Zhao, B. Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. IEEE Data Mining. , 905-910 (2008).
Hsu, W. J., Lu, Y., Lee, Z. Q. Accelerating Topic Exploration of Multi-Dimensional Documents Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE International. , 1520-1527 (2017).
Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26 (1), 65-74 (1997).
Ravat, F., Teste, O., Tournier, R. Olap aggregation function for textual data warehouse. ICEIS – 9th International Conference on Enterprise Information Systems, Proceedings. , 151-156 (2007).
Ho, C. T., Agrawal, R., Megiddo, N., Srikant, R. Range Queries in OLAP Data Cubes. SIGMOD Conference. , (1997).
Saxena, V., Pratap, A. Olap Cube Representation for Object- Oriented Database. International Journal of Software Engineering & Applications. 3 (2), (2012).
Maniatis, A. S., Vassiliadis, P., Skiadopoulos, S., Vassiliou, Y. Advanced visualization for OLAP. DOLAP. , (2003).
Bog, A. . Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and its Application. , 7-13 (2013).
Özcan, F., Tian, Y., Tözün, P. Hybrid Transactional/Analytical Processing: A Survey. In Proceedings of the ACM International Conference on Management of Data (SIGMOD). , 1771-1775 (2017).
Hasan, K. M. A., Tsuji, T., Higuchi, K. An Efficient Implementation for MOLAP Basic Data Structure and Its Evaluation. International Conference on Database Systems for Advanced Applications. , 288-299 (2007).
Nantajeewarawat, E. Advances in Databases: Concepts, Systems and Applications. DASFAA 2007. Lecture Notes in Computer Science. 4443, (2007).
Shimada, T., Tsuji, T., Higuchi, K. A storage scheme for multidimensional data alleviating dimension dependency. Third International Conference on Digital Information Management. , 662-668 (2007).

Play Video

PDF

DOI

Citer Cet Article

Sigdel, D., Kyi, V., Zhang, A., Setty, S. P., Liem, D. A., Shi, Y., Wang, X., Shen, J., Wang, W., Han, J., Ping, P. Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications. J. Vis. Exp. (144), e59108, doi:10.3791/59108 (2019).

Molnbaserade fras gruvdrift och analys av användardefinierade fras-kategori Association i biomedicinsk publikationer

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

References

Tags

Play Video

Citer Cet Article

View Video

Molnbaserade fras gruvdrift och analys av användardefinierade fras-kategori Association i biomedicinsk publikationer

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

References

Tags

Play Video

Citer Cet Article

View Video

✖

To prove you're not a robot, please enter the text in the image below