En beregningsprotokol, CaseOLAP LIFT, og en brugssag præsenteres til undersøgelse af mitokondrieproteiner og deres tilknytning til hjerte-kar-sygdomme som beskrevet i biomedicinske rapporter. Denne protokol kan let tilpasses til at studere brugervalgte cellulære komponenter og sygdomme.
De hurtigt voksende og store mængder biomedicinske rapporter, der hver indeholder adskillige enheder og rig information, repræsenterer en rig ressource til biomedicinske tekstminingapplikationer. Disse værktøjer gør det muligt for efterforskere at integrere, konceptualisere og oversætte disse opdagelser for at afdække ny indsigt i sygdomspatologi og terapi. I denne protokol præsenterer vi CaseOLAP LIFT, en ny beregningspipeline til undersøgelse af cellulære komponenter og deres sygdomsforeninger ved at udtrække brugervalgte oplysninger fra tekstdatasæt (f.eks. Biomedicinsk litteratur). Softwaren identificerer subcellulære proteiner og deres funktionelle partnere i sygdomsrelevante dokumenter. Yderligere sygdomsrelevante dokumenter identificeres via softwarens etiketimputationsmetode. For at kontekstualisere de resulterende proteinsygdomsforeninger og integrere information fra flere relevante biomedicinske ressourcer konstrueres en vidensgraf automatisk til yderligere analyser. Vi præsenterer en brugssag med et korpus på ~ 34 millioner tekstdokumenter downloadet online for at give et eksempel på at belyse mitokondrieproteiners rolle i forskellige kardiovaskulære sygdomsfænotyper ved hjælp af denne metode. Desuden blev en dyb læringsmodel anvendt på den resulterende vidensgraf til at forudsige tidligere urapporterede forhold mellem proteiner og sygdom, hvilket resulterede i 1.583 foreninger med forudsagte sandsynligheder >0,90 og med et område under modtagerens driftskarakteristikkurve (AUROC) på 0,91 på testsættet. Denne software har en meget tilpasselig og automatiseret arbejdsgang med et bredt udvalg af rådata til rådighed til analyse; Derfor kan proteinsygdomsforeninger ved hjælp af denne metode identificeres med forbedret pålidelighed inden for et tekstkorpus.
Undersøgelse af sygdomsrelaterede proteiner forbedrer den videnskabelige viden om patogenese og hjælper med at identificere potentielle behandlinger. Flere store tekstkorpora af biomedicinske publikationer, såsom PubMeds 34 millioner artikler, der indeholder publikationstitler, abstracts og fuldtekstdokumenter, rapporterer nye fund, der forbinder proteiner med sygdomme. Disse resultater er imidlertid fragmenteret på tværs af forskellige kilder og skal integreres for at generere ny biomedicinsk indsigt. Der findes flere biomedicinske ressourcer til at integrere proteinsygdomsforeninger 1,2,3,4,5,6,7. Disse kuraterede ressourcer er dog ofte ufuldstændige og omfatter muligvis ikke de seneste forskningsresultater. Text-mining tilgange er afgørende for at udtrække og syntetisere protein-sygdomsforeninger i store tekstkorpora, hvilket ville resultere i en mere omfattende forståelse af disse biomedicinske begreber i den videnskabelige litteratur.
Der findes flere biomedicinske tekstminingmetoder til at afdække protein-sygdomsforhold 8,9,10,11,12,13,14, og andre bidrager delvist til at bestemme disse forhold ved at identificere de proteiner, sygdomme eller andre biomedicinske enheder, der er nævnt i tekst13,15,16,17, 18,19. Imidlertid mangler mange af disse værktøjer adgang til den mest opdaterede litteratur, med undtagelse af nogle få, der periodisk opdateres 8,11,13,15. På samme måde har mange værktøjer også et begrænset omfang af undersøgelse, da de er begrænset til brede foruddefinerede sygdomme eller proteiner 9,13. Flere tilgange er også tilbøjelige til at identificere falske positiver i teksten; Andre har behandlet disse problemer med en fortolkelig og global sortliste over proteinnavne9,11 eller mindre fortolkelige navneenhedsgenkendelsesteknikker15,20. Mens de fleste ressourcer kun præsenterer forudberegnede resultater, tilbyder nogle værktøjer interaktivitet via webapps eller tilgængelig softwarekode 8,9,11.
For at løse ovenstående begrænsninger præsenterer vi følgende protokol, CaseOLAP med etiketimputation og fuld tekst (CaseOLAP LIFT), som en fleksibel og tilpasselig platform til at undersøge sammenhænge mellem proteiner (f.eks. proteiner forbundet med en cellulær komponent) og sygdomme fra tekstdatasæt. Denne platform indeholder automatiseret kuratering af termspecifikke proteiner inden for genontologi (GO) (f.eks. organelspecifikke proteiner), imputering af manglende dokumentemneetiketter, analyse af fuldtekstdokumenter samt analyseværktøjer og prædiktive værktøjer (figur 1, figur 2 og tabel 1). CaseOLAP LIFT kuraterer organelspecifikke proteiner ved hjælp af brugerleverede GO-termer (f.eks. organelrum) og funktionelt relaterede proteiner ved hjælp af STRING21, Reactome 22 og GRNdb23. Sygdomsundersøgende dokumenter identificeres ved deres PubMed-annoterede medicinske emneoverskrift (MeSH) etiketter. For ~ 15.1% af umærkede dokumenter imputeres etiketter, hvis mindst et MeSH-termsynonym findes i titlen, eller mindst to findes abstrakt. Dette gør det muligt at overveje tidligere ikke-kategoriserede publikationer i tekstmininganalysen. CaseOLAP LIFT giver også brugeren mulighed for at vælge sektioner af publikationer (f.eks. kun titler og abstracts, fuldtekst eller fuldtekst eksklusive metoder) inden for en bestemt tidsramme (f.eks. 2012-2022). Softwaren kuraterer også halvautomatisk en brugssagsspecifik sortliste over proteinnavne, hvilket vitalt reducerer de falsk-positive proteinsygdomsforeninger, der findes i andre tilgange. Samlet set muliggør disse forbedringer større tilpasningsevne og automatisering, udvider mængden af data, der er tilgængelige til analyse, og giver mere sikre proteinsygdomsforeninger fra store biomedicinske tekstkorpora.
CaseOLAP LIFT inkorporerer biomedicinsk viden og repræsenterer forholdet mellem forskellige biomedicinske begreber ved hjælp af en vidensgraf, som udnyttes til at forudsige skjulte relationer i grafen. For nylig er grafbaserede beregningsmetoder blevet anvendt til biologiske indstillinger, herunder integration og organisering af biomedicinske begreber 24,25, lægemiddelanvendelse og udvikling 26,27,28 og til klinisk beslutningstagning fra proteomikdata 29.
For at demonstrere nytten af CaseOLAP LIFT i forbindelse med konstruktion af en vidensgraf fremhæver vi en brugscase om undersøgelse af sammenhængen mellem mitokondrieproteiner og otte kategorier af hjerte-kar-sygdomme. Beviser fra ~ 362.000 sygdomsrelevante dokumenter blev analyseret for at identificere de øverste mitokondrieproteiner og veje forbundet med sygdommene. Dernæst blev disse proteiner, deres funktionelt relaterede proteiner og deres tekstminingresultater indarbejdet i en vidensgraf. Denne graf blev udnyttet i en dyb læringsbaseret linkforudsigelsesanalyse til at forudsige proteinsygdomsforeninger, der hidtil ikke er rapporteret inden for biomedicinske publikationer.
Introduktionsafsnittet beskriver baggrundsoplysningerne og målene for vores protokol. I følgende afsnit beskrives trinnene i beregningsprotokollen. Derefter beskrives de repræsentative resultater af denne protokol. Endelig diskuterer vi kort brugsscenarierne for beregningsprotokollen, fordele, ulemper og fremtidige applikationer.
CaseOLAP LIFT giver forskere mulighed for at undersøge sammenhænge mellem funktionelle proteiner (f.eks. proteiner forbundet med en cellulær komponent, biologisk proces eller molekylær funktion) og biologiske kategorier (f.eks. Sygdomme). Den beskrevne protokol skal udføres i den angivne rækkefølge, hvor protokolafsnit 2 og protokolafsnit 3 er de mest kritiske trin, da protokolafsnit 4 og protokolafsnit 5 afhænger af deres resultater. Som et alternativ til protokolafsnit 1 kan CaseOLAP LIFT-koden klones og tilgås fra GitHub-lageret (https://github.com/CaseOLAP/caseolap_lift). Det skal bemærkes, at der på trods af test under softwareudviklingen kan opstå fejl. I så fald skal det mislykkede trin gentages. Hvis problemet fortsætter, anbefales det at gentage protokolafsnit 1 for at sikre, at den nyeste version af docker-containeren bruges. Du kan få yderligere hjælp ved at oprette et problem i GitHub-lageret for at få yderligere support.
Denne metode understøtter hypotesegenerering ved at gøre det muligt for efterforskere at identificere enheder af interesse og afsløre de potentielle sammenhænge mellem dem, som muligvis ikke er let tilgængelige i eksisterende biomedicinske ressourcer. De resulterende proteinsygdomsforeninger giver forskere mulighed for at få ny indsigt via scorernes fortolkelige målinger: popularitetsscorerne angiver de mest undersøgte proteiner i forhold til en sygdom, særprægsscorerne indikerer sygdomme, der er mest unikke for et protein, og den kombinerede CaseOLAP-score er en kombination af de to. For at forhindre falsk-positive identifikationer (f.eks. På grund af homonymer) bruger nogle tekstudvindingsværktøjer en sortliste over udtryk for at undgå 9,11. Ligeledes bruger CaseOLAP LIFT også en sortliste, men giver brugeren mulighed for at skræddersy sortlisten til deres brugssag. For eksempel, når man studerer koronararteriesygdom (CAD), bør “CAD” ikke betragtes som et navn på proteinet “caspase-aktiveret deoxyribonuclease”. Men når man studerer andre emner, kan “CAD” normalt henvise til proteinet.
CaseOLAP LIFT tilpasser sig mængden af data, der er tilgængelige til tekstmining. Datointervalfunktionaliteten letter beregningsbyrden og skaber fleksibilitet til hypotesegenerering (f.eks. Undersøgelse af, hvordan den videnskabelige viden om en proteinsygdomsforening har ændret sig over tid). I mellemtiden forbedrer etiketimputationen og fuldtekstkomponenterne omfanget af data, der er tilgængelige til tekstmining. Begge komponenter er som standard deaktiveret for at reducere beregningsomkostningerne, men brugeren kan beslutte at medtage begge komponenter. Etiketimputationen er konservativ, og den kategoriserer de fleste publikationer korrekt (87% præcision), men savner andre kategorietiketter (2% tilbagekaldelse). Denne metode er i øjeblikket afhængig af en regelbaseret heuristik, der matcher sygdomsnøgleord, og der er planer om at forbedre ydeevnen ved hjælp af dokumentemnemodelleringsteknikker. Da mange ikke-kategoriserede rapporter har tendens til at være nylige publikationer, er undersøgelser, der undersøger et nyligt datointerval (f.eks. Alle publikationer inden for de sidste 3 år), bedre tjent med at deaktivere etiketimputation. Fuldtekstkomponenten øger kørselstiden og lagerkravene. Især har kun et mindretal af dokumenterne den fulde tekst tilgængelig (~ 14% af dokumenterne i vores undersøgelse). Forudsat at proteinnavnene, der er nævnt i publikationernes metodeafsnit, er mindre tilbøjelige til at være relateret til sygdomsemnerne, anbefales det at forespørge i fuldtekstartikler undtagen metodeafsnittet.
De resulterende protein-sygdomsforeningsscorer er nyttige til traditionelle analyser såsom klyngedannelse, dimensionsreduktion eller berigelsesanalyser (f.eks. GO, veje), med en vis implementering inkluderet i denne softwarepakke. For at kontekstualisere disse scorer inden for eksisterende biomedicinsk viden konstrueres en vidensgraf automatisk og kan udforskes ved hjælp af grafvisualiseringsværktøjer (f.eks. Neo4j32, Cytoscape33). Vidensgrafen kan også bruges til prædiktive analyser (f.eks. linkforudsigelse af urapporterede protein-sygdomsforhold, samfundspåvisning af proteinnetværk, præmieindsamlingsstivandringsmetoder).
Vi har undersøgt modelevalueringsmetrikkerne for de forudsagte protein-sygdomsforeninger (tabel 5). Modellen tildeler en sandsynlighedsscore mellem 0,0 og 1,0 til hver protein-sygdomsforening, med scorer tættere på 1,0, hvilket indikerer et højere niveau af tillid til forudsigelsen. Den interne evaluering af modellens ydeevne, som var baseret på forskellige målinger, herunder AUROC, nøjagtighed, afbalanceret nøjagtighed, specificitet og tilbagekaldelse, indikerede fremragende samlet præstation i hans arbejde. Evalueringen fremhævede imidlertid også en ret dårlig score for modellens præcision (0,15), hvilket resulterede i både en lavere AUPRC- og F1-score. Fremtidige undersøgelser for at forbedre denne måling vil bidrage til at hæve modellens samlede ydeevne. Vi forestiller os, at dette kan opnås ved at implementere mere sofistikerede modeller for indlejring af vidensgrafer og grafforudsigelser. Baseret på modellens præcision på 0,15 bør efterforskere forvente ca. 15% positive identifikationer; Især ud af alle de 12.688 proteinsygdomsforeninger, der forudsiges af modellen, er ca. 15% ægte positive foreninger. Dette kan afhjælpes ved kun at overveje proteinsygdomsforeninger med en høj sandsynlighedsscore (f.eks. >0,90); I vores brugstilfælde førte filtrering med en sandsynlighedstærskel på 0,90 til forudsigelser med høj tillid på 1.583 foreninger. Efterforskere kan finde det nyttigt også manuelt at inspicere disse forudsigelser for at sikre høj validitet (se figur 7 som et eksempel). En ekstern evaluering af vores forudsigelser fastslog, at af de 310 proteinsygdomsforeninger fra en omfattende kurateret database blev DisGeNet19 103 identificeret i vores tekstminingstudie, og 88 yderligere foreninger blev forudsagt af vores vidensgrafanalyse med en sandsynlighedsscore >0,90.
Samlet set har CaseOLAP LIFT forbedret fleksibilitet og anvendelighed i design af brugerdefinerede analyser af sammenhængen mellem funktionelle proteingrupper og flere kategorier af sygdomme i store tekstkorpora. Denne pakke strømlines i en ny brugervenlig kommandolinjegrænseflade og frigives som en docker-container, hvilket reducerer problemerne forbundet med konfiguration af programmeringsmiljøer og softwareafhængigheder. CaseOLAP LIFT-rørledningen til undersøgelse af mitokondrieproteiner i hjerte-kar-sygdomme kan let tilpasses; for eksempel kan fremtidige anvendelser af denne teknik involvere undersøgelse af sammenhængen mellem proteiner forbundet med eventuelle GO-termer og enhver biomedicinsk kategori. Desuden er de rangerede proteinsygdomsforeninger, der er identificeret af denne tekstminingplatform, vigtige i forberedelsen af datasættet til brug for avancerede naturlige sprogteknikker. Den resulterende vidensgraf gør det muligt for forskere at konvertere disse resultater til biologisk informativ viden og lægger grundlaget for opfølgende grafbaserede analyser.
The authors have nothing to disclose.
Dette arbejde blev støttet af National Institutes of Health (NIH) R35 HL135772 til P.P., NIH T32 HL13945 til ARP og DS, NIH T32 EB016640 til ARP, National Science Foundation Research Traineeship (NRT) 1829071 til ARP og DS, NIH R01 HL146739 for I.A., J.R., A.V., K.B. og TC Laubisch Endowment til PP ved UCLA.