En beregningsprotokoll, CaseOLAP LIFT, og et brukstilfelle presenteres for å undersøke mitokondrielle proteiner og deres assosiasjoner med kardiovaskulær sykdom som beskrevet i biomedisinske rapporter. Denne protokollen kan enkelt tilpasses for å studere brukervalgte cellulære komponenter og sykdommer.
De raskt økende og store mengdene biomedisinske rapporter, som hver inneholder mange enheter og rik informasjon, representerer en rik ressurs for biomedisinske tekstutvinningsapplikasjoner. Disse verktøyene gjør det mulig for etterforskere å integrere, konseptualisere og oversette disse funnene for å avdekke ny innsikt i sykdomspatologi og terapi. I denne protokollen presenterer vi CaseOLAP LIFT, en ny beregningsrørledning for å undersøke cellulære komponenter og deres sykdomsforeninger ved å trekke ut brukervalgt informasjon fra tekstdatasett (f.eks. Biomedisinsk litteratur). Programvaren identifiserer subcellulære proteiner og deres funksjonelle partnere i sykdomsrelevante dokumenter. Ytterligere sykdomsrelevante dokumenter identifiseres ved hjelp av programvarens etikettimputeringsmetode. For å kontekstualisere de resulterende proteinsykdomsforeningene og integrere informasjon fra flere relevante biomedisinske ressurser, konstrueres det automatisk en kunnskapsgraf for videre analyser. Vi presenterer ett brukstilfelle med et korpus av ~ 34 millioner tekstdokumenter lastet ned på nettet for å gi et eksempel på å belyse rollen til mitokondrielle proteiner i forskjellige kardiovaskulære sykdomsfenotyper ved hjelp av denne metoden. Videre ble en dyp læringsmodell brukt på den resulterende kunnskapsgrafen for å forutsi tidligere urapporterte forhold mellom proteiner og sykdom, noe som resulterte i 1,583 assosiasjoner med forventede sannsynligheter >0,90 og med et område under mottakerens driftskarakteristikkkurve (AUROC) på 0,91 på testsettet. Denne programvaren har en svært tilpassbar og automatisert arbeidsflyt, med et bredt spekter av rådata tilgjengelig for analyse; Derfor, ved hjelp av denne metoden, kan proteinsykdomsforeninger identifiseres med forbedret pålitelighet i et tekstkorpus.
Studier av sykdomsrelaterte proteiner forbedrer den vitenskapelige kunnskapen om patogenese og bidrar til å identifisere potensielle terapier. Flere store tekstkorpus av biomedisinske publikasjoner, som PubMeds 34 millioner artikler som inneholder publikasjonstitler, sammendrag og fulltekstdokumenter, rapporterer nye funn som knytter proteiner til sykdommer. Disse funnene er imidlertid fragmentert på tvers av ulike kilder og må integreres for å generere ny biomedisinsk innsikt. Det finnes flere biomedisinske ressurser for å integrere proteinsykdomsforeninger 1,2,3,4,5,6,7. Imidlertid er disse kuraterte ressursene ofte ufullstendige og kan ikke omfatte de nyeste forskningsresultatene. Tekst-mining tilnærminger er avgjørende for å trekke ut og syntetisere proteinsykdomsforeninger i store tekstkorpus, noe som vil resultere i en mer omfattende forståelse av disse biomedisinske konseptene i den vitenskapelige litteraturen.
Det finnes flere biomedisinske tekst-mining-tilnærminger for å avdekke protein-sykdomsforhold 8,9,10,11,12,13,14, og andre bidrar delvis til å bestemme disse forholdene ved å identifisere proteiner, sykdommer eller andre biomedisinske enheter nevnt i tekst 13,15,16,17, 18,19. Mange av disse verktøyene mangler imidlertid tilgang til den mest oppdaterte litteraturen, med unntak av noen få som periodisk oppdateres 8,11,13,15. På samme måte har mange verktøy også et begrenset studieomfang, da de er begrenset til brede forhåndsdefinerte sykdommer eller proteiner 9,13. Flere tilnærminger er også utsatt for identifisering av falske positiver i teksten; Andre har adressert disse problemene med en tolkbar og global svarteliste over proteinnavn9,11 eller mindre tolkbare navneenhetsgjenkjenningsteknikker15,20. Mens de fleste ressurser bare presenterer forhåndsberegnede resultater, tilbyr noen verktøy interaktivitet via webapper eller tilgjengelig programvarekode 8,9,11.
For å løse de ovennevnte begrensningene presenterer vi følgende protokoll, CaseOLAP med etikettimputering og fulltekst (CaseOLAP LIFT), som en fleksibel og tilpassbar plattform for å undersøke assosiasjoner mellom proteiner (f.eks. proteiner assosiert med en cellulær komponent) og sykdommer fra tekstdatasett. Denne plattformen har automatisert kurasjon av begrepsspesifikke proteiner (GO) (f.eks. organellespesifikke proteiner), imputering av manglende dokumentemneetiketter, analyse av fulltekstdokumenter, samt analyseverktøy og prediktive verktøy (figur 1, figur 2 og tabell 1). CaseOLAP LIFT kuraterer organellespesifikke proteiner ved å bruke brukergitte GO-termer (f.eks. organellrom) og funksjonelt relaterte proteiner ved å bruke STRING21, Reactome 22 og GRNdb23. Sykdomsstuderende dokumenter identifiseres av deres PubMed-annoterte medisinske emneoverskrifter (MeSH)-etiketter. For ~ 15.1% av umerkede dokumenter tilregnes etiketter hvis minst ett MeSH-begrepssynonym finnes i tittelen eller minst to finnes i sammendraget. Dette gjør det mulig å vurdere tidligere ukategoriserte publikasjoner i tekstutvinningsanalysen. CaseOLAP LIFT lar også brukeren velge deler av publikasjoner (f.eks. Kun titler og sammendrag, fulltekst eller fulltekst unntatt metoder) innenfor en spesifisert tidsramme (f.eks. 2012-2022). Programvaren kuraterer også semi-automatisk en brukstilfelle-spesifikk svarteliste av proteinnavn, noe som reduserer de falske positive proteinsykdomsforeningene som er tilstede i andre tilnærminger. Samlet sett muliggjør disse forbedringene større tilpassbarhet og automatisering, utvider mengden data som er tilgjengelig for analyse, og gir mer sikre proteinsykdomsforeninger fra store biomedisinske tekstkorpus.
CaseOLAP LIFT inkorporerer biomedisinsk kunnskap og representerer forholdet mellom ulike biomedisinske konsepter ved hjelp av en kunnskapsgraf, som utnyttes for å forutsi skjulte forhold i grafen. Nylig har grafbaserte beregningsmetoder blitt brukt på biologiske innstillinger, inkludert integrering og organisering av biomedisinske konsepter 24,25, legemiddelgjenbruk og utvikling 26,27,28, og for klinisk beslutningstaking fra proteomikkdata 29.
For å demonstrere nytten av CaseOLAP LIFT i innstillingen for å konstruere en kunnskapsgraf, fremhever vi et brukstilfelle om undersøkelsen av sammenhengene mellom mitokondrielle proteiner og åtte kategorier av kardiovaskulær sykdom. Bevis fra ~ 362 000 sykdomsrelevante dokumenter ble analysert for å identifisere de beste mitokondrielle proteiner og veier forbundet med sykdommene. Deretter ble disse proteinene, deres funksjonelt relaterte proteiner og deres tekstutvinningsresultater innlemmet i en kunnskapsgraf. Denne grafen ble utnyttet i en dyp læringsbasert lenkeprediksjonsanalyse for å forutsi proteinsykdomsforeninger som hittil ikke er rapportert innen biomedisinske publikasjoner.
Introduksjonsdelen beskriver bakgrunnsinformasjonen og målene for protokollen vår. Følgende avsnitt beskriver trinnene i beregningsprotokollen. Deretter beskrives de representative resultatene av denne protokollen. Til slutt diskuterer vi kort brukstilfeller for beregningsprotokoller, fordeler, ulemper og fremtidige applikasjoner.
CaseOLAP LIFT gir forskere mulighet til å undersøke sammenhenger mellom funksjonelle proteiner (f.eks. Proteiner assosiert med en cellulær komponent, biologisk prosess eller molekylær funksjon) og biologiske kategorier (f.eks. sykdommer). Den beskrevne protokollen skal utføres i den angitte sekvensen, med protokollseksjon 2 og protokollseksjon 3 som de mest kritiske trinnene, da protokollseksjon 4 og protokollseksjon 5 avhenger av resultatene. Som et alternativ til protokollseksjon 1 kan CaseOLAP LIFT-koden klones og nås fra GitHub-depotet (https://github.com/CaseOLAP/caseolap_lift). Det skal bemerkes at til tross for testing under programvareutviklingen, kan det oppstå feil. I så fall bør det mislykkede trinnet gjentas. Hvis problemet vedvarer, anbefales det å gjenta protokolldel 1 for å sikre at den nyeste versjonen av docker-beholderen brukes. Ytterligere hjelp er tilgjengelig ved å opprette et problem på GitHub-repositoriet for ytterligere støtte.
Denne metoden støtter hypotesegenerering ved å gjøre det mulig for etterforskere å identifisere enheter av interesse og avsløre potensielle sammenhenger mellom dem, som kanskje ikke er lett tilgjengelige i eksisterende biomedisinske ressurser. De resulterende proteinsykdomsforeningene tillater forskere å få ny innsikt via poengenes tolkbare beregninger: popularitetspoengene indikerer de mest studerte proteinene i forhold til en sykdom, særegenhetspoengene indikerer sykdommer som er mest unike for et protein, og den kombinerte CaseOLAP-poengsummen er en kombinasjon av de to. For å forhindre falske positive identifikasjoner (f.eks. på grunn av homonymer), bruker noen tekstutvinningsverktøy en svarteliste med termer for å unngå 9,11. På samme måte bruker CaseOLAP LIFT også en svarteliste, men lar brukeren skreddersy svartelisten til brukssaken. For eksempel, når man studerer koronararteriesykdom (CAD), bør “CAD” ikke betraktes som et navn på proteinet “caspase-aktivert deoksyribonuklease”. Men når man studerer andre emner, kan “CAD” vanligvis referere til proteinet.
CaseOLAP LIFT tilpasser seg datamengden som er tilgjengelig for tekstutvinning. Datoperiodefunksjonaliteten lindrer beregningsbyrden og skaper fleksibilitet for hypotesegenerering (for eksempel å studere hvordan den vitenskapelige kunnskapen om en proteinsykdomsforening har endret seg over tid). I mellomtiden forbedrer etikettimputeringen og fulltekstkomponentene omfanget av data som er tilgjengelige for tekstutvinning. Begge komponentene er deaktivert som standard for å redusere beregningskostnadene, men brukeren kan bestemme seg for å inkludere begge komponentene. Etikettimputeringen er konservativ, og den kategoriserer de fleste publikasjoner riktig (87% presisjon), men savner andre kategorietiketter (2% tilbakekalling). Denne metoden er for tiden avhengig av en regelbasert heuristikk som samsvarer med sykdomsnøkkelord, og det er planer om å forbedre ytelsen ved bruk av dokumentemnemodelleringsteknikker. Siden mange ukategoriserte rapporter pleier å være nyere publikasjoner, er studier som undersøker en nylig datoperiode (f.eks. alle publikasjoner i løpet av de siste 3 årene) bedre tjent med å deaktivere etikettimputering. Fulltekstkomponenten øker kjøretids- og lagringskravene. Spesielt har bare et mindretall av dokumentene fulltekst tilgjengelig (~ 14% av dokumentene i vår studie). Forutsatt at proteinnavnene nevnt i publikasjonenes metodeseksjon har mindre sannsynlighet for å være relatert til sykdomsemnene, anbefales det å spørre i fulltekstartikler unntatt metodedelen.
De resulterende proteinsykdomsforeningspoengene er nyttige for tradisjonelle analyser som klynger, dimensjonalitetsreduksjon eller anrikningsanalyser (f.eks. GO, veier), med noe implementering inkludert i denne programvarepakken. For å kontekstualisere disse poengene innenfor eksisterende biomedisinsk kunnskap, blir en kunnskapsgraf automatisk konstruert og kan utforskes ved hjelp av grafvisualiseringsverktøy (f.eks. Neo4j32, Cytoscape33). Kunnskapsgrafen kan også brukes til prediktive analyser (f.eks. linkprediksjon av urapporterte protein-sykdomsforhold, samfunnsdeteksjon av proteinnettverk, premieinnsamlingsmetoder).
Vi har undersøkt modellevalueringsmålene for de predikerte proteinsykdomsassosiasjonene (tabell 5). Modellen tilordner en sannsynlighetsscore mellom 0,0 og 1,0 til hver proteinsykdomsforening, med score nærmere 1,0 som indikerer et høyere nivå av tillit til prediksjonen. Den interne evalueringen av modellens ytelse, som var basert på ulike beregninger, inkludert AUROC, nøyaktighet, balansert nøyaktighet, spesifisitet og tilbakekalling, indikerte utmerket generell ytelse i arbeidet hans. Evalueringen fremhevet imidlertid også en ganske dårlig score for presisjonen (0,15) til modellen, noe som resulterte i både en lavere AUPRC- og F1-poengsum. Fremtidige studier for å forbedre denne beregningen vil bidra til å heve den generelle ytelsen til modellen. Vi ser for oss at dette kan oppnås ved å implementere mer sofistikerte kunnskapsgrafinnbygging og grafprediksjonsmodeller. Basert på modellens presisjon på 0,15, bør etterforskere forvente omtrent 15% positive identifikasjoner; Spesielt ut av alle de 12.688 proteinsykdomsforeningene som er spådd av modellen, er omtrent 15% sanne positive foreninger. Dette kan reduseres ved å vurdere bare proteinsykdomsforeninger med høy sannsynlighetsscore (f.eks. >0,90); I vårt brukstilfelle førte filtrering med en sannsynlighetsterskel på 0,90 til høykonfidensprediksjoner av 1 583 assosiasjoner. Etterforskere kan finne det nyttig å også manuelt inspisere disse spådommene for å sikre høy validitet (se figur 7 som et eksempel). En ekstern evaluering av våre prediksjoner fastslo at av de 310 proteinsykdomsforeningene fra en omfattende kuratert database DisGeNet19, ble 103 identifisert i vår tekstutvinningsstudie, og 88 ytterligere assosiasjoner ble spådd av vår kunnskapsgrafanalyse med en sannsynlighetsscore >0,90.
Samlet sett har CaseOLAP LIFT forbedret fleksibilitet og brukervennlighet ved utforming av tilpassede analyser av sammenhengen mellom funksjonelle proteingrupper og flere sykdomskategorier i store tekstkorpus. Denne pakken er strømlinjeformet i et nytt brukervennlig kommandolinjegrensesnitt og utgis som en docker-beholder, og reduserer dermed problemene knyttet til konfigurering av programmeringsmiljøene og programvareavhengighetene. CaseOLAP LIFT-rørledningen for å studere mitokondrielle proteiner i kardiovaskulære sykdommer kan enkelt tilpasses; For eksempel kan fremtidige anvendelser av denne teknikken innebære å undersøke sammenhengen mellom proteiner assosiert med noen GO-vilkår og enhver biomedisinsk kategori. Videre er de rangerte proteinsykdomsforeningene identifisert av denne tekstutvinningsplattformen viktige i utarbeidelsen av datasettet for bruk av avanserte naturlige språkteknikker. Den resulterende kunnskapsgrafen gjør det mulig for etterforskere å konvertere disse funnene til biologisk informativ kunnskap og legger grunnlaget for oppfølging av grafbaserte analyser.
The authors have nothing to disclose.
Dette arbeidet ble støttet av National Institutes of Health (NIH) R35 HL135772 til P.P., NIH T32 HL13945 til ART og DS, NIH T32 EB016640 til ARP, National Science Foundation Research Traineeship (NRT) 1829071 til ARP og DS, NIH R01 HL146739 for I.A., J.R., A.V., K.B. og TC Laubisch Endowment to P.P. ved UCLA.