Vi presenterer en protokoll og tilhørende mal for utvinning av tekst som beskriver biomedisinsk konsepter i kliniske tilfeller rapporter. Strukturert tekstverdiene gjennom denne protokollen kan støtte dyp analyse av klinisk fortellinger.
Klinisk case rapporter (CCRs) er en verdifull måte å dele observasjoner og innsikt i medisin. Form av disse dokumentene varierer, og deres innhold omfatter beskrivelser av mange, Roman sykdom presentasjoner og behandlinger. Så langt, er tekstdata i CCRs hovedsakelig ustrukturert, krever betydelig menneskelige og beregningsorientert innsats å gjengi disse dataene nyttig for detaljert analyse. I denne protokollen beskriver vi metodene for å identifisere metadata tilsvarer spesifikke biomedisinsk begrepene ofte observert i CCRs. Vi tilbyr en metadatamal som en guide for dokumentet merknaden, erkjenner at imponerende struktur på CCRs kan gjennomføres av kombinasjoner av manuelle og automatiserte innsats. Tilnærmingen presenteres her passer for organisering av konseptet-relaterte tekst fra en stor litteratur corpus (f.eks tusenvis av CCRs), men kan være enkelt tilpasses til å rette mer fokuserte aktiviteter eller liten rapportsett. Resultatdataene strukturert tekst inneholder tilstrekkelig semantisk kontekst for å støtte en rekke etterfølgende tekst analyse arbeidsflyter: meta-analyser for å avgjøre hvordan maksimere CCR detaljer, Epidemiologiske studier av sjeldne sykdommer, og utvikling av modeller av medisinsk språk kan alt gjøres mer realiserbar og administreres ved hjelp av strukturert tekstdata.
Klinisk case rapporter (CCRs) er en grunnleggende metode for å dele observasjoner og innsikt i medisin. Dette tjene som en grunnleggende mekanisme for kommunikasjon og utdanning for leger og medisinske studenter. Historisk har CCRs også gitt kontoer av nye sykdommer, deres behandlinger og deres genetisk bakgrunn1,2,3,4. For eksempel rapportert den første behandlingen av menneskelig rabiat av Louis Pasteur i 18855,6 og den første anvendelsen av penicillin hos pasienter7 var både gjennom CCRs. Mer enn 1.87 millioner CCRs har blitt publisert i April 2018, med over en halv million i det siste tiåret; journaler fortsetter å tilby nye arenaer for disse rapporter8. Om unike i form og innhold, CCRs inneholder tekstdata som er i stor grad ustrukturert, inneholder et stort ordforråd, og bekymring beslektede fenomener, begrense deres bruk som en strukturert ressurs. Betydelig innsats er nødvendig for å pakke ut detaljerte metadata (dvs. “data om data”, eller i dette tilfellet, beskrivelser av dokumentinnholdet) fra CCRs og etablere seg som en søkbar, tilgjengelig, interoperable og gjenbrukbare (FAIR)9 -data ressurs.
Her beskriver vi en prosess for å trekke ut tekst og numeriske verdier å standardisere beskrivelsen av spesifikke biomedisinsk begrepene innen publiserte CCRs. Denne metoden inkluderer en metadatamal veileder merknad. se figur 1 for en oversikt over denne prosessen. Søknad av merknaden til et stort antall rapporter (f.eks, flere tusen av en bestemt type sykdom presentasjon) tillater montering av håndterbare og strukturert kommenterte klinisk tekster, oppnå maskinlesbar dokumentasjon og biomedisinsk fenomener innebygd i hver kliniske presentasjonen. Selv om data formater som dem som tilbys av HL7 (f.eks., versjon 3 av de Messaging Standard10 eller rask Healthcare interoperabilitet ressurser [FHIR]11), LOINC12og revisjon 10 av det internasjonale statistiske Klassifisering av sykdommer og relaterte helseproblemer (ICD-10)13 gi standarder for å beskrive og utveksle kliniske observasjoner, de ikke fange teksten rundt disse dataene, eller de skal. Resultatene av vår metode er best brukt å håndheve struktur på CCRs og lette påfølgende analyse, normalisering gjennom kontrollert vocabularies og koding systemer (f.eks., ICD-10), og/eller konvertering til kliniske dataformatene ovenfor .
Gruvedrift CCRs er et aktivt område arbeid innen biomedisinsk og klinisk informatikk. Selv om tidligere forslag å standardisere strukturen i tilfelle rapporter (f.eks., bruk HL7 v2.514 eller standardisert fenotypen terminologi15) er prisverdig, er det sannsynlig at CCRs vil fortsette å følge en rekke forskjellige språk skjemaer og dokumentoppsett, som de har for mye av det siste århundret. Under ideelle forhold Følg forfatterne av ny rettssak meddeler omsorg retningslinjer16 for å sikre de omfattende. Tilnærminger følsom for både naturlig språk og dens forhold til medisinsk konsepter kan derfor være mest effektive i arbeidet med nytt og arkiverte rapporter. CRAFT17 og de produsert av informatikk for integrere biologi og sengen (i2b2)18 konservering støtter naturlig språkbehandling (NLP) tilnærminger, men ikke spesielt fokus på CCRs eller klinisk fortellinger. Tilsvarende medisinsk NLP verktøy som cTAKES19 og KLEMME20 har blitt utviklet, men vanligvis identifisere bestemte ord eller uttrykk (dvs., enheter) i dokumenter i stedet for den generelle konseptet ofte beskrevet i CCRs.
Vi har utviklet en standardisert mal for funksjoner vanligvis inkludert i CCRs. Denne malen definerer funksjoner for å innføre struktur på CCRs, en viktig forløper for grundig sammenligninger av dokumentinnholdet-ennå gir tilstrekkelig fleksibilitet til å beholde semantisk sammenheng. Selv om vi har designet formatet knyttet til denne malen være passende for både manuell merknader og beregningsmessig-assistert tekst gruvedrift, har vi sikret det er spesielt enkel å bruke for manuell annotators. Vår tilnærming forskjellig merkbart fra mer intrikate (og derfor mindre umiddelbart forståelig for utrente forskere) rammer som FHIR21. Følgende protokollen beskriver hvordan du isolerer Dokumentfunksjoner som tilsvarer hver mal datatype, med et enkelt sett med verdier tilsvarer de i en enkelt CCR.
Datatypene i malen er de mest beskrivende for CCRs og pasient-fokusert medisinsk dokumenter generelt. Merknad av disse funksjonene fremmer findability, tilgjengelighet, interoperabilitet og gjenbruk av CCR tekst, hovedsakelig ved å gi det struktur. Datatypene er i fire generelle kategorier: dokumentet og merknader identifikasjon, case rapport identifikasjon (dvs. dokumentnivå egenskaper), medisinske innhold konsepter (hovedsakelig konsept-nivå egenskaper) og takk (dvs. funksjoner som gir bevis for finansiering). I denne merknaden prosessen inneholder hvert dokument hele teksten i en CCR, utelater dokumentet innholdet materiale uavhengig saken (f.eks eksperimentelle protokoller). CCRs er generelt mindre enn 1000 ord; en enkelt corpus ideelt skal indekseres av samme bibliografisk database og være i samme skriftlig språk.
Produktet av tilnærming som er beskrevet her, når det gjaldt å en CCR corpus, er et strukturert sett kommenterte klinisk tekst. Mens denne metodikken kan utføres fullstendig manuelt og er designet for å være utført av domene eksperter uten informatikk erfaring, det utfyller naturlig språkbehandling tilnærminger ovenfor og gir data passer for beregningsorientert analyse. Slike analyser kan være av interesse for publikum av forskere utover de som ofte leser CCRs, inkludert:
Håndheve struktur på CCRs kan støtte mange påfølgende innsats for å bedre forstå både medisinsk språk og biomedisinsk fenomener.
Implementering av en standardisert mal for CCRs kan gjøre deres innhold mer rettferdig, utvider sitt publikum og utvide sine programmer. Etter den tradisjonelle bruken av CCRs som pedagogisk verktøy i medisinsk communications, helsetjenester traineer (f.eks medisinske studenter, praktikanter og stipendiater) og biomedisinsk forskere finner at summerte case rapport innholdet aktiverer raskere forståelse. Den største styrken til metadata standardisering med CCRs, er imidlertid at indeksering disse dataene transformeres ellers isolert observasjoner i interpretable mønstre. Protokollen her kan tjene som første trinn i en arbeidsflyt for å arbeide med CCRs, om denne arbeidsflyten består av epidemiologiske analyse, etter markedsføring stoff eller behandling overvåking eller bredere undersøkelser av patogenesen eller terapeutiske effekten. Strukturert funksjoner identifiseres i CCRs kan gi en nyttig ressurs for forskere sykdom presentasjoner og behandlinger, spesielt for sjeldne forhold. Kliniske forskere finner data på siste behandlingsregimer analysere innspilte symptomer eller bivirkninger og grad av forbedring under forrige standarder omsorg. Dataene kan også kjøre bredere analyser en nye behandlinger basert på effekt, mangel på bivirkninger og toksisitet, eller narkotika målretting forskjeller i kjønn, aldersgruppe, eller genetisk bakgrunn.
Fordelene som tilbys av strukturert metadata gjelder tilsvarende for beregningsorientert arbeidsflyter som er utformet for å analysere eller modellere medisinsk språk. Strukturert CCR-funksjoner kan også gi bevis av områder der rapport forfattere kan gi lettere maskinlesbar (og i noen tilfeller, lesbar) innhold. Avvik mellom CCRs kan skyldes mangel på eksplisitt angitte observasjoner: f.eks pasientens alder ikke kan angis. Tilsvarende kan klinikere ikke nevne tester hvis diagnostiseringen eller resultatene ble vurdert som trivielle. Ved å gi eksempler på hullene nødvendig for detaljert analyse, fremhever håndheve struktur på CCRs potensielle forbedringer. I et bredere perspektiv støtter en større tilgjengelighet av strukturert tekstdata fra medisinsk dokumenter naturlig omgangsspråk bearbeiding (NLP) innsats å lære fra store data i healthcare24,25.
The authors have nothing to disclose.
Dette arbeidet var støttes delvis av nasjonale hjerte, lunge og blod Institute: R35 HL135772 (til P. Ping); National Institute of General Medical Sciences: U54 GM114833 (til P. Ping, K. Watson og W. Wang); National Institute of biomedisinsk bildebehandling og bioteknologi: T32 EB016640 (til A. Bui); en gave fra Hoag Foundation og Dr. S. Setty; og TC Laubisch legat ved UCLA (til P. Ping).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |