Vi presenterar ett protokoll och tillhörande metadatamall för utvinning av text som beskriver biomedicinska begrepp i kliniska fallrapporter. Strukturerad textvärden produceras genom detta protokoll kan stödja djup analys av tusentals kliniska berättelser.
Kliniska fallrapporter (centrala kreditregister) är ett värdefullt medel för delning observationer och insikter i medicin. Form av dokumenten varierar, och deras innehåll omfattar beskrivningar av talrika, romanen sjukdom presentationer och behandlingar. Hittills är textdata inom centrala kreditregister till stor del ostrukturerade, som kräver betydande mänskliga och computational ansträngning för att göra dessa data användbar för djupgående analys. I detta protokoll beskriver vi metoder för att identifiera metadata som motsvarar specifika biomedicinska begrepp ofta observerats inom centrala kreditregister. Vi tillhandahåller en metadatamall som en guide för dokumentet annotering, erkänner att ålägga den centrala kreditregister struktur kan eftersträvas genom kombinationer av manuell och automatiserad ansträngning. Den strategi som presenteras här är lämplig för organisationen av konceptet-relaterade text från en stor litteratur-corpus (t.ex. tusentals av centrala kreditregister) men kan lätt anpassas till underlätta mer fokuserade aktiviteter eller små uppsättningar av rapporter. Den resulterande strukturerade textdatan innehåller tillräcklig semantiska ramen för att stödja en mängd efterföljande text analys arbetsflöden: meta-analyser för att fastställa hur man kan maximera CCR detalj, epidemiologiska studier av sällsynta sjukdomar, och utvecklingen av modeller av medicinska språket kan alla göras mer realizable och hanterbara med hjälp av strukturerade textdata.
Kliniska rapporter (centrala kreditregister) är ett grundläggande instrument för att dela observationer och insikter i medicin. Dessa fungerar som en grundläggande mekanism för kommunikation och utbildning för läkare och läkarstudenter. Centrala kreditregister har historiskt även gett konton av nya sjukdomar, deras behandlingar och deras genetiska bakgrunder1,2,3,4. Till exempel rapporteras den första behandlingen av human rabies av Louis Pasteur i 18855,6 och den första tillämpningen av penicillin i patienter7 var båda via centrala kreditregister. Mer än 1,87 miljoner centrala kreditregister har publicerats från och med April 2018, med över en halv miljon inom den senaste tioårsperioden. tidskrifter fortsätter att tillhandahålla nya arenor för dessa rapporter8. Även om det är unikt i form och innehåll, centrala kreditregister innehålla text som är till stor del ostrukturerade, innehåller ett omfattande ordförråd och avser sammanhängande fenomen, att begränsa deras användning som en strukturerad resurs. Betydande insatser krävs för att extrahera detaljerade metadata (dvs ”data om data”, eller i detta fall, beskrivningar av dokumentets innehåll) från centrala kreditregister och upprätta dem som ett mer sökbart, tillgänglig, driftskompatibla och återanvändbara (FAIR)9 resursen.
Här, beskriver vi en process för att extrahera text och numeriska värden att standardisera beskrivningen av specifika biomedicinska begrepp inom publicerade centrala kreditregister. Denna metod inkluderar en metadatamall för att vägleda anteckning; Se figur 1 för en översikt av denna process. Tillämpningen av anteckning processen till en stor samling av rapporter (t.ex. flera tusen av en viss typ av sjukdom presentation) tillåter montering av en hanterbar och strukturerad uppsättning kommenterad kliniska texter, att uppnå maskinläsbar dokumentation och biomedicinska fenomen är inbäddad i varje klinisk presentation. Även om data format som tillhandahålls av HL7 (t.ex., Version 3 av Messaging Standard10 eller snabbt Healthcare driftskompatibilitet resurser [FHIR]11), LOINC12och 10 revidering av den internationella statistiska Klassifikation av sjukdomar och relaterade hälsoproblem (ICD-10)13 standarder för att beskriva och utbyte av kliniska observationer, de fångar inte texten omger dessa uppgifter och inte heller är de avsedda att. Resultaten av vår metodik används bäst att upprätthålla struktur på centrala kreditregister och underlätta efterföljande analys, normalisering genom kontrollerade vokabulärer och kodning system (t.ex., ICD-10), och/eller konvertering till kliniska dataformat som anges ovan .
Gruvdrift centrala kreditregister är ett aktivt område av arbete inom biomedicinsk och klinisk informatik. Även om tidigare förslag att standardisera struktur fall rapporter (t.ex., använda HL7 v2.514 eller standardiserade fenotyp terminologi15) är lovvärt, det är troligt att centrala kreditregister kommer att fortsätta att följa en mängd olika naturligt språk formulär och dokumentlayouter, som de har för mycket av det förgångna århundradet. Under ideala förhållanden Följ författarna till nya fallrapporter vård riktlinjer16 för att säkerställa att de är omfattande. Metoder som är känsliga för både naturligt språk och dess relation till medicinska begrepp kan därför vara mest effektiv i att arbeta med nya och arkiverade rapporter. Resurser såsom hantverk17 och de produceras av informatik för att integrera biologi och den säng (i2b2)18 curation stöder bearbetning av naturligt språk (NLP) metoder ännu inte specifikt fokus på centrala kreditregister eller kliniska berättelser. Likaså medicinska NLP verktyg såsom cTAKES19 och klämma20 har utvecklats men generellt identifiera specifika ord eller fraser (dvs, enheter) inom dokument i stället för de allmänna begrepp som ofta beskrivs i centrala kreditregister.
Vi har utformat en standardiserad metadatamall för funktioner som vanligen ingår i centrala kreditregister. Denna mall definierar funktioner för att införa struktur på centrala kreditregister – en viktig föregångare för djupgående jämförelser av dokumentinnehållet-ändå tillåter tillräcklig flexibilitet att behålla semantiska ramen. Även om vi har utformat de format som associeras med den här mallen är lämplig för både manuell anteckning och beräkningsmässigt-assisted text mining, har vi sett att det är särskilt lätt att använda för manuell annotators. Vår strategi märkbart skiljer sig från mer invecklade (och därmed mindre omedelbart begripliga för otränade forskare) ramar såsom FHIR21. Följande protokoll beskriver hur man isolera dokumentfunktioner motsvarar varje mall datatyp, med en enda uppsättning värden som motsvarar de i en enda CCR.
Datatyperna i mallen är de mest beskrivande för centrala kreditregister och patienten i fokus medicinska dokument i allmänhet. Annotering av funktionerna främjar upptäckbarhet, tillgänglighet, driftskompatibilitet och återanvändbarhet av CCR text, främst genom att ge den struktur. Datatyperna är i fyra allmänna kategorier: dokument och annotering identifiering, fallbeskrivning identifiering (dvs dokumentnivå egenskaper), medicinsk innehåll begrepp (primärt koncept-nivå egenskaper) och bekräftelser (dvs. funktioner som ger bevis på finansiering). I denna anteckning process innehåller varje dokument den fullständiga texten till en CCR, utelämna någon dokument tillfredsställer materiellt oberoende i målet (t.ex. experimentella protokoll). Centrala kreditregister är i allmänhet mindre än 1 000 ord vardera; en enda corpus bör idealiskt indexeras av samma bibliografiska databas och vara i samma skriftligt språk.
Produkten av den metod som beskrivs här, när de appliceras på en CCR corpus, är en strukturerad uppsättning kommenterad kliniska text. Medan denna metod kan utföras helt manuellt och har utformats för att utföras av domän experter utan informatik erfarenhet, det kompletterar de naturlig språkbearbetning metoder som anges ovan och tillhandahåller data passar Computational analys. Sådana analyser kan vara av intresse för en publik av forskare utöver dem som ofta läsa centrala kreditregister, inklusive:
Genomdriva struktur på centrala kreditregister kan stödja många efterföljande insatser för att bättre förstå både medicinska språket och biomedicinska fenomen.
Genomförandet av en standardiserad metadatamall för centrala kreditregister kan göra deras innehåll mer rättvist, expandera sin publik och utöka deras program. Efter den traditionella användningen av centrala kreditregister som pedagogiska verktyg i medicinsk kommunikation, hälso-och praktikanter (t.ex. medicinska studenter, praktikanter och karlar), och biomedicinsk forskare kan finna att summerade fallrapport innehållet aktivera snabbare förståelse. Den största styrkan av metadata standardisering med centrala kreditregister, är dock att indexera dessa data transformeringar annars isolerade observationer till tolkningsbara mönster. Protokollet som ges här kan fungera som ett första steg i ett arbetsflöde för att arbeta med centrala kreditregister, oavsett om detta arbetsflöde består av epidemiologisk analys, marknadsföringen läkemedel eller behandling övervakning eller bredare undersökningar av patogenes eller terapeutisk effekt. Strukturerad funktioner identifieras inom centrala kreditregister kan ge en användbar resurs för forskare med fokus på sjukdom presentationer och behandlingar, särskilt för sällsynta tillstånd. Kliniska forskare kan hitta uppgifter om tidigare behandlingsregimer att analysera inspelad symptom eller biverkningar och grad av förbättring under tidigare standarder för vård. Data kan också köra bredare analyser av en nya behandlingar som bygger på effektivitet, brist på negativa effekter eller toxicitet, eller drog inriktning skillnader i kön, åldersgrupp eller genetisk bakgrund.
Nytta av strukturerade metadata är likaså tillämpliga computational arbetsflöden för att tolka eller modell medicinska språket. Strukturerad CCR funktioner kan också tillhandahålla bevis för områden där rapportförfattare kan ge lättare maskinläsbar (och i vissa fall, läsbar) innehåll. Varians bland centrala kreditregister kan resultera från en brist på uttryckligen angivna observationer: exempelvis patientens exakta ålder inte kan anges. Likaså kan kliniker inte nämna tester om diagnostiken eller deras resultat anses trivialt. Genom att ge exempel på luckor behövs för djupgående analys, belyser genomdriva struktur på centrala kreditregister potentiella förbättringar. I ett bredare perspektiv stöder en större tillgång till strukturerade textdata från medicinska handlingar natural language processing (NLP) ansträngningar att lära av big data i hälso-och24,25.
The authors have nothing to disclose.
Detta arbete var stöds delvis av nationella hjärta, lungor och blod Institute: R35 HL135772 (till s. Ping); National Institute of General Medical Sciences: U54 GM114833 (till s. Ping, K. Watson och W. Wang); Nationella institutet för biomedicinsk Imaging och bioteknik: T32 EB016640 (till A. Bui); en gåva från stiftelsen Hoag och Dr. S. liggsoffa; och T.C. Laubisch endowment vid UCLA (till s. Ping).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |