Nous présentons un protocole et un modèle de métadonnées associée pour l’extraction de texte décrivant les concepts biomédicales dans les rapports de cas cliniques. Les valeurs de texte structuré, produits par le biais de ce protocole peuvent prendre en charge une analyse approfondie des milliers de récits cliniques.
Rapports de cas cliniques (CCT) sont un moyen précieux de partage des observations et des idées en médecine. Varie selon la forme de ces documents et leur contenu comprend des descriptions de nombreux, nouvelle maladie des présentations et des traitements. Jusqu’ici, les données de texte au sein de la CCT sont très peu structurées, exigeant un effort humain et de calcul important pour rendre ces données utiles pour une analyse approfondie. Dans ce protocole, nous décrivons des méthodes pour identifier les métadonnées correspondant aux concepts biomédicales spécifiques fréquemment observées au sein de la CCT. Nous fournissons un modèle de métadonnées comme un guide pour l’annotation de document, reconnaissant qu’imposant structure sur CCT peut-être être poursuivi par des combinaisons d’efforts manuels et automatiques. L’approche présentée ici est approprié pour l’organisation du texte axés sur la notion d’un corpus de littérature importante (p. ex., des milliers de CCT) mais peut être facilement adapté pour faciliter plus ciblées tâches ou petites séries de rapports. Les données de texte structuré qui comprennent un contexte sémantique suffisant pour prendre en charge une variété de flux de travail analyse ultérieure du texte : meta-analyses afin de déterminer comment maximiser CCR détail, études épidémiologiques sur les maladies rares et l’élaboration de modèles de langage médical peut-être tous être fait plus réalisable et gérable par l’utilisation de données textuelles structurées.
Rapports de cas cliniques (CCT) sont un moyen fondamental de partager des observations et connaissances en médecine. Ceux-ci servent comme un mécanisme de base de communication et d’éducation pour les cliniciens et étudiants en médecine. Historiquement, les CCT ont également fourni comptes des maladies émergentes, leurs traitements et leurs antécédents génétiques1,2,3,4. Par exemple, le premier traitement de la rage humaine par Louis Pasteur en 18855,6 et la première application de pénicilline chez les patients étaient de7 ont tous deux signalé par le Centre canadien de télédétection. Plus de 1,87 millions CCT ont été publiés en avril 2018, avec plus d’un demi-million dans la dernière décennie ; revues continuent à fournir de nouveaux lieux pour ces rapports8. Bien qu’unique dans la forme et le contenu, CCT contiennent des données de texte qui sont très peu structurées, contiennent un vaste vocabulaire et concerne des phénomènes interdépendants, limitant leur utilisation comme une ressource structurée. Un effort important est nécessaire à l’extraction de métadonnées détaillées (c.-à-d., « données sur les données », ou dans ce cas, les descriptions du contenu du document) du CCT et leur conférer une données trouvable, accessible, interopérable et réutilisables (FAIR)9 ressources.
Nous décrivons ici un procédé d’extraction de texte et des valeurs numériques de standardiser la description des concepts biomédicales spécifiques au sein de la CCT publiées. Cette méthodologie comprend un modèle de métadonnées pour guider l’annotation en question ; Voir la Figure 1 pour une vue d’ensemble de ce processus. Application du processus d’annotation à une vaste collection de rapports (par exemple, plusieurs milliers d’un type spécifique de présentation de la maladie) permet montage d’un ensemble de textes cliniques annotés, gérable et structuré atteindre lisible par une machine documentation et phénomènes biomédicaux incorporé dans chaque clinique de la présentation. Bien que les formats de données tels que ceux fournis par HL7 (e.g., Version 3 de la norme de messagerie10 ou le Fast Healthcare Interoperability Resources [FHIR]11), LOINC12et révision 10 de la statistique internationale Classification des maladies et des problèmes de santé connexes (CIM-10)13 fournissent des normes pour la description et d’échange d’observations cliniques, ils ne saisissent pas le texte qui entoure ces données, ni sont qu’ils veulent. Les résultats de notre méthodologie sont mieux utilisées pour appliquer la structure sur les CCT et faciliteraient l’analyse ultérieure, normalisation par le biais de systèmes de codage et de vocabulaires contrôlés (e.g., CIM-10), ou la conversion vers les formats de données cliniques mentionnés ci-dessus .
Exploitation minière CCT est un domaine actif de travail au sein de l’informatique biomédicale et clinique. Bien que les propositions précédentes de standardiser la structure de rapports de cas (p. ex.., à l’aide de HL7 v2.514 ou normalisés phénotype terminologie15) sont louables, il est probable que la CCT continuera à suivre une variété de différents formes de langage naturel et document mises en page, car ils ont pour une grande partie du siècle passé. Dans des conditions idéales, les auteurs des nouveaux cas signalés suivre soins orientations16 pour s’assurer qu’ils sont complets. Les approches sensibles à la fois de langage naturel et de sa relation avec concepts médicaux peuvent donc être plus efficaces en travaillant avec des rapports nouveaux et archivées. Ressources telles que l’artisanat17 et celles produites par informatique pour intégrer la biologie et la curation de18 de chevet (i2b2) soutenir les approches de traitement du langage naturel (NLP) mais ne sont pas spécifiquement l’accent sur la CCT ou récits cliniques. De même, les outils PNL médicaux tels que le cTAKES19 et20 de la pince ont été développés mais généralement définir des mots ou des phrases (c’est-à-dire, des entités) dans le cadre de documents plutôt que les concepts généraux attachés habituellement décrits dans CCT.
Nous avons conçu un modèle de métadonnées normalisées pour fonctionnalités généralement incluses au sein de la CCT. Ce modèle définit les fonctionnalités d’imposer la structure sur la CCT — un précurseur essentiel de comparaison approfondie du contenu du document-permet encore de suffisamment de souplesse pour conserver le contexte sémantique. Bien que nous avons conçu le format associé à ce modèle convient pour les annotation manuelle et la fouille de textes assistée par le calcul, nous nous sommes assurés que c’est particulièrement facile à utiliser pour manuels annotators. Notre approche diffère nettement de plus complexe (et, par conséquent, moins immédiatement compréhensible aux chercheurs) cadres tels que FHIR21. Le protocole suivant explique comment isoler les caractéristiques de document correspondant à chaque type de données de modèle, avec un ensemble unique de valeurs correspondant à celles dans un seul CCR.
Les types de données dans le modèle de ceux plus descriptive de CCT et documents médicaux centrés sur le patient sont en général. Annotation de ces fonctionnalités favorise findability, l’accessibilité, l’interopérabilité et réutilisabilité du texte CCR, principalement en lui donnant une structure. Les types de données sont en quatre catégories générales : identification de document et d’annotation, identification de rapport de cas (c’est-à-dire, les propriétés au niveau du document), concepts contenus médicaux (propriétés principalement au niveau de concept) et remerciements (par exemple fonctionnalités fournissant des preuves de financement). Dans ce processus d’annotation, chaque document contient le texte intégral d’un CCR, l’omission de tout document contenu matériel indépendant pour le cas (par exemple, les protocoles expérimentaux). Centre canadien de télédétection sont généralement moins de 1 000 mots chacun ; un corpus unique devrait idéalement être indexé par la même base de données bibliographique et être dans la même langue écrite.
Le produit de l’approche décrite ici, lorsqu’il est appliqué à un corpus CCR, est un ensemble structuré de texte annoté de clinique. Bien que cette méthodologie est entièrement manuelle et a été conçue pour être effectués par des experts de domaine sans aucune expérience de l’informatique, il vient compléter les approches de traitement du langage naturel mentionnés ci-dessus et fournit des données appropriées pour analyse computationnelle. Ces analyses peuvent être d’intérêt à un public de chercheurs au-delà de ceux qui lisent souvent CCT, y compris :
Application de la structure sur la CCT peut supporter des nombreux efforts ultérieurs pour mieux comprendre la langue médicale et biomédicales phénomènes.
Mise en œuvre d’un modèle de métadonnées normalisées pour la CCT peut faire leur juste plus contenu, élargir leur audience et étendre leurs applications. Suite à l’utilisation traditionnelle du CCT comme outils pédagogiques en communication médicale, stagiaires de soins de santé (p. ex., les étudiants en médecine, stagiaires et boursiers) et des chercheurs biomédicaux peuvent trouver que contenu Résumé rapport cas permettre plus rapide compréhension. La plus grande force de la normalisation des métadonnées avec la CCT, cependant, est que l’indexation de ces transformations de données sinon isolé observations en motifs interprétables. Le protocole fourni ici peut servir comme la première étape dans un flux de travail pour travailler avec la CCT, si ce flux de travail se compose d’analyse épidémiologique, drogue après la commercialisation ou surveillance de traitement des enquêtes plus larges de pathogénie ou efficacité thérapeutique. Caractéristiques structurées identifiées au sein de la CCT peuvent fournir une ressource utile pour les chercheurs en se concentrant sur les présentations de la maladie et les traitements, en particulier pour les maladies rares. Cliniciens-chercheurs peuvent trouver des données sur les schémas thérapeutiques passées à analyser les symptômes enregistrés ou effets secondaires et le degré d’amélioration en vertu des anciennes normes de soins. Les données peuvent conduire également des analyses plus larges d’un nouveaux traitements base efficacité, absence de toxicité, ou les effets indésirables ou de médicament ciblant les différences de sexe, groupe d’âge ou les antécédents génétiques.
Les avantages de métadonnées structurées sont de même applicables aux flux de travail informatique conçu pour analyser ou modéliser le langage médical. Caractéristiques CCR structurés peuvent également fournir des teneur en évidence des domaines où les auteurs du rapport peuvent fournir plus facilement lisible par une machine (et dans certains cas, lisible par l’homme). Écart entre la CCT peut résulter d’un manque d’observations explicitement fournis : par exemple, âge exact du patient ne peut pas être spécifié. De même, les cliniciens ne devez mentionner essais si les diagnostics ou leurs résultats étaient considérés comme triviales. En fournissant des exemples de lacunes nécessaires à une analyse approfondie, application de la structure sur la CCT met en évidence les améliorations potentielles. Dans une perspective plus large, une plus grande disponibilité des données de texte structuré de documents médicaux soutient des efforts (PNL) pour en tirer des données volumineuses dans les soins de santé24,25de traitement du langage naturel.
The authors have nothing to disclose.
Ce travail a été soutenu en partie par le National Heart, Lung, and Blood Institute : R35 HL135772 (à la P. Ping) ; National Institute of General Medical Sciences : U54 GM114833 (à la P. Ping, K. Watson et Wang W.) ; National Institute of Biomedical Imaging and Bioengineering : T32 EB016640 (d’a. Bui) ; un don de la Fondation de Hoag et Dr. S. Setty ; et la dotation de T.C. Laubisch à UCLA (à la P. Ping).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |