Apresentamos um protocolo e um modelo de metadados associados para a extração de texto descrevendo conceitos biomédicos em relatos de casos clínicos. Os valores de texto estruturado produzidos através do presente protocolo podem oferecer suporte a profunda análise de milhares de narrativas clínicas.
Relatos de casos clínicos (CCRs) são um meio valioso de compartilhar observações e insights em medicina. A forma destes documentos varia e o seu conteúdo inclui descrições da doença romance numerosos, apresentações e tratamentos. Até então, os dados de texto dentro de CCRs são em grande parte não-estruturados, que requerem significativo esforço humano e computacional para processar esses dados úteis para a análise em profundidade. Neste protocolo, descrevemos os métodos para identificar os metadados correspondentes a conceitos biomédicos específicos frequentemente observados dentro CCRs. Nós fornecemos um modelo de metadados como um guia para anotação de documento, reconhecendo que a imponente estrutura na CCRs pode ser perseguido por combinações de esforço manual e automatizado. A abordagem apresentada aqui é apropriada para organização de texto relacionados ao conceito de um corpus de literatura grande (por exemplo, milhares de CCRs) mas pode ser facilmente adaptada para facilitar tarefas mais concentradas ou pequenos conjuntos de relatórios. Os dados resultantes de texto estruturado incluem contexto semântico suficiente para apoiar uma variedade de fluxos de trabalho de análise de texto subsequente: detalhe de meta-análise para determinar como maximizar a CCR, estudos epidemiológicos de doenças raras e o desenvolvimento de modelos de linguagem médica pode todos ser feita mais realizável e gerenciável através da utilização de dados de texto estruturado.
Relatos de casos clínicos (CCRs) são um meio fundamental de compartilhar observações e insights em medicina. Estes servem como um mecanismo básico de comunicação e educação para os médicos e estudantes de medicina. Historicamente, CCRs também forneceram relatos de doenças emergentes, seus tratamentos e suas origens genéticas1,2,3,4. Por exemplo, o primeiro tratamento de raiva humana por Louis Pasteur em 18855,6 e a primeira aplicação de penicilina em pacientes7 eram ambos relataram através de CCRs. CCRs mais de 1,87 milhões foram publicados a partir de abril de 2018, com mais de meio milhão na última década; revistas continuam a fornecer novos espaços para esses relatórios8. Embora único em forma e conteúdo, CCRs contêm dados de texto que são em grande parte não-estruturados, contêm um vasto vocabulário e dizem respeito a fenômenos inter-relacionados, limitando a sua utilização como um recurso estruturado. Significativo esforço é necessário para extrair metadados detalhados (isto é, “dados sobre dados”, ou neste caso, as descrições de conteúdo de documentos) de CCRs e estabelecê-los como um dados encontrável, acessível, interoperáveis e reutilizáveis (feira)9 recurso.
Aqui, descrevemos um processo para extrair texto e valores numéricos para padronizar a descrição dos conceitos biomédicos específicas dentro CCRs publicados. Esta metodologia inclui um modelo de metadados para orientar a anotação; Veja a Figura 1 para obter uma visão geral desse processo. Aplicação do processo de anotação para uma grande coleção de relatórios (por exemplo, vários milhares de um tipo específico de apresentação da doença) permite a montagem de um conjunto de textos clínicos anotados, gerenciável e estruturado alcançar legível por máquina documentação e fenômenos biomédicos incorporado em cada apresentação clínica. Apesar de formatos de dados, tais como aqueles fornecidos pelo HL7 (EG., versão 3 do padrão de mensagens10 ou o rápido de cuidados de saúde de recursos de interoperabilidade [FHIR]11), LOINC12e revisão 10 da estatística internacional Classificação das doenças e problemas de saúde relacionados (CID-10)13 fornecer padrões para a descrição e a troca de observações clínicas, eles não capturar o texto em torno destes dados, nem eles pretendem. Os resultados de nossa metodologia são mais utilizados para impor a estrutura na CCRs e facilitar a análise posterior, normalização através de vocabulários controlados e sistemas de codificação (por exemplo., CID-10), e/ou conversão para os formatos de dados clínicos listados acima .
Mineração CCRs é uma área ativa de trabalho dentro de informática biomédica e clínica. Embora o caso de propostas anteriores para padronizar a estrutura de relatórios (EG., usando HL7 v 2.514 ou padronizado fenótipo terminologia15) são louváveis, é provável que CCRs continuará a acompanhar uma variedade de diferentes formas de linguagem natural e layouts de documento, como eles têm para a maior parte do século passado. Sob condições ideais, autores de relatos de casos novos sigam cuidados orientações16 para garantir que eles são abrangentes. Abordagens sensíveis à linguagem natural e de sua relação com conceitos médicos, portanto, podem ser mais eficazes em trabalhar com relatórios novos e arquivados. Recursos como ofício17 e aqueles produziram pela informática para integrar a biologia e a curadoria de18 cabeceira (i2b2) suporta processamento de linguagem natural (NLP) abordagens ainda não especificamente enfocam CCRs ou narrativas clínicas. Da mesma forma, instrumentos médicos de PNL como cTAKES19 e braçadeira20 têm sido desenvolvidos, mas geralmente identificam palavras específicas ou frases (ou seja, entidades) dentro de documentos, ao invés dos conceitos gerais comumente descritos em CCRs.
Nós projetamos um modelo de metadados padronizados para recursos comumente incluídos dentro CCRs. Este modelo define recursos para impor a estrutura na CCRs — um precursor essencial para comparações em profundidade do conteúdo do documento-ainda permite flexibilidade suficiente reter o contexto semântico. Embora nós projetamos o formato associado com este modelo para ser apropriado para anotação manual e mineração de texto computacionalmente assistida, garantimos que é particularmente fácil de usar para manuais anotadores. Nossa abordagem visivelmente difere de mais intricado (e, portanto, menos pesquisadores imediatamente compreensíveis para destreinado) estruturas como FHIR21. O protocolo seguinte descreve como isolar os recursos de documento correspondente a cada tipo de dados de modelo, com um único conjunto de valores correspondentes aos de um único CCR.
Os tipos de dados dentro do modelo são aqueles mais descritivo para CCRs e focada no paciente documentos médicos em geral. Anotação destas características promove Encontrabilidade, acessibilidade, interoperabilidade e reutilização de texto CCR, principalmente, dando-lhe estrutura. Os tipos de dados são em quatro categorias gerais: identificação do documento e anotação, identificação de relato de caso (isto é, Propriedades de nível de documento), conceitos de conteúdo médicos (principalmente nível de conceito Propriedades) e agradecimentos (ou seja, recursos, fornecendo evidências de financiamento). Neste processo de anotação, cada documento inclui o texto completo de um CCR, omitindo qualquer material de conteúdo de documento independente para o caso (por exemplo, protocolos experimentais). CCRs são geralmente menos de 1.000 palavras cada; um único corpus idealmente devem ser indexado pelo mesmo banco de dados bibliográfico e ser na mesma língua escrita.
O produto da abordagem descrita aqui, quando aplicado a um corpus CCR, é um conjunto estruturado de texto clínico anotado. Enquanto esta metodologia pode ser realizada totalmente manualmente e foi concebida para ser realizado por especialistas de domínio sem qualquer experiência de informática, complementa as abordagens de processamento de linguagem natural especificadas acima e fornece dados apropriados para análise computacional. Tais análises podem ser de interesse para o público de pesquisadores, além daqueles que leem frequentemente CCRs, incluindo:
Reforçando a estrutura na CCRs pode oferecer suporte a inúmeros esforços subsequentes para compreender melhor tanto linguagem médica e biomédicos fenômenos.
Implementação de um modelo de metadados padronizados para CCRs pode tornar seu conteúdo mais justo, expandir a sua audiência e estender seus aplicativos. Na sequência do uso tradicional do CCRs como ferramentas educacionais em comunicações médicas, estagiários da saúde (por exemplo, estudantes de medicina, estagiários e bolsistas) e investigadores biomédicos podem encontrar que permite que conteúdo resumido relato de caso mais rápida compreensão. A maior força de padronização de metadados com CCRs, no entanto, é que a indexação dessas transformações de dados caso contrário isolado observações em padrões interpretáveis. O protocolo fornecido aqui pode servir como o primeiro passo em um fluxo de trabalho para trabalhar com CCRs, se este fluxo de trabalho consiste em análise epidemiológica, droga pós-comercialização ou vigilância de tratamento ou pesquisas mais amplas de patogênese ou eficácia terapêutica. Estruturado características identificadas dentro CCRs podem fornecer um recurso útil para pesquisadores, com foco em apresentações da doença e tratamentos, especialmente para doenças raras. Pesquisadores clínicos podem encontrar dados sobre últimos esquemas de tratamento para analisar gravados sintomas ou efeitos colaterais e grau de melhoria sob padrões anteriores de cuidados. Os dados também podem conduzir a análises mais amplas de um novos tratamentos com base na eficácia, ausência de efeitos adversos ou toxicidade, ou na droga, visando diferenças de gênero, faixa etária ou fundo genético.
Os benefícios proporcionados pelos metadados estruturados são similarmente aplicáveis aos fluxos de trabalho computacionais projetados para analisar ou modelo de linguagem médica. Características CCR estruturadas também podem fornecer conteúdo de provas das áreas onde os autores de relatório podem fornecer mais facilmente legível por máquina (e em alguns casos, legível). Variância entre CCRs pode resultar de uma falta de observações explicitamente fornecidas: por exemplo, a idade exata do paciente não pode ser especificada. Da mesma forma, os médicos não podem mencionar testes se os diagnósticos ou seus resultados foram considerados triviais. Fornecendo exemplos de aberturas necessárias para uma análise aprofundada, reforçando a estrutura na CCRs destaca melhorias potenciais. Em uma perspectiva mais ampla, uma maior disponibilidade de dados de texto estruturado de documentos médicos suporta (PNL) os esforços para aprender com grande volume de dados em saúde24,25de processamento de linguagem natural.
The authors have nothing to disclose.
Este trabalho foi financiado em parte pelo nacional do coração, pulmão e sangue Instituto: R35 HL135772 (a P. Ping); Instituto Nacional de ciências médicas do General: U54 GM114833 (a P. Ping, K. Watson e W. Wang); Instituto Nacional de imagem biomédica e bioengenharia: EB016640 T32 (para r. Bui); um presente da Fundação Hoag e Dr. S. Soares; e a doação de T.C. Laubisch na UCLA (a P. Ping).
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |