A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts

John Harry Caufield; David A. Liem; Anders O. Garlid; Yijiang Zhou; Karol Watson; Alex A. T. Bui; Wei Wang; Peipei Ping

doi:10.3791/58392

JoVE Journal > Medicine

Medicine

Uma abordagem de extração de metadados para relatos de casos clínicos habilitar avançada compreensão dos conceitos biomédicos

Published: September 20, 2018

doi:

10.3791/58392

John Harry Caufield², David A. Liem^2,3, Anders O. Garlid², Yijiang Zhou, Karol Watson³, Alex A. T. Bui^5,6,7, Wei Wang^7,8,9, Peipei Ping^2,3,7,8

Summary

Apresentamos um protocolo e um modelo de metadados associados para a extração de texto descrevendo conceitos biomédicos em relatos de casos clínicos. Os valores de texto estruturado produzidos através do presente protocolo podem oferecer suporte a profunda análise de milhares de narrativas clínicas.

Abstract

Relatos de casos clínicos (CCRs) são um meio valioso de compartilhar observações e insights em medicina. A forma destes documentos varia e o seu conteúdo inclui descrições da doença romance numerosos, apresentações e tratamentos. Até então, os dados de texto dentro de CCRs são em grande parte não-estruturados, que requerem significativo esforço humano e computacional para processar esses dados úteis para a análise em profundidade. Neste protocolo, descrevemos os métodos para identificar os metadados correspondentes a conceitos biomédicos específicos frequentemente observados dentro CCRs. Nós fornecemos um modelo de metadados como um guia para anotação de documento, reconhecendo que a imponente estrutura na CCRs pode ser perseguido por combinações de esforço manual e automatizado. A abordagem apresentada aqui é apropriada para organização de texto relacionados ao conceito de um corpus de literatura grande (por exemplo, milhares de CCRs) mas pode ser facilmente adaptada para facilitar tarefas mais concentradas ou pequenos conjuntos de relatórios. Os dados resultantes de texto estruturado incluem contexto semântico suficiente para apoiar uma variedade de fluxos de trabalho de análise de texto subsequente: detalhe de meta-análise para determinar como maximizar a CCR, estudos epidemiológicos de doenças raras e o desenvolvimento de modelos de linguagem médica pode todos ser feita mais realizável e gerenciável através da utilização de dados de texto estruturado.

Introduction

Relatos de casos clínicos (CCRs) são um meio fundamental de compartilhar observações e insights em medicina. Estes servem como um mecanismo básico de comunicação e educação para os médicos e estudantes de medicina. Historicamente, CCRs também forneceram relatos de doenças emergentes, seus tratamentos e suas origens genéticas¹^,²^,³^,⁴. Por exemplo, o primeiro tratamento de raiva humana por Louis Pasteur em 1885⁵^,⁶ e a primeira aplicação de penicilina em pacientes⁷ eram ambos relataram através de CCRs. CCRs mais de 1,87 milhões foram publicados a partir de abril de 2018, com mais de meio milhão na última década; revistas continuam a fornecer novos espaços para esses relatórios⁸. Embora único em forma e conteúdo, CCRs contêm dados de texto que são em grande parte não-estruturados, contêm um vasto vocabulário e dizem respeito a fenômenos inter-relacionados, limitando a sua utilização como um recurso estruturado. Significativo esforço é necessário para extrair metadados detalhados (isto é, “dados sobre dados”, ou neste caso, as descrições de conteúdo de documentos) de CCRs e estabelecê-los como um dados encontrável, acessível, interoperáveis e reutilizáveis (feira)⁹ recurso.

Aqui, descrevemos um processo para extrair texto e valores numéricos para padronizar a descrição dos conceitos biomédicos específicas dentro CCRs publicados. Esta metodologia inclui um modelo de metadados para orientar a anotação; Veja a Figura 1 para obter uma visão geral desse processo. Aplicação do processo de anotação para uma grande coleção de relatórios (por exemplo, vários milhares de um tipo específico de apresentação da doença) permite a montagem de um conjunto de textos clínicos anotados, gerenciável e estruturado alcançar legível por máquina documentação e fenômenos biomédicos incorporado em cada apresentação clínica. Apesar de formatos de dados, tais como aqueles fornecidos pelo HL7 (EG., versão 3 do padrão de mensagens¹⁰ ou o rápido de cuidados de saúde de recursos de interoperabilidade [FHIR]¹¹), LOINC¹²e revisão 10 da estatística internacional Classificação das doenças e problemas de saúde relacionados (CID-10)¹³ fornecer padrões para a descrição e a troca de observações clínicas, eles não capturar o texto em torno destes dados, nem eles pretendem. Os resultados de nossa metodologia são mais utilizados para impor a estrutura na CCRs e facilitar a análise posterior, normalização através de vocabulários controlados e sistemas de codificação (por exemplo., CID-10), e/ou conversão para os formatos de dados clínicos listados acima .

Mineração CCRs é uma área ativa de trabalho dentro de informática biomédica e clínica. Embora o caso de propostas anteriores para padronizar a estrutura de relatórios (EG., usando HL7 v 2.5¹⁴ ou padronizado fenótipo terminologia¹⁵) são louváveis, é provável que CCRs continuará a acompanhar uma variedade de diferentes formas de linguagem natural e layouts de documento, como eles têm para a maior parte do século passado. Sob condições ideais, autores de relatos de casos novos sigam cuidados orientações¹⁶ para garantir que eles são abrangentes. Abordagens sensíveis à linguagem natural e de sua relação com conceitos médicos, portanto, podem ser mais eficazes em trabalhar com relatórios novos e arquivados. Recursos como ofício¹⁷ e aqueles produziram pela informática para integrar a biologia e a curadoria de¹⁸ cabeceira (i2b2) suporta processamento de linguagem natural (NLP) abordagens ainda não especificamente enfocam CCRs ou narrativas clínicas. Da mesma forma, instrumentos médicos de PNL como cTAKES¹⁹ e braçadeira²⁰ têm sido desenvolvidos, mas geralmente identificam palavras específicas ou frases (ou seja, entidades) dentro de documentos, ao invés dos conceitos gerais comumente descritos em CCRs.

Nós projetamos um modelo de metadados padronizados para recursos comumente incluídos dentro CCRs. Este modelo define recursos para impor a estrutura na CCRs — um precursor essencial para comparações em profundidade do conteúdo do documento-ainda permite flexibilidade suficiente reter o contexto semântico. Embora nós projetamos o formato associado com este modelo para ser apropriado para anotação manual e mineração de texto computacionalmente assistida, garantimos que é particularmente fácil de usar para manuais anotadores. Nossa abordagem visivelmente difere de mais intricado (e, portanto, menos pesquisadores imediatamente compreensíveis para destreinado) estruturas como FHIR²¹. O protocolo seguinte descreve como isolar os recursos de documento correspondente a cada tipo de dados de modelo, com um único conjunto de valores correspondentes aos de um único CCR.

Os tipos de dados dentro do modelo são aqueles mais descritivo para CCRs e focada no paciente documentos médicos em geral. Anotação destas características promove Encontrabilidade, acessibilidade, interoperabilidade e reutilização de texto CCR, principalmente, dando-lhe estrutura. Os tipos de dados são em quatro categorias gerais: identificação do documento e anotação, identificação de relato de caso (isto é, Propriedades de nível de documento), conceitos de conteúdo médicos (principalmente nível de conceito Propriedades) e agradecimentos (ou seja, recursos, fornecendo evidências de financiamento). Neste processo de anotação, cada documento inclui o texto completo de um CCR, omitindo qualquer material de conteúdo de documento independente para o caso (por exemplo, protocolos experimentais). CCRs são geralmente menos de 1.000 palavras cada; um único corpus idealmente devem ser indexado pelo mesmo banco de dados bibliográfico e ser na mesma língua escrita.

O produto da abordagem descrita aqui, quando aplicado a um corpus CCR, é um conjunto estruturado de texto clínico anotado. Enquanto esta metodologia pode ser realizada totalmente manualmente e foi concebida para ser realizado por especialistas de domínio sem qualquer experiência de informática, complementa as abordagens de processamento de linguagem natural especificadas acima e fornece dados apropriados para análise computacional. Tais análises podem ser de interesse para o público de pesquisadores, além daqueles que leem frequentemente CCRs, incluindo:

aqueles preocupados com apresentações da doença, sua sintomatologia chave, abordagens usuais de diagnósticos e tratamentos
aqueles que desejarem comparar os resultados dos ensaios clínicos com eventos descritos na literatura clínica, potencialmente fornecer observações adicionais e maior poder estatístico.
Bioinformática, informática biomédica e pesquisadores de ciência de computador que exigem conjuntos de dados estruturados linguagem médica ou entendimentos de alto nível das narrativas médicas
Pesquisadores de política de governo com foco em ensaios clínicos como podem melhor refletir como o diagnóstico e tratamento, como ocorre na realidade

Reforçando a estrutura na CCRs pode oferecer suporte a inúmeros esforços subsequentes para compreender melhor tanto linguagem médica e biomédicos fenômenos.

Protocol

1. o documento e identificação de anotação Nota: Valores nesta categoria apoiar o processo de anotação. Usando o modelo de anotação, fornece que um identificador específico para esses metadados definido, por exemplo, Case123. O formato do identificador deve ser consistente durante todo o projeto (por exemplo, Case001 através de Case500). Especifica a data em que um documento foi lido e anotado. Use um formato parecido com o “10 de janeiro de 2018” para consistência e legibilidade. 2. relatório de identificação Nota: Valores nesta categoria fornecem recursos de nível de documento e contribuam para a localização do documento. Ser consistente com o formato de cada campo em todas as anotações, por exemplo, os valores individuais devem ser separados por ponto e vírgula, sem espaços seguintes em todas as entradas. Use formatos idênticos aos utilizados no original documento ou aqueles usados em um banco de dados bibliográfico como MEDLINE. Fornece o título do documento. Fornece os nomes de todos os autores do documento na ordem fornecida. Normalizar o formato de todos os nomes, tal que todos os nomes assumem a forma de um único sobrenome seguido por qualquer número de iniciais, por exemplo, Jane B. Park torna-se o Parque JB. Não inclua títulos. Separe vários autores com um ponto e vírgula sem pontuação adicional, tal que Smith, Jane B. Park assume uma forma de JA Smith; Parque JB. Fornece o ano de publicação do documento. Fornece o título completo da revista em que o documento foi publicado. É fornecida uma lista de nomes de jornal controlado pela NLM Catalog (https://www.ncbi.nlm.nih.gov/nlmcatalog). Fornece o endereço da instituição em casa dos autores do documento, conforme especificado no documento. Isto pode incluir detalhes de endereço postal, localizações geográficas e departamentos. Se são fornecidos vários locais (por exemplo, se afiliações diferem entre os autores), especificar apenas detalhes para o autor correspondente. Se um autor correspondente não pode ser identificado, usar isso do primeiro autor, ou não especificar uma instituição. Se um autor correspondente tem múltiplas afiliações, especificar ambas e separar com ponto e vírgula. Fornece o autor correspondente do documento, conforme especificado dentro o título do documento usando o mesmo formato usado no tipo de dados de autores. Fornece um identificador de documento (por exemplo, um PMID). Fornecer um identificador de objeto Digital, sempre que possível e disponível, pode ser resolvido ao documento URL (através de https://www.doi.org/), não uma Central de PubMed página. Fornecer um URL estável para o texto integral do documento, se disponível. Para maximizar a acessibilidade, isto pode referir-se à versão PubMed Central. Fornece o idioma do documento. Para documentos disponíveis em vários idiomas, fornecer ambos, separados por um ponto e vírgula. 3. médico conteúdo Nota: Valores nesta categoria identificam recursos de nível de documento, nível de conceito e nível de texto. Eles servem para melhorar a acessibilidade, a interoperabilidade e reutilização do documento. Esses recursos fornecem maneiras para observar semelhanças conceituais e semânticas entre o conteúdo do documento, com foco em temas biomédicos e eventos. A maioria das categorias nesta seção podem incluir várias instruções de texto e cada um deve ser separado usando um ponto e vírgula. Incluir detalhes contextuais em cada campo (por exemplo, “a mãe teve câncer de mama aos 50”) ao invés de fornecer apenas os termos de um vocabulário controlado (por exemplo, não “câncer de mama” sozinho). Não inclua detalhes abrangentes além de cada observação. Omita comumente repetidas palavras e frases (por exemplo, os pronomes, a palavra “paciente” e as frases “queixou-se de” ou “apresentado com”). Embora a subjetividade através de vários anotadores é provável, pode ser reduzida por ter vários anotadores para cada documento e através de normalização automática após a coleta de dados. Abordagens computacionais de pós-processamento variam de acordo com as necessidades de análise subsequente e não serão discutidas aqui em detalhes. Forneça as seguintes informações no modelo de anotação. Fornece termos específicos identificados dentro de um documento, geralmente em seu cabeçalho, como termos-chave. Separe com ponto e vírgula como termos podem incluir outra Pontuação. Fornece valores demográficos, especificamente quaisquer instruções de texto descrevendo o plano de fundo do paciente, incluindo o sexo e/ou gênero, idade, etnia ou nacionalidade. Fornece posições geográficas mencionadas dentro da narrativa clínica, além de endereços específicos da instituição. Isto não deve incluir locais/peças anatômicas, mas pode incluir qualquer localidade geográfica onde o paciente reside ou viaja. Fornece valores de estilo de vida, incluindo quaisquer instruções de texto descrevendo atividades pacientes frequentes ou comportamentos relevantes para a sua saúde geral. Na prática, isto frequentemente envolve a fumar ou hábitos de consumo de álcool, mas também pode incluir a exposição ao sol, dieta ou frequência de tipos específicos de atividade física. Fornece valores de histórico médico, referindo-se a história da família. Inclua quaisquer instruções de texto descrevendo as observações clínicas de e acontecimentos vividos pelos irmãos, pais e outros membros da família. Isso inclui as condições genéticas e observações negativas (ou seja, história familiar foi negativa para uma doença). Fornece valores, referindo-se a história Social, incluindo quaisquer instruções de texto descrevendo o paciente fundo não abrangido em demografia ou estilo de vida. Pode haver sobreposições em conteúdo entre essas categorias. As instruções podem incluir história ocupacional e hábitos sociais. Fornece valores, referindo-se a história de médico e cirúrgico do paciente. Inclua quaisquer instruções de texto descrevendo as observações médicas, tratamentos ou outros eventos que ocorrem antes do início da apresentação clínica. Isso inclui história obstétrica e períodos de boa saúde, onde anotado. Especifique um ou mais das seguintes categorias de sistema 16 doença. Note que estes valores são categóricos ao invés de texto livre. Categorias não são abrangentes, mas devem indicar a maioria dos sistemas afetados pelos eventos descritos na apresentação clínica e diagnosticada a doença. Siga um conjunto específico de categorias, com base nas categorias utilizadas na classificação estatística Internacional de doenças e problemas de saúde relacionados, revisão 10 sistema de código (CID-10). Consulte a tabela 1 para a lista de categorias do sistema doença juntamente com intervalos correspondentes do código CID-10. Fornecer detalhes de todos os sinais e sintomas. Inclua quaisquer instruções de texto descrevendo as observações médicas dos sinais ou sintomas, começando na apresentação inicial, incluindo o seu início, duração, severidade e resolução, se fornecido. Não incluem os sintomas descritos no resultado. Esses valores podem sobrepor-se com outros tipos, se os sintomas continuam com a história a apresentação inicial. Fornece detalhes de qualquer comorbidades. Inclua qualquer dos termos ou frases descrevendo doenças distintas presentes no momento da apresentação clínica inicial. Há provável sobreposição entre esses valores e aqueles na história clínica, embora comorbidade não deve incluir termos idênticos no diagnóstico. Fornece dados de todos os procedimentos e técnicas de diagnóstico. Incluir os nomes de procedimentos médicos praticados fins de diagnósticos, incluindo exames, testes e imagem, bem como as condições sob as quais estes testes foram realizados e relevantes anatômicos locais (por exemplo, “extremidade superior venosa ultrasom “). Exclua resultados de teste. Fornece dados de diagnóstico. Inclua quaisquer instruções de texto descrevendo o diagnóstico da doença, mesmo se o diagnóstico final é ambíguo. Fornecer todos os valores de laboratório e os resultados do teste. Inclua nomes de testes de diagnóstico, seus valores e as condições sob as quais eles foram realizados. Isto implicará sobreposição com termos usados no tipo de dados de procedimentos e técnicas de diagnóstico. Valores numéricos e qualitativos (por exemplo, hemograma completo, estava dentro dos limites normais) são aceitáveis. Se não forem fornecidos os nomes dos testes de diagnóstico, use termos descrevendo os resultados (por exemplo, leucopenia), embora eles também devem ser incluídos nos sinais e sintomas. Fornece detalhes da patologia. Inclua quaisquer instruções de texto descrevendo os resultados dos estudos de patologia e histologia, incluindo estudos de patologia e Imunologia microscopia brutos. Termos podem sobrepor-se com os utilizados em técnicas de diagnóstico e procedimentos (passo 3.11), por exemplo, com os procedimentos realizados para obter amostras de biópsia. Fornece todas as terapias farmacológicas. Inclua qualquer texto instruções descrevendo terapias medicamentosas utilizadas no decorrer do tratamento, incluindo termos gerais tais como antibióticos ou drogas específicas nomes. Além disso, inclua descrições de como e quando as terapias medicamentosas foram paradas. Fornece todos os procedimentos de intervenção. Inclua qualquer texto instruções descrevendo procedimentos terapêuticos utilizados no decorrer do tratamento, incluindo procedimentos invasivos, implantação de dispositivos médicos e procedimentos feitos para facilitar a outras terapias. Além disso, inclua descrições de quando e como procedimentos terapêuticos em curso foram parados, se necessário. Fornece o resultado do paciente. Inclua quaisquer instruções de texto descrevendo a saúde do paciente no final da apresentação clínica descrita no relatório, incluindo testes de acompanhamento. Fornece contagens de todas as imagens de diagnósticos, figuras, vídeos/animações e tabelas. Incluem todas as acusações de meios visuais incluídas no relatório, no seguinte formato: contagem de imagens; Contagem de figuras; Contagem de vídeos ou animações; Contagem de tabelas. Distinguir entre imagens e figuras desta forma: imagens incluem quaisquer produtos de diagnósticos clínicos, incluindo fotografias, micrografias, eletrocardiograma ritmo imagens e outros produtos de diagnóstico por imagem, enquanto figuras são todas as outras imagens, em geral, incluindo dados gráficos e ilustrações. Fornecem evidência de relacionamentos para outros CCRs. Neste campo pode incluir identificadores (por exemplo, PMIDs) de outros relatórios em conjunto de dados, citado por ou fazendo referência a este relatório. Fornece provas de relacionamentos para ensaios clínicos. Neste campo pode incluir identificadores dos ensaios clínicos, citando esta CCR. Identifica os ensaios por seus identificadores ClinicalTrials.gov, precedidos pela NCT, ou outro identificador estável. Incluir ligações cruzadas de banco de dados correspondente a este documento, incluindo identificadores, de preferência como nomes de banco de dados e estável de URLs. 4. agradecimentos Notas: Valores nesta categoria identificam recursos de nível de documento ainda tem pouca estrutura consistente em publicações. Eles fornecem detalhes sobre as organizações, fornecendo suporte para um CCR e trabalhos relacionados. Esta categoria também inclui um campo para a contagem total de referências citadas por um artigo: isto se destina a fornecer uma métrica áspera do grau ao qual um documento tem relações conceituais com outros documentos biomédicas de qualquer tipo. Dentro os tipos de quatro dados nesta secção, fornece o seguinte. Especifica todas as fontes de financiamento o trabalho de apoio e correspondente PI bem como números de prêmio relevante. O primeiro valor, fonte de financiamento, deve incluir os nomes de todas as organizações, fornecendo apoio financeiro para o trabalho. Organizações separadas com ponto e vírgula e espaços, por exemplo, Institutos nacionais de saúde/National Cancer Institute; DOE; Smith-Parque Foundation . Para o seguinte valor, prêmio número, especifique qualquer prêmio números ou denominações específicas fornecidas juntamente com os destinatários dos prêmios, se for caso disso, como iniciais dos destinatários entre parênteses, por exemplo, R01HL123123 (para o JP) , NS12312 (para o JP, JS), bolsa de formação de pesquisa (para JS). Os autores podem afirmar explicitamente que nenhuma informação correspondente está disponível (por exemplo, “nenhum financiamento foi recebido”); nesses casos, use o texto fornecido pelos autores como o valor de fonte de financiamento. Caso contrário, o valor deve ser NA. Especifica divulgações/conflitos de interesse, conforme especificado pelos autores, por exemplo, JP é consultor da DrugCo. Os autores podem afirmar explicitamente que nenhuma informação correspondente está disponível (por exemplo, “não há conflito de interesses é declarado”); nesses casos, use o texto fornecido pelos autores como o conflito/divulgações de valor de interesse. Caso contrário, como acima, o valor deve ser NA. Especifica uma contagem numérica de todas as referências citadas pelo documento, não incluindo aqueles fornecidos em qualquer material suplementar. Nenhum texto de referência deve ser incluído neste campo.

Representative Results

Um exemplo do processo de anotação é mostrado na Figura 2. Este caso22 descreve uma apresentação de infecção por patógeno bacteriano Burkholderia thailandensis. Para referência, a parte relevante desta CCR é fornecida no formato de texto sem formatação no arquivo complementar 1; alguns resultados de investigação também são apresentados neste relatório e são incluídos para comparação. Na prática, a conversão de relatórios fornecidos em formato HTML ou PDF para texto sem formatação pode melhorar a eficiência e facilidade de extração de metadados. Exemplos de dois conjuntos de anotações de metadados concluídos CCR são fornecidos na tabela 2. O primeiro destes exemplos é dados fictícios para ilustrar o formato ideal de cada valor, enquanto o segundo exemplo contém valores extraídos de uma CCR publicado em uma condição rara, Acrodermatite enteropática23. Figura 1. Fluxo de trabalho para a anotação de relato de caso. O protocolo descrito aqui fornece um método para identificação de características textuais frequentemente presentes dentro de relatos de casos clínicos. Este processo exige a montagem de um corpus de documento. O produto do processo de anotação, uma vez agregado em um único arquivo, permite a identificação das características de texto associado com conceitos médicos e suas descrições dentro de relatos de casos. Clique aqui para ver uma versão maior desta figura. Figura 2. Identificação de texto específicos do conceito em um relato de caso clínico. Começando com o texto de um relato de caso, um annotator manual pode progredir através do documento, identificação de segmentos de texto correspondente a cada componente do modelo de metadados. Características de identificação são destacadas em azul. Texto correspondente aos conceitos médicos está em vermelho e rotulado com o seu tipo; todo o texto realçado na terceira coluna se refere ao tipo de patologia. Clique aqui para ver uma versão maior desta figura. Categoria Descrição CID-10 Capítulo Intervalo de código do CID-10 câncer Qualquer tipo de câncer ou neoplasia maligna. II C00-D49 nervoso Qualquer doença do cérebro, espinha ou nervos. VI G00-G99 cardiovascular Qualquer doença do coração ou sistema vascular. Não inclui doenças hematológicas. IX I00-I99 músculo-esqueléticas e reumáticas Qualquer doença dos músculos, sistema esquelético, articulações e tecidos conjuntivos. XIII M00-M99 digestivo Qualquer doença do trato gastrointestinal e órgãos digestivos, incluindo o fígado e o pâncreas. XI K00-K95 ginecológica e obstétrica Qualquer doença relacionadas com a gravidez, parto, o sistema reprodutivo feminino ou os seios. XIV; XV O00-O9A; N60-N98 infecciosas Qualquer doença causa por microorganismos infecciosos. Eu A00-B99 respiratória Qualquer doença dos pulmões e das vias respiratórias. X J00-J99 hematológicas Qualquer doença do sangue, medula óssea, gânglios linfáticos ou baço. III D50-D89 renais e urológicas Qualquer doença dos rins ou da bexiga, incluindo os ureteres, bem como os órgãos reprodutores masculinos, incluindo a próstata. XIV N00-N53; N99 sistema endócrino Qualquer doença de glândulas endócrinas, os distúrbios metabólicos. IV E00-E89 oral e maxilofacial Qualquer situação que envolve a boca, mandíbula, cabeça, rosto ou pescoço. XI; XIII K00-K14; M26-M27 olho Qualquer situação que envolve os olhos, incluindo cegueira. VII H00-H59 otorrinolaringológicas Qualquer condição da orelha, nariz ou garganta. VIII H60-H95; J30-J39 pele Qualquer doença de pele. XII L00-L99 raro Uma categoria especial reservada para relatos de doenças raras, definidos como aqueles impactando menos de 200.000 pessoas nos Estados Unidos (ver https://rarediseases.info.nih.gov/diseases) AT AT Tabela 1. Categorias de doença para anotação de documento. As categorias listadas aqui são aqueles a ser usado para o tipo de dados do sistema de doença no modelo de metadados do documento. Como cada apresentação da doença pode envolver vários órgãos ou etiologias, um único relato de caso clínico pode corresponder a várias categorias. Estas categorias Sigam-aqueles usados para diferenciar as seções da classificação estatística Internacional de doenças e problemas de saúde relacionados, em grande parte revisão 10 (CID-10) do código sistema: correspondentes capítulos da CID-10 e intervalos de código são fornecidos. Algumas categorias, como que para doenças orais e Maxilofaciais , correspondem às várias seções do sistema ICD-10. Tipo de dados Exemplo #1 Exemplo #2 (Cameron e McClain, 1986) Documento e identificação de anotação ID interno CCR005 CCR2000 Data de anotação 2 de março de 2018 1 de março de 2018 Identificação de relato de caso Título Um caso de endocardite. Histopatologia ocular de Acrodermatite enteropática. Autores Grant AB; CD de Chang JD Cameron; McClain CJ Ano 2017 1986 Diário Jornal do mundo da medicina e relatos de casos Jornal britânico de Oftalmologia Instituição Departamento de medicina, divisão de Cardiologia, primeiro General Hospital, Boston, Massachusetts, EUA Departamento de Oftalmologia, faculdade de medicina da Universidade de Minnesota, Minneapolis, Minnesota 55455 Autor correspondente Grant AB JD Cameron PMID 25555555 3756122 DOI 10.1011/wjmcr.2017.11.001 AT Link https://www.NCBI.nlm.nih.gov/PMC/articles/PMC9555555/ https://www.NCBI.nlm.nih.gov/PMC/articles/PMC1040795/ Língua Inglês Inglês Conteúdo médico Palavras-chave brucelose; endocardite; válvula mitral AT Demografia homem de 37 anos de idade criança do sexo masculino Localizações geográficas Florida; Rio de Janeiro, Brasil AT Estilo de vida fumante; bebe álcool ocasionalmente AT História da família terceiro de cinco filhos de pais consanguíneos; irmão mais novo tem eczema crônico AT História social trabalhador da construção civil AT História médica/cirúrgica história de fadiga 8 Libra 9 onça (3884 g) produto de uma gravidez a termo simples, completo; em boa saúde até a idade de 1 mês quando ele desenvolveu uma erupção cutânea bolhas em suas bochechas; bolhas se espalharam para envolver a pele ao redor do olhos, nariz e boca; as lesões cutâneas também foram anotadas no abdômen e extremidades; diarreia e falha prosperar; biópsia de pele naquela época mostrou parakeratosis típico de Acrodermatite enteropática; tratados durante os próximos seis anos com cursos intermitentes de antibióticos de largo espectro, o leite materno e diodoquin; respondeu parcialmente; desenvolvido a alopécia total, Acrodermatite intermitente e diarreia intermitente com ganho de peso de qualidade inferior; espasticidade, atribuída ao envolvimento do sistema nervoso central por ae tinha desenvolvido por 8 meses de idade; vários episódios de parada cardiorrespiratória em 11 meses; falta de coordenação das suas cordas vocais; traqueostomia; por 18 meses de idade, a criança desenvolveu pesquisando nistagmo associado com atrofia óptica bilateral e ligeira atenuação dos vasos da retina, bem como sinais de retardo psicomotor; ceratoconjuntivite bilaterais; erupção cutânea; segunda biópsia de pele realizada aos 3 novamente mostrou parakeratosis típico para ae; erupções cutâneas graves e diarreia; opacidades de córnea bilaterais brutas anteriores foram vistas que tinha resolvido completamente quando que ele foi reexaminado aos cinco; infecções frequentes, incluindo otite média, infecções do trato urinário e infecções da pele Sistema de doença cardiovascular; infecciosas digestivo; pele; olho; raro Sinais e sintomas palpitações e dispneia na semana anterior; apresentou-se com calafrios, cefaleia e letargia blepharoconjunctivitis grave e vascularização corneal anterior bilateral; erupções cutâneas graves e diarreia; sepse bacteriana gram-negativa; lesões típicas de Acrodermatite enteropática, ausência de tecido tímico, marcado a degeneração dos nervos ópticos, quiasma e folhetos ópticas e degeneração cerebelar extensiva de pele Comorbidade hipertensão arterial; hiperlipidemia AT Procedimentos e técnicas de diagnóstico Exame físico; eletrocardiografia; culturas de sangue exame ocular; necropsia Diagnóstico Endocardite de Brucella Acrodermatite enteropática Valores de laboratório aumento da proteína c – reativa (9 mg/dl); fosfatase alcalina (250 u/l) AT Patologia Brucella melitensis foi cultivado a partir de amostras de sangue os olhos direito e esquerdos foram semelhantes na aparência; epitélio corneano foi reduzido em espessura de um a três camadas celulares de células epiteliais escamosas achatadas sobre toda a superfície da córnea; todos polaridade do epitélio foi perdida. membrana de Bowman pode ser identificada somente na periferia da córnea direita. membrana do bowman não pôde ser identificada na córnea esquerda. pannus degenerativas nem inflamatória poderia ser identificado em qualquer olho; extensa atrofia dos músculos oblíquos e circulares do corpo ciliar; alguns migração posterior da lente epitélio capsular e alterações degenerativas corticais precoce; degeneração extensa do epithelium retinal do pigment em todo o polo posterior; retina foi anexado e mostrou alterações autolítico suaves por toda parte; alguma preservação da haste e o cone externas segmentos no polo posterior, no entanto, essas estruturas foram completamente perdidas anterior do Equador; perda extensa de gânglio célula e nervo fibras camadas de ambos os olhos; atrofia quase completa do disco e adjacentes de nervo óptico Terapêutica farmacológica gentamicina 240 mg/iv/diários AT Terapia de Inverventional substituição da prótese valvular AT Avaliação dos resultados do paciente recuperação foi tranquila; descarregada em casa morreu em 1971 (7 anos de idade) Diagnóstico de imagem/vídeo gravação 2; 1; 0; 1 7; 0; 0; 0 Relação com outros relatos de casos 5555555 23430849 Relação com o julgamento de Clinial NCT05555123 AT Crosslink com Banco de dados MedlinePlus saúde informações: https://medlineplus.gov/ency/article/000597.htm HighWire – PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; Europa Central de PubMed: http://europepmc.org/abstract/MED/3756122; Aliança genética: http://www.diseaseinfosearch.org/result/143 Agradecimentos Fonte de financiamento Institutos nacionais de saúde/nacional coração, pulmão e sangue Institute O clube de leões de Minnesota; Pesquisa de prevenção da cegueira; Administração dos veteranos; Escritório de álcool e outras drogas de abuso programação do estado de Minnesota Número de prêmio R01HL123123 (para AG) AT Divulgações/conflito de interesse Dr. Grant é um porta-voz pago para DrugCo. AT Referências 4 27 Tabela 2. Modelo de metadados padronizados para caso clínico relata, com anotações de exemplo. Um conjunto de características comuns a caso clínico relata e facilitar suas anotações do conceito-nível é mostrado aqui. Este modelo está organizado em três seções principais: identificação, conteúdo médico e confirmações, denotando a finalidade e valor adicional proporcionada por cada tipo de recurso de relatório do caso. Esta tabela contém dois conjuntos de anotações de exemplo, um de um relato ficcional, e outro conjunto derivado de um relatório sobre a condição Acrodermatite enteropática23. Arquivo suplementar 1. Texto de um relato de caso clínico (Chang et al 2017). clique aqui para baixar este arquivo.

Discussion

Implementação de um modelo de metadados padronizados para CCRs pode tornar seu conteúdo mais justo, expandir a sua audiência e estender seus aplicativos. Na sequência do uso tradicional do CCRs como ferramentas educacionais em comunicações médicas, estagiários da saúde (por exemplo, estudantes de medicina, estagiários e bolsistas) e investigadores biomédicos podem encontrar que permite que conteúdo resumido relato de caso mais rápida compreensão. A maior força de padronização de metadados com CCRs, no entanto, é que a indexação dessas transformações de dados caso contrário isolado observações em padrões interpretáveis. O protocolo fornecido aqui pode servir como o primeiro passo em um fluxo de trabalho para trabalhar com CCRs, se este fluxo de trabalho consiste em análise epidemiológica, droga pós-comercialização ou vigilância de tratamento ou pesquisas mais amplas de patogênese ou eficácia terapêutica. Estruturado características identificadas dentro CCRs podem fornecer um recurso útil para pesquisadores, com foco em apresentações da doença e tratamentos, especialmente para doenças raras. Pesquisadores clínicos podem encontrar dados sobre últimos esquemas de tratamento para analisar gravados sintomas ou efeitos colaterais e grau de melhoria sob padrões anteriores de cuidados. Os dados também podem conduzir a análises mais amplas de um novos tratamentos com base na eficácia, ausência de efeitos adversos ou toxicidade, ou na droga, visando diferenças de gênero, faixa etária ou fundo genético.

Os benefícios proporcionados pelos metadados estruturados são similarmente aplicáveis aos fluxos de trabalho computacionais projetados para analisar ou modelo de linguagem médica. Características CCR estruturadas também podem fornecer conteúdo de provas das áreas onde os autores de relatório podem fornecer mais facilmente legível por máquina (e em alguns casos, legível). Variância entre CCRs pode resultar de uma falta de observações explicitamente fornecidas: por exemplo, a idade exata do paciente não pode ser especificada. Da mesma forma, os médicos não podem mencionar testes se os diagnósticos ou seus resultados foram considerados triviais. Fornecendo exemplos de aberturas necessárias para uma análise aprofundada, reforçando a estrutura na CCRs destaca melhorias potenciais. Em uma perspectiva mais ampla, uma maior disponibilidade de dados de texto estruturado de documentos médicos suporta (PNL) os esforços para aprender com grande volume de dados em saúde²⁴^,²⁵de processamento de linguagem natural.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi financiado em parte pelo nacional do coração, pulmão e sangue Instituto: R35 HL135772 (a P. Ping); Instituto Nacional de ciências médicas do General: U54 GM114833 (a P. Ping, K. Watson e W. Wang); Instituto Nacional de imagem biomédica e bioengenharia: EB016640 T32 (para r. Bui); um presente da Fundação Hoag e Dr. S. Soares; e a doação de T.C. Laubisch na UCLA (a P. Ping).

Materials

A corpus of clinical case reports

n/a

Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers.

References

Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).
Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293 (2012).
Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330 (2001).
Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).
Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l’Académie des Sciences. 101, 765-774 (1885).
Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).
Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217 (1943).
Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018 (2016).
Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).
McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).
. CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017)
Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).
Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).
Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372 (2017).
Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).
Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).
Soysal, E., et al. CLAMP – a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).
Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).
Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).
Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).
Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).
Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Caufield, J. H., Liem, D. A., Garlid, A. O., Zhou, Y., Watson, K., Bui, A. A. T., Wang, W., Ping, P. A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts. J. Vis. Exp. (139), e58392, doi:10.3791/58392 (2018).

Uma abordagem de extração de metadados para relatos de casos clínicos habilitar avançada compreensão dos conceitos biomédicos

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Uma abordagem de extração de metadados para relatos de casos clínicos habilitar avançada compreensão dos conceitos biomédicos

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below