A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts

John Harry Caufield; David A. Liem; Anders O. Garlid; Yijiang Zhou; Karol Watson; Alex A. T. Bui; Wei Wang; Peipei Ping

doi:10.3791/58392

JoVE Journal > Medicine

Please note that all translations are automatically generated. Click here for the English version.

Medicine

있도록 임상 사례 보고서에 대 한 메타 데이터 추출 방법 고급 생물 의학 개념의 이해

Published: September 20, 2018

doi:

10.3791/58392

John Harry Caufield², David A. Liem^2,3, Anders O. Garlid², Yijiang Zhou, Karol Watson³, Alex A. T. Bui^5,6,7, Wei Wang^7,8,9, Peipei Ping^2,3,7,8

Summary

우리는 프로토콜 및 관련된 메타 데이터 템플릿을 임상 사례 보고서에 생물 의학 개념을 설명 하는 텍스트의 추출에 대 한 현재. 이 프로토콜을 통해 생산 하는 구조화 된 텍스트 값 임상 서술의 수천의 깊은 분석을 지원할 수 있습니다.

Abstract

임상 사례 보고서 (CCRs)는 관찰과 의학에 대 한 통찰력을 공유 하는 귀중 한 수단입니다. 이러한 문서 형태의 변화, 그리고 그들의 내용 설명을 포함, 수많은 새로운 질병의 프레 젠 테이 션 및 치료. 지금까지, CCRs 내의 텍스트 데이터 크게 구조적, 심층 분석에 대 한 유용한 이러한 데이터를 렌더링 하는 데 중요 한 인간과 전산 노력을 필요로지 않습니다. 이 프로토콜에서 우리는 자주 CCRs 내 관찰 특정 생물 의학 개념에 해당 하는 메타 데이터를 식별 하기 위한 방법을 설명 합니다. 제공 메타 데이터 템플릿을 가이드로 문서 주석, 그 CCRs에 구조를 부과 수 있습니다 의해 추구 조합 수동 및 자동 인식 합니다. 여기에 제시 된 접근 큰 문학 모음 (예를 들어, 수천의 CCRs)의 개념 관련 텍스트의 조직 적합 하지만 더 초점 맞춘된 작업 보고서의 작은 세트를 촉진 하기 위하여 쉽게 적용할 수 있습니다. 결과 구조화 된 텍스트 데이터는 다양 한 후속 텍스트 분석 워크플로우를 지원 하기 위해 충분 한 의미 맥락을 포함: CCR을 극대화 하는 방법을 결정 하는 메타-분석 세부 사항, 희귀 질환의 역학 연구의 모델의 개발 의료 언어 모두 만들 수 있습니다 더 실현 가능 하 고 구조화 된 텍스트 데이터를 사용 하 여 관리.

Introduction

임상 사례 보고서 (CCRs)는 관찰과 의학에 대 한 통찰력을 공유 하는 기본적인 수단입니다. 이러한 커뮤니케이션 및 임상 및 의료 학생을 위한 교육의 기본적인 메커니즘 역할을 합니다. 역사적으로, 신흥 질병의 계정, 그들의 치료 및 그들의 유전 배경¹^,²^,^,³⁴CCRs 또한 제공. 예를 들어 1885⁵^,⁶ 루이 파스퇴르에 의해 인간 광견병의 첫 번째 치료와 환자⁷ 했다 페니실린의 첫 번째 응용 프로그램 모두 CCRs 통해 보고. 1.87 백만 이상 CCRs 지난 10 년간;는 절반 백만와 4 월 2018, 현재 출판 되었습니다. 저널은 이러한 보고서⁸에 대 한 새로운 장소를 제공 하기 위해 계속 됩니다. 독특한 형태와 내용, CCRs 대부분 구조화 되지 않은 텍스트 데이터를 포함, 포함 하는 광대 한 어휘 고 우려 상호 현상, 구조적된 자원으로 그들의 사용을 제한. 상당한 노력 세부적인된 메타 데이터를 추출 하는 데 필요한 (즉, “데이터에 대 한 데이터”, 또는이 경우, 문서 내용에 대 한 설명) CCRs에서 findable, 접근, 상호 운용성 및 재사용 (공정)⁹ 데이터 설정 리소스입니다.

텍스트 및 숫자 값을 설명 게시 된 CCRs 내 특정 생물 의학 개념의 표준화를 추출 하기 위한 과정을 설명 합니다. 이 방법론을 주석; 안내 메타 데이터 템플릿을 포함 이 프로세스의 개요 그림 1 을 참조 하십시오. 보고서의 큰 컬렉션을 주석 프로세스의 응용 프로그램 (예: 특정 유형의 질병 프레 젠 테이 션의 여러 천) 읽을 달성 관리 및 구조화 된 주석된 임상 텍스트의 조립 허용 설명서 및 생명 현상 각 임상 프레 젠 테이 션 내에서 포함 된. 비록 HL7 제공 하 데이터 형식 (예., 메시징 표준¹⁰ 또는 빠른 의료 상호 운용성 리소스 [FHIR]¹¹의 버전 3), LOINC¹²및 국제 통계의 개정 10 질병과 관련 건강 문제 (ICD-10)의 분류¹³ 설명 하 고 교환 하는 임상 관측에 대 한 기준, 그들은이 데이터를 둘러싼 텍스트를 캡처하지 않습니다 없으며 그들은 위한 것입니다. 우리의 방법론의 결과 최고의 CCRs에 구조를 적용 하 고 이후 분석, 제어 어휘 및 코딩 시스템을 통해 정상화를 촉진 하는 데 사용 됩니다 (예., ICD-10), 또는 위에 나열 된 임상 데이터 형식 변환 .

CCRs 광업 생물 의학 및 임상 정보 내에서 작업의 활성 영역입니다. 비록의 구조를 표준화 하기 이전 제안 사례 보고서 (예., HL7 v2.5¹⁴ 를 사용 하 여 또는 표현 형 용어¹⁵표준화)는 훌 륭, CCRs 계속 따라 다양 한 다른 것입니다 높습니다 자연 언어 양식 및 문서 레이아웃, 그들은 지난 세기의 다량을 위해. 이상적인 조건 하에서 새로운 사건 보고서의 저자는 되도록 그들은 포괄적인 관리 지침¹⁶ 를 따릅니다. 접근 자연 언어와의 관계에 민감한 의료 개념을 따라서 새로운 및 보관 된 보고서 작업에 가장 효과적인 수 있습니다. 공예¹⁷ 와 같은 리소스 정보에 의해 통합 생물학에 대 한 생산과 머리 맡 (i2b2)¹⁸ 큐레이터 자연 언어 처리 (NLP) 접근 지원 아직 CCRs 또는 임상 서술에 특별히 초점을 하지 않습니다. 마찬가지로, cTAKES¹⁹ , 클램프²⁰ 등 의료 NLP 도구 개발 되었습니다 하지만 일반적으로 일반적으로 CCRs에 설명 된 일반적인 개념 보다는 문서 내에서 특정 단어 또는 구가 (즉, 엔터티)를 식별.

우리 CCRs 내에서 일반적으로 포함 된 기능에 대 한 표준화 된 메타 데이터 템플릿을 설계 했습니다. 이 템플릿은 CCRs에 구조를 부과 하는 기능을 정의-문서 내용의 심층 비교에 대 한 필수적인 전조-아직 의미 맥락을 유지 하는 충분 한 유연성을 허용. 비록 우리는 관련 된 수동 주석 및 계산 기반 텍스트 마이닝에 대 한 적절 한 것이 서식 파일 형식 디자인, 우리 보장 그것은 특히 대 한 수동 창고가 사용 하기 쉬운입니다. 우리의 접근 방식은 눈에 띄게 다릅니다에서 더 복잡 한 (그리고, 따라서, 일반인을 즉시 이해할 수 있는 연구에 더 적은) FHIR²¹과 같은 프레임 워크. 다음 프로토콜 단일 CCR에 해당 하는 값의 단일 집합으로 각 템플릿 데이터 형식에 해당 하는 문서 기능을 분리 하는 방법을 설명 합니다.

서식 파일 내에서 데이터 형식 자들 CCRs 및 환자 중심 의료 문서에 대 한 설명이 가장 일반적. 이러한 기능의 주석 주로 하 여 구조 findability, 접근성, 상호 운용성, 그리고 CCR 텍스트의 재사용을 촉진 합니다. 데이터 유형은 4 개의 일반적인 범주: 문서와 주석 식별, 사례 보고서 (즉, 문서 수준 속성), 의료 콘텐츠 개념 (주로 개념 수준 속성), 신분증과 승인 (즉 자금의 증거를 제공 하는 기능). 이 주석 과정에서 각 문서는 생략 하는 경우 (예를 들어, 실험 프로토콜)에 독립적인 문서 내용을 자료는 CCR의 전체 텍스트를 포함 합니다. CCRs는 일반적으로 미만 1000 단어 각; 단일 모음 같은 서 데이터베이스 인덱싱할 수 이상적으로 그리고 동일한 문자 언어에서.

CCR 모음에 적용 될 때 여기에 설명 된 방식의 제품 임상 주석된 텍스트의 구조적된 집합입니다. 이 방법론 완전히 수동으로 수행할 수 있습니다 하는 동안 어떤 정보학 경험 없이 도메인 전문가 의해 수행 하도록 설계 되었습니다, 그것은 위에서 지정한 자연 언어 처리 접근을 보완 하 고에 대 한 적절 한 데이터를 제공 합니다. 계산 분석입니다. 같은 분석 포함 하 여, CCRs 자주 읽고 넘어 연구원의 고객에 게 관심 수 있습니다.

그 우려와 질병 프레 젠 테이 션, 그들의 주요 symptomology, 일반적인 진단 방법, 치료
잠재적으로 제공 하는 추가적인 관찰과 통계 강국 임상 문학 내에서 설명 하는 이벤트와 임상 시험의 결과 비교 하려는 사람들.
생물 정보학, 생물 정보학, 및 구조적된 의료 언어 데이터 집합 또는 의료 서술의 높은 수준의 이해를 요구 하는 컴퓨터 과학 연구원
정부 정책 연구원 어떻게 임상에 잘 반영 될 수 있습니다 진단 및 치료로 현실에서 발생 하는 방법을

CCRs에 구조를 적용 하는 것은 의료 언어와 생명 현상 이해 하기 수많은 후속 노력 지원할 수 있습니다.

Protocol

1. 문서 및 주석 식별 참고: 값이이 범주에서 주석 과정을 지원합니다. 주석 템플릿을 사용 하 여,이 메타 데이터에 특정 식별자 설정, 예를 들어, Case123를 제공 합니다. 식별자 형식 (예를 들어, Case500를 통해 Case001 ) 프로젝트 전반에 걸쳐 일관 되어야 합니다. 날짜는 문서 읽고 되었고 주석을 지정 합니다. “월 10 2018″를 닮은 형식을 사용 하 여 일관성과 가독성에 대 한. 2. 사례 보고서 확인 참고: 값이이 범주에 문서 수준 기능을 제공 하 고 문서 findability을. 각 필드의 형식으로 일관 된 모든 주석에서 예를 들어, 개별 값에서 모든 항목 다음에 공백 없이 세미콜론으로 구분 해야 합니다. 원본 문서 또는 그 MEDLINE 같은 서 데이터베이스에 사용에 사용 되는 동일한 형식을 사용 합니다. 문서 제목을 제공 합니다. 제공 된 순서로 문서의 모든 작가의 이름을 제공 합니다. 모든 이름의 형식을 표준화, 등 그 모든 이름 이니셜의 어떤 수에 따라 단일 성의 형태, 예를 들면 제인 B. 공원 공원 JB된다. 제목을 포함 하지 마십시오. 존 A. 스미스, 제인 B. 파크 걸립니다 스미스 JA;의 형태는 여러 작가 추가 문장 부호 없이 세미콜론 구분 공원 JB. 문서의 간행물의 년을 제공 합니다. 문서가 게시 된 저널의 전체 제목을 제공 합니다. 제어 저널 이름 목록 NLM 카탈로그 (https://www.ncbi.nlm.nih.gov/nlmcatalog). 에 의해 제공 됩니다. 문서에 지정 된 문서의 저자의 가정 기관의 주소를 제공 합니다. 이 부서, 지리적 위치, 및 우편 주소 정보를 포함할 수 있습니다. 여러 위치를 제공 하는 경우 (예를 들어, 저자 사이 다를 제휴 하는 경우), 해당 저자에 대 한만 세부 정보를 지정. 경우 해당 작성자를 식별할 수 없으면 사용 하는 첫 번째 저자 또는 기관 지정 하지 않으면. 경우에 해당 저자 여러 제휴, 둘 다를 지정 하 고 세미콜론으로 구분. 해당 저자의 저자 데이터 형식에 사용 되는 동일한 형식을 사용 하 여 문서 제목 내에서 지정 된 문서를 제공 합니다. 문서 식별자 (예를 들어, 는 PMID)를 제공 합니다. 디지털 객체 식별자를 제공 가능 하 고 사용할 수 있는 문서에 확인할 URL (https://www.doi.org/)를 통해, 아니라 PubMed 중앙 페이지. 문서의 전체 텍스트를 안정 되어 있는 URL을 제공 하는 사용 가능한 경우. 액세스 가능성을 최대화 하려면이 PubMed 중앙 버전을 참조할 수 있습니다. 문서 언어를 제공 합니다. 문서를 여러 언어로 사용할 수 모두를 제공에 대 한 세미콜론으로 구분 합니다. 3. 의료 콘텐츠 참고: 값이이 범주에 문서 수준, 개념 수준, 및 텍스트 수준 기능을 식별합니다. 그들은 문서의 접근성, 상호 운용성 및 재사용성 향상을 제공 합니다. 이러한 기능은 생물 의학 주제와 이벤트에 초점을 맞춘 문서 콘텐츠 사이의 개념 및 의미 체계 유사성을 관찰 하는 방법을 제공 합니다. 이 섹션에서 대부분 범주 텍스트 문을 여러 개를 포함할 수 있으며 각 세미콜론을 사용 하 여 구분 합니다. 각 필드에 컨텍스트 정보를 포함 (예를 들어, “어머니 나이 50에 유방암을 가진”)만 통제 되는 어휘에서 용어를 제공 하는 대신 (예: 하지 “유방암” 혼자). 각 관찰 넘어 광범위 한 정보를 포함 하지 마십시오. 일반적으로 반복 되는 단어와 구문 (예: 대명사, 단어 “환자”, 그리고 어구 “불평” 또는 “표시”)을 생략 합니다. 여러 명의 창고가 걸쳐 주관 높습니다, 비록 각 문서와 데이터 수집 후 자동된 정규화를 통해 여러 창고가 함으로써 줄일 수 있습니다. 계산 후 처리 방법 후속 분석 요구에 따라 다를 것 이다 고 여기 자세하게에서 논의 하지 않습니다. 주석 서식 파일에 다음 정보를 제공 합니다. 주요 용어의 헤더에 일반적으로 문서 내에서 식별 하는 특정 용어를 제공 합니다. 세미콜론으로 구분으로 용어 다른 문장 부호를 포함할 수 있습니다. 인구 값, 구체적으로 어떤 텍스트 문을 섹스 및 성별, 나이, 인종, 또는 국적을 포함 하 여 환자의 배경 설명 제공 합니다. 특정 기관 주소 이외의 임상 이야기에서 언급 하는 지리적 위치를 제공 합니다. 이 해 부 위치/부품, 포함 하지 말아야 하지만 어떤 지리적 로캘 환자 거주 또는 여행 포함 될 수 있습니다. 라이프 스타일 값, 빈번한 환자 활동 또는 그들의 일반 건강에 관련 된 동작을 설명 하는 모든 텍스트 문을 포함 하 여 제공 합니다. 실제로,이 자주 흡연 또는 알코올 소비 습관, 하 하지만 태양에 노출, 다이어트, 또는 신체 활동의 특정 종류의 주파수를 포함할 수 있습니다. 가족의 역사를 언급 하는 병력 값을 제공 합니다. 모든 텍스트의 임상 관찰을 설명 문과 이벤트 형제 자매, 부모, 및 다른 가족 구성원으로 경험된을 포함 합니다. 이 유전 조건과 부정적인 관측 (즉, 가족의 역사에 대 한 부정 되었다 질병) 포함. 인구 통계학 또는 라이프 스타일에 적용 되지 않는 환자 배경 설명 모든 텍스트 문을 포함 하 여 사회 역사를 참조 하는 값을 제공 합니다. 중복 콘텐츠 이러한 범주 사이에서 있을 수 있습니다. 산업 역사와 사회적 습관 문이 포함할 수 있습니다. 환자의 의료 및 외과 역사를 참조 하는 값을 제공 합니다. 설명 하는 어떤 의학 관측, 치료, 또는 다른 행사 임상 프레 젠 테이 션의 시작 전에 모든 텍스트 문을 포함 합니다. 산부인과 역사와 건강의 기간을 포함 하는이 참고에 언급 된. 다음 16 질병 시스템 범주 중 하나 이상을 지정 합니다. Note이 값은 무료 텍스트 대신 범주. 카테고리는 포괄적 하지만 임상 프레 젠 테이 션에 설명 된 대부분의 시스템 이벤트에 의해 영향을 나타내야 하 고 질병을 진단. 범주에 따라 분류의 특정 집합에 따라 국제 질병 분류 통계 및 관련 건강 문제, 수정 10 (icd-10) 코드 시스템 사용. 해당 ICD-10 코드 범위 함께 질병 시스템 카테고리의 목록에 대 한 표 1 을 참조 하십시오. 모든 징후와 증상. 의 세부 정보를 제공 징후 또는 증상이 초기 프레 젠 테이 션을 포함 하 여 그들의 발병, 기간, 심각도, 및 해상도 제공 하는 경우에 시작의 어떤 의학 관측을 설명 하는 모든 텍스트 문을 포함 합니다. 결과에서 설명 하는 증상을 포함 하지 마십시오. 증상이 초기 프레 젠 테이 션 역사에서 계속 하는 경우 이러한 값은 다른 종류와 겹칠 수 있습니다. 어떤 comorbidities의 세부 정보를 제공 합니다. 어떤 용어 또는 고유 질병 초기 임상 프레 젠 테이 션의 시간에 존재를 설명 하는 문구를 포함 합니다. Comorbidity 조건 진단에 동일을 포함 해서는 안 하지만 이러한 가치와 그 임상 역사에 겹치는 가능성이 있다. 모든 진단 기술 및 절차의 세부 정보를 제공 합니다. 의료 절차는 이러한 테스트 수행과 관련 된 해 부 위치 (예를 들어, “상부 말단의 정 맥은 조건 뿐만 아니라 시험, 테스트, 및 이미징를 포함 하 여 진단 목적 수행의 이름을 포함 초음파 “)입니다. 테스트 결과 제외 합니다. 진단의 세부 정보를 제공 합니다. 최종 진단이 모호한 경우에 질병의 진단 설명 모든 텍스트 문을 포함 합니다. 모든 실험실 가치를 제공 하 고 테스트 결과. 진단 테스트, 그들의 가치, 및 조건은 그들이 수행한의 이름이 포함 됩니다. 이 진단 기술 및 절차 데이터 형식에 사용 되는 용어와 오버랩을 포함할 것 이다. 숫자와 질적 (예, 완전 한 혈액 검사는 정상적인 한계 내에서) 가치관이 허용. 진단 테스트 이름을 제공 하지 않습니다 하지만 그들은 또한 징후와 증상에 포함 되어야 결과 (예: leukopenia), 설명 하는 용어를 사용 합니다. 병 리의 세부 정보를 제공 합니다. 총 병 리, 면역학, 그리고 현미경 연구를 포함 하 여, 병 리와 조직학 연구의 결과 설명 하는 모든 텍스트 문을 포함 합니다. 용어는 진단 기술 및 절차 (단계 3.11), 예를 들어, 생 검 등 샘플을 얻기 위해 수행 하는 절차에 사용 된와 겹칠 수 있습니다. 모든 약물 치료를 제공 합니다. 치료, 항생제 또는 특정 약물 이름. 일반 용어를 포함 하 여 동안 사용 하는 약물 요법을 설명 하는 모든 텍스트 문 포함 또한, 약물 치료 중단 했다 시기와 방법에 대 한 설명을 포함 합니다. 모든 중재 절차를 제공 합니다. 치료, 침략 적인 절차를 포함 한 의료 기기 및 다른 치료를 촉진 하기 위하여 수행 하는 절차의 이식 과정에서 사용 되는 치료 절차를 설명 하는 모든 텍스트 문을 포함 합니다. 또한, 포함의 설명 언제, 어떻게 지속적인 치료 절차 중지 했다, 필요한 경우. 환자 결과 제공 합니다. 모든 텍스트 문을 설명 하는 모든 후속 테스트를 포함 하 여 보고서에 설명 된 임상 프레 젠 테이 션의 끝으로 환자의 건강을 포함 합니다. 모든 진단 이미지, 그림, 비디오/애니메이션, 그리고 테이블의 카운트를 제공 합니다. 다음 형식에서 보고서에 포함 하는 영상 미디어의 모든 수를 포함: 이미지;의 수 수 인물; 비디오 또는 애니메이션; 수 테이블의 수입니다. 이미지와 인물 사이의 구별이 방식: 임상 진단, 등 사진, 현미경, 심전도 리듬 이미지, 진단 이미징, 숫자는 다른 모든 이미지의 다른 제품의 모든 제품을 포함 하는 이미지 일반적으로 데이터 플롯 및 삽화를 포함합니다. 다른 CCRs에 관계의 증거를 제공 합니다. 이 필드 데이터 세트에 의해 인용 또는 참조 하는이 보고서에서 다른 보고서의 식별자 (예: PMIDs)를 포함할 수 있습니다. 임상 시험에 대 한 관계의 증거를 제공 합니다. 이 필드는이 CCR를 인용 하는 임상 시험의 식별자를 포함할 수 있습니다. 시험 앞에 NCT, 그들의 ClinicalTrials.gov 식별자 또는 다른 안정 되어 있는 식별자를 식별 합니다. 안정적인 Url 및 데이터베이스 crosslinks 데이터베이스 이름으로 선호 식별자를 포함 하 여이 문서에 포함 됩니다. 4입니다. 승인 참고: 값이이 범주에 문서 수준 기능 아직 게시 작은 일관 된 구조를가지고. 그들은 CCR 및 관련된 작업에 대 한 지원을 제공 하는 조직에 대 한 세부 정보를 제공 합니다. 이 범주에는 문서에 의해 인용 하는 참조의 총 수에 대 한 필드 포함 됩니다:이 문서는 모든 종류의 다른 생물 의학 문서와 개념적 관계 있는 정도의 거친 통계를 제공 하기 위한 것 이다. 이 섹션의 4 개의 데이터 형식 내에서 다음을 제공 합니다. 지정 관련 보너스 번호 뿐만 아니라 모든 자금 출처는 작업을 지원 하 고 해당 곱했습니다. 첫 번째 값, 자금 소스는 작품에 대 한 재정 지원을 제공 하는 모든 단체의 이름을 포함 해야 합니다. 별도 조직에 세미콜론 및 공간, 예를 들어, 건강/국립 암 연구소의 국가 학회; 미상; 스미스 공원 재단 . 다음 값, 보너스 번호 지정 보너스 숫자 또는 특정 지정 상의 받는 사람에 게 제공에 대 한 적절 한, 괄호, 받는 사람의 이니셜으로 예를 들어, R01HL123123 (JP)를 , NS12312 (일본, JS)에, 연구 교육 교제 (JS). 저자 수 있습니다 명시적으로 해당 정보를 사용할 수 있다는 상태 (예: “아니 자금을 받았습니다”); 이 경우, 자금 소스 값으로 저자에 의해 제공 하는 텍스트를 사용 합니다. 그렇지 않으면, 값 없음. 여야 저자, 예를 들어, JP는 DrugCo에 대 한 컨설턴트에의해 지정 된 대로 공개/관심의 충돌을 지정 합니다. 저자 명시적으로 해당 정보를 사용할 수 있다는 상태 수 있습니다 (예를 들어, “관심 없음 충돌 선언”); 이 경우 공개/관심 값의 대립으로 저자에 의해 제공 하는 텍스트를 사용 합니다. 그렇지 않으면, 위의 값 여야 합니다 없음. 아니라 보충 자료에서 제공을 포함 하 여 문서에 인용 하는 모든 참조의 숫자 개수를 지정 합니다. 참고 텍스트는이 필드에 포함 되어야 합니다.

Representative Results

주석 과정의 예는 그림 2에 표시 됩니다. 이 경우22 Burkholderia thailandensis세균성 병원 체에 의해 감염의 프레 젠 테이 션을 설명합니다. 참고로,이 CCR의 관련 부분 보충 파일 1;에서 일반 텍스트 형식으로 제공 됩니다. 일부 연구 결과 또한이 보고서에서 제시 하 고 비교를 위해 포함 되어 있습니다. 실제로, 일반 텍스트에 HTML 또는 PDF 형식으로 제공 하는 보고서를 변환 효율성과 메타 데이터 추출의 용이성 향상 될 수 있습니다. 완성 된 CCR 메타 데이터 주석의 두 세트의 예는 표 2에 제공 됩니다. 이 예의 첫 번째 두 번째 예제에서는 드문 조건, acrodermatitis enteropathica23에 게시 된 CCR에서 추출 된 값을 포함 하는 동안 각 값의 이상적인 형식을 설명 하기 위해 모의 데이터입니다. 그림 1입니다. 사례 보고서 주석에 대 한 워크플로. 여기에 설명 된 프로토콜 텍스트 기능 자주 임상 사례 보고서 내 존재의 식별 하는 방법을 제공 합니다. 이 과정의 문서 모음을 필요로 한다. 단일 파일에 집계 한 번 주석 과정의 제품 식별 텍스트 기능 관련 의료 개념 및 사례 보고서 내에서 설명 된 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오. 그림 2입니다. 식별의 개념 특정 텍스트 임상 사례 보고서. 사례 보고서의 텍스트와 함께 시작, 수동 주석 수 있습니다 진행 문서를 통해 메타 데이터 서식 파일의 각 구성 요소에 해당 하는 텍스트 세그먼트를 식별 합니다. 식별 기능 파란색으로 강조 표시 됩니다. 의료 개념에 해당 하는 텍스트는 빨간색과 그들의 유형;와 분류 세 번째 열에 있는 모든 강조 표시 된 텍스트는 병리학 유형을 가리킵니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오. 카테고리 설명 ICD-10 장 ICD-10 코드 범위 암 암 또는 악성 신 생물의 모든 유형입니다. 2 세 C00 D49 긴장 뇌, 척추, 또는 신경의 어떤 질병. VI G00 ~ G99 심장 혈관 심장 혈관 시스템의 모든 질병입니다. 혈액 질병을 포함 되지 않습니다. IX I00 ~ I99 근 골격 계 및 류 마티스 어떤 질병의 근육, 골격 시스템, 관절, 그리고 결합 조직. 13 세 M00 ~ M99 소화 위장 및 소화 기관, 간, 췌 장 등의 어떤 질병. XI K00-K95 산과 및 부인과 임신, 출산, 여성의 생식 계, 또는 가슴에 관련 된 모든 질병. 14 세; XV O00-O9A; N60 N98 전염 성 질병 전염 성 미생물에 의해 발생합니다. 난 A00 ~ B99 호흡기 폐와 호흡기의 모든 질환입니다. X J00 ~ J99 혈액 어떤 질병의 혈액, 골 수, 림프절, 또는 비장. 3 세 D50 D89 신장 및 비뇨 신장 또는 방광, ureters, 전립선 등 남성 생식 기관을 포함 한 어떤 질병. 14 세 N00 N53; N99 내 분 비 신진 대사 장애 뿐만 아니라 내 분 비 동맥의 어떤 질병. 4 : E00 E89 구강 및 악 안 면 입, 턱, 머리, 얼굴, 또는 목과 관련 된 모든 상태. XI. 13 세 K00 ~ K14; M26 M27 눈 실명을 포함 한 눈과 관련 된 모든 상태입니다. 7 세 H00 ~ H59 otorhinolaryngologic 귀, 코, 목 구멍의 모든 상태. 8 세 H60 ~ H95; J30 ~ J39 피부 피부의 어떤 질병입니다. XII L00 ~ L99 드문 특별 한 카테고리 (https://rarediseases.info.nih.gov/diseases 참조) 미국에서 200000 미만 개인에 영향을 미치는 그 정의 희귀 질환의 보고서에 대 한 소유 NA NA 표 1입니다. 문서 주석에 대 한 질병 카테고리입니다. 여기에 나열 된 범주 질병 시스템 데이터 형식 문서 메타 데이터 서식 파일에 사용 되는. 각 질병의 프레 젠 테이 션 여러 기관 시스템 또는 etiologies 포함 될 수 있습니다, 단일 임상 사례 보고서는 여러 범주에 해당할 수 있습니다. 이러한 범주는 크게 국제 통계 분류의 질병과 관련 건강 문제, 섹션을 차별화 하는 데 사용 된 따라 수정 10 (icd-10) 코드 시스템: 해당 ICD-10 챕터 및 코드 범위가 제공 됩니다. 구강 및 악 안 면 질환에 대 한 그 같은 일부 카테고리는 ICD-10 시스템의 여러 섹션에 해당합니다. 데이터 형식 예제 #1 예제 #2 (카 메 론과 McClain 1986) 문서 및 주석 식별 내부 ID CCR005 CCR2000 주석 날짜 3 월 2 2018 3 월 1 2018 사례 보고서 확인 제목 심장 내 막 염의 경우입니다. Acrodermatitis enteropathica의 눈 histopathology입니다. 저자 부여 AB; 장 CD 카 메 론 JD; McClain CJ 1 년 2017 1986 저널 세계 의학 저널 사건 보고서 안 과학의 영국 전표 기관 의학과의 심장, 첫 종합 병원, 보스톤, 매사추세츠, 미국 학과의 안과, 미네소타의 대학 대학, 미네 아 폴리스, 미네소타 55455 해당 저자 부여 AB 카 메 론 JD PMID 25555555 3756122 도 10.1011/wjmcr.2017.11.001 NA 링크 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9555555/ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1040795/ 언어 영어 영어 의료 콘텐츠 핵심 단어 brucellosis; 심장 내 막 염; 승 모 판 NA 인구의 통계적 연구 37 세 남성 남자 아이 지리적 위치 프로 리 다; 리오 데 자네이, 브라질 NA 라이프 스타일 흡연 자; 가끔 알코올 음료 NA 가족 역사 consanguineous 부모;의 5 어린이의 3 분의 1 동생은 만성 습 진 NA 사회 역사 건설 노동자 NA 의료/외과 역사 피로의 역사 단순한, 전체 기간 임신;의 8 파운드 9 온스 (3884 g) 제품 이 때 그는; 그의 뺨에 젖어 피부 발진을 개발 하는 1 개월까지 좋은 건강에 눈, 코, 입; 주위 피부 참여 확산 발진 피부 병 변 또한 복 부 및 사지; 지적 했다 설사 및 번 창; 피부 생 검 당시에 보여주었다 parakeratosis acrodermatitis enteropathica;의 전형적인 광범위 한 스펙트럼 항생제, 모유, 및 diodoquin;의 간헐적인 과정으로 향후 6 년간 치료 부분적으로 반응 했다; 개발된 총 탈모 증, 간헐적인 acrodermatitis 및 간헐적인 설사 차선 체중 증가; spasticity는 ae에 의해 참여 하는 중앙 신경 기인 8 개월;에 의해 개발 했다 11 개월; 심폐 체포의 몇 가지 에피소드 그의 성 대;의 조율 부족 tracheostomy; 18 개월 아이 검색 nystagmus 양측 시 신경 위축 및 망막 혈관의 약간의 감쇠 뿐만 아니라 정신 운동 지체;의 징후와 관련 된 개발 양측 성 각 결막염; 피부 발진; 3 세에서 수행 하는 두 번째 피부 생 검 다시 보여주는 parakeratosis ae;에 대 한 일반적인 심한 피부 발진과 설사; 양자 총 앞쪽 막 불투명도 완전히 5; 세에 면을 재검토 했다 그 시간에 의해 해결 했다 볼 수 있었다 빈번한 감염 중이염, 요로 감염, 피부 감염 등 질병 시스템 심혈 관; 전염 성 소화; 피부; 눈; 드문 징후와 증상 두 근 두 근 및 이전 주; 호흡 곤란 혼 수, 두통, 오 한과 제시 심한 blepharoconjunctivitis 그리고 양자 앞쪽 막 vascularisation; 심한 피부 발진과 설사; 그램 음성 세균성 패 혈 증; acrodermatitis enteropathica, 시 신경 chiasm, 및 광학 책자의 표시 된 변성 thymic 조직과 광범위 한 소 뇌 변성의 부재의 전형적인 피부 병 변 Comorbidity 고혈압; 혈 NA 진단 기술 및 절차 신체 검사; 심 전계 검사; 혈액 문화 눈 검사; 검 시 진단 세라 심장 내 막 염 acrodermatitis enteropathica 실험실 가치 c-반응성 단백질 (9 mg/dl); 증가 알칼리 성 인산 가수분해 효소 (250 u/l) NA 병 리 세라 melitensis 혈액 샘플에서 경작 했다 오른쪽과 왼쪽 눈은 비슷한 외관; 각 막 상피; 각 막의 전체 표면에 걸쳐 병합 된 편평 상피 세포의 세 세포 층을 한 두께에서 감소 되었다 상피의 모든 극성은 분실 되었다. 보우만 막 오른쪽 각 막의 주변에만 식별할 수 있습니다. 아니 보우만 막 왼쪽된 각 막에서 식별 될 수 있습니다. 타락도 염증 pannus 어느 눈;에서 확인 될 수 있었다 ciliary 바디;의 원형 및 비스듬한 근육의 광범위 한 위축 일부 후부 마이그레이션 렌즈 capsular 상피와 초기 대뇌 피 질의 퇴행 성 변화; 후부 극; 전체 망막 색소 상피의 광범위 한 변성 망막 연결 되었고 전체; 가벼운 autolytic 변경 했다 그러나 막대와 콘 후부 극에 외부 세그먼트의 일부 보존, 이러한 구조 했다 적도; 앞쪽 완전히 손실 양쪽 눈의 신경 절 세포와 신경 섬유 층의 광범위 한 손실 디스크와 인접 한 시 신경의 거의 완전 한 위축 약리 치료 gentamycin 240 mg/iv/매일 NA Inverventional 치료 보 철 밸브 교체 NA 환자 결과 평가 복구는 사건이; 방전 된 홈 1971 년 (7 세) 사망 진단 영상/비디오 테이프 기록 2; 1; 0; 1 7, 0, 0, 0 다른 케이스 보고서에 관계 5555555 23430849 Clinial 평가판 관계 NCT05555123 NA 데이터베이스와 Crosslink 메 드 라인 플러스 건강 정보: https://medlineplus.gov/ency/article/000597.htm 높이-PDF: http://bjo.bmj.com/cgi/pmidlookup?view=long&pmid=3756122; 유럽 PubMed 본부: http://europepmc.org/abstract/MED/3756122; 유전 연립: http://www.diseaseinfosearch.org/result/143 승인 자금 소스 건강/국립 심장, 폐, 혈액 연구소의 국립 연구소 미네소타 라이온 스 클럽; 실명을 방지 하기 위해 연구 재향 군인의 관리; 알코올 및 기타 약물의 남용 미네소타주의 프로그래밍 보너스 번호 (AG)에 R01HL123123 NA 공개/관심의 충돌 닥터 그랜트는 DrugCo에 대 한 유료 대변인. NA 참조 4 27 표 2입니다. 임상 사례에 대 한 표준화 된 메타 데이터 템플릿 보고서, 예제 주석. 임상 사례에 공통 기능 집합이 보고 하 고 여기에 표시 됩니다 그들의 개념 수준 주석 촉진. 이 서식 파일은 세 가지 주요 섹션으로 배열 된다: 식별, 의료 콘텐츠 및 목적 및 각 유형의 사례 보고서 기능에서 제공 하는 추가 값을 나타내는 승인을. 이 테이블 예제 주석, 소설된 사례 보고서 중의 두 세트를 포함 하 고 다른 설정 조건 acrodermatitis enteropathica23에 대 한 보고서에서 파생. 보조 파일 1. 임상 사례 보고서 (장 외 의 텍스트 2017). 이 파일을 다운로드 하려면 여기를 클릭 하십시오.

Discussion

CCRs에 대 한 표준화 된 메타 데이터 템플릿 구현은 그들의 콘텐츠 더 공정 하 게, 그들의 청중을 확장 고 그들의 응용 프로그램을 확장할 수 있습니다. 의료 커뮤니케이션에서 교육 도구 CCRs의 전통적인 사용에 따라 의료 연수생 (예를 들어, 의료 학생, 인턴, 그리고 친구 들), 그리고 생물 의학 연구원은 찾을 수 있습니다 요약된 사례 보고서 내용을 활성화 더 빠른 독 해 력입니다. 그러나 CCRs, 함께 메타 데이터 표준화의 가장 큰 힘은, 그렇지 않으면 이러한 데이터 변환 색인 해석할 패턴으로 관찰이 격리 되었는지입니다. 이 워크플로 역학 분석, 사후 마케팅 약물 또는 치료 감시 병 또는 치료 효능의 광범위 한 설문 조사로 구성 되어 있는지 여부를 여기에 제공 된 프로토콜 CCRs, 작업에 대 한 워크플로의 첫 번째 단계로 사용할 수 있습니다. CCRs에서 식별 하는 구조적된 기능 질병 프레 젠 테이 션 및 치료, 특히 드문 조건에 대 한 연구원에 대 한 유용한 리소스를 제공할 수 있습니다. 임상 연구자는 과거 치료 regimens 기록 된 증상 또는 부작용 관리의 이전 기준 개선의 정도 분석 하에 데이터를 찾을 수 있습니다. 데이터 또한 새로운 치료 효능, 부작용 이나 독성의 부족 또는 성별, 연령 그룹, 또는 유전 배경 차이 대상으로 약물의 광범위 한 분석을 드라이브 수 있습니다.

구조적된 메타 데이터에 의해 제공 되는 혜택 계산 워크플로 구문 분석 또는 모델 의료 언어 설계에 마찬가지로 적용 됩니다. 구조화 된 CCR 기능 영역 보고서 작성자 보다 쉽게 판독 하 게 제공할 수 있습니다 (그리고 일부의 경우, 인간-읽을 수 있는) 증거 콘텐츠를 제공할 수도 있습니다. CCRs 중 분산 명시적으로 제공 된 관측의 부족에서 발생할 수 있습니다: 예를 들어, 환자의 정확한 나이 지정 하지 않을 수 있습니다. 마찬가지로, 경우는 진단 또는 그들의 결과 사소한 고려 되었다 임상 테스트를 언급 하지 않을 수 있습니다. 심층 분석에 필요한 간격의 예를 제공 함으로써 잠재적인 개선 강조 CCRs에 구조를 적용 한다. 광범위 한 관점에서 의료 문서 로부터 구조화 된 텍스트 데이터의 큰 가용성 자연 언어 처리 (NLP) 의료²⁴^,²⁵큰 데이터 로부터 배울 노력을 지원 합니다.

Disclosures

The authors have nothing to disclose.

Acknowledgements

이 작품은 국가 심 혼, 폐, 혈액 연구소에 의해 부분적으로 지원: R35 HL135772 (에 피 핑); 국립 연구소의 종합 의료 과학: U54 GM114833 (피 핑, K. 왓슨, W. 왕)를; 생물 의학 화상 진 찰 및 생명 공학의 국립 연구소: T32 EB016640 (에 A. 부이); 호 그 재단과 박사 S. Setty;에서 선물 그리고 (에 피 핑) ucla T.C. Laubisch 기부금.

Materials

A corpus of clinical case reports

n/a

Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers.

References

Ban, T. A. The role of serendipity in drug discovery. Dialogues in Clinical Neuroscience. 8 (3), 335-344 (2006).
Cabán-Martinez, A. J., García-Beltrán, W. F. Advancing medicine one research note at a time: the educational value in clinical case reports. BMC Research Notes. 5 (1), 293 (2012).
Vandenbroucke, J. P. In Defense of Case Reports and Case Series. Annals of Internal Medicine. 134 (4), 330 (2001).
Bayoumi, A. M. The storied case report. Canadian Medical Association Journal. 171 (6), 569-570 (2004).
Pasteur, L. Méthode pour prévenir la rage après morsure. Comptes rendus de l’Académie des Sciences. 101, 765-774 (1885).
Pearce, J. Louis Pasteur and Rabies: a brief note. Journal of Neurology, Neurosurgery & Psychiatry. 73 (1), 82-82 (2002).
Keefer, C. S., Blake, F. G., Marshall, E. K. J., Lockwood, J. S., Wood, W. B. J. PENICILLIN IN THE TREATMENT OF INFECTIONS. Journal of the American Medical Association. 122 (18), 1217 (1943).
Akers, K. G. New journals for publishing medical case reports. Journal of the Medical Library Association JMLA. 104 (2), 146-149 (2016).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3, 160018 (2016).
Beeler, G. W. HL7 Version 3-An object-oriented methodology for collaborative standards development. International Journal of Medical Informatics. 48 (1-3), 151-161 (1998).
McDonald, C. J. LOINC, a Universal Standard for Identifying Laboratory Observations: A 5-Year Update. Clinical Chemistry. 49 (4), 624-633 (2003).
. CDC/National Center for Health Statistics ICD-10-CM Official Guidelines for Coding and Reporting Available from: https://www.cdc.gov/nchs/data/icd/10cmguidelines_fy2018_final.pdf (2017)
Rajeev, D., et al. Development of an electronic public health case report using HL7 v2.5 to meet public health needs. Journal of the American Medical Informatics Association. 17 (1), 34-41 (2010).
Biesecker, L. Mapping phenotypes to language: a proposal to organize and standardize the clinical descriptions of malformations. Clinical Genetics. 68 (4), 320-326 (2005).
Riley, D. S., et al. CARE guidelines for case reports: explanation and elaboration document. Journal of Clinical Epidemiology. 89, 218-235 (2017).
Cohen, K. B., et al. Coreference annotation and resolution in the Colorado Richly Annotated Full Text (CRAFT) corpus of biomedical journal articles. BMC Bioinformatics. 18 (1), 372 (2017).
Sun, W., Rumshisky, A., Uzuner, O. Evaluating temporal relations in clinical text: 2012 i2b2 Challenge. Journal of the American Medical Informatics Association. 20 (5), 806-813 (2013).
Savova, G. K., et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications. Journal of the American Medical Informatics Association. 17 (5), 507-513 (2010).
Soysal, E., et al. CLAMP – a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association. 25 (3), 331-336 (2018).
Bender, D., Sartipi, K. HL7 FHIR: An Agile and RESTful approach to healthcare information exchange. Proceedings of the 26th IEEE International Symposium on Computer-Based Medical Systems. , 326-331 (2013).
Chang, K., et al. Human Infection with Burkholderia thailandensis, China, 2013. Emerging Infectious Diseases. 23 (8), 1416-1418 (2013).
Cameron, J. D., McClain, C. J. Ocular histopathology of acrodermatitis enteropathica. British Journal of Ophthalmology. 70 (9), 662-667 (1986).
Maddox, T. M., Matheny, M. A. Natural Language Processing and the Promise of Big Data. Circulation: Cardiovascular Quality and Outcomes. 8 (5), 463-465 (2015).
Kreimeyer, K., et al. Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of Biomedical Informatics. 73, 14-29 (2017).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Caufield, J. H., Liem, D. A., Garlid, A. O., Zhou, Y., Watson, K., Bui, A. A. T., Wang, W., Ping, P. A Metadata Extraction Approach for Clinical Case Reports to Enable Advanced Understanding of Biomedical Concepts. J. Vis. Exp. (139), e58392, doi:10.3791/58392 (2018).

있도록 임상 사례 보고서에 대 한 메타 데이터 추출 방법 고급 생물 의학 개념의 이해

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

있도록 임상 사례 보고서에 대 한 메타 데이터 추출 방법 고급 생물 의학 개념의 이해

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below