우리는 프로토콜 및 관련된 메타 데이터 템플릿을 임상 사례 보고서에 생물 의학 개념을 설명 하는 텍스트의 추출에 대 한 현재. 이 프로토콜을 통해 생산 하는 구조화 된 텍스트 값 임상 서술의 수천의 깊은 분석을 지원할 수 있습니다.
임상 사례 보고서 (CCRs)는 관찰과 의학에 대 한 통찰력을 공유 하는 귀중 한 수단입니다. 이러한 문서 형태의 변화, 그리고 그들의 내용 설명을 포함, 수많은 새로운 질병의 프레 젠 테이 션 및 치료. 지금까지, CCRs 내의 텍스트 데이터 크게 구조적, 심층 분석에 대 한 유용한 이러한 데이터를 렌더링 하는 데 중요 한 인간과 전산 노력을 필요로지 않습니다. 이 프로토콜에서 우리는 자주 CCRs 내 관찰 특정 생물 의학 개념에 해당 하는 메타 데이터를 식별 하기 위한 방법을 설명 합니다. 제공 메타 데이터 템플릿을 가이드로 문서 주석, 그 CCRs에 구조를 부과 수 있습니다 의해 추구 조합 수동 및 자동 인식 합니다. 여기에 제시 된 접근 큰 문학 모음 (예를 들어, 수천의 CCRs)의 개념 관련 텍스트의 조직 적합 하지만 더 초점 맞춘된 작업 보고서의 작은 세트를 촉진 하기 위하여 쉽게 적용할 수 있습니다. 결과 구조화 된 텍스트 데이터는 다양 한 후속 텍스트 분석 워크플로우를 지원 하기 위해 충분 한 의미 맥락을 포함: CCR을 극대화 하는 방법을 결정 하는 메타-분석 세부 사항, 희귀 질환의 역학 연구의 모델의 개발 의료 언어 모두 만들 수 있습니다 더 실현 가능 하 고 구조화 된 텍스트 데이터를 사용 하 여 관리.
임상 사례 보고서 (CCRs)는 관찰과 의학에 대 한 통찰력을 공유 하는 기본적인 수단입니다. 이러한 커뮤니케이션 및 임상 및 의료 학생을 위한 교육의 기본적인 메커니즘 역할을 합니다. 역사적으로, 신흥 질병의 계정, 그들의 치료 및 그들의 유전 배경1,2,,34CCRs 또한 제공. 예를 들어 18855,6 루이 파스퇴르에 의해 인간 광견병의 첫 번째 치료와 환자7 했다 페니실린의 첫 번째 응용 프로그램 모두 CCRs 통해 보고. 1.87 백만 이상 CCRs 지난 10 년간;는 절반 백만와 4 월 2018, 현재 출판 되었습니다. 저널은 이러한 보고서8에 대 한 새로운 장소를 제공 하기 위해 계속 됩니다. 독특한 형태와 내용, CCRs 대부분 구조화 되지 않은 텍스트 데이터를 포함, 포함 하는 광대 한 어휘 고 우려 상호 현상, 구조적된 자원으로 그들의 사용을 제한. 상당한 노력 세부적인된 메타 데이터를 추출 하는 데 필요한 (즉, “데이터에 대 한 데이터”, 또는이 경우, 문서 내용에 대 한 설명) CCRs에서 findable, 접근, 상호 운용성 및 재사용 (공정)9 데이터 설정 리소스입니다.
텍스트 및 숫자 값을 설명 게시 된 CCRs 내 특정 생물 의학 개념의 표준화를 추출 하기 위한 과정을 설명 합니다. 이 방법론을 주석; 안내 메타 데이터 템플릿을 포함 이 프로세스의 개요 그림 1 을 참조 하십시오. 보고서의 큰 컬렉션을 주석 프로세스의 응용 프로그램 (예: 특정 유형의 질병 프레 젠 테이 션의 여러 천) 읽을 달성 관리 및 구조화 된 주석된 임상 텍스트의 조립 허용 설명서 및 생명 현상 각 임상 프레 젠 테이 션 내에서 포함 된. 비록 HL7 제공 하 데이터 형식 (예., 메시징 표준10 또는 빠른 의료 상호 운용성 리소스 [FHIR]11의 버전 3), LOINC12및 국제 통계의 개정 10 질병과 관련 건강 문제 (ICD-10)의 분류13 설명 하 고 교환 하는 임상 관측에 대 한 기준, 그들은이 데이터를 둘러싼 텍스트를 캡처하지 않습니다 없으며 그들은 위한 것입니다. 우리의 방법론의 결과 최고의 CCRs에 구조를 적용 하 고 이후 분석, 제어 어휘 및 코딩 시스템을 통해 정상화를 촉진 하는 데 사용 됩니다 (예., ICD-10), 또는 위에 나열 된 임상 데이터 형식 변환 .
CCRs 광업 생물 의학 및 임상 정보 내에서 작업의 활성 영역입니다. 비록의 구조를 표준화 하기 이전 제안 사례 보고서 (예., HL7 v2.514 를 사용 하 여 또는 표현 형 용어15표준화)는 훌 륭, CCRs 계속 따라 다양 한 다른 것입니다 높습니다 자연 언어 양식 및 문서 레이아웃, 그들은 지난 세기의 다량을 위해. 이상적인 조건 하에서 새로운 사건 보고서의 저자는 되도록 그들은 포괄적인 관리 지침16 를 따릅니다. 접근 자연 언어와의 관계에 민감한 의료 개념을 따라서 새로운 및 보관 된 보고서 작업에 가장 효과적인 수 있습니다. 공예17 와 같은 리소스 정보에 의해 통합 생물학에 대 한 생산과 머리 맡 (i2b2)18 큐레이터 자연 언어 처리 (NLP) 접근 지원 아직 CCRs 또는 임상 서술에 특별히 초점을 하지 않습니다. 마찬가지로, cTAKES19 , 클램프20 등 의료 NLP 도구 개발 되었습니다 하지만 일반적으로 일반적으로 CCRs에 설명 된 일반적인 개념 보다는 문서 내에서 특정 단어 또는 구가 (즉, 엔터티)를 식별.
우리 CCRs 내에서 일반적으로 포함 된 기능에 대 한 표준화 된 메타 데이터 템플릿을 설계 했습니다. 이 템플릿은 CCRs에 구조를 부과 하는 기능을 정의-문서 내용의 심층 비교에 대 한 필수적인 전조-아직 의미 맥락을 유지 하는 충분 한 유연성을 허용. 비록 우리는 관련 된 수동 주석 및 계산 기반 텍스트 마이닝에 대 한 적절 한 것이 서식 파일 형식 디자인, 우리 보장 그것은 특히 대 한 수동 창고가 사용 하기 쉬운입니다. 우리의 접근 방식은 눈에 띄게 다릅니다에서 더 복잡 한 (그리고, 따라서, 일반인을 즉시 이해할 수 있는 연구에 더 적은) FHIR21과 같은 프레임 워크. 다음 프로토콜 단일 CCR에 해당 하는 값의 단일 집합으로 각 템플릿 데이터 형식에 해당 하는 문서 기능을 분리 하는 방법을 설명 합니다.
서식 파일 내에서 데이터 형식 자들 CCRs 및 환자 중심 의료 문서에 대 한 설명이 가장 일반적. 이러한 기능의 주석 주로 하 여 구조 findability, 접근성, 상호 운용성, 그리고 CCR 텍스트의 재사용을 촉진 합니다. 데이터 유형은 4 개의 일반적인 범주: 문서와 주석 식별, 사례 보고서 (즉, 문서 수준 속성), 의료 콘텐츠 개념 (주로 개념 수준 속성), 신분증과 승인 (즉 자금의 증거를 제공 하는 기능). 이 주석 과정에서 각 문서는 생략 하는 경우 (예를 들어, 실험 프로토콜)에 독립적인 문서 내용을 자료는 CCR의 전체 텍스트를 포함 합니다. CCRs는 일반적으로 미만 1000 단어 각; 단일 모음 같은 서 데이터베이스 인덱싱할 수 이상적으로 그리고 동일한 문자 언어에서.
CCR 모음에 적용 될 때 여기에 설명 된 방식의 제품 임상 주석된 텍스트의 구조적된 집합입니다. 이 방법론 완전히 수동으로 수행할 수 있습니다 하는 동안 어떤 정보학 경험 없이 도메인 전문가 의해 수행 하도록 설계 되었습니다, 그것은 위에서 지정한 자연 언어 처리 접근을 보완 하 고에 대 한 적절 한 데이터를 제공 합니다. 계산 분석입니다. 같은 분석 포함 하 여, CCRs 자주 읽고 넘어 연구원의 고객에 게 관심 수 있습니다.
CCRs에 구조를 적용 하는 것은 의료 언어와 생명 현상 이해 하기 수많은 후속 노력 지원할 수 있습니다.
CCRs에 대 한 표준화 된 메타 데이터 템플릿 구현은 그들의 콘텐츠 더 공정 하 게, 그들의 청중을 확장 고 그들의 응용 프로그램을 확장할 수 있습니다. 의료 커뮤니케이션에서 교육 도구 CCRs의 전통적인 사용에 따라 의료 연수생 (예를 들어, 의료 학생, 인턴, 그리고 친구 들), 그리고 생물 의학 연구원은 찾을 수 있습니다 요약된 사례 보고서 내용을 활성화 더 빠른 독 해 력입니다. 그러나 CCRs, 함께 메타 데이터 표준화의 가장 큰 힘은, 그렇지 않으면 이러한 데이터 변환 색인 해석할 패턴으로 관찰이 격리 되었는지입니다. 이 워크플로 역학 분석, 사후 마케팅 약물 또는 치료 감시 병 또는 치료 효능의 광범위 한 설문 조사로 구성 되어 있는지 여부를 여기에 제공 된 프로토콜 CCRs, 작업에 대 한 워크플로의 첫 번째 단계로 사용할 수 있습니다. CCRs에서 식별 하는 구조적된 기능 질병 프레 젠 테이 션 및 치료, 특히 드문 조건에 대 한 연구원에 대 한 유용한 리소스를 제공할 수 있습니다. 임상 연구자는 과거 치료 regimens 기록 된 증상 또는 부작용 관리의 이전 기준 개선의 정도 분석 하에 데이터를 찾을 수 있습니다. 데이터 또한 새로운 치료 효능, 부작용 이나 독성의 부족 또는 성별, 연령 그룹, 또는 유전 배경 차이 대상으로 약물의 광범위 한 분석을 드라이브 수 있습니다.
구조적된 메타 데이터에 의해 제공 되는 혜택 계산 워크플로 구문 분석 또는 모델 의료 언어 설계에 마찬가지로 적용 됩니다. 구조화 된 CCR 기능 영역 보고서 작성자 보다 쉽게 판독 하 게 제공할 수 있습니다 (그리고 일부의 경우, 인간-읽을 수 있는) 증거 콘텐츠를 제공할 수도 있습니다. CCRs 중 분산 명시적으로 제공 된 관측의 부족에서 발생할 수 있습니다: 예를 들어, 환자의 정확한 나이 지정 하지 않을 수 있습니다. 마찬가지로, 경우는 진단 또는 그들의 결과 사소한 고려 되었다 임상 테스트를 언급 하지 않을 수 있습니다. 심층 분석에 필요한 간격의 예를 제공 함으로써 잠재적인 개선 강조 CCRs에 구조를 적용 한다. 광범위 한 관점에서 의료 문서 로부터 구조화 된 텍스트 데이터의 큰 가용성 자연 언어 처리 (NLP) 의료24,25큰 데이터 로부터 배울 노력을 지원 합니다.
The authors have nothing to disclose.
이 작품은 국가 심 혼, 폐, 혈액 연구소에 의해 부분적으로 지원: R35 HL135772 (에 피 핑); 국립 연구소의 종합 의료 과학: U54 GM114833 (피 핑, K. 왓슨, W. 왕)를; 생물 의학 화상 진 찰 및 생명 공학의 국립 연구소: T32 EB016640 (에 A. 부이); 호 그 재단과 박사 S. Setty;에서 선물 그리고 (에 피 핑) ucla T.C. Laubisch 기부금.
A corpus of clinical case reports | n/a | n/a | Full texts of case reports may be accessed through PubMed (e.g., using the search query "Case Reports"[Filter]), other citation databases such as Europe PMC (https://europepmc.org/) or directly through publishers. |