우리는 프로토콜 및 관련된 프로그래밍 코드 뿐만 아니라 생물 의학 문학에서 사용자 선택한 지식 도메인에 고유한 개념을 대표 하는 문구 카테고리 협회의 클라우드 기반 자동된 식별을 지원 하기 위해 메타 데이터 샘플 제시. 이 프로토콜에 의해 계량 문구 카테고리 협회 선택한 지식 도메인에 깊이 분석에 용이 하 게 수 있습니다.
생물 의학 텍스트 데이터의 급속 한 축적까지 수동 큐레이터 및 분석, 과학적 보고서의 큰 볼륨에서 생물 학적 통찰력을 추출 하 소설 텍스트 마이닝 도구를 필요로 인간의 능력을 초과 했습니다. 컨텍스트 인식 의미 온라인 분석 처리 (CaseOLAP) 파이프라인, 2016 년, 개발은 성공적으로 텍스트 데이터의 분석을 통해 사용자 정의 구문 범주 관계를 단정. CaseOLAP는 많은 생물 의학 응용 프로그램 있다.
우리는 엔드-투-엔드 문구-마이닝 및 분석 플랫폼을 지 원하는 클라우드 기반 환경에 대 한 프로토콜을 개발 했습니다. 데이터 전처리 (예를 들어, 다운로드, 추출, 및 구문 분석 텍스트 문서)를 포함 하는 우리의 프로토콜, 인덱싱 및 검색 기능 문서 구조를 만드는 Elasticsearch 라는 텍스트 큐브 및 구문 범주 관계 측정 코어 CaseOLAP 알고리즘을 사용 하 여.
우리의 데이터 전처리 관련 된 모든 문서에 대 한 키-값 매핑을 생성합니다. 전처리 된 데이터는 추가 텍스트 큐브 생성 및 CaseOLAP 점수 계산을 용이 하 게 하는 엔터티를 포함 하 여 문서 검색을 수행 하는 색인이 생성 됩니다. 얻은 원시 CaseOLAP 점수는 일련의 차원 감소, 클러스터링, 시간를 포함 하 여 통합 분석 및 지리적 분석을 사용 하 여 해석 됩니다. 또한, CaseOLAP 점수 문서 시맨틱 매핑 수 있는 그래픽 데이터베이스를 만드는 데 사용 됩니다.
정확 (관계 식별) CaseOLAP 정의 구문 범주 관계, 일관 된 (높은 재현성), 그리고 효율적인 방식 (프로세스 100000 단어/초). 이 프로토콜에 따라 사용자가 그들의 자신의 구성 및 CaseOLAP의 응용 프로그램을 지원 하기 위해 클라우드 컴퓨팅 환경을 액세스할 수 있습니다. 이 플랫폼 향상 된 접근성을 제공 하 고 광범위 한 생물 의학 연구 응용 프로그램에 대 한 문구 마이닝 도구와 생물 의학 커뮤니티 힘을 실어주 고.
문구 카테고리 협회의 연구에 대 한 텍스트 파일의 수백만의 수동 평가 (예를 들어., 단백질 협회 연령 그룹)은 비교할 효율 자동 계산 방법 제공. 생물 의학 문맥에서 문구 카테고리 협회의 자동된 계산에 대 한 문구 마이닝 방법으로 클라우드 기반 컨텍스트 인식 의미 온라인 분석 처리 (CaseOLAP) 플랫폼을 소개 합니다.
처음에 정의 되어 있는 20161, CaseOLAP 플랫폼은 매우 효율적인 텍스트 큐브2,3,라는 기능 문서 관리 때문에 데이터 관리 및 계산의 전통적인 방법에 비해 4, 기본 계층 구조와 동네를 유지 하면서 문서를 배포. 그것은 생물 의학 연구5 엔터티 카테고리 협회 연구에 적용 되었습니다. CaseOLAP 플랫폼 구성 다운로드 및 데이터, 구문 분석, 인덱싱, 텍스트 큐브 생성, 엔터티 수 및 CaseOLAP 점수 계산;의 추출 등 6 개 주요 단계 (그림 1, 그림 2, 표 1) 프로토콜의 주요 초점입니다.
CaseOLAP 알고리즘을 구현 하는 사용자 (예를 들어, 질병, 징후와 증상, 연령 그룹, 진단)의 범주 및 관심 (예: 단백질, 약물)의 엔터티 설정 합니다. 이 문서에 포함 된 카테고리의 한 예로 텍스트 큐브 및 단백질 이름 (동의어) 및 엔터티 약어의 세포로는 ‘유아’, ‘자식’, ‘사춘기’, ‘ 연령 그룹 ‘ 및 ‘성인’ 하위 이다. 의료 주제 제목 (메쉬) 정의 된 카테고리 (표 2)에 해당 하는 간행물을 검색 하기 위해 구현 됩니다. 메쉬 설명자 계층적 트리 구조에 다양 한 수준의 특이성 ( 그림 3에 표시 된 샘플)에서 게시에 대 한 검색을 허용 하도록 구성 됩니다. CaseOLAP 플랫폼 추가 문서 엔터티 수 매핑 및 CaseOLAP 점수 계산을 용이 하 게 관련 된 엔터티의 문서의 curation에 대 한 데이터 인덱싱 및 검색 기능을 활용 합니다.
CaseOLAP 점수 계산의 세부 사항을 이전 간행물1,5에서 제공 됩니다. 이 점수는 기본 텍스트 큐브 문서 구조에 따라 특정 순위 기준을 사용 하 여 계산 됩니다. 최종 점수는 무결성, 인기및 특수성의 제품입니다. 무결성 대표 엔터티 집단적 의미 있는 개념을 나타내는 중요 한 의미 단위 인지에 대해 설명 합니다. 사용자 정의 된 문구의 무결성 문학에서 표준 어구로 서 1.0으로 가져온 것입니다. 특수성 은 다른 세포의 나머지에 비해 문서의 한 부분 집합에 어구의 상대적 관련성을 나타냅니다. 그것은 먼저 대상 데이터 집합에서 단백질 이름의 발생을 비교 하 여 특정 셀에 엔터티의 관련성을 계산 하 고 정규화 된 특수성 점수를 제공 합니다. 인기 나타냅니다 높은 인기 점수와 함께 문구 사실은 문서의 한 부분 집합에 더 자주 나타납니다. 셀에 희귀 단백질 이름 언급의 그들의 주파수에 있는 증가 주파수의 로그 함수의 구현 때문에 있는 감소를 반환 하는 동안 낮은, 순위가 결정 됩니다. 이 세 가지 개념을 양적 측정 셀 및 셀 (2) 수 있고 해당 엔터티 (문서 주파수) 셀 내에서 셀 전체 문서에 걸쳐 엔터티 용어 (1) 주파수에 따라 다릅니다.
우리는 PubMed 집합과 우리의 알고리즘을 사용 하 여 두 가지 대표적인 시나리오를 공부 했다. 우리는 관심이 어떻게 미토 콘 드리 아 단백질에 메쉬 설명자;의 두 가지 독특한 범주와 관련 된 “나이 그룹” 및 “영양 및 대사 질환”. 특히, 우리는 그들의 사이에서 PubMed (1998에 2018)에 의해 수집 된 20 년 간행물에서 15,728,250 간행물 검색, 8,123,458 독특한 초록 전체 메쉬 설명자. 따라서, 1,842 인간의 미토 콘 드리 아 단백질 이름 (포함 약어 및 동의어), MitoCarta2.0에서 뿐만 아니라 UniProt (uniprot.org)에서 인수 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >), 체계적으로 검사. 이러한 8,899,019 간행물 및 엔터티 그들의 협회는 우리의 프로토콜;를 사용 하 여 공부 했다 우리는 텍스트 큐브를 구성 하 고 각각 CaseOLAP 점수 계산.
우리는 CaseOLAP 알고리즘 의미 있는 통찰력의 추출에 대 한 텍스트 데이터의 큰 볼륨에 지식 기반 범주를 기반으로 하는 문구 양적 협회를 만들 수 있습니다 설명 했다. 우리의 프로토콜에 따라 하나를 원하는 텍스트 큐브를 만들고 엔터티 카테고리 협회 CaseOLAP 점수 계산을 통해 계량 CaseOLAP 프레임 워크를 구축할 수 있습니다. 얻은 원시 CaseOLAP 점수 차원 감소, 클러스터링, 문서 의미 매핑 수 있는 그래픽 데이터베이스의 창조 뿐 아니라 시간적, 지리적 분석을 포함 한 통합 분석을 취할 수 있습니다.
알고리즘의 적용. 단백질, 이외의 사용자 정의 엔터티에 유전자 이름, 약물, 특정 징후와 그들의 약어 및 동의어를 포함 하 여 증상의 목록을 수 있습니다. 또한, 카테고리 선택 특정 사용자 정의 생물 의학 분석 (예를 들어, 해부학 [A], 분야와 직업 [H], 현상 및 프로세스 [G])을 촉진 하기 위한 많은 선택이 있다. 우리의 2에서 사용 하는 경우, 모든 과학적인 간행물 및 그들의 텍스트 데이터 검색 엔진으로 PubMed를 사용 하 여 MEDLINE 데이터베이스에서 검색 됩니다, 그리고 둘 다 약의 국립 도서관에 의해 관리. 그러나, CaseOLAP 플랫폼 텍스트 데이터 등은 FDA 불리 한 이벤트 보고 시스템 (FAERS) 생물 의학 문서를 포함 하는 관심의 다른 데이터베이스에 적용할 수 있습니다. 이것은 의료 부작용 및 약물 오류 보고서 FDA에 제출에 대 한 정보를 포함 하는 데이터베이스입니다. MEDLINE 및 FAERS, 달리 병원 환자에서 전자 건강 기록에 포함 된 데이터베이스는 공중에 게 열지 고 건강 보험 이식성 및 책임 Act HIPAA로 알려진에 의해 제한 됩니다.
CaseOLAP 알고리즘을 성공적으로 다양 한 유형의 데이터 (예를 들어, 뉴스 기사)1. 에 적용 된 20185생물 의학 문서에서이 알고리즘의 구현이 했다. CaseOLAP 알고리즘의 적용 가능성에 대 한 요구 사항 문서의 각 개념 (예를 들어, 생물 의학 간행물에 메쉬 설명자, 뉴스 기사에 키워드)와 관련 된 키워드를 할당 한다 이다. 키워드, 찾을 수 없는 경우 하나 Autophrase6,7 최고 대표 문구를 수집 하 고 우리의 프로토콜을 구현 하기 전에 엔터티 목록 구축에 적용할 수 있습니다. 우리의 프로토콜 Autophrase를 수행 하는 단계를 제공 하지 않습니다.
다른 알고리즘 비교. 데이터 큐브8,,910 를 사용 하 여 텍스트 큐브2,,34 의 개념 더 적용 가능한 데이터 마이닝을 만들기 위해 새로운 발전으로 2005 년부터 진화 되었습니다. 온라인 분석 처리 (OLAP)11,12,,1314,데이터 마이닝 및 비즈니스 인텔리전스에15 의 개념 1993에 돌아간다. 일반적으로, OLAP, 여러 시스템, 정보를 집계 하 고 다차원 형식으로 저장. 데이터 마이닝에 구현 하는 OLAP 시스템의 다른 유형이 있다. 예를 들어 (1) 하이브리드 트랜잭션/분석 처리 (HTAP)16,17, (2) 다차원 OLAP (MOLAP)18,19-기반, 그리고 (3) 관계형 OLAP (ROLAP)20큐브.
특히, CaseOLAP 알고리즘은 되었습니다 알고리즘에 비해 수많은 기존, 특히, TF를 포함 하 여 그들의 어구 세분화 향상-IDF + Seg, MCX + Seg, MCX, 및 SegPhrase. 또한, RepPhrase (RP, 일컬어 SegPhrase +)는 (1) RP 무결성 측정 통합 (RP 아니 INT) 하지 않고, 없이 인기 통합 (RP 아니 팝), RP (2)와 (3) 없이 RP를 포함 하 여 그것의 자신의 절제 유사 비교 되었다는 특수성 측정 (RP 아니 DIS) 통합. 벤치 마크 결과 Fangbo Tao 외.1연구에 표시 됩니다.
여전히 저장 하 고 데이터베이스에서 데이터를 검색에 추가 기능을 추가할 수 있는 데이터 마이닝에 도전이 있다. 컨텍스트 인식 의미 분석 처리 (CaseOLAP) 체계적으로 문서 (프로토콜 5)의 수백만의 색인 데이터베이스를 구축 하는 Elasticsearch를 구현 합니다. 텍스트 큐브 사용자 제공 범주 (프로토콜 6) 인덱싱된 데이터 내장 문서 구조입니다. 이 문서 내에서 그리고 텍스트 큐브의 셀에 걸쳐 기능을 강화 하 고 우리가 특정 셀 (8 프로토콜)를 통해 문서 및 문서 주파수 엔티티의 기간 주파수를 계산 하. CaseOLAP 점수 활용 하 여 최종 점수를 출력 이러한 주파수 계산 (프로토콜 9). 2018 년, 우리는 ECM 단백질과 단백질 질병 협회 분석 6 심장 질환 연구이 알고리즘 구현. 이 연구의 내용은 Liem, 검사가 외.5에 의해 연구에서 찾을 수 있습니다. CaseOLAP 수 있는 다양 한 질병 및 메커니즘을 탐구 생물 지역 사회에서 널리 이용 될 나타내는.
알고리즘의 한계. 문구 마이닝 자체 관리 텍스트 데이터에서 중요 한 개념을 검색 하는 기술입니다. 수학 수량 (벡터)로 엔터티 카테고리 협회 발견 하는 동안이 기술을 협회의 극성 (예를 들어, 포지티브 또는 네거티브 기울기)를 알아낼 수 없습니다. 하나는 지정 된 엔터티 및 범주 텍스트 Cude 문서 구조를 활용 하 여 데이터의 양적 요약을 구축할 수 있습니다 하지만 미세한 세분성으로 질적 개념을 도달할 수 없습니다. 일부 개념은 지속적으로 진화 하 고 과거까지에서 지금. 특정 엔터티-카테고리 협회에 대 한 요약 포함 문학에 걸쳐 모든 부각이 됩니다. 이 혁신의 시간 전파를 부족 수 있습니다. 미래에, 우리는 이러한 한계를 해결 하기 위해 계획.
미래 응용. 세계에 축적 된 데이터의 약 90%는 구조화 되지 않은 텍스트 데이터에서입니다. 대표 문구 및 텍스트에 포함 된 엔터티 관계를 찾는 새로운 기술 (예를들면, 기계 학습, 정보 추출, 인공 지능)의 구현에 대 한 매우 중요 한 작업입니다. 기계는 텍스트 데이터를 읽을 수 있도록, 데이터 도구 다음 계층 구현 될 수 있는 데이터베이스에 구성 될 필요가 있다. 미래에이 알고리즘은 데이터 마이닝 정보 검색 및 엔터티 카테고리 협회의 정량화에 대 한 더 많은 기능에 중요 한 단계를 될 수 있습니다.
The authors have nothing to disclose.
이 작품은 국가 심 혼, 폐, 혈액 연구소에 의해 부분적으로 지원: R35 HL135772 (에 피 핑); 국립 연구소의 종합 의료 과학: U54 GM114833 (피 핑, K. 왓슨, W. 왕)를; (제이 한);에 U54 GM114838 Hellen 및 래리 호 그 재단 박사 S. Setty;에서 선물 그리고 (에 피 핑) ucla T.C. Laubisch 기부금.