Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications

Dibakar Sigdel; Vincent Kyi; Aiden Zhang; Shaun P. Setty; David  A. Liem; Yu Shi; Xuan Wang; Jiaming Shen; Wei Wang; JiaWei Han; Peipei Ping

doi:10.3791/59108

JoVE Journal > Medicine

Please note that all translations are automatically generated. Click here for the English version.

Médecine

クラウドベースフレーズマイニングとユーザー定義のフレーズカテゴリ医学出版会分析

Published: February 23, 2019

doi:

10.3791/59108

Dibakar Sigdel*^1,2, Vincent Kyi*^1,2, Aiden Zhang*¹, Shaun P. Setty, David A. Liem^2,4, Yu Shi, Xuan Wang, Jiaming Shen, Wei Wang^6,7, JiaWei Han, Peipei Ping^2,4,6

¹The NIH BD2K Center of Excellence in Biomedical Computing,University of California, Los Angeles, ²Department of Physiology,University of California, Los Angeles, ³Department of Pediatric and Adult Congenital Heart Surgery,Miller Children’s and Women’s Hospital and Long Beach Memorial Hospital, ⁴Department of Medicine/Cardiology,University of California, Los Angeles, ⁵NIH BD2K Program Centers of Excellence for Big Data Computing — KnowEng Center, Department of Computer Science,University of Illinois at Urbana-Champaign (UIUC), ⁶Scalable Analytics Institute (ScAi),University of California, Los Angeles, ⁷Department of Computer Science,University of California, Los Angeles

Summary

医学文献のユーザー選択したナレッジドメインで独自のコンセプトを表すフレーズカテゴリ関連のクラウドベースの自動認識をサポートするメタデータサンプルと同様に、プロトコルおよび関連するプログラミングコードを提案します。選択した知識領域の深さ分析でこのプロトコルによって定量化フレーズカテゴリの関連付けを促進できます。

Abstract

医用テキストデータの急速な蓄積まで手動キュレーションと大量の科学的なレポートから生物学的洞察力を抽出する小説のテキストマイニングツールを施行した分析の人間の能力を超えています。コンテキスト・アウェア意味オンライン分析処理 (CaseOLAP) パイプライン、2016 年に開発は正常にテキストデータの分析を通じてユーザー定義フレーズカテゴリの関係を定量化します。CaseOLAP は多くの生物医学アプリケーションです。

エンドツーエンドフレーズマイニングと分析プラットフォームを支えるクラウドベース環境のためのプロトコルを開発しました。我々のプロトコルは、データの前処理 (例えば、ダウンロード、抽出、およびテキストドキュメントの解析) 含まれている、インデックス作成と検索の機能的なドキュメント構造を作成する Elasticsearch と呼ばれるテキストキューブ、およびフレーズカテゴリの関係を定量化コア CaseOLAP アルゴリズムを使用しています。

データの前処理は、関与するすべてのドキュメントのキー値のマッピングを生成します。プリプロセス済みのデータは、テキストキューブの作成と CaseOLAP スコアの計算をさらに容易にするエンティティを含むドキュメントの検索を実行するインデックスされます。得られたスコア CaseOLAP は、一連の統合的な解析、クラスタリング、時空、次元削減を含むおよび地理的な分析を使用して解釈されます。また、CaseOLAP スコアはドキュメントのセマンティックマッピングを可能にするグラフィカルなデータベースを作成する使用されます。

CaseOLAP 正確な (関係を識別) のフレーズカテゴリの関連付けを定義します、一貫性のある (再現性の高い)、および効率的な方法 (プロセス 100,000 ワード/秒)。このプロトコルでは、次のユーザーは彼らの自身の構成と CaseOLAP のアプリケーションをサポートするクラウド・コンピューティング環境をアクセスできます。このプラットフォームは、高度なアクセシビリティを提供し、広範な生物医学研究用フレーズマイニングツールと医学のコミュニティに権限を与えます。

Introduction

フレーズカテゴリ関連の研究のためのテキストファイルの数百万のマニュアル評価 (例えば.、蛋白質協会に年齢) 自動計算メソッドによって提供される効率で比類のないです。我々は生体においてフレーズカテゴリ協会の自動計算のためのフレーズデータマイニング手法としてクラウドベースのコンテキスト認識意味オンライン分析処理 (CaseOLAP) プラットフォームを紹介したいと思います。

2016¹で最初に定義した CaseOLAP のプラットフォームは、テキストキューブ²^,³,^{と呼ばれるその機能的なドキュメント管理のためのデータ管理・計算の従来の方法と比較して非常に効率的です。} ⁴、基になっている階層と地区を維持しながら、ドキュメントを配布します。それは、カテゴリエンティティ協会を研究する生物医学研究⁵で適用されています。CaseOLAP プラットフォームは、ダウンロードと抽出データ、解析、インデックス作成、テキストキューブの作成、エンティティの数、および CaseOLAP スコア計算を含む六つの主要なステップで構成されています(図 1、図 2、表 1) プロトコルの主な焦点である.

CaseOLAP アルゴリズムを実装するには、ユーザーは (例えば、病気、徴候や症状、年齢、診断) 興味のあるカテゴリーとエンティティ (例えば、蛋白質、薬) を設定します。この記事に含まれるカテゴリの一例をテキストキューブと蛋白質名 (同義語) とエンティティとして略語の細胞、’ 年齢 ‘ ある ‘幼児’、’子’、’青年’ と ‘大人’ のサブカテゴリ。医学の件名標目 (網) は、定義されたカテゴリ (表 2) に対応するパブリケーションを取得するために実装されます。メッシュの記述子は、さまざまな特異性のレベル (図 3に示すサンプル) で出版物の検索を許可するように階層的なツリー構造で編成されます。CaseOLAP プラットフォームは、さらにドキュメントエンティティ数マッピングと CaseOLAP スコアの計算を容易にするためのエンティティに関連付けられているドキュメントのキュレーションのデータのインデックス作成と検索の機能を利用しています。

CaseOLAP スコア計算の詳細は前出版物¹^,⁵で利用可能です。このスコアは、基本的なテキストキューブ文書構造に基づいて特定のランキング条件を使用して計算されます。最終的なスコアは、整合性、人気、および独自性の製品です。整合性では、代表的なエンティティが意味のある概念をまとめて指します積分の意味単位であるかどうかについて説明します。ユーザー定義の語句の整合性は、文献の標準的なフレーズとして立っているので 1.0 になるに撮影されます。特殊性は、他の細胞の残りの部分に比べてドキュメントの 1 つのサブセットの語句の相対的な関連性を表します。それは最初ターゲット・データ・セットでタンパク質名の発生を比較することによって特定のセルにエンティティの関連性を計算し、正規化された特殊性スコアを提供します。人気を表す人気スコアが高いフレーズというドキュメントの 1 つのサブセットにより頻繁に現れます。セルに珍しい蛋白質名は言及の頻度の増加は周波数の対数関数の実装のための逓減リターン低、ランク付けされます。セルの上のセルとセル内およびセル間でエンティティ (文書頻度) を持つドキュメントの数 (2) に、定量的測定のこれらの 3 つの概念はエンティティの (1) 用語頻度によって異なります。

PubMed データセットと我々のアルゴリズムを使用して 2 つの代表的なシナリオを検討しました。我々が興味を持っているどのようにミトコンドリア蛋白質のメッシュ記述子の 2 つの一意なカテゴリに関連付けられています。「年齢」や「栄養及び代謝疾患」。具体的には、我々はそれらの間で PubMed (1998 ~ 2018 年)、によって収集された 20 年の出版物からの 15,728,250 の出版物を取得、8,123,458 独自の抄録がフルメッシュ記述子をあった。したがって、1,842 人間ミトコンドリア蛋白質名 (略語や類義語など) UniProt (uniprot.org) からも MitoCarta2.0 を取得 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >)、体系的には、検討しました。我々のプロトコルを使用してこれらの 8,899,019 出版物とエンティティとの関連付けを調べたテキストキューブを構築し、それぞれの CaseOLAP スコアを計算しました。

Protocol

注意: Python プログラミング言語に基づいてこのプロトコルを開発しました。アナコンダ Python を持ってこのプログラムを実行して、Git はあらかじめデバイスにインストールします。このプロトコルで提供されるコマンドは、Unix 環境に基づいています。このプロトコルは、PubMed (MEDLINE) データベースからデータをダウンロード、データを解析およびクラウドコンピューティングフレーズマイニングとユーザー定義エンティティカテゴリ協会の定量化のためのプラットフォームの設定の詳細を提供します。 1. 取得コードと python 環境セットアップダウンロードまたは Github (https://github.com/CaseOLAP/caseolap) またはターミナルウィンドウで ‘git のクローンhttps://github.com/CaseOLAP/caseolap.gitの’ を入力して、コードリポジトリのクローンを作成します。 ‘Caseolap’ ディレクトリに移動します。これは、プロジェクトのルートディレクトリです。このディレクトリ内で、プロトコルの手順を経て進行として、複数のデータセットは、’data’ ディレクトリが設定されます。’Input’ ディレクトリは、ユーザー指定のデータです。’ログ’ ディレクトリには、トラブルシューティングのためにログファイルがあります。’結果’ ディレクトリは、最終的な結果が格納される場所です。ターミナルウィンドウを使用して、GitHub のリポジトリをクローンしたディレクトリに移動します。入力して ‘environment.yml’ ファイルを使用して CaseOLAP 環境を作成 ‘conda env を作成 -f environment.yaml’ターミナル.ターミナルで ‘ソース caseolap をアクティブに’ を入力することによって環境をアクティブにします。 2. ダウンロードドキュメント ‘Ftp_configuration.json’ config ディレクトリの FTP アドレス、リンク (https://www.nlm.nih.gov/databases/download/pubmed_medline.html) は、年間基準または毎日更新のファイルリンクのアドレスと同じであることを確認してください。. ベースラインのみまたは更新をダウンロードするには、ファイルのみ、’true’ ファイルで設定、’download_config.json’、’config’ ディレクトリ。既定では、それはダウンロードし、ベースラインと更新ファイルを抽出します。抽出された XML データのサンプルを見ることができます (https://github.com/CaseOLAP/caseolap-pipelines/blob/master/data/extracted-data-sample.xml) Pubmed データベースから抄録をダウンロードするターミナルウィンドウに ‘python run_download.py’ を入力します。これは ‘ftp.ncbi.nlm.nih.gov’ を現在のディレクトリと呼ばれるディレクトリを作成します。このプロセスでは、ダウンロードされたデータの整合性をチェックし、ターゲットディレクトリに抽出します。ダウンロードプロセスが失敗した場合、’download_log.txt’ 内のログメッセージを読む ‘ログ’ ディレクトリに移動します。プロセスを正常に完了すると、このログファイルでダウンロードプロセスのデバッグメッセージが出力されます。ダウンロードが完了したら、両方のディレクトリに基づいてダウンロード ‘download_config.json’ で構成または ‘updatefiles’ または ‘basefiles’ があることを確認する ‘ftp.ncbi.nlm.nih.gov’ にナビゲートします。ファイルの統計情報は、’filestat.txt’ ‘データ’ ディレクトリ内で可能になります。 3. ドキュメントの解析ステップ 2 から ‘ftp.ncbi.nlm.nih.gov’ ディレクトリにダウンロードして抽出したデータがあることを確認します。このディレクトリは、この手順で入力データディレクトリです。データ解析スキーマを変更するのには ‘true’ にその値を設定することによって ‘config’ ディレクトリ ‘parsing_config.json’ ファイルでパラメーターを選択します。既定では、それを解析し、 PMID、著者、抽象化、メッシュ、場所、ジャーナル、出版日。ダウンロードした (または抽出された) ファイルからドキュメントを解析するターミナルに「python run_parsing.py’ を入力します。この手順でダウンロードされたすべての XML ファイルを解析し、キーを含む各ドキュメントの python ディクショナリを作成 (例えば.、PMID、著者、抽象的なメッシュ3.2 スキーマ設定を解析に基づくファイルの)。データの解析が完了すると、解析されたデータがデータディレクトリに ‘pubmed.json’ と呼ばれるファイルに保存されていることを確認します。解析されたデータのサンプルでは図 3. 解析処理が失敗した場合、’parsing_log.txt’ 内のログメッセージを読む ‘ログ’ ディレクトリに移動します。プロセスを正常に完了すると、ログファイルにデバッグメッセージが出力されます。 4. PMID マッピングメッシュします。解析されたデータ (‘pubmed.json’) がご利用いただけます ‘データ’ ディレクトリを確認してください。 PMID マッピングにメッシュを実行するターミナルに「python run_mesh2pmid.py’ を入力します。これは、関連する PMIDs を収集、メッシュの各マッピングテーブルを作成します。単一 PMID が複数のメッシュの条件の下で落ちることがあります。マッピングが完了すると、データディレクトリに ‘mesh2pmid.json’ があることを確認します。トップ 20 マッピング統計のサンプルは表 2図 4と5で利用可能です。このプロセスが失敗した場合、’mesh2pmid_mapping_log.txt’ 内のログメッセージを読む ‘ログ’ ディレクトリに移動します。プロセスを正常に完了すると、このログファイルで、マッピングのデバッグメッセージが印刷されます。 5. ドキュメントのインデックス作成 Https://www.elastic.coから Elasticsearch アプリケーションをダウンロードします。現在、ダウンロードは (https://www.elastic.co/downloads/elasticsearch) でご利用いただけます。リモート雲でソフトウェアをダウンロードするには、ターミナルで ‘wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-x.x.x.tar.gz’ を入力します。上記のコマンドで ‘x.x.x’ を適切なバージョン番号で置き換えることを確認します。そのダウンロードした ‘elasticsearch x.x.x.tar.gz’ ファイルがルートディレクトリに表示されるかどうかを確認し、入力してファイルを抽出 ‘タールして elasticsearch-x.x.x.tar.gz’ターミナルウィンドウで。新しいターミナルを開き、ルートディレクトリからターミナルで ‘cd Elasticsearch/bin’ を入力して ElasticSearch bin ディレクトリに移動します。入力すると、Elasticsearch サーバーを起動 ‘./Elasticsearch’ ターミナルウィンドウで。エラーメッセージせず、サーバーが開始されていることを確認します。Elasticsearch サーバの起動時エラーの場合(https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html)の手順に従います。インデックスの開始を設定する ‘config’ ディレクトリ ‘index_init_config.json’ の内容を変更します。既定では、すべてのアイテムが選択されます。 Elasticsearch サーバーでインデックスデータベースを開始するターミナルに「python run_index_init.py’ を入力します。これはインデックス情報 (例えばインデックス名、型名、破片、レプリカの数の数) として知られている条件のセットを使用してインデックスを初期化します。インデックスが正常に作成される言及するメッセージが表示されます。 ‘True’ の値を設定することによって ‘config’ ディレクトリ ‘index_populate_config.json’ 内の項目を選択します。既定では、すべてのアイテムが選択されます。解析されたデータ (‘pubmed.json’) が ‘データ’ ディレクトリに存在することを確認します。 2 つのコンポーネントを持つ大量のデータを作成することによって、インデックスの作成にターミナルに ‘python run_index_populate.py’ を入力します。最初のコンポーネントはインデックス名、型名、および一括 id (例えば、 ‘PMID’) に関するメタデータ情報を辞書。A 2 番目のコンポーネントは、(例えば’title’、’抽象’、’メッシュ’) タグのすべての情報を含むデータ辞書. このプロセスが失敗した場合、’indexing_log.txt’ 内のログメッセージを読む ‘ログ’ ディレクトリに移動します。プロセスを正常に完了すると、ログファイルにインデックス作成のデバッグメッセージが出力が。 6. テキストキューブの作成 (Https://www.nlm.nih.gov/mesh/filelist.html) で利用可能な最新のメッシュのツリーをダウンロードします。現在のバージョンのコードは、入力ディレクトリで ‘meshtree2018.bin’ としてツリー 2018 のメッシュを使用しています。カテゴリ (例えば、疾患名、年齢、性別) を定義します。カテゴリは、1 つまたは複数のメッシュ記述子 (https://meshb-prev.nlm.nih.gov/treeView) を含めることができます。カテゴリのメッシュ Id を収集します。Config ディレクトリ (ダウンロードしたバージョンの ‘textcube_config.json’ ファイル ‘年齢’ のカテゴリのサンプルを参照) でファイル ‘textcube_config.json’ のカテゴリの名前を保存します。スペースで区切られた行にメッシュ Id の収集カテゴリを置きます。’Input’ ディレクトリ (ダウンロードしたバージョンの ‘categories.txt’ ファイル ‘年齢’ メッシュ Id のサンプルを参照) で、’categories.txt’ としてカテゴリファイルを保存します。このアルゴリズムは、すべての子孫メッシュ記述子を自動的に選択します。ルートノードと子孫の例に示します図 4 。 ‘Mesh2pmid.json’ が ‘データ’ ディレクトリにあることを確認します。メッシュツリーが ‘input’ ディレクトリに別の名前 (‘meashtree2019.bin’など) で更新された場合、これが正しく’run_textube.py’ ファイルの入力データパスで表されることを確認します。テキストキューブと呼ばれるドキュメントのデータ構造を作成するターミナルに「python run_textcube.py’ を入力します。これは、各カテゴリのドキュメント (PMIDs) のコレクションを作成します。1 つのドキュメント (PMID) 複数のカテゴリの下で落ちることがあります (表 3 a、3 b の表、図 6A参照してください、図 7A). テキストキューブ作成手順が完了すると、次のデータファイルが「data」ディレクトリに保存されるを確認してください: (1) は、”textcube_cell2pmid.json”、”textcube_pmid2cell.json”としてセルマッピングテーブルへ (2) PMID PMID テーブルにセル (3)”textcube_stat.txt”と”meshterms_per_cat.json”(4) テキストキューブデータ統計としてセルのすべての子孫のメッシュ用語のコレクションです。このプロセスが失敗した場合、’textcube_log.txt’ 内のログメッセージを読む ‘ログ’ ディレクトリに移動します。プロセスを正常に完了すると、ログファイルに、テキストキューブ作成のデバッグメッセージが印刷されます。 7. エンティティ数ユーザー定義のエンティティ (例えば、蛋白質名、遺伝子化学物質) を作成します。区切って、1 行に 1 つのエンティティとその略語を置く”|”。として ‘entities.txt’ ‘input’ ディレクトリにエンティティファイルを保存します。エンティティの例はで見つけることができます表 4. Elasticsearch サーバーが実行されていることを確認します。そうでなければ、5.2 と 5.3 Elasticsearch サーバを再起動する手順に進みます。ステップ 5 に設立された Elasticsearch サーバーで ‘pubmed’ と呼ばれるインデックス付きデータベースを持っている期待されます。 ‘Textcube_pmid2cell.json’ が ‘データ’ ディレクトリにあることを確認します。エンティティ数の操作を実行するターミナルに「python run_entitycount.py’ を入力します。これインデックス付きのデータベースからドキュメントを検索し、各ドキュメント内のエンティティのカウントし、同様エンティティが発見された PMIDs を収集します。エンティティ数が完了すると、最終的な結果は、’entitycount.txt’ として保存されますを確認し、’data”ディレクトリには、’entityfound_pmid2cell.json’。このプロセスが失敗した場合、’entitycount_log.txt’ 内のログメッセージを読む ‘ログ’ ディレクトリに移動します。プロセスを正常に完了すると、ログファイルにデバッグメッセージエンティティ数がプリントアウトされます。 8. メタデータの更新 ‘データ’ ディレクトリにすべての入力データ (‘entitycount.txt’, ‘textcube_pmid2cell.json’, ‘entityfound_pmid2cell.txt’) があることを確認します。これらは、メタデータの更新用入力データです。メタデータを更新するターミナルに「python run_metadata_update.py’ を入力します。これは (例えば、セル名、関連付けられたメッシュ、PMIDs) のメタデータのコレクションを準備するセル内の各テキストドキュメントを表します。表 3Aでテキストキューブメタデータのサンプルを提示し、表 3B 。メタデータの更新が完了すると、’metadata_pmid2pcount.json’と’metadata_cell2pmid.json’ が ‘データ’ ディレクトリに保存されることを確認します。このプロセスが失敗した場合、’metadata_update_log.txt’ 内のログメッセージを読む ‘ログ’ ディレクトリに移動します。プロセスを正常に完了すると、ログファイルにメタデータ更新プログラムのデバッグメッセージが出力が。 9. CaseOLAP スコアの計算 ‘Metadata_pmid2pcount.json’ と ‘metadata_cell2pmid.json’ ファイル ‘データ’ ディレクトリに存在ことを確認します。スコア計算の入力データのとおりです。 CaseOLAP スコアの計算を実行するターミナルに「python run_caseolap_score.py’ を入力します。これには、ユーザー定義のカテゴリに基づくエンティティの CaseOLAP スコアが計算されます。CaseOLAP スコアは、整合性、人気、および独自性の製品です。スコアの計算が完了すると、’結果’ ディレクトリに複数のファイル (例えば、’pop.csv’、’dist.csv’、’caseolap.csv’ として CaseOLAP スコアとしての特殊性として人気) で結果を保存これを確認します。CaseOLAP スコア計算の概要は、表 5にまた表示されます。このプロセスが失敗した場合、’caseolap_score_log.txt’ 内のログメッセージを読む ‘ログ’ ディレクトリに移動します。プロセスを正常に完了すると、ログファイルに、CaseOLAP スコア計算のデバッグメッセージが印刷されます。

Representative Results

サンプルの結果を生成する 2 つの件名見出し/記述子の CaseOLAP アルゴリズムを実装:「年齢」と”栄養と代謝性疾患”ユースケースとして。年齢別グループ。「年齢層」(幼児、子供、青年、大人) すべての 4 つのカテゴリーは、テキストキューブ内のセルとして選択しました。表 3Aでは、取得したメタデータと統計が表示されます。図 6Aテキストキューブセル間でドキュメントの数の比較が表示されます。大人には、すべてのセルの最大数である 172,394 ドキュメントが含まれています。大人と思春期のサブカテゴリがある共有ドキュメント (26,858 ドキュメント) の最大数。特に、これらの文書には、我々の関心だけ (すなわち、ミトコンドリア蛋白質) のエンティティが含まれています。図 6Bにベン図形型図表では、各セル内および複数重なりを見つけた (すなわち、ミトコンドリア蛋白質) エンティティの数を表します。タンパク質のすべての年齢別グループのサブカテゴリ内で共有数は 162 です。大人のサブカテゴリは、ユニークなタンパク質 (151)、子供 (16)、幼児 (8) および青年 (1) 数の最大値を示しています。タンパク質年齢グループ協会 CaseOLAP スコアとして計算しました。幼児、子供、青年および大人のサブカテゴリに関連付けられている (平均 CaseOLAP 点に基づく) トップ 10 タンパク質は、25-ヒドロキシビタミン D-1 α-水酸化酵素 α-クリスタリン B 鎖、ステロール 26-ヒドロキシラーゼセロトランスフェリン、クエン酸合成酵素L seryl tRNA、ナトリウム/カリウム輸送 atp アーゼサブユニット α 3、グルタチオン s-トランスフェラーゼオメガ 1、NADPH: アドレノドキシンオキシドレダクターゼ、ミトコンドリアペプチドメチオニンジメチルスルホキシド還元酵素 (図 6に示すように)。大人のサブカテゴリでは、思春期、子供トップ 10 ミトコンドリア蛋白質が大人のサブカテゴリに最も強い関連性を示すことを示す幼児のサブカテゴリのヒートマップ細胞と比較して高い強度の 10 ヒートマップセルが表示されます。ミトコンドリア蛋白質ステロール 26-水酸化酵素は、他の 9 のミトコンドリア蛋白質のヒートマップ細胞と比較して高い強度とヒートマップセルで示されるすべての年齢カテゴリー高団体。2 つのグループのスコアの絶対差の統計的分布表示 99% 信頼区間の平均値の差の次の範囲: (1) 平均 ‘ADLT’ と ‘INFT’ の間の違いは範囲 (0.042 に 0.029)、(2) の意味で差 (0.021 に 0.030) (3) の範囲で ‘ADLT’ と ‘CHLD’ 嘘 ‘ADLT’ の平均の違いと「アドル」(0.029 に 0.020)、(4) の範囲の平均の違いがある ‘アドル’ と ‘INFT’ の嘘 (0.022 に 0.015) (5) の範囲で平均値の差’アドル’ と ‘CHLD’ 間 ‘CHLD’ と ‘INFT’ (0.016 に 0.011) の範囲での平均値の差 (0.010 に 0.007)、(6) の範囲であります。栄養及び代謝疾患。我々は”栄養と代謝性疾患」(すなわち、代謝性疾患、栄養障害) テキストキューブで 2 つのセルを作成する 2 つのサブカテゴリを選択します。表 3 bでは、取得したメタデータと統計が表示されます。図 7Aのテキストキューブセル間でドキュメントの数の比較が表示されます。サブカテゴリの代謝性疾患には、栄養障害で 19,181 ドキュメント続いて 54,762 ドキュメントが含まれています。サブカテゴリの代謝性疾患、栄養障害 7,101 共有ドキュメントがあります。特に、これらの文書には、我々の関心だけ (すなわち、ミトコンドリア蛋白質) のエンティティが含まれています。図 7 bのベン図形型図表では、各セル内および複数重なり、細胞内に含まれているエンティティの数を表します。タンパク質-「栄養と代謝性疾患」として協会 CaseOLAP スコアを算出しました。このユースケースに関連付けられている (平均 CaseOLAP 点に基づく) トップ 10 蛋白質がステロール 26-ヒドロキシラーゼ、α-クリスタリン B 鎖、L seryl tRNA、クエン酸合成酵素、tRNA 合成酵素 pseudouridine A、25-ヒドロキシビタミン D-1 α-水酸化酵素グルタチオン s-トランスフェラーゼオメガ 1、NADPH: アドレノドキシン酸化還元酵素、ミトコンドリアペプチドメチオニンジメチルスルホキシド還元酵素、プラスミノーゲン活性化因子阻害剤 1 (図 7に示すように)。半分以上 (54%)すべての蛋白質のサブカテゴリの代謝性疾患、栄養障害 (397 蛋白質) 間で共有されます。興味深いことに、ほぼ半分 (43%)代謝性疾患のサブカテゴリのすべての関連蛋白質の栄養障害展示のみ、いくつかユニークなタンパク質 (35) に対し一意 (300 タンパク質) はします。Α-クリスタリン B チェーンでは、サブカテゴリの代謝性疾患に最強の関連付けが表示されます。ステロール 26-ヒドロキシラーゼ、ミトコンドリアでは、このミトコンドリアのタンパク質が栄養障害を記述する研究で関連性の高いことを示す栄養障害サブカテゴリで最強の関連付けが表示されます。2 つのグループ ‘MBD’ と ‘元’ のスコアで絶対差の統計的分布は、99% 信頼区間として平均値の差の範囲 (0.061 に 0.046) を示しています。図 1。CaseOLAP ワークフローの動的なビューです。この図は CaseOLAP のワークフローで 5 つの主要なステップを表します。ステップ 1 で、ダウンロードして (例えば、PubMed) からテキストドキュメントを抽出してワークフローを開始します。ステップ 2 で、PMID マッピングするメッシュと同様に、各ドキュメントのデータ辞書を作成する抽出されたデータが解析されます。ステップ 3 で、データのインデックス作成は迅速かつ効率的なエンティティの検索を容易にするために行われています。手順 4 で、テキストキューブを構築するユーザー-指定したカテゴリ情報 (例:.、各セルのルートメッシュ) の実装が行われます。ステップ 5、CaseOLAP スコアを計算するためのインデックスデータをエンティティのカウント操作が実装されています。これらの手順は、パブリックデータベース (PubMed など) で使用できる最新の情報システムを更新する反復的な方法で繰り返されます。この図の拡大版を表示するのにはここをクリックしてください。図 2。CaseOLAP ワークフローの技術的なアーキテクチャです。この図 CaseOLAP ワークフローの技術的な詳細を表します。PubMed のリポジトリからのデータは、PubMed FTP サーバーから取得されます。ユーザー、デバイス経由でクラウドサーバー (例えば、AWS 接続) に接続してダウンロードし、クラウドのローカルリポジトリにデータを抽出ダウンロードパイプラインを作成します。抽出されたデータ、構造化、検証、およびデータ解析パイプラインを持つ適切な形式をもたらした。同時に、解析の手順では、テキストキューブ建設用 PMID マッピングテーブルにメッシュが作成されます。解析されたデータは、ドキュメントのメタデータ (PMID、メッシュ、発行年など) を持つキーと値のディクショナリ形式のような JSON として格納されます。インデックス作成の一歩は、大量のデータを処理するため Elasticsearch を実装することによってデータを向上させます。次に、テキストキューブの PMID マッピングにメッシュを実装することによってユーザー定義の分類項目を作成します。テキストキューブ形成とインデックス作成の手順を完了すると、エンティティ数が行われています。エンティティ数のデータは、テキストキューブメタデータに実装されます。最後に、CaseOLAP のスコアは基になるテキストキューブ構造に基づいて計算されます。この図の拡大版を表示するのにはここをクリックしてください。図 3。解析済みのドキュメントのサンプルです。解析されたデータのサンプルは、この図に示した。解析されたデータは、インデックス作成とドキュメントメタデータの作成と互換性のあるキーと値のペアとして配置されます。この図で、PMID (「25896987」など)、キーとして、関連情報 (タイトル、出版日、抽象、メッシュ、物質、部門およびロケーションなど) のコレクションは、値。このようなドキュメントメタデータの非常に最初のアプリケーションは PMID メッシュの建設 (図 5および表 2)、テキストキューブを作成し、ユーザーが提供したエンティティと CaseOLAP スコアを計算する後で実装されているマッピングとカテゴリ。この図の拡大版を表示するのにはここをクリックしてください。図 4。メッシュツリーのサンプルです。 ‘年齢グループのメッシュツリーは NIH データベースで利用可能なツリーデータ構造から適応 (メッシュツリー 2018 年に )。メッシュ記述子に実装される、ノード Id (など人 [M01]、年齢 [M01.060]、[M01.060.057] 思春期、大人 [M01.060.116]、子 [M01.060.406]、幼児 [M01.060.703]) 特定のメッシュ記述子 (に関連する書類を収集するには表 3 a)。この図の拡大版を表示するのにはここをクリックしてください。図 5。年齢層で PMID のマッピングにメッシュします。この図は、バブルプロットとして「年齢」でメッシュ記述子の下で収集された (それぞれは連動、PMID) テキストドキュメントの数です。PMID マッピングするメッシュは、メッシュの記述子の下で集められた文書の正確な数を提供するために生成されます。3,062,143 の一意なドキュメントの総数は 18 子孫メッシュ記述子 (表 2参照) の下で収集された.高く大きく特定メッシュのディスクリプターの下メッシュ記述子を表すバブルの半径を選択 PMIDs の数。たとえば、ドキュメントの最大数は、メッシュ記述子「大人」の下で収集された (1,786,371 文書)、メッシュ記述子「幼児、Postmature」の下で収集されたテキストドキュメントの数が最も少ない数に対し (62 ドキュメント)。”栄養と代謝性疾患”(https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html) PMID マッピングへのメッシュの追加例が与えられます。422,039 の一意なドキュメントの合計数は、「栄養と代謝性疾患」で 361 子孫メッシュ記述子の下で収集されました。メッシュ記述子「肥満」の下で収集されたドキュメントの最大数 (77,881 ドキュメント) に続いて”糖尿病、タイプ 2″(61,901 ドキュメント) に対し”グリコーゲン貯蔵病 VIII を入力”(1 つのドキュメントのドキュメントの最小限の数を展示).関連テーブルがオンライン上も (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv) です。この図の拡大版を表示するのにはここをクリックしてください。図 6。「年齢」ユースケースとして。この図は、CaseOLAP プラットフォームの使用例の結果を示します。このインスタンスエンティティおよびセルを含む「年齢グループ」として蛋白質名とその略語 (表 4サンプルを参照) を実装します: 幼児 (INFT)、子供 (CHLD)、思春期 (アドル) と大人 (ADLT) サブカテゴリ (を参照として実装されます。表 3 a)。(A)グループ”年齢”ドキュメントの数:このヒートマップは、(テキストキューブの作成を参照してくださいプロトコル 4 および表 3Aの詳細) ドキュメントが「高齢者グループ」の細胞分散数を表示します。ドキュメント数の増加は、ヒートマップの暗い強度表示セル (スケールを参照してください)。1 つのドキュメントは、1 つ以上のセルに含まれるかもしれません。Heatmap 対角の位置に沿って細胞内にドキュメントの数を表示 (例えば、ADLT 含む 172,394 ドキュメントすべてのセルの最大数である)。Nondiagonal の位置は、ドキュメントの 2 つの細胞 (例えば、ADLT とアドルがある 26,858 共有ドキュメント) を落下の数を表します。(B).「年齢層」のエンティティ数:ベン図形型図表が「年齢層」(INFT、CHLD、アドル、ADLT) を表す 4 つの細胞で見つけられる蛋白質数を表します。蛋白質内のすべてのセルで共有数は 162 です。年齢 ADLT CHLD (16)、INFT (8) とアドル (1) に続いてユニークなタンパク質 (151) の最大数を示しています。(C)グループ”年齢”CaseOLAP スコアプレゼンテーション:各グループの平均 CaseOLAP スコア上位トップ 10 蛋白質は、ヒートマップに掲載されています。CaseOLAP のスコアが高いが、ヒートマップの暗い強度表示セル (スケールを参照してください)。タンパク質名は左側の列に表示されます、セル (INFT、CHLD、アドル、ADLT) は x 軸に沿って表示されます。いくつかのタンパク質は、(例えば、ステロール 26-ヒドロキシラーゼ、α-クリスタリン B チェーンと L seryl tRNA、ナトリウム/カリウム輸送 atp アーゼサブユニット α 3 は強い連合 ADLT との強い関連がある特定の年齢別グループに強い関連を示してください。INFT)。この図の拡大版を表示するのにはここをクリックしてください。図 7。「栄養と代謝性疾患」ユースケースとして:この図は、CaseOLAP プラットフォームの別の使用例の結果を示します。このインスタンスでは、エンティティと栄養と代謝病””2 つのセルを含む蛋白質名とその略語 (表 4のサンプルを参照) を実装します: 代謝性疾患 (MBD) と栄養障害 (NTD) として実装されます。サブカテゴリ ( 3 b の表を参照してください)。(A). 「栄養と代謝性疾患」内のドキュメント数:このヒートマップ (テキストキューブの作成の詳細については、プロトコル 4 と表 3 b を参照してください、「栄養と代謝性疾患」のセルでテキストドキュメントの数を示しています).ドキュメント数の増加は、ヒートマップの暗い強度表示セル (スケールを参照してください)。1 つのドキュメントは、1 つ以上のセルに含まれるかもしれません。Heatmap 対角の位置に沿って細胞内にドキュメントの総数を表示 (例えば、MBD を含む 54,762 ドキュメント 2 つのセルの間で最高の数である)。Nondiagonal の位置は、2 つのセル (例えば、MBD と NTD 7,101 共有ドキュメントがある) によって共有されるドキュメントの数を表します。(B). 「栄養と代謝性疾患」のエンティティ数:ベン図形型図表が”栄養と代謝性疾患”(MBD と NTD) を表す 2 つの細胞で見つけられる蛋白質の数を表します。2 つのセル内で共有蛋白質の数は 397 です。MBD セル 300 ユニークな蛋白質を示しています、NTD セルは 35 のユニークな蛋白質を示しています。(C). CaseOLAP スコアプレゼンテーション「栄養と代謝性疾患」に: 「栄養と代謝性疾患」で最高平均 CaseOLAP 得点トップ 10 蛋白質はヒートマップで表示されます。CaseOLAP のスコアが高いが、ヒートマップの暗い強度表示セル (スケールを参照してください)。タンパク質名は左側の列に表示されます、セル (MBD と NTD) は x 軸に沿って表示されます。いくつかのタンパク質は特定の疾患カテゴリーに強い関連を示して (α-クリスタリン B チェーンは高代謝性疾患関連付けとステロール 26-ヒドロキシラーゼは栄養障害と高協会など)。この図の拡大版を表示するのにはここをクリックしてください。時間 (時間の合計の割合) CaseOLAP プラットフォームでの手順 CaseOLAP プラットフォームのデータ構造とアルゴリズムアルゴリズムとデータ構造の複雑さ手順の詳細 40% ダウンロードと解析イテレーションと構文解析アルゴリズムの木入れ子になったループと定数乗算イテレーション: o(n2), O (log n)。場所 ‘n’ は反復のないです。ダウンロードパイプラインは、複数のファイルをそれぞれの手順を反復処理します。単一ドキュメントの解析と、生の XML データのツリー構造を各プロシージャが実行されます。 30% インデックス付け、検索、テキストキューブ作成反復、検索アルゴリズム (ソート、Lucene インデックス、優先度キュー、有限状態機械、ハック、regex クエリの実行をいじるビット) Elasticsearch Elasticsearch (https://www.elastic.co/) の複雑さドキュメントは、データ辞書を反復処理を実装することによってインデックスされます。テキストキューブの作成は、ドキュメントメタデータとユーザーが指定したカテゴリの情報を実装します。 30% エンティティのカウントと CaseOLAP の計算完全性、人気、特殊性計算の反復 O (1)、o(n2) caseOLAP 反復型に基づいてスコアの計算に関連する複数の複雑さエンティティのカウント操作の一覧し、リストをカウント操作を行います。エンティティのカウントデータは、CaseOLAP スコアの計算に使用されます。テーブル 1。アルゴリズムと複雑。このテーブルプロシージャに費やされた時間 (合計時間のパーセンテージ) に関する情報が示さ (ダウンロード、解析など) のデータ構造と CaseOLAP のプラットフォームで実装されているアルゴリズムの詳細については。CaseOLAP は、プロのインデックスと Elasticsearch と呼ばれる検索アプリケーションを実装します。Elasticsearch および内部アルゴリズムに関する複雑さの追加については、(https://www.elastic.co) で見つけることが。メッシュ記述子収集された PMIDs の数大人 1,786,371 中間の老化させた 1,661,882 高齢者 1,198,778 思春期 706,429 ヤングアダルト 486,259 子 480,218 高齢者、80 と 453,348 子供の頃、幼稚園 285,183 幼児 218,242 乳児、新生児 160,702 乳児は、時期尚早 17,701 乳幼児、低出生体重 5,707 虚弱高齢者 4,811 幼児、非常に低い生れ重量 4,458 幼児、小さい胎 3,168 非常に早期の幼児 1,171 幼児、非常に低い生れ重量 1,003 幼児、過 62 表 2。PMID マッピング統計メッシュします。この表に「年齢」から収集した PMIDs (テキストドキュメント) の数すべて子孫メッシュ記述子を示します。これらの統計情報の可視化を図 5に示します。 A 幼児 (INFT) 子供 (CHLD) 思春期 (アドル) 大人 (ADLT) ルート ID をメッシュします。 M01.060.703 M01.060.406 M01.060.057 M01.060.116 子孫のメッシュ記述子の数 9 2 1 6 選択した PMIDs の数 16,466 26,907 35,158 172,394 含まれているエンティティの数 233 297 257 443 B 代謝性疾患 (MBD) 栄養障害 (NTD) ルート ID をメッシュします。 C18.452 C18.654 子孫のメッシュ数記述子 308 53 収集された PMIDs の数 54,762 19,181 含まれているエンティティの数 697 432 表 3。テキストキューブメタデータ。テキストキューブメタデータの表形式のビューを表示します。テーブルは、カテゴリに関する情報を提供し、メッシュの記述子のルーツと子孫、各セル内のドキュメントを収集するために実装されています。テーブルは、収集したドキュメントとエンティティの統計情報を提供します。(A)「年齢層」: これは幼児 (INFT)、子供 (CHLD)、思春期 (アドル)、大人 (ADLT) などの「年齢層」の表形式表示と、メッシュルート Id 子孫のメッシュ記述子や選択した PMIDs の数の数の数のエンティティを発見しました。(B)「栄養と代謝性疾患」: これは”栄養と代謝性疾患”代謝性疾患 (MBD) と栄養障害 (NTD)、メッシュルート Id、子孫のメッシュ記述子の数の数を含む表形式で表示選択した PMIDs と検索されたエンティティの数。タンパク質名と同義語略語 N アセチル合成酵素は、ミトコンドリア、アミノ酸アセチルトランスフェラーゼ、N アセチル合成酵素長い形式N アセチル合成酵素の短い形式。N アセチル合成酵素には、ドメインのフォームが保存されている] (EC 2.3.1.1) 蛋白質/核酸酸 deglycase DJ 1 (メイラード deglycase) (がん遺伝子は DJ1) (パーキンソン病タンパク質 7) (パーキンソン病関連 deglycase) (タンパク質 DJ-1) (EC 3.1.2.-)(EC 3.5.1.-)(EC 3.5.1.124)(DJ-1) ピルビン酸カルボキシラーゼ、ミトコンドリア (ピルビンカルボキシラーゼ) (EC 6.4.1.1)(プリント基板) Bcl 2 結合コンポーネント 3 (アポトーシスの変調調整された p53) (平成 1) 相互作用の BH3 ドメイン死アゴニスト [相互作用の BH3 ドメイン死アゴニスト p15 (p15 入札);相互作用の BH3 ドメイン死アゴニスト p13;相互作用の BH3 ドメイン死アゴニスト p11] (p22 入札)(入札)(p13 入札)(p11 入札) ATP 合成酵素サブユニット α、ミトコンドリア (ATP 合成酵素の F1 サブユニット α) シトクロム P450 11B2、ミトコンドリア (アルドステロン合成酵素) (アルドステロン合成酵素) (CYPXIB2) (チトクローム P-450Aldo) (チトクローム P-450_C_18) (ステロイド 18-水酸化酵素) (ALDOS)(EC 1.14.15.4)(EC 1.14.15.5) 60 kDa 熱ショック蛋白質、ミトコンドリア (60 kDa シャペロニン) (シャペロニン 60) (CPN60) (熱ショック蛋白質 60) (ミトコンドリアマトリックス蛋白質 P1) (P60 リンパ球タンパク質) (HSP-60)(Hsp60)(HuCHA60)(EC 3.6.4.9) カスパーゼ-4 (Ced 3 と氷の相同物 2) (プロテアーゼ TX) [に裂かれる: カスパーゼ 4 サブユニット 1;カスパーゼ-4 サブユニット 2] (CASP-4)(EC 3.4.22.57)(ICH-2)(ICE(rel)-II)(Mih1) 表 4。エンティティテーブルをサンプルします。次の表は、我々の 2 つのユースケースで実装されたエンティティのサンプルを示します:「年齢」と「栄養と代謝性疾患」(図 6および図 7表 3 a、B)。蛋白質名、類義語、略語などのエンティティ。各エンティティ (類義語・略語を一つずつ選択ありが (プロトコル 3 と 5 を見なさい) インデックス付きデータをエンティティ検索操作を介して渡されます。検索には、エンティティのカウント操作を促進する文書の一覧が生成されます。数量ユーザー定義計算量の方程式量の意味整合性うん違いますユーザーの整合性定義エンティティ 1.0 と見なされます。意味のある句を表します。それが既に確立されたフレーズ、数値値は 1.0 です。人気違いますうん参照 5 から図 1 (ワークフローとアルゴリズム) で人気の方程式、「材料と方法」のセクション。セル内での語句の頻度に基づいています。セルの合計周波数で規格化しました。単語の頻度の増加、減少の結果。特殊性違いますうん参照 5 から図 1 (ワークフローとアルゴリズム) の特殊性方程式、「材料と方法」のセクション。用語の頻度とセル内および近隣の細胞の間で文書の頻度に基づいています。合計用語の頻度と文書頻度によって正規化します。定量的に語句が特定のセルで一意になる確率です。 CaseOLAP スコア違いますうん参照 5 から図 1 (ワークフローとアルゴリズム) の CaseOLAP スコア式、「材料と方法」のセクション。整合性、人気、および特殊性に基づいています。数値の値は常に 0 に 1 内にあります。定量的 CaseOLAP スコアを表すフレーズカテゴリ協会表 5。CaseOLAP 式:、CaseOLAP アルゴリズムは 2016年1Fangbo タオと Jiawei 漢らによって開発されました。簡単に言えば、このテーブルプレゼント 3 つのコンポーネントから成る CaseOLAP スコアの計算: 完全性、人気といわれてと関連付けられている数学的な意味。使用症例で蛋白質の整合性のスコアは 1.0 (最大スコア) 確立されたエンティティ名として立つため。図 6と図 7で私たちのユースケースで CaseOLAP スコアを見ることができます。

Discussion

我々は CaseOLAP アルゴリズムが、大量の有意義な洞察力の抽出のためのテキストデータを知識ベースのカテゴリに基づくフレーズ定量的関連付けを作成できますを示しています。次の私たちのプロトコルには、目的のテキストキューブを作成し、CaseOLAP スコア計算を通じてエンティティカテゴリの関連付けを定量化 CaseOLAP フレームワークを構築する 1 つ。次元削減, クラスタリング, 時間的・地理的な分析だけでなく、ドキュメントのセマンティックマッピングを可能にするグラフィカルなデータベースの作成を含む統合的な解析を生 CaseOLAP の得点を取ることができます。

アルゴリズムの有効性。蛋白質以外のユーザー定義エンティティの例としては、遺伝子名、薬、特定の標識、類義語、略語などの症状の一覧可能性があります。さらに、カテゴリ選択特定ユーザー定義生体解析 (解剖学 [A]、規律・職業 [H]、現象とプロセス [G] など) を容易にするために多くの選択肢があります。我々の 2 つのユースケース、PubMed を検索エンジンとして使用して MEDLINE データベースからすべての科学的な出版物およびテキストデータを取得、薬の国立図書館によって管理される両方。ただし、CaseOLAP プラットフォームは、医歯薬学ドキュメントにテキストデータなど、FDA 有害イベント報告システム (FAERS) を含む興味の他のデータベースに適用可能性があります。医療有害事象及び FDA に提出された薬エラー報告に関する情報を含む開いているデータベースです。MEDLINE と FAERS と対照をなして患者から電子カルテを含む病院でデータベースは公衆に開いていないが、健康保険の携行性と責任に関する法律 HIPAA として知られているによって制限されます。

CaseOLAP アルゴリズムは、さまざまな種類のデータ (例えば、ニュース記事)¹.に正常に適用されています。ライフサイエンス分野におけるこのアルゴリズムの実装は、2018年⁵で行われています。CaseOLAP アルゴリズムの適用性の要件は、各ドキュメントが概念 (メッシュ記述子は医学の出版物で、ニュース記事のキーワードなど) に関連付けられたキーワードを割り当てる必要があります。キーワードが見つからない場合トップの代表的なフレーズを収集し、我々のプロトコルを実装する前にエンティティの一覧を構築する Autophrase⁶^,⁷を適用できます。我々のプロトコルは、Autophrase を実行するステップを提供しません。

その他のアルゴリズムとの比較。データキューブ⁸^,⁹^,¹⁰テキストキューブ²^,³^、⁴を使用してのコンセプトは、データマイニングを適用する新しい進歩によって 2005 年以来進化してきた。オンライン分析処理 (OLAP)¹¹^,¹²^,¹³^,¹⁴^,¹⁵ビジネスインテリジェンスとデータマイニングの概念は 1993 年にさかのぼります。OLAP は一般に、複数のシステムから情報を集約し、多次元形式で格納します。データマイニングで実施された OLAP システムのさまざまな種類があります。たとえば (1) ハイブリッドトランザクション/解析処理 (HTAP)¹⁶^,¹⁷, (2) 多次元 OLAP (MOLAP)¹⁸^,¹⁹-ベース、および (3) リレーショナル OLAP (ROLAP)²⁰キューブします。

具体的には、CaseOLAP アルゴリズムに比べてされている既存の多数のアルゴリズムを具体的には、そのフレーズのセグメンテーション機能強化により、TF を含む-IDF + ワンセグ、MCX + ワンセグ、MCX、SegPhrase。また、RepPhrase (RP、SegPhrase + とも呼ばれます) は、整合性測定株式会社 (RP なし INT) せず RP (1)、(2) 人気メジャーが組み込まれる (RP いいえ POP)、ない RP せず RP (3) など、独自のアブレーションのバリエーションと比較されています、特殊性の測定の株式会社 (RP いいえ DIS)。ベンチマークの結果は、Fangbo タオら¹研究に表示されます。

保存およびデータベースからデータを取得する機能を追加することができますデータのマイニングの課題もあります。コンテキスト・アウェアセマンティック分析処理 (CaseOLAP) 体系的に数百万のドキュメント (プロトコル 5) のインデックスデータベースを構築する Elasticsearch を実装しています。テキストキューブは、ユーザーが指定したカテゴリ (プロトコル 6) とインデックス付きデータの構築ドキュメント構造です。これはドキュメント内およびテキストキューブのセル間に機能を高め、特定セル (プロトコル 8) の上文書と文書頻度をエンティティの頻度を計算することが出来る。CaseOLAP の最終的なスコアを利用して最終的なスコアを出力するこれらの周波数の計算 (プロトコル 9)。2018 年には ECM 蛋白質および蛋白質病アソシエーションの分析に六つの心臓病の研究にこのアルゴリズムを実施します。この研究の詳細は、リエム、検察ら⁵によって研究で見つけることが。CaseOLAP を様々な病気やメカニズムを探索医学コミュニティで広く使用できることを示します。

アルゴリズムの制限します。フレーズマイニング自体は、管理およびテキストデータから重要な概念を取得する手法です。数学量 (ベクトル) としてエンティティカテゴリ協会を発見しながらこのテクニックは協会の極性 (正または負の傾斜など) を把握することではないです。1 つは割り当てられたエンティティとカテゴリ、本文 Cude 文書構造を利用したデータの量的な要約を構築できますが、微細な粒度と定性的な概念に到達できません。今、いくつかの概念はそれまでの過去から、継続的に進化しています。特定のエンティティカテゴリ協会発表要約には文献を通してすべての事件が含まれます。これは技術革新の時空間伝搬を欠いている可能性があります。将来は、これらの制限に対処する予定です。

将来のアプリケーション。世界で蓄積したデータの約 90% は、非構造化テキストデータにあります。代表的なフレーズと、テキストに埋め込まれたエンティティ関係を見つけることは、新技術 (例えば、機械学習、情報抽出、人工知能) の実施のための非常に重要なタスクです。マシンのテキストデータを読みやすくするには、データがツールの次のレイヤーを実行できるデータベースに編成する必要があります。将来は、このアルゴリズムは、データマイニングが情報の検索とエンティティカテゴリの関連付けの定量化のより機能的な作りの重要なステップをすることができます。

Divulgations

The authors have nothing to disclose.

Acknowledgements

この作品は、国民の中心、肺および血の協会によって部分で支えられた: R35 HL135772 (P. Ping のような) に国立総合医学研究所: U54 GM114833 (P. Ping、k. ワトソン、西王し)(J. ハン); に U54 GM114838忍博士 Setty; ・ラリーホーグ財団、ヘレンからの贈り物(P. Ping) に UCLA で T.C. Laubisch 基金。

References

Tao, F., Zhuang, H., et al. Phrase-Based Summarization in Text Cubes. IEEE Data Engineering Bulletin. , 74-84 (2016).
Ding, B., Zhao, B., Lin, C. X., Han, J., Zhai, C. TopCells: Keyword-based search of top-k aggregated documents in text cube. IEEE 26th International Conference on Data Engineering (ICDE). , 381-384 (2010).
Ding, B., et al. Efficient Keyword-Based Search for Top-K Cells in Text Cube. IEEE Transactions on Knowledge and Data Engineering. 23 (12), 1795-1810 (2011).
Liu, X., et al. A Text Cube Approach to Human, Social and Cultural Behavior in the Twitter Stream.Social Computing, Behavioral-Cultural Modeling and Prediction. Lecture Notes in Computer Science. 7812, (2013).
Liem, D. A., et al. Phrase Mining of Textual Data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology-Heart and Circulatory. , (2018).
Shang, J., et al. Automated Phrase Mining from Massive Text Corpora. IEEE Transactions on Knowledge and Data Engineering. 30 (10), 1825-1837 (2018).
Liu, J., Shang, J., Wang, C., Ren, X., Han, J. Mining Quality Phrases from Massive Text Corpora. Proceedings ACM-Sigmod International Conference on Management of Data. , 1729-1744 (2015).
Lee, S., Kim, N., Kim, J. A Multi-dimensional Analysis and Data Cube for Unstructured Text and Social Media. IEEE Fourth International Conference on Big Data and Cloud Computing. , 761-764 (2014).
Lin, C. X., Ding, B., Han, J., Zhu, F., Zhao, B. Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. IEEE Data Mining. , 905-910 (2008).
Hsu, W. J., Lu, Y., Lee, Z. Q. Accelerating Topic Exploration of Multi-Dimensional Documents Parallel and Distributed Processing Symposium Workshops (IPDPSW). IEEE International. , 1520-1527 (2017).
Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26 (1), 65-74 (1997).
Ravat, F., Teste, O., Tournier, R. Olap aggregation function for textual data warehouse. ICEIS – 9th International Conference on Enterprise Information Systems, Proceedings. , 151-156 (2007).
Ho, C. T., Agrawal, R., Megiddo, N., Srikant, R. Range Queries in OLAP Data Cubes. SIGMOD Conference. , (1997).
Saxena, V., Pratap, A. Olap Cube Representation for Object- Oriented Database. International Journal of Software Engineering & Applications. 3 (2), (2012).
Maniatis, A. S., Vassiliadis, P., Skiadopoulos, S., Vassiliou, Y. Advanced visualization for OLAP. DOLAP. , (2003).
Bog, A. . Benchmarking Transaction and Analytical Processing Systems: The Creation of a Mixed Workload Benchmark and its Application. , 7-13 (2013).
Özcan, F., Tian, Y., Tözün, P. Hybrid Transactional/Analytical Processing: A Survey. In Proceedings of the ACM International Conference on Management of Data (SIGMOD). , 1771-1775 (2017).
Hasan, K. M. A., Tsuji, T., Higuchi, K. An Efficient Implementation for MOLAP Basic Data Structure and Its Evaluation. International Conference on Database Systems for Advanced Applications. , 288-299 (2007).
Nantajeewarawat, E. Advances in Databases: Concepts, Systems and Applications. DASFAA 2007. Lecture Notes in Computer Science. 4443, (2007).
Shimada, T., Tsuji, T., Higuchi, K. A storage scheme for multidimensional data alleviating dimension dependency. Third International Conference on Digital Information Management. , 662-668 (2007).

Play Video

PDF

DOI

Citer Cet Article

Sigdel, D., Kyi, V., Zhang, A., Setty, S. P., Liem, D. A., Shi, Y., Wang, X., Shen, J., Wang, W., Han, J., Ping, P. Cloud-Based Phrase Mining and Analysis of User-Defined Phrase-Category Association in Biomedical Publications. J. Vis. Exp. (144), e59108, doi:10.3791/59108 (2019).

クラウドベースフレーズマイニングとユーザー定義のフレーズカテゴリ医学出版会分析

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

References

Tags

Play Video

Citer Cet Article

View Video

クラウド ベース フレーズ マイニングとユーザー定義のフレーズ カテゴリ医学出版会分析

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgations

Acknowledgements

References

Tags

Play Video

Citer Cet Article

View Video

✖

To prove you're not a robot, please enter the text in the image below

クラウドベースフレーズマイニングとユーザー定義のフレーズカテゴリ医学出版会分析