医学文献のユーザー選択したナレッジ ドメインで独自のコンセプトを表すフレーズ カテゴリ関連のクラウド ベースの自動認識をサポートするメタデータ サンプルと同様に、プロトコルおよび関連するプログラミング コードを提案します。選択した知識領域の深さ分析でこのプロトコルによって定量化フレーズ カテゴリの関連付けを促進できます。
医用テキスト データの急速な蓄積まで手動キュレーションと大量の科学的なレポートから生物学的洞察力を抽出する小説のテキストマイニング ツールを施行した分析の人間の能力を超えています。コンテキスト ・ アウェア意味オンライン分析処理 (CaseOLAP) パイプライン、2016 年に開発は正常にテキスト データの分析を通じてユーザー定義フレーズ カテゴリの関係を定量化します。CaseOLAP は多くの生物医学アプリケーションです。
エンド ツー エンド フレーズ マイニングと分析プラットフォームを支えるクラウド ベース環境のためのプロトコルを開発しました。我々 のプロトコルは、データの前処理 (例えば、ダウンロード、抽出、およびテキスト ドキュメントの解析) 含まれている、インデックス作成と検索の機能的なドキュメント構造を作成する Elasticsearch と呼ばれるテキスト キューブ、およびフレーズ カテゴリの関係を定量化コア CaseOLAP アルゴリズムを使用しています。
データの前処理は、関与するすべてのドキュメントのキー値のマッピングを生成します。プリプロセス済みのデータは、テキスト キューブの作成と CaseOLAP スコアの計算をさらに容易にするエンティティを含むドキュメントの検索を実行するインデックスされます。得られたスコア CaseOLAP は、一連の統合的な解析、クラスタ リング、時空、次元削減を含むおよび地理的な分析を使用して解釈されます。また、CaseOLAP スコアはドキュメントのセマンティック マッピングを可能にするグラフィカルなデータベースを作成する使用されます。
CaseOLAP 正確な (関係を識別) のフレーズ カテゴリの関連付けを定義します、一貫性のある (再現性の高い)、および効率的な方法 (プロセス 100,000 ワード/秒)。このプロトコルでは、次のユーザーは彼らの自身の構成と CaseOLAP のアプリケーションをサポートするクラウド ・ コンピューティング環境をアクセスできます。このプラットフォームは、高度なアクセシビリティを提供し、広範な生物医学研究用フレーズ マイニング ツールと医学のコミュニティに権限を与えます。
フレーズ カテゴリ関連の研究のためのテキスト ファイルの数百万のマニュアル評価 (例えば.、蛋白質協会に年齢) 自動計算メソッドによって提供される効率で比類のないです。我々 は生体においてフレーズ カテゴリ協会の自動計算のためのフレーズ データマイニング手法としてクラウド ベースのコンテキスト認識意味オンライン分析処理 (CaseOLAP) プラットフォームを紹介したいと思います。
20161で最初に定義した CaseOLAP のプラットフォームは、テキスト キューブ2,3,と呼ばれるその機能的なドキュメント管理のためのデータ管理・計算の従来の方法と比較して非常に効率的です。 4、基になっている階層と地区を維持しながら、ドキュメントを配布します。それは、カテゴリ エンティティ協会を研究する生物医学研究5で適用されています。CaseOLAP プラットフォームは、ダウンロードと抽出データ、解析、インデックス作成、テキスト キューブの作成、エンティティの数、および CaseOLAP スコア計算を含む六つの主要なステップで構成されています(図 1、図 2、表 1) プロトコルの主な焦点である.
CaseOLAP アルゴリズムを実装するには、ユーザーは (例えば、病気、徴候や症状、年齢、診断) 興味のあるカテゴリーとエンティティ (例えば、蛋白質、薬) を設定します。この記事に含まれるカテゴリの一例をテキスト キューブと蛋白質名 (同義語) とエンティティとして略語の細胞、’ 年齢 ‘ ある ‘幼児’、’子’、’青年’ と ‘大人’ のサブカテゴリ。医学の件名標目 (網) は、定義されたカテゴリ (表 2) に対応するパブリケーションを取得するために実装されます。メッシュの記述子は、さまざまな特異性のレベル (図 3に示すサンプル) で出版物の検索を許可するように階層的なツリー構造で編成されます。CaseOLAP プラットフォームは、さらにドキュメント エンティティ数マッピングと CaseOLAP スコアの計算を容易にするためのエンティティに関連付けられているドキュメントのキュレーションのデータのインデックス作成と検索の機能を利用しています。
CaseOLAP スコア計算の詳細は前出版物1,5で利用可能です。このスコアは、基本的なテキスト キューブ文書構造に基づいて特定のランキング条件を使用して計算されます。最終的なスコアは、整合性、人気、および独自性の製品です。整合性では、代表的なエンティティが意味のある概念をまとめて指します積分の意味単位であるかどうかについて説明します。ユーザー定義の語句の整合性は、文献の標準的なフレーズとして立っているので 1.0 になるに撮影されます。特殊性は、他の細胞の残りの部分に比べてドキュメントの 1 つのサブセットの語句の相対的な関連性を表します。それは最初ターゲット ・ データ ・ セットでタンパク質名の発生を比較することによって特定のセルにエンティティの関連性を計算し、正規化された特殊性スコアを提供します。人気を表す人気スコアが高いフレーズというドキュメントの 1 つのサブセットにより頻繁に現れます。セルに珍しい蛋白質名は言及の頻度の増加は周波数の対数関数の実装のための逓減リターン低、ランク付けされます。セルの上のセルとセル内およびセル間でエンティティ (文書頻度) を持つドキュメントの数 (2) に、定量的測定のこれらの 3 つの概念はエンティティの (1) 用語頻度によって異なります。
PubMed データセットと我々 のアルゴリズムを使用して 2 つの代表的なシナリオを検討しました。我々 が興味を持っているどのようにミトコンドリア蛋白質のメッシュ記述子の 2 つの一意なカテゴリに関連付けられています。「年齢」や「栄養及び代謝疾患」。具体的には、我々 はそれらの間で PubMed (1998 ~ 2018 年)、によって収集された 20 年の出版物からの 15,728,250 の出版物を取得、8,123,458 独自の抄録がフル メッシュ記述子をあった。したがって、1,842 人間ミトコンドリア蛋白質名 (略語や類義語など) UniProt (uniprot.org) からも MitoCarta2.0 を取得 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >)、体系的には、検討しました。我々 のプロトコルを使用してこれらの 8,899,019 出版物とエンティティとの関連付けを調べたテキスト キューブを構築し、それぞれの CaseOLAP スコアを計算しました。
我々 は CaseOLAP アルゴリズムが、大量の有意義な洞察力の抽出のためのテキスト データを知識ベースのカテゴリに基づくフレーズ定量的関連付けを作成できますを示しています。次の私たちのプロトコルには、目的のテキスト キューブを作成し、CaseOLAP スコア計算を通じてエンティティ カテゴリの関連付けを定量化 CaseOLAP フレームワークを構築する 1 つ。次元削減, クラスタ リング, 時間的・地理的な分析だけでなく、ドキュメントのセマンティック マッピングを可能にするグラフィカルなデータベースの作成を含む統合的な解析を生 CaseOLAP の得点を取ることができます。
アルゴリズムの有効性。蛋白質以外のユーザー定義エンティティの例としては、遺伝子名、薬、特定の標識、類義語、略語などの症状の一覧可能性があります。さらに、カテゴリ選択特定ユーザー定義生体解析 (解剖学 [A]、規律・職業 [H]、現象とプロセス [G] など) を容易にするために多くの選択肢があります。我々 の 2 つのユース ケース、PubMed を検索エンジンとして使用して MEDLINE データベースからすべての科学的な出版物およびテキスト データを取得、薬の国立図書館によって管理される両方。ただし、CaseOLAP プラットフォームは、医歯薬学ドキュメントにテキスト データなど、FDA 有害イベント報告システム (FAERS) を含む興味の他のデータベースに適用可能性があります。医療有害事象及び FDA に提出された薬エラー報告に関する情報を含む開いているデータベースです。MEDLINE と FAERS と対照をなして患者から電子カルテを含む病院でデータベースは公衆に開いていないが、健康保険の携行性と責任に関する法律 HIPAA として知られているによって制限されます。
CaseOLAP アルゴリズムは、さまざまな種類のデータ (例えば、ニュース記事)1.に正常に適用されています。ライフ サイエンス分野におけるこのアルゴリズムの実装は、2018年5で行われています。CaseOLAP アルゴリズムの適用性の要件は、各ドキュメントが概念 (メッシュ記述子は医学の出版物で、ニュース記事のキーワードなど) に関連付けられたキーワードを割り当てる必要があります。キーワードが見つからない場合トップの代表的なフレーズを収集し、我々 のプロトコルを実装する前にエンティティの一覧を構築する Autophrase6,7を適用できます。我々 のプロトコルは、Autophrase を実行するステップを提供しません。
その他のアルゴリズムとの比較。データ キューブ8,9,10テキスト キューブ2,3、4を使用してのコンセプトは、データ マイニングを適用する新しい進歩によって 2005 年以来進化してきた。オンライン分析処理 (OLAP)11,12,13,14,15ビジネス インテリジェンスとデータ マイニングの概念は 1993 年にさかのぼります。OLAP は一般に、複数のシステムから情報を集約し、多次元形式で格納します。データ マイニングで実施された OLAP システムのさまざまな種類があります。たとえば (1) ハイブリッド トランザクション/解析処理 (HTAP)16,17, (2) 多次元 OLAP (MOLAP)18,19-ベース、および (3) リレーショナル OLAP (ROLAP)20キューブします。
具体的には、CaseOLAP アルゴリズムに比べてされている既存の多数のアルゴリズムを具体的には、そのフレーズのセグメンテーション機能強化により、TF を含む-IDF + ワンセグ、MCX + ワンセグ、MCX、SegPhrase。また、RepPhrase (RP、SegPhrase + とも呼ばれます) は、整合性測定株式会社 (RP なし INT) せず RP (1)、(2) 人気メジャーが組み込まれる (RP いいえ POP)、ない RP せず RP (3) など、独自のアブレーションのバリエーションと比較されています、特殊性の測定の株式会社 (RP いいえ DIS)。ベンチマークの結果は、Fangbo タオら1研究に表示されます。
保存およびデータベースからデータを取得する機能を追加することができますデータのマイニングの課題もあります。コンテキスト ・ アウェア セマンティック分析処理 (CaseOLAP) 体系的に数百万のドキュメント (プロトコル 5) のインデックス データベースを構築する Elasticsearch を実装しています。テキスト キューブは、ユーザーが指定したカテゴリ (プロトコル 6) とインデックス付きデータの構築ドキュメント構造です。これはドキュメント内およびテキスト キューブのセル間に機能を高め、特定セル (プロトコル 8) の上文書と文書頻度をエンティティの頻度を計算することが出来る。CaseOLAP の最終的なスコアを利用して最終的なスコアを出力するこれらの周波数の計算 (プロトコル 9)。2018 年には ECM 蛋白質および蛋白質病アソシエーションの分析に六つの心臓病の研究にこのアルゴリズムを実施します。この研究の詳細は、リエム、検察ら5によって研究で見つけることが。CaseOLAP を様々 な病気やメカニズムを探索医学コミュニティで広く使用できることを示します。
アルゴリズムの制限します。フレーズ マイニング自体は、管理およびテキスト データから重要な概念を取得する手法です。数学量 (ベクトル) としてエンティティ カテゴリ協会を発見しながらこのテクニックは協会の極性 (正または負の傾斜など) を把握することではないです。1 つは割り当てられたエンティティとカテゴリ、本文 Cude 文書構造を利用したデータの量的な要約を構築できますが、微細な粒度と定性的な概念に到達できません。今、いくつかの概念はそれまでの過去から、継続的に進化しています。特定のエンティティ カテゴリ協会発表要約には文献を通してすべての事件が含まれます。これは技術革新の時空間伝搬を欠いている可能性があります。将来は、これらの制限に対処する予定です。
将来のアプリケーション。世界で蓄積したデータの約 90% は、非構造化テキスト データにあります。代表的なフレーズと、テキストに埋め込まれたエンティティ関係を見つけることは、新技術 (例えば、機械学習、情報抽出、人工知能) の実施のための非常に重要なタスクです。マシンのテキスト データを読みやすくするには、データがツールの次のレイヤーを実行できるデータベースに編成する必要があります。将来は、このアルゴリズムは、データ マイニングが情報の検索とエンティティ カテゴリの関連付けの定量化のより機能的な作りの重要なステップをすることができます。
The authors have nothing to disclose.
この作品は、国民の中心、肺および血の協会によって部分で支えられた: R35 HL135772 (P. Ping のような) に国立総合医学研究所: U54 GM114833 (P. Ping、k. ワトソン、西王し)(J. ハン); に U54 GM114838忍博士 Setty; ・ ラリー ホーグ財団、ヘレンからの贈り物(P. Ping) に UCLA で T.C. Laubisch 基金。