Summary

組織工学における中型、低速度、多次元データを効率的に管理するデータベース

Published: November 22, 2019
doi:

Summary

多くの研究者は、「中規模」「低速」「多次元データ」を生成し、スプレッドシートではなくデータベースでより効率的に管理できます。ここでは、多次元データの視覚化、リレーショナル データベース構造内のテーブルのリンク、半自動化されたデータ パイプラインのマッピング、データベースを使用したデータの意味の解明など、データベースの概念的な概要を示します。

Abstract

サイエンスは、進歩のためにますます複雑化するデータセットに依存していますが、スプレッドシートプログラムなどの一般的なデータ管理方法は、この情報の規模と複雑さの増大には不十分です。データベース管理システムは、これらの問題を是正する可能性を秘めていますが、ビジネスや情報学の分野以外では一般的に利用されていません。しかし、多くの研究室はすでに「中規模」、低速度、多次元データを生成しており、同様のシステムを実装することで大きなメリットを得ています。この記事では、データベースがどのように機能し、組織工学アプリケーションで提供される利点を説明する概念的な概要を説明します。ラミンA/C突然変異を有する個体からの構造線維芽細胞データは、特定の実験文脈内の例を例示するために使用された。たとえば、多次元データの視覚化、リレーショナル データベース構造内のテーブルのリンク、生データを構造化形式に変換するための半自動化データ パイプラインのマッピング、クエリの基になる構文の説明などがあります。データ分析の結果は、ハッチンソン・ギルフォード・プロジェリア、よく知られたアミノ症、および他のすべての実験群の陽性制御との間の整列環境における細胞組織において、様々な配置および意義のプロットを作成するために使用された。スプレッドシートと比較すると、データベースメソッドは非常に時間効率が良く、一度設定した使い方が簡単で、元のファイルの場所にすぐにアクセスでき、データの厳格性が向上しました。国立衛生研究所(NIH)が実験的な厳しさに重点を置いているのに対し、複雑なデータを効果的に組織化する能力が強いため、多くの科学分野が最終的にデータベースを一般的な慣行として採用する可能性が高い。

Introduction

科学的進歩がテクノロジーによって大きく推進される時代において、大量のデータの取り扱いは、あらゆる分野にわたる研究の不可欠な側面となっています。計算生物学やゲノミクスなどの新しい分野の出現は、技術の積極的な利用がいかに重要であるかを強調しています。これらの傾向は、ムーアの法則と技術の進歩から得られた着実な進歩のために続くことは確実です1,2.ただし、その結果、以前に実行可能だった組織の方法の機能を超える生成データの量が増加します。ほとんどの学術研究室には複雑なデータセットを処理するための十分な計算リソースがありますが、多くのグループには、ニーズの開発に適したカスタムシステムを構築するために必要な技術的専門知識が不足しています。このようなデータセットを管理および更新するスキルを持つことは、効率的なワークフローと出力のために重要です。データと専門知識のギャップを埋めることは、多面的なデータの広い範囲を効率的に処理、再更新、分析するために重要です。

スケーラビリティは、大規模なデータ セットを処理する際に不可欠な考慮事項です。例えば、ビッグデータは、膨大なボリューム、大きな異質性、およびオーディオやビデオ4、5などの高い生成率を特徴とするデータの処理から新たな洞察を明らかにする研究の繁栄分野です。このフィールドでは、データの急流を適切に処理するために、自動化された方法の編成と分析が必須です。ただし、ビッグ データで使用される多くの技術用語は明確に定義されていないため、混乱を招く可能性があります。たとえば、”高速” データは 1 日あたり数百万の新しいエントリに関連付けられますが、”低速” データは、アカデミック ラボの設定など、1 日あたり数百のエントリしか作成されない場合があります。ビッグデータを使用して発見されていない多くのエキサイティングな発見がありますが、ほとんどの学術ラボは、独自の科学的な質問に対処するためのそのような方法の範囲、パワー、および複雑さを必要としません5.時間6の場合、科学データがますます複雑化していることは疑いの余地がありませんが、多くの科学者は、拡大するデータニーズを満たさなくなった組織の方法を使用し続けています。たとえば、便利なスプレッドシート プログラムは、科学的なデータを整理するために頻繁に使用されますが、長期的には、スケーラブルでエラーが発生しやすく、時間効率が悪くなります。逆に、データベースはスケーラブルで比較的安価で、進行中のプロジェクトのさまざまなデータ セットを処理する場合に使いやすいため、問題に対する効果的な解決策です。

データ編成のスキーマを検討する際に生じる当面の懸念は、トレーニングと使用のためのコスト、アクセシビリティ、および時間の投資です。ビジネスの設定で頻繁に使用されるデータベース プログラムは、ビッグ データ システムの使用をサポートするために必要な資金よりも、比較的安価または無料で、経済的です。実際、Oracle データベース、MySQL、Microsoft (MS) Access9など、データベースを作成および保守するための、市販のソフトウェアとオープン ソース ソフトウェアの両方が存在します。また、多くの研究者は、MS Access に複数の MS Office アカデミック パッケージが付属しており、コストに関する考慮事項をさらに最小限に抑えることを学ぶことも奨励されます。さらに、ほぼすべての開発者がオンラインで広範なドキュメントを提供しており、Codecademy、W3Schools、SQLBoltなどの無料のオンラインリソースが多数あり、研究者が構造化クエリ言語(SQL)10、11、12を理解し、利用するのに役立ちます。他のプログラミング言語と同様に、SQL を使用してデータベースとコードを使用する方法を習得するには時間がかかりますが、十分なリソースがあれば、プロセスは簡単で、投資する価値があります。

データベースは、データのアクセシビリティと集約を容易にするための強力なツールですが、組織をより細かく制御できるデータを識別することが重要です。多次元性とは、測定をグループ化できる条件の数を指し、データベースは多くの異なる条件13を管理する際に最も強力である。逆に、次元の低い情報は、スプレッドシート プログラムを使用して処理するのが最も簡単です。たとえば、年と各年の値を含むデータセットには、可能なグループ化 (年に対する測定値) が 1 つだけ含まれます。臨床設定からのような高次元データは、効果的に維持するために大量の手動組織を必要とし、スプレッドシートプログラム13の範囲を超えて退屈でエラーが起こりやすいプロセスである。非リレーショナル (NoSQL) データベースは、主にデータが行と列14に適切に編成されないアプリケーションにおいて、さまざまな役割を果たします。これらの組織スキーマには、頻繁にオープン ソースになるだけでなく、グラフィカルな関連付け、時系列データ、またはドキュメント ベースのデータも含まれます。NoSQL は SQL よりもスケーラビリティに優れていますが、複雑なクエリを作成できないため、一貫性、標準化、および頻繁に大規模なデータ変更が必要な状況では、リレーショナル データベースの方が優れています。データベースは、科学的設定13、16で頻繁に必要とされる大規模なコンフォメーション配列にデータを効果的にグループ化して再更新するのが最適です。

したがって、この研究の主な目的は、データベースが「中規模」の「中型」、低速データのスケーラブルなデータ管理システムとしての可能性を科学界に知らせるとともに、患者の供給細胞株実験の具体例を用いた一般的なテンプレートを提供することです。他の同様のアプリケーションは、河川床の地理空間データ、縦方向の臨床研究からのアンケート、および増殖媒体17、18、19における微生物増殖条件を含む。この作業では、生データを構造化形式に変換するために必要なデータ パイプラインと組み合わせたデータベースの構築に関する一般的な考慮事項と有用性を強調します。SQL のデータベース インターフェイスとデータベースのコーディングの基本事項を示し、基本的なフレームワークの構築に適用できる知識を他のユーザーが得られるようにする例を示します。最後に、サンプルの実験データセットは、さまざまな方法で多面的なデータを集計するようにデータベースを簡単かつ効果的に設計できることを示しています。この情報は、独自の実験的なニーズに合わせてデータベースを実装するための道筋を仲間の科学者を支援するためのコンテキスト、解説、およびテンプレートを提供します。

研究室でスケーラブルなデータベースを作成する目的で、過去3年間にヒト線維芽細胞を用いた実験のデータを収集しました。このプロトコルの主な焦点は、ユーザーが可能な限りコストと時間効率の高い方法でデータを集計、更新、および管理できるように、コンピュータ ソフトウェアの構成を報告することですが、関連する実験方法も提供されます。コンテキスト。

実験的なセットアップ
サンプルを調製するための実験プロトコルは、前に20、21で説明されており、ここで簡単に説明する。コンストラクトは、ポリジメチルシロキサン(PDMS)と硬化剤の10:1混合物を用いたスピンコーティング長方形ガラスカバーリップによって調製し、その後、未組織化(等方性)または5μmギャップマイクロパターン配置(ライン)のいずれかで0.05 mg/mLフィブロネクチンを適用した。線維芽細胞を最適な密度でカバーリップに通路7(または正のコントロールの通路16)に播種し、24時間後に媒体が変化して48時間成長させた。次いで、細胞を4%パラホルムアルデヒド(PFA)溶液および0.0005%非イオン性界面活性剤を用いて固定し、続いてカバースリップを細胞核(4′,6′-ジアミノジノ-2-フェニリノドール[DAPI])、アクチン(アレクサ・フルオール488ファロイジン)、およびフィブロネクチン(ポリクロンラジック)を用いて固定した。ヤギ抗ウサギIgG抗体(アレクサ・フルオール750ヤギ抗ウサギ)を用いたフィブロネクチンの二次染色を適用し、蛍光色素の退色を防ぐために全てのカバースリップに保存剤を取り付けた。マニキュアは、顕微鏡スライドにカバーリップを密封し、24時間乾燥させるために使用されました。

蛍光画像は、逆電動顕微鏡に搭載されたデジタル電荷結合装置(CCD)カメラと組み合わせた40倍油浸漬目的を用いて先に説明したように得られた。無作為に選択された10個の視野は、6.22ピクセル/μmの解像度に対応する40倍の倍率でカバースリップごとに画像化されました。カスタム記述コードは、核、アクチンフィラメント、フィブロネクチンを記述する画像とは異なる変数を定量するために使用されました。対応する値、組織パラメータ、ジオメトリ パラメータは、自動的にデータ ファイルに保存されました。

セルの線
すべてのサンプル データ セルラインに関するより広範なドキュメントは、以前の出版物20にあります。簡単に説明するために、データ収集は承認され、インフォームド・コンセントはUCアーバイン機関審査委員会(IRB # 2014-1253)に従って行われました。ヒト線維芽細胞は、ラミンA/C(LMNA)遺伝子変異の異なる変動の3つのファミリーから収集された:ヘテロ接合LMNAスプライス部位突然変異(c.357-2A>G)22(ファミリーA);。除数423(ファミリーB)におけるLMNAナンセンス突然変異(c.736 C>T、pQ246X)およびLMNAミスセンス突然変異 (c.1003C>T, pR335W) エキソン 624 (ファミリー C) における。線維芽細胞はまた、関連する突然変異陰性対照として各ファミリーの他の個体から回収され、「コントロール」と呼ばれ、他のものは「ドナー」と呼ばれる無関係な突然変異陰性対照として購入された。陽性対照として、ハッチンソン・グリフォード・プロジェリア(HGPS)を有する個体からの線維芽細胞を購入し、LMNA G608G点突然変異25を有するHGPSを有する8歳の女性患者から採取した皮膚生検から増殖させた。合計で、22個体からの線維芽細胞を試験し、この研究のデータとして使用した。

データ型
線維芽細胞データは、細胞核変数(すなわち、変形性核のパーセンテージ、核の面積、核偏心)20または方位順序パラメータ(OOP)21、26、27(すなわち、アクチンOOP、フィブロネクチンOOP、OOP核)の2つのカテゴリーのいずれかに分類された。このパラメータは、すべての方位ベクトルの平均順序テンソルの最大固有値と等しく、以前の出版物26,28で詳細に定義されている。これらの値は、年齢、性別、疾患の状態に対する値、特定の症状の存在など、さまざまな可能な立体構造に集約されます。これらの変数の使用方法の例については、結果セクションを参照してください。

コードとファイルの例
上記のデータに基づくコードおよびその他のファイルの例は、このペーパーでダウンロードでき、その名前と種類を表1にまとめます。

Protocol

注: このプロトコルで使用されるソフトウェア バージョンについては、マテリアルの表を参照してください。 1. データがデータベース組織スキームの恩恵を受けるかどうかを評価する コードとデータベースの例をダウンロードします (表 1にまとめた補足コーディング ファイルを参照)。 図 1を?…

Representative Results

データの多次元性ここで提示されるデータセットの例では、「方法」セクションで説明した被験者は、心臓病を引き起こすLMNA突然変異(「患者」)、関連する非突然変異陰性対照(「コントロール」)、無関係な非突然変異陰性対照(「ドナー」)、およびハッチンソン・ギルフォード・プロジェリア症候群(HGPS)を有する3つの家族の個体群に分けられた。コ?…

Discussion

プロトコルの技術的な議論
データベースの使用を検討する際の最初の手順は、データがこのような組織の恩恵を受けるかどうかを評価することです。

次の重要な手順は、ユーザーからの最小入力を要求し、テーブル データ構造を生成する自動化されたコードを作成することです。この例では、ユーザーはデータ型のカテゴリ (セルの核または構造測定)、?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

この研究は、国立衛生研究所の国立心臓・肺・血液研究所が支援し、R01 HL129008を付与しています。著者らは、特にLMNA遺伝子突然変異ファミリーメンバーの研究への参加に感謝する。また、リンダ・マッカーシーが細胞培養とラボスペースの維持に協力してくれたことに感謝し、ナサム・チョクルが細胞イメージングと核データ分析に参加してくれたことに感謝し、マイケル・A・グロスバーグは、Microsoft Accessデータベースの初期設定に関する適切なアドバイスを提供し、その他の技術的な質問に答えてくれたことを感謝します。

Materials

4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore’s law. Proceedings of the IEEE. 100, 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. . Learn SQL – Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
  11. . SQL Tutorial – w3schools.com Available from: https://www.w3schools.com/sql (2018)
  12. . Introduction to SQL – SQLBolt Available from: https://sqlbolt.com (2018)
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren’s and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)–a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. . SQL Training and Tutorials – Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)
check_url/60038?article_type=t

Play Video

Cite This Article
Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

View Video