Summary

在组织工程中高效管理中等规模、低速度、多维数据的数据库

Published: November 22, 2019
doi:

Summary

许多研究人员生成”中等大小”、低速和多维数据,这些数据可以通过数据库而不是电子表格更高效地进行管理。在这里,我们提供了数据库的概念概述,包括可视化多维数据、在关系数据库结构中链接表、映射半自动化数据管道以及使用数据库阐明数据含义。

Abstract

科学依赖于日益复杂的数据集来取得进展,但常见的数据管理方法(如电子表格程序)不足以影响这些信息日益扩大的规模和复杂性。虽然数据库管理系统有可能纠正这些问题,但它们不通常在业务和信息学领域之外使用。然而,许多研究实验室已经生成了”中等大小”的低速多维数据,这些数据可以从实施类似系统中获益匪浅。在本文中,我们将提供概念概述,解释数据库如何工作,以及它们在组织工程应用中提供的优势。来自具有层压A/C突变的个体的结构成纤维细胞数据用于说明特定实验环境中的示例。示例包括可视化多维数据、在关系数据库结构中链接表、映射半自动化数据管道以将原始数据转换为结构化格式,以及解释查询的基础语法。分析数据的结果被用来创建各种排列和意义的图,在哈钦森-吉尔福德老年病的正控制与所有其他实验组之间的一致环境中,细胞组织得到了证明。与电子表格相比,数据库方法具有极大的时间效率,一旦设置就易于使用,允许立即访问原始文件位置,并增加了数据严谨性。国家卫生研究院(NIH)强调实验严谨性,由于数据库具有有效组织复杂数据的强大能力,因此很可能最终将采用数据库作为常见做法。

Introduction

在科学进步在很大程度上由技术驱动的时代,处理大量数据已成为所有学科研究不可或缺的方面。计算生物学和基因组学等新领域的出现,突显出主动利用技术变得多么重要。这些趋势肯定会继续,由于摩尔定律和从技术进步1,2取得的稳步进展。但是,一个后果是生成的数据数量不断增加,超过了以前可行的组织方法的功能。虽然大多数学术实验室有足够的计算资源来处理复杂的数据集,但许多小组缺乏必要的技术专长来构建适合开发需要的定制系统3。具备管理和更新此类数据集的技能对于高效的工作流和输出仍然至关重要。弥合数据和专业知识之间的差距对于高效处理、重新更新和分析广泛的多层面数据非常重要。

在处理大型数据集时,可伸缩性是一个必不可少的考虑因素。例如,大数据是一个蓬勃发展的研究领域,它涉及从处理数据中揭示新的见解,其特点是数据量大、异质性大、生成率高,例如音频和视频4、5。使用自动化的组织和分析方法对于此字段来说,要适当地处理数据洪流是强制性的。但是,大数据中使用的许多技术术语没有明确界定,可能会令人困惑;例如,”高速”数据通常与每天数百万个新条目相关联,而”低速”数据可能每天只有几百个条目,例如在学术实验室环境中。虽然有许多令人兴奋的发现尚未发现使用大数据,大多数学术实验室并不要求这些方法的范围,权力和复杂性,以解决自己的科学问题5。虽然科学数据随着时间6而变得越来越复杂是毫无疑问的,但许多科学家继续使用不再满足其不断增长的数据需求的组织方法。例如,方便的电子表格程序经常用于组织科学数据,但代价是无法扩展、容易出错,以及长期时间效率低下。相反,数据库是解决问题的有效解决方案,因为它们具有可扩展性、相对便宜且易于处理正在进行的项目的各种数据集。

在考虑数据组织架构时,产生的直接问题包括成本和培训和使用的时间投资。数据库程序在业务设置中经常使用,与支持使用大数据系统所需的资金相比,它更经济、相对便宜或免费。事实上,存在各种商用和开源软件来创建和维护数据库,如 Oracle 数据库、MySQL 和 Microsoft (MS) 访问9。许多研究人员也会被鼓励学习,包括一些 MS Office 学术包,这进一步最大限度地减少了成本考虑。此外,几乎所有的开发人员都在网上提供广泛的文档,并且有大量的免费在线资源,如 Codecademy、W3学校和 SQLBolt,以帮助研究人员理解和利用结构化查询语言 (SQL) 10、11、12 。与任何编程语言一样,学习如何使用 SQL 使用数据库和代码需要时间来掌握,但拥有充足的可用资源,该过程非常简单,值得投入大量精力。

数据库可以是提高数据可访问性和易于聚合的强大工具,但必须确定哪些数据最受益于对组织的更大控制。多维性是指可以根据度量进行分组的条件的数量,而数据库在管理许多不同的条件时功能最强大13。相反,使用电子表格程序处理维度低的信息是最简单的;例如,包含年份和每年值的数据集只有一个可能的分组(对年份的度量)。高维数据,如来自临床设置将需要大量的手工组织才能有效地维护,一个繁琐和容易出错的过程超出了电子表格程序的范围13。非关系 (NoSQL) 数据库也执行各种角色,主要是在数据不能很好地组织到行和列14的应用程序中。除了经常开源外,这些组织架构还包括图形关联、时间序列数据或基于文档的数据。NoSQL 优于 SQL 的可伸缩性,但不能创建复杂的查询,因此关系数据库在需要一致性、标准化和不频繁的大规模数据更改的情况下更好。数据库最有效地将数据分组和重新更新到科学设置13、16中经常需要的大量符合性中。

因此,这项工作的主要目的是向科学界宣传数据库作为”中等规模”、低速数据可扩展的数据管理系统的潜力,并利用患者来源的细胞线实验的具体实例提供一般模板。其他类似的应用包括河床的地理空间数据、纵向临床研究的问卷,以及生长介质17、18、19中的微生物生长条件。这项工作强调了构建数据库以及将原始数据转换为结构化格式所需的数据管道的常见注意事项和效用。在 SQL 中提供数据库接口和数据库编码的基础知识,并举例说明,以便其他人获得适用于构建基本框架的知识。最后,一个实验数据集示例演示了如何轻松地有效地设计数据库,以多种方式聚合多层面数据。这些信息提供了背景、评论和模板,帮助其他科学家在按照自己的实验需求实施数据库的道路上。

为了在研究实验室环境中建立一个可扩展的数据库,在过去三年中收集了使用人类成纤维细胞的实验数据。该协议的主要重点是报告计算机软件的组织情况,使用户能够以尽可能经济、最高效的方式聚合、更新和管理数据,但还提供了相关的实验方法。上下文。

实验设置
制备样品的实验方案已经描述在20,21,并在这里简要介绍。构造由旋转涂层矩形玻璃盖玻片制备,其聚二甲基硅氧烷 (PDMS) 和固化剂的混合物为 10:1,然后在无组织(各向异性)或 20 μm 线中应用 0.05 mg/mL 纤维化(同种)或 20 μm 线,带 5 μm 间隙微模式排列(线)。成纤维细胞在通道7(或通道16为正控制)以最佳密度播种到盖玻片上,在24小时后更换介质后,保持生长48小时。然后,使用4%甲醛(PFA)溶液和0.0005%非离子表面活性剂固定细胞,然后对细胞核进行免疫染色(4’,6′-diaminodino-2-pheninnodole[DAPI]),actin(Alexa Fluor 488类黄激素),以及纤维素兔(多氯环素)。使用山羊抗兔子IgG抗体(Alexa Fluor 750山羊抗兔子)的纤维素二级染色剂被应用,并安装在所有盖玻片上,以防止荧光褪色。指甲油用于将盖玻片密封在显微镜幻灯片上,然后离开干燥 24 小时。

荧光图像是使用40倍油浸物物和安装在倒置电动显微镜上的数字电荷耦合装置(CCD)摄像机获得的。以 40 倍的放大倍率为每个封面滑动成像 10 个随机选择的视场,对应于 6.22 像素/μm 分辨率。自定义代码用于量化描述原子核、肌蛋白丝和纤维素的图像的不同变量;相应的值以及组织和几何参数自动保存在数据文件中。

单元格线
有关所有样本数据单元系的较广泛文档,可在先前出版物20中找到。简单描述一下,数据收集已获批准,并根据加州大学欧文分校机构审查委员会(IRB # 2014-1253)进行了知情同意。人类成纤维细胞从三个不同变异的层A/C(LMNA)基因突变中收集:杂合LMNA拼接位点突变(c.357-2A>G)22(A族);LMNA无意义突变 (c.736 C>T, pQ246X) 在外生 423 (家庭 B);和LMNA异义基因突变 (c.1003C>T, pR335W) 在外生624 (系列 C).纤维细胞也从每个家族中的其他个体中收集,作为相关的突变阴性对照,称为”控制”,其他细胞作为不相关的突变阴性对照,称为”捐赠者”。作为一种阳性控制,来自哈钦森-格里福德老年病(HGPS)个体的成纤维细胞是从一名8岁女性患者的皮肤活检中采集的,该患者拥有LMNA G608G点突变25。在这项工作中,对22个人的成纤维细胞进行了测试并用作数据。

数据类型
成纤维细胞数据分为两类:细胞核变量(即变形核的百分比、核区、核偏心)20或源自定向顺序参数(OOP)21、26、27(即肌蛋白OOP、纤维素OOP、核OOP)的结构变量。此参数等于所有方向矢量的平均阶张量的最大条件值,并在以前的出版物26、28中详细定义。这些值被聚合到各种可能的一致性中,例如针对年龄、性别、疾病状况、某些症状的存在等值。如何使用这些变量的示例可以在结果部分中找到。

示例代码和文件
基于上述数据的示例代码和其他文件可随本文一起下载,其名称和类型在表 1中进行了总结。

Protocol

注: 有关此协议中使用的软件版本,请参阅材料表。 1. 评估数据是否受益于数据库组织方案 下载示例代码和数据库(参见补充编码文件,这些文件在表 1中总结)。 使用图 1评估感兴趣的数据集是否为”多维”。注:图 1是为示例数据集提供的多维数据库的图形表示形式。 …

Representative Results

数据的多维性在本文介绍的示例数据集的上下文中,方法部分中描述的受试者被分为三个家族中的个体组,这些个体具有导致心脏病的LMNA突变(”患者”),相关的非突变阴性对照(”控制”),不相关的非突变阴性对照(”捐赠者”),以及哈钦森-吉尔福德前列腺综合征(HGPS)作为阳性对照的个体。鉴于对照组和捐赠者集体缺乏LMNA突变,其结果可进一步…

Discussion

协议的技术讨论
在考虑使用数据库时,第一步是评估数据是否从此类组织中受益。

下一个重要步骤是创建一个自动代码,该代码将询问用户的最小输入并生成表数据结构。在此示例中,用户输入了数据类型(细胞核或结构测量)、细胞行的主题指示符和所选文件数的类别。然后由用户选择相关文件(表 2,第 1 列),自动创建行条目,并填充文件?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

这项工作得到了国家卫生研究院国家心肺血液研究所的支持,资助号为R01 HL129008。作者特别感谢LMNA基因突变家庭成员参与这项研究。我们还要感谢琳达·麦卡锡在细胞培养和维护实验室空间方面给予的帮助,感谢纳萨姆·乔克尔(Nasam Chokr)参与细胞成像和核数据分析,感谢迈克尔·格罗斯伯格就建立我们最初的 Microsoft Access 数据库以及回答其他技术问题提供相关建议。

Materials

4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore’s law. Proceedings of the IEEE. 100, 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. . Learn SQL – Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
  11. . SQL Tutorial – w3schools.com Available from: https://www.w3schools.com/sql (2018)
  12. . Introduction to SQL – SQLBolt Available from: https://sqlbolt.com (2018)
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren’s and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)–a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. . SQL Training and Tutorials – Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)
check_url/60038?article_type=t

Play Video

Cite This Article
Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

View Video