Summary
许多研究人员生成"中等大小"、低速和多维数据,这些数据可以通过数据库而不是电子表格更高效地进行管理。在这里,我们提供了数据库的概念概述,包括可视化多维数据、在关系数据库结构中链接表、映射半自动化数据管道以及使用数据库阐明数据含义。
Abstract
科学依赖于日益复杂的数据集来取得进展,但常见的数据管理方法(如电子表格程序)不足以影响这些信息日益扩大的规模和复杂性。虽然数据库管理系统有可能纠正这些问题,但它们不通常在业务和信息学领域之外使用。然而,许多研究实验室已经生成了"中等大小"的低速多维数据,这些数据可以从实施类似系统中获益匪浅。在本文中,我们将提供概念概述,解释数据库如何工作,以及它们在组织工程应用中提供的优势。来自具有层压A/C突变的个体的结构成纤维细胞数据用于说明特定实验环境中的示例。示例包括可视化多维数据、在关系数据库结构中链接表、映射半自动化数据管道以将原始数据转换为结构化格式,以及解释查询的基础语法。分析数据的结果被用来创建各种排列和意义的图,在哈钦森-吉尔福德老年病的正控制与所有其他实验组之间的一致环境中,细胞组织得到了证明。与电子表格相比,数据库方法具有极大的时间效率,一旦设置就易于使用,允许立即访问原始文件位置,并增加了数据严谨性。国家卫生研究院(NIH)强调实验严谨性,由于数据库具有有效组织复杂数据的强大能力,因此很可能最终将采用数据库作为常见做法。
Introduction
在科学进步在很大程度上由技术驱动的时代,处理大量数据已成为所有学科研究不可或缺的方面。计算生物学和基因组学等新领域的出现,突显出主动利用技术变得多么重要。这些趋势肯定会继续,由于摩尔定律和从技术进步1,2取得的稳步进展。但是,一个后果是生成的数据数量不断增加,超过了以前可行的组织方法的功能。虽然大多数学术实验室有足够的计算资源来处理复杂的数据集,但许多小组缺乏必要的技术专长来构建适合开发需要的定制系统3。具备管理和更新此类数据集的技能对于高效的工作流和输出仍然至关重要。弥合数据和专业知识之间的差距对于高效处理、重新更新和分析广泛的多层面数据非常重要。
在处理大型数据集时,可伸缩性是一个必不可少的考虑因素。例如,大数据是一个蓬勃发展的研究领域,它涉及从处理数据中揭示新的见解,其特点是数据量大、异质性大、生成率高,例如音频和视频4、5。使用自动化的组织和分析方法对于此字段来说,要适当地处理数据洪流是强制性的。但是,大数据中使用的许多技术术语没有明确界定,可能会令人困惑;例如,"高速"数据通常与每天数百万个新条目相关联,而"低速"数据可能每天只有几百个条目,例如在学术实验室环境中。虽然有许多令人兴奋的发现尚未发现使用大数据,大多数学术实验室并不要求这些方法的范围,权力和复杂性,以解决自己的科学问题5。虽然科学数据随着时间6而变得越来越复杂是毫无疑问的,但许多科学家继续使用不再满足其不断增长的数据需求的组织方法。例如,方便的电子表格程序经常用于组织科学数据,但代价是无法扩展、容易出错,以及长期时间效率低下。相反,数据库是解决问题的有效解决方案,因为它们具有可扩展性、相对便宜且易于处理正在进行的项目的各种数据集。
在考虑数据组织架构时,产生的直接问题包括成本和培训和使用的时间投资。数据库程序在业务设置中经常使用,与支持使用大数据系统所需的资金相比,它更经济、相对便宜或免费。事实上,存在各种商用和开源软件来创建和维护数据库,如 Oracle 数据库、MySQL 和 Microsoft (MS) 访问9。许多研究人员也会被鼓励学习,包括一些 MS Office 学术包,这进一步最大限度地减少了成本考虑。此外,几乎所有的开发人员都在网上提供广泛的文档,并且有大量的免费在线资源,如 Codecademy、W3学校和 SQLBolt,以帮助研究人员理解和利用结构化查询语言 (SQL) 10、11、12 。与任何编程语言一样,学习如何使用 SQL 使用数据库和代码需要时间来掌握,但拥有充足的可用资源,该过程非常简单,值得投入大量精力。
数据库可以是提高数据可访问性和易于聚合的强大工具,但必须确定哪些数据最受益于对组织的更大控制。多维性是指可以根据度量进行分组的条件的数量,而数据库在管理许多不同的条件时功能最强大13。相反,使用电子表格程序处理维度低的信息是最简单的;例如,包含年份和每年值的数据集只有一个可能的分组(对年份的度量)。高维数据,如来自临床设置将需要大量的手工组织才能有效地维护,一个繁琐和容易出错的过程超出了电子表格程序的范围13。非关系 (NoSQL) 数据库也执行各种角色,主要是在数据不能很好地组织到行和列14的应用程序中。除了经常开源外,这些组织架构还包括图形关联、时间序列数据或基于文档的数据。NoSQL 优于 SQL 的可伸缩性,但不能创建复杂的查询,因此关系数据库在需要一致性、标准化和不频繁的大规模数据更改的情况下更好。数据库最有效地将数据分组和重新更新到科学设置13、16中经常需要的大量符合性中。
因此,这项工作的主要目的是向科学界宣传数据库作为"中等规模"、低速数据可扩展的数据管理系统的潜力,并利用患者来源的细胞线实验的具体实例提供一般模板。其他类似的应用包括河床的地理空间数据、纵向临床研究的问卷,以及生长介质17、18、19中的微生物生长条件。这项工作强调了构建数据库以及将原始数据转换为结构化格式所需的数据管道的常见注意事项和效用。在 SQL 中提供数据库接口和数据库编码的基础知识,并举例说明,以便其他人获得适用于构建基本框架的知识。最后,一个实验数据集示例演示了如何轻松地有效地设计数据库,以多种方式聚合多层面数据。这些信息提供了背景、评论和模板,帮助其他科学家在按照自己的实验需求实施数据库的道路上。
为了在研究实验室环境中建立一个可扩展的数据库,在过去三年中收集了使用人类成纤维细胞的实验数据。该协议的主要重点是报告计算机软件的组织情况,使用户能够以尽可能经济、最高效的方式聚合、更新和管理数据,但还提供了相关的实验方法。上下文。
实验设置
制备样品的实验方案已经描述在20,21,并在这里简要介绍。构造由旋转涂层矩形玻璃盖玻片制备,其聚二甲基硅氧烷 (PDMS) 和固化剂的混合物为 10:1,然后在无组织(各向异性)或 20 μm 线中应用 0.05 mg/mL 纤维化(同种)或 20 μm 线,带 5 μm 间隙微模式排列(线)。成纤维细胞在通道7(或通道16为正控制)以最佳密度播种到盖玻片上,在24小时后更换介质后,保持生长48小时。然后,使用4%甲醛(PFA)溶液和0.0005%非离子表面活性剂固定细胞,然后对细胞核进行免疫染色(4',6'-diaminodino-2-pheninnodole[DAPI]),actin(Alexa Fluor 488类黄激素),以及纤维素兔(多氯环素)。使用山羊抗兔子IgG抗体(Alexa Fluor 750山羊抗兔子)的纤维素二级染色剂被应用,并安装在所有盖玻片上,以防止荧光褪色。指甲油用于将盖玻片密封在显微镜幻灯片上,然后离开干燥 24 小时。
荧光图像是使用40倍油浸物物和安装在倒置电动显微镜上的数字电荷耦合装置(CCD)摄像机获得的。以 40 倍的放大倍率为每个封面滑动成像 10 个随机选择的视场,对应于 6.22 像素/μm 分辨率。自定义代码用于量化描述原子核、肌蛋白丝和纤维素的图像的不同变量;相应的值以及组织和几何参数自动保存在数据文件中。
单元格线
有关所有样本数据单元系的较广泛文档,可在先前出版物20中找到。简单描述一下,数据收集已获批准,并根据加州大学欧文分校机构审查委员会(IRB # 2014-1253)进行了知情同意。人类成纤维细胞从三个不同变异的层A/C(LMNA)基因突变中收集:杂合LMNA拼接位点突变(c.357-2A>G)22(A族);LMNA无意义突变 (c.736 C>T, pQ246X) 在外生 423 (家庭 B);和LMNA异义基因突变 (c.1003C>T, pR335W) 在外生624 (系列 C).纤维细胞也从每个家族中的其他个体中收集,作为相关的突变阴性对照,称为"控制",其他细胞作为不相关的突变阴性对照,称为"捐赠者"。作为一种阳性控制,来自哈钦森-格里福德老年病(HGPS)个体的成纤维细胞是从一名8岁女性患者的皮肤活检中采集的,该患者拥有LMNA G608G点突变25。在这项工作中,对22个人的成纤维细胞进行了测试并用作数据。
数据类型
成纤维细胞数据分为两类:细胞核变量(即变形核的百分比、核区、核偏心)20或源自定向顺序参数(OOP)21、26、27(即肌蛋白OOP、纤维素OOP、核OOP)的结构变量。此参数等于所有方向矢量的平均阶张量的最大条件值,并在以前的出版物26、28中详细定义。这些值被聚合到各种可能的一致性中,例如针对年龄、性别、疾病状况、某些症状的存在等值。如何使用这些变量的示例可以在结果部分中找到。
示例代码和文件
基于上述数据的示例代码和其他文件可随本文一起下载,其名称和类型在表 1中进行了总结。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
注: 有关此协议中使用的软件版本,请参阅材料表。
1. 评估数据是否受益于数据库组织方案
- 下载示例代码和数据库(参见补充编码文件,这些文件在表 1中总结)。
- 使用图 1评估感兴趣的数据集是否为"多维"。
注:图 1是为示例数据集提供的多维数据库的图形表示形式。 - 如果数据可以像示例那样以"多维"形式可视化,并且将特定实验结果与任何维度(即条件)相关联的能力将允许对可用数据进行更深入的科学洞察,则请继续构造关系数据库。
2. 组织数据库结构
注:关系数据库以表的形式存储信息。表按行和列的架构组织,类似于电子表格,可用于链接数据库中的标识信息。
- 组织数据文件,以便他们经过深思熟虑的唯一名称。文件命名约定和文件夹子文件夹结构的良好做法如果完成良好,将允许广泛的数据库可伸缩性,而不会影响手动访问文件的可读性。以一致的格式添加日期文件(如"20XX-YY-ZZ"),并根据元数据命名子文件夹就是一个例子。
- 在设计数据库结构时,绘制不同表中的字段之间的关系。因此,多维性是通过将各个表中的不同字段(即表中的列)相互关联来处理的。
- 创建描述在步骤 2.2 中创建的数据库和关系的 readme 文档。不同表之间的条目链接后,所有相关信息都与该条目相关,并可用于调用复杂查询以筛选到所需的信息。
注: Readme 文档是一种常见解决方案,用于提供有关项目的补充信息和数据库结构信息,而无需向结构添加非统一数据。 - 按照步骤 2.1_2.3,使最终结果类似于此示例,其中个体的不同特征(图 2A)与这些个体的相关实验数据相关(图 2B)。通过将模式类型(图 2C)和数据类型(图 2D)与主数据值表中的条目进行关联,以解释各种速记符号(图2B),也做了同样的操作。
- 确定为远程数据收集需要记录的所有重要且仅有用的数据点。
注: 与前面提到的使用数据库比电子表格程序使用的一个关键优势是可伸缩性:可以在任何点单独添加其他数据点,并且计算(如平均值)会立即更新以反映新添加的数据点。- 确定在开始之前创建不同数据点所需的信息。保留原始数据不变,而不是对其进行修改或保存,以便可以且可访问重新分析。
注:对于给定的示例(图2),对应于单个的"模式类型"、"封面类型"和"可变类型"都是关联值不同性的重要字段。 - 如果需要,请添加其他有用的非重要信息,如"盖玻片总数",以指示重复次数,并帮助确定在此示例中是否缺少数据点。
- 确定在开始之前创建不同数据点所需的信息。保留原始数据不变,而不是对其进行修改或保存,以便可以且可访问重新分析。
3. 设置和组织管道
- 确定可能导致数据收集的所有各种实验和数据分析方法,以及每种数据类型的正常数据存储实践。使用开源版本控制软件(如 GitHub)以确保必要的一致性和版本控制,同时最大限度地减少用户负担。
- 如果可能,请创建一致命名和存储数据的过程,以允许自动管道。
注: 在示例中,输出都是一致命名的,因此创建一个数据管道来查找特定属性,一旦选择了文件,就非常简单。如果无法进行一致的命名,则需要手动填充数据库中的表,不建议这样做。 - 使用任何方便的编程语言为数据库生成新的数据条目。
- 在可以指导自动选择数据的独立文件中创建小型"帮助器"表(表1中#8#10文件)。这些文件作为管道运行的可能性的模板,易于编辑。
- 要为数据管道生成新的数据条目(图3D),请程序编写代码(位置指针.m,表1中的文件#1)以使用帮助器表作为供用户选择的输入(#8#10在表 1中的文件)。
- 在此处,通过将新条目与前面的条目(图 3E)组合新文件位置的电子表格。创建一个代码来自动执行此步骤,如位置指针编译.m(文件#2表 1 所示)。
- 之后,检查此合并的电子表格中重复项,应自动删除。创建一个代码来自动执行此步骤,如表 1 中LocationPointer_Remove_Duplicates.m(文件#3所示)。
- 此外,请检查电子表格中是否存在错误,并通知用户其原因和位置(图3F)。创建一个代码来自动执行此步骤,如 BadPointerCheck.m(文件#4表 1 所示)。或者,编写一个代码,检查已编译的数据库,并在一个步骤中识别重复项,如表1中LocationPointer_Check.m(文件#5所示)。
- 创建一个代码,让用户手动删除坏点,而不会丢失数据库的完整性,如Manual_Pointer_Removal.m(文件#6表 1 所示)。
- 然后使用文件位置生成数据值电子表格(图 3G,文件#12表 1中),以及创建可访问以标识文件位置或与将来的条目合并的最更新的条目列表(图3H)。创建一个代码来自动执行此步骤,如表 1中Database_Generate.m(文件#7所示)。
- 仔细检查管道是否增加了实验的严格性,检查是否包含严格的命名约定、自动文件汇编代码和如前所述的自动错误检查。
4. 创建数据库和查询
注: 如果表在数据库中存储信息,则查询是请求数据库以获取给定条件的信息。创建数据库有两种方法:从空白文档开始或从现有文件开始。图 4显示了使用 SQL 语法的示例查询,该语法旨在使用图 2所示的数据库关系运行。
- 方法 1:从头开始创建数据库和查询
- 创建空白数据库文档。
- 通过选择外部数据来加载帮助器表(表 1中#8#10文件) |文本文件导入|选择文件(文件#8#10)|分隔|第一行包含标题、逗号|保留默认值|选择自己的主键(单元格行文件#8的指定符、数据类型文件的可变名称#9、模式类型文件的 Pat 名称#10) |保留默认值|完成。
- 通过选择外部数据加载数据值表(表 1中的文件#12 ) |文本文件导入|选择文件(文件#12) |分隔|第一行包含标题、逗号|保留默认值|允许访问 添加主密钥|导入到表:数据值|完成。
- 通过选择数据库工具创建关系 |关系|将所有表拖到板上|编辑关系|创建新|将数据价值字段与帮助器表指定程序匹配 |接头类型 3.
- 选择"创建|查询设计.
- 选择或拖动所有相关表到顶部窗口。在此示例中,"单元格行","数据值","数据类型"和"模式类型"。关系应根据以前的关系设计自动设置。
- 填写查询列以获得所需的结果,例如:
- 点击显示|总计。
- 填写第一列(表:数据值,字段:DataVar,总计:按组,条件:"Act_OOP"),第二列(表:数据值,字段:字段:帕特瓦尔,总计:按组,条件:"行"),第三列(表:Cell_Lines、字段:指定符、总计:分组,排序:升序)。
- 填写第四列(表:数据值,字段:参数,总计:Ave),第五列(表:数据值,字段:参数,总计:StDev),第六列(表:数据值,字段:参数,总计:计数)。
- 运行查询。
- 或者,使用提供的示例数据库作为示例的基础。打开以前下载的数据库文件Database_Queries.accdb(表 1中的文件#13)。将现有表替换为感兴趣的数据,将其用作模板。
5. 将输出表移动到统计软件中进行显著性分析
- 对于此示例实验数据,使用 Tukey 的检验值差 (ANOVA) 单向分析,以比较各种条件之间的均值。
注: p < 0.05 的值被认为具有统计显著性。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
数据的多维性
在本文介绍的示例数据集的上下文中,方法部分中描述的受试者被分为三个家族中的个体组,这些个体具有导致心脏病的LMNA突变("患者"),相关的非突变阴性对照("控制"),不相关的非突变阴性对照("捐赠者"),以及哈钦森-吉尔福德前列腺综合征(HGPS)作为阳性对照的个体。鉴于对照组和捐赠者集体缺乏LMNA突变,其结果可进一步组合为整体阴性对照(N.C.)组。每个受试者的细胞系都有一个与其相关的"突变状态",基于其条件组(图1 = 深蓝色轴)。对于每个实验,从受试者的成纤维细胞培养在无组织(各向异性)或微模式(线)纤维化,创造条件"模式类型"(图1 = 橙色轴)。在细胞被固定、免疫染色和成像后,"Coverslip #"被转录,因为使用同一个体的细胞进行多个实验(即技术复制)(图1 = 浅绿色轴)。自定义 MATLAB 代码20,21然后用于量化细胞核或组织组织变量的不同方面为"可变类型"(图 1 = 青绿色轴)。这三个因素与细胞的人类来源相关,因此除了"突变状态"之外,还与"家族"(图1 = 深粉色轴)和"活检时的年龄"(图1 = 深绿色轴)相关。图 1中未包括的其他维度是相关个人的"演示年龄"、"症状"、"指示符"和"性别"。此处提供的示例至少为数据聚合提供了 10 个可能的维度。因此,此示例数据是关系数据库组织的主要候选数据。
图 1:来自 LMNA突变数据集的多维数据的可视化。单个多维数据集由"可变类型"、"模式类型"和"盖玻"三个维度定义。进一步的维度显示为"突变状态"、"活检年龄"(年)和"家庭"的轴。彩色标签对应于显示的不同轴,例如每个个体立方体的活检年龄(绿色数字)。在这里,十个可能的维度中的六个用于说明实验数据点的多维性。请点击此处查看此图的较大版本。
组织管道
估计高达95%的数字数据是非结构化的4,但数据库需要结构化格式。尽管如此,为数据管道创建良好的自动化方法仍高度依赖于上下文。
图2:LMNA突变数据集中的表和设计视图关系。关系数据库的优点是将一个表中的字段与另一个表中的信息链接,从而允许聚合的即时可互换性。此处的示例直观地演示了如何链接不同的信息。请点击此处查看此图的较大版本。
在此示例中,从每个实验中收集的图像存储在按负责的实验室成员的日期和初始值命名的文件夹中,其中子文件夹列出了主题和封面列表编号。管道文件在补充编码文件中提供,并在流程图插图中汇总(图3)。不同实验条件的不同指标从这些荧光图像(图3A)中用自定义代码(图3B)20、21进行量化。例如,从沾有phalloidin的组织中提取的肌向性顺序参数21(图3A),用于比较不同个体的成纤维细胞组织。代码输出与源映像保存在同一文件夹中(图 3C)。
图 3:通用上下文中常见数据管道需求的示例。使用用户输入和自动代码创建新条目,将重要信息格式化为电子表格格式。这些条目与最新的文件位置条目集结合使用,检查错误,然后存储为文件位置的电子表格和数据值的电子表格。比例尺 = 20 μm。请点击此处查看此图的较大版本。
识别LMNA突变数据集中的新关系
当给出多种可能的一致性时,很难使用手动数据聚合方法确定存在新关系的位置。在此特定上下文中,我们有兴趣比较使用 OOP27测量的多个条件下的亚细胞作用蛋白灯丝的组织。
图 4:使用 SQL 语法的示例查询。SELECT 和 FROM 语句是生成查询的要求,但通常包括其他命令和条件。GROUP BY 说明了聚合数据、HAVING 或 WHERE 语句如何将输出限制为满足特定条件的数据,ORDER BY 指示输出的排列顺序。请点击此处查看此图的较大版本。
OOP 是一种数学结构,用于量化各向异性环境中的顺序程度,归一化为零,对应于完全各向异性组织,一个对应于完全对齐的组织。数据集首先按模式类型分为线(图5A)和各向异性(图5B)条件,由于纤维蛋白微模式对组织组织影响很大,因此预期OSP会大不相同。比较各向异性组织时,各条件间无显著差异(图5B)。相反,在正对照细胞系(HGPS)(图5A)中,模式组织在统计上组织得较少,即使数据被聚合到不同的组中(图5C),这种关系也保持。Actin OOP另外针对个人在活检时的年龄绘制(图5D),通过突变状态和家族进行分离,以说明对临床变量的聚合。与核缺陷20不同,行为组织与个人年龄之间没有相关性(图5D)。最后,图 5中所示的图说明了如何以不同的组合分析相同的数据,以及如何使用数据库轻松完成聚合属于多个类的数据的通常困难任务。
在本文中,对来自患者来源的成纤维细胞的数据进行比较,以确定突变后果。虽然HGPS和本研究中的三个家庭都有LMNA相关疾病,可能破坏核包络,但患者表现出主要与心脏功能障碍相关的症状,而HGPS个体的多个器官系统影响22,23,24。事实上,尽管来自HGPS患者的微模式环境细胞在统计上低于考虑的任何其他细胞系(图5A,C)。这与HGPS患者是研究中唯一一个因突变引起的皮肤异常的患者相吻合。查看不同一致性中的相同数据也有助于为不同的数据集中的科学查询提供额外的见解和途径(图 5)。
图 5:ACTin OOP 变量的条件之间的比较。(A,B) 分组对应于四个主要条件: 非相关阴性控制捐赠者, 相关阴性对照控制, LMNA突变患者从三个家族, 和阳性控制 HGPS.(C) 所有阴性对照组 (N.C.) 合并,患者按家庭(PA、PB、PC)分离。(D) 本研究收集的活检时各向异性行为蛋白OOP与年龄的潜在图,按条件和家庭分离。面板 A、C 和 D 为具有线图案的微观图案组织绘制,而面板 B 为各向异性组织绘制。p < 0.05 (*) 的统计显著性在面板 A、C 和 D 中找到。在面板 B 中找不到任何对之间的显著性。所有误差条表示数据库中计算的标准偏差。请点击此处查看此图的较大版本。
补充编码文件。请点击此处查看此文件(右键单击下载)。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
协议的技术讨论
在考虑使用数据库时,第一步是评估数据是否从此类组织中受益。
下一个重要步骤是创建一个自动代码,该代码将询问用户的最小输入并生成表数据结构。在此示例中,用户输入了数据类型(细胞核或结构测量)、细胞行的主题指示符和所选文件数的类别。然后由用户选择相关文件(表 2,第 1 列),自动创建行条目,并填充文件中包含的所有变量(表 2,第 2 列)。此外,代码的灵活性很重要,因此,如果需要添加另一个实验项,用户可以选择继续循环;如果没有,文件将保存,循环结束。添加新条目、检查错误以及从此步骤中描述的文件位置组装电子表格的基本功能对于高效的数据管道设置都至关重要。
必须注意,在创建数据管道时使用文件位置会增加实验的严格性。具体来说,具有列出数据值的所有文件位置的相应电子表格允许用户将任何数据点回溯到收集原始数据的研究人员的实验室笔记本。在处理数百到数万个数据点时,在项目的生命周期内,更高的透明度和可访问性是无价的。强烈建议用户考虑先保存文件位置,然后编译数据值,而不是仅存储数据值。
创建数据库后,最简单的入门方法是通过设计视图对查询进行编程。用户会发现下载提供的模板(表1中的文件#13)作为起点很有用。或者,可以直接通过 SQL 语言进行编程 (图 4)。
科学讨论
本文的目的是传播涉及数据管道和数据库的方法,阐明数据集的可伸缩性和透明度。这些方法在信息学和商业之外并不广泛使用,但对于那些在生物环境中工作的人来说,它们有着巨大的潜力。随着科学继续更多地依赖计算机,有效管理系统的重要性也上升到6,29。数据库经常用于高容量和/或高速应用,并在文献中得到了很好的引用,特别是关于其用于临床患者群体8,30,31。几个已经为特定领域构建,如大鼠基因组数据库整理工具或REDCap用于临床和翻译研究32,33。因此,数据库的使用已被采用在临床领域8或大型基因组数据库32,但已不常见于其他科学学科,如组织工程。
使用电子表格程序处理日益复杂的数据的问题早已在科学界得到承认。一项研究报告说,大约20%的带有补充文件的基因组期刊论文的基因名称被错误地转换为日期35。从2010年至2015年,这些错误以平均每年15%的速度增长,远远超过基因组学论文每年4%的年增长率。在大量数据中,通常几乎不可能识别单个错误,因为电子表格程序本质上不适合轻松验证结果或公式计算。发表的文章甚至存在教育科学家更好的电子表格实践,试图减少错误的频率7。数据库的最大好处之一是通过自动化方法减少错误,并能够验证潜在的可疑数据(图3)。
这一方法的一个重要成果是数据分析的严格性有所提高。国家卫生研究院以及其他科学家和机构36、37强调了提高数据可重复性的重要性。通过将文件位置的电子表格与每个数据库对应,可以轻松地将数据点追溯到相关实验的实验室笔记本(图 3)。还可以使用相应的文件位置快速识别和以电子方式识别和查找单个数据点,这有时是无价的,即使在数据管道过程中与自动错误筛选相结合也是如此。即使数据集会随着时间的推移而修改,最佳做法还是涉及在出现问题或需要检查旧版本时保留所有过去的文件。以非破坏性方式工作,并将旧版本保留在数据管道中,通过冗余创建安全性,并允许更好的故障排除。
有无数的关系数据库管理系统,结合编码语言,可用于相同的数据管道需求。最适当的选择高度依赖于所使用的数据和上下文;某些应用程序在可扩展性、灵活性、可靠性和其他优先级方面表现最佳9。尽管数据库在技术上的规模仍然有限,但达到内存限制仍然超出了大多数科学实验室的范围。例如,MS Access 数据库的内存大小限制为 2 GB,根据数据和字段数,该数据库的数据集数量为数十万到数百万个条目。大多数实验室永远不会有如此规模的实验需求,但如果它们有,那么电子表格软件将远远超出其有效限制。相比之下,业务级关系数据库管理系统可以同时处理数百万个事务,同时处理规模更大的数据集。数据库在科学实验室中不常用的部分原因在于,过去的实验很少达到此类数据量级的需求,因此易于使用的电子表格软件反而变得很普遍。但是,使这些方法正常运行所需的一项重大投资是规划数据管道和学习使用数据库的 SQL 所需的时间(图 3和图 4)。尽管编码经验大大加快了该过程,但大多数人需要从头开始学习 SQL。大量的文档可以通过开发人员的广泛文档在线获得,以及免费的 SQL 教程,如在 Codecademy、W3 学校、SQLBolt 10、11、12 。然而,一些需要订阅的替代方案确实存在,例如课程教学网站Lynda38;有关数据库基础知识的进一步阅读,可在线找到。在学术环境中,良好的实验室支持和强大的系统可以超过其创建者,并有助于促进多个学生多年的项目。这可以通过在设置过程中创建指南和实现步骤来实现。事实上,所有研究人员都非常重视拥有一个运作良好的联合数据管道和数据库系统。
这种方法的其他优点包括:能够采用自动方法将原始数据转换为结构化格式,一旦存储在数据库中,就易于使用,以及不断更新和重新聚合数据集(图3)。还可以从单个数据文件中提取多个变量的信息值,并在提示时自动执行数据管道。在所示的上下文中,使用常用的、经济的软件来取得成果,证明在建立功能数据库时,昂贵和利基软件包不是强制性的。鉴于大多数实验室的研究资金范围有限,提高数据库管理效率的能力是一种无价商品。
总之,随着科学数据集变得越来越复杂,数据库对科学界越来越重要,并且具有与目前广泛使用电子表格数据一样普遍甚至更有效的潜力。存储。随着数据集的规模和复杂性继续增长,数据透明度和科学可复制性的问题只会在将来继续扩大,这突出表明,在现在和将来的一般科学需求。
参考编号 | 文件名 | 类型 |
1 | 位置指针.m | 管道代码 |
2 | 位置指针编译.m | 管道代码 |
3 | LocationPointer_Remove_Duplicates | 管道代码 |
4 | 坏指针检查.m | 管道代码 |
5 | LocationPointer_Check | 管道代码 |
6 | Manual_Pointer_Removal | 管道代码 |
7 | Database_Generate | 管道代码 |
8 | Cell_Lines.csv | 帮助程序表 |
9 | Data_Types.csv | 帮助程序表 |
10 | Pattern_Types.csv | 帮助程序表 |
11 | DataLocation_Comp_2018_6_26_10_01.csv | 数据位置文件示例 |
12 | DataValues_2018_6_26_10_02.csv | 数据值文件示例 |
13 | Database_Queries.accdb | 示例数据库 |
表 1:可上载以运行协议的所有示例文件的列表。
文件已选中 | 变量 |
摘要.mat | 缺陷核的比例 |
所有核区平均值 (μm2) | |
有缺陷的核面积平均值 (μm2) | |
正常核面积平均值 (μm2) | |
所有核偏心平均值 | |
有缺陷的核偏心平均值 | |
正常核偏心平均值 | |
所有核跨国公司平均值 | |
有缺陷的核 MNC 平均值 | |
正常核 MNC 平均值 | |
Act_OOP.mat | Actin OOP |
Actin OOP 控制器角度 | |
Fibro_OOP.mat | 纤维性 OOP |
纤维化 OOP 控制器角度 | |
Nuc_OOP.mat | 核 OOP |
核 OOP 控制器角度 |
表 2:列出的选择文件对应于细胞核测量或成纤维细胞结构 (OOP) 数据的不同变量。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
作者没有什么可透露的。
Acknowledgments
这项工作得到了国家卫生研究院国家心肺血液研究所的支持,资助号为R01 HL129008。作者特别感谢LMNA基因突变家庭成员参与这项研究。我们还要感谢琳达·麦卡锡在细胞培养和维护实验室空间方面给予的帮助,感谢纳萨姆·乔克尔(Nasam Chokr)参与细胞成像和核数据分析,感谢迈克尔·格罗斯伯格就建立我们最初的 Microsoft Access 数据库以及回答其他技术问题提供相关建议。
Materials
Name | Company | Catalog Number | Comments |
4',6'-diaminodino-2-phenylinodole (DAPI) | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 488 Phalloidin | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 750 goat anti-rabbit | Life Technologies, Carlsbad, CA | ||
digital CCD camera ORCAR2 C10600-10B | Hamamatsu Photonics, Shizuoka Prefecture, Japan | ||
fibronectin | Corning, Corning, NY | ||
IX-83 inverted motorized microscope | Olympus America, Center Valley, PA | ||
Matlab R2018b | Mathworks, Natick, MA | ||
MS Access | Microsoft, Redmond, WA | ||
paraformaldehyde (PFA) | Fisher Scientific Company, Hanover Park, IL | ||
polycloncal rabbit anti-human fibronectin | Sigma Aldrich Inc., Saint Louis, MO | ||
polydimethylsiloxane (PDMS) | Ellsworth Adhesives, Germantown, WI | ||
Prolong Gold Antifade | Life Technologies, Carlsbad, CA | ||
rectangular glass coverslips | Fisher Scientific Company, Hanover Park, IL | ||
Triton-X | Sigma Aldrich Inc., Saint Louis, MO |
References
- Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
- Mast, F. D., Ratushny, A. V., Aitchison, J. D.
Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014). - Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
- Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
- Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
- Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
- Broman, K. W., Woo, K. H.
Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018). - Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
- Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
- Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
- SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
- Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
- Pedersen, T. B., Jensen, C. S.
Multidimensional database technology. Computer. 34 (12), 40-46 (2001). - Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
- Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
- Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
- Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
- Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
- Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
- Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
- Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
- Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
- Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
- Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
- Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
- Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
- Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
- Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
- Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
- Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
- Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
- Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
- Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
- Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
- Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
- Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
- Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
- SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).