IDBac 是一种基于开源质谱学的生物信息学管道,它整合了从完整蛋白质和专用代谢物光谱中收集的数据,这些数据来自从细菌菌落中刮取的细胞材料。该管道使研究人员能够迅速将数百到数千个细菌菌落组织成假定的分类组,并根据专门的代谢物生产进一步区分它们。
为了直观地了解生长在营养琼脂上的细菌菌落的细菌菌落的细菌菌落的专门代谢物生产之间的关系,我们开发了IDBac——一种低成本、高通量的基质辅助激光解吸/电化飞行时间质谱(MALDI-TOF MS)生物信息学管道。IDBac 软件专为非专家设计,可免费使用,能够分析数到数千个细菌菌落。在这里,我们介绍了为MALDI-TOF MS分析、MS仪器操作以及IDBac中的数据处理和可视化制备细菌菌落的程序。特别是,我们指导用户如何基于蛋白质MS指纹将细菌聚集到树状图中,并从专门的代谢物数据中交互地创建代谢物关联网络(MANs)。
研究细菌功能的研究人员的一个主要障碍是能够快速同时评估微生物的分类特性及其产生专门代谢物的能力。这阻止了在了解细菌植理和从环境中分离的大多数细菌中专门代谢物生产之间的关系方面取得重大进展。虽然使用蛋白质指纹对细菌进行分组和识别的方法对1、2、3、4进行了很好的描述,但这些研究通常对一小群分离物进行了描述,以物种特定的方式。重要的是,关于专门代谢物生产的信息,是环境中微生物功能的主要驱动因素,在这些研究中仍未纳入其中。席尔瓦等人最近提供了一个全面的历史,详细介绍了MALDI-TOF MS在分析专业代谢物和软件短缺方面的不足,以缓解目前生物信息学的瓶颈。为了解决这些缺点,我们创建了IDBac,一种生物信息学管道,它集成了MALDI-TOF MS6的线性和反射线模式。这允许用户根据蛋白质和专用代谢物MS指纹快速可视化和区分细菌分离物。
IDBac 具有成本效益高、吞吐量高,专为非专业用户而设计。它可免费(chasemc.github.io/IDBac),并且只需要使用 MALDI-TOF 质谱仪(专用代谢物分析需要反射模式)。样品制备依赖于简单的”扩展直接传输”方法7,8,数据通过连续线性和反射子采集在单个MALDI目标点上采集。使用 IDBac,可以在四小时内分析数百个菌落的假定形态和专用代谢物生产,包括样品制备、数据采集和数据可视化。与传统识别细菌方法(如基因测序)和分析代谢输出(液相色谱-质谱 [LCMS] 和类似的色谱方法)相比,这具有显著的时间和成本优势。
IDBac利用线性模式分析中获得的数据,采用分层聚类来表示蛋白质光谱的相关性。由于光谱主要代表离子核糖体蛋白,它们提供了样品中存在的遗传多样性的表示。此外,IDBac 还集成了反射器模式数据,以将专门的代谢物指纹显示为代谢物关联网络 (MAN)。AN 是双部分网络,允许轻松可视化细菌分离物之间的共享和独特的代谢物生产。IDBac 平台允许研究人员同时分析蛋白质和专用代谢物数据,但如果只获得一种数据类型,则还可以单独分析这些数据。重要的是,IDBac 处理来自布鲁克和厦门仪器的原始数据,以及 txt、tab、csv、mzXML 和 mzML。这消除了对数据集进行手动转换和格式化的需要,并显著降低了用户错误或 MS 数据处理不当的风险。
IDBac 协议详细介绍了细菌蛋白和专门的代谢物数据采集和分析,由单个研究人员在 4 小时内采集和分析多达 384 种细菌分离物。使用 IDBac,无需从细菌分离物中提取 DNA 或从液体发酵汤中提取专用代谢物提取物,并使用色谱方法对其进行分析。相反,蛋白质和专门的代谢物数据是通过简单地将细菌菌落中的材料直接传播到MALDI靶板上来收集的。这大大减少了与替代技术相关的时间和成本,如16S rRNA基因测序和LCMS9。
向 MALDI 板添加矩阵空白点和校准点非常重要,我们建议使用适当数量的复制,以确保可重现性和统计置信度。复制的数量将依赖于实验。例如,如果用户打算将数千个菌落与一组环境多样性板区分开来,则可能需要较少的复制(我们的实验室为每个菌落收集三个技术复制)。或者,如果用户希望创建特定细菌分类菌株的自定义数据库,以快速确定未知分离物的子物种分类,则需要更多的复制(我们的实验室每应变)。
IDBac 是一种基于假定分类学信息和专用代谢物生产快速区分高度相关细菌分离物的工具。它可以补充或作为正交方法的前体,如深入的遗传分析,涉及代谢物生产和功能的研究,或通过核磁共振光谱和/或鉴定专门的代谢物结构LC-MS/MS.
专门的代谢物生产(IDBac AN)极易受到细菌生长条件的影响,尤其是使用不同的培养基,这是该方法的潜在局限性。然而,这些特性可能被用户利用,因为IDBac可以很容易地生成MAN,显示在各种生长条件下在专用代谢物生产中的差异。需要注意的是,虽然专门的代谢物指纹可能因生长条件而异,但我们以前已经表明,蛋白质指纹在这些变量中保持相对稳定(见Clark等人6)。在处理环境多样性板时,我们建议在分析之前纯化细菌分离物,以减少邻近细菌串扰的可能贡献。
最后,缺乏可搜索的蛋白质MS指纹公共数据库是使用这种方法对未知环境细菌进行分类的一大缺陷。我们为此创建了 IDBac,包括将数据自动转换为社区接受的开源格式 (mzML)10、11、12,并设计了允许搜索、共享和创建自定义数据库。我们正在创建一个大型公共数据库(>10,000 个完全特征菌株),这将允许将一些分离物分类到物种级别,包括指向GenBank加入编号的链接(如果可用)。
IDBac 是开源的,任何人都可以自定义其数据分析和可视化需求。我们建议用户查阅大量文献(Sauer等人7,席尔瓦等人5),以帮助支持和设计他们的实验目标。我们主办了一个论坛讨论:https://groups.google.com/forum/#!forum/idbac和一种在:https://github.com/chasemc/IDBacApp/issues报告软件问题的方法。
The authors have nothing to disclose.
这项工作得到了国家普通医学研究所资助R01 GM125943,国家地理赠款CP-044R-17;冰岛研究基金赠款152336-051;和伊利诺伊大学在芝加哥的创业基金。此外,我们感谢以下贡献者:阿曼达·布尔曼博士协助使用MALDI-TOF MS蛋白质采集参数;特里·摩尔博士和阿图尔·贾因博士用于重新结晶α-氰化物-4-羟基辛酸基质(CHCA)。
Acetonitrile | Fisher | 60-002-65 | LC-MS Ultra CHROMASOLV |
Autoflex Speed LEF MALDI-TOF instrument | Bruker Daltonics | ||
Bruker Daltonics Bacterial test standard | Fisher | NC0884024 | Bruker Daltonics 8604530 |
Bruker Peptide Calibration standard | Fisher | NC9846988 | Bruker Daltonics 8206195 |
Formic Acid | Fisher Chemical | A117-50 | 99.5+%, Optima LC/MS Grade |
MALDI-TOF target Plate | Bruker Daltonics | ||
Methanol | Fisher Chemical | A456-500 | Optima LC/MS Grade |
Toothpicks | any is ok | ||
Trifluoroacetic acid | Fisher | AC293810010 | 99.5%, for biochemistry, ACROS Organics |
Water | VWR | 7732-18-5 | LC-MS |
α-Cyano-4-hydroxycinnamic acid | Sigma | 28166-41-8 | (C2020-25G) ≥98% (TLC), powder |