Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering

Alexander  R. Ochs; Mehrsa Mehrabi; Danielle Becker; Mira  N. Asad; Jing Zhao; Michael  V. Zaragoza; Anna Grosberg

doi:10.3791/60038

JoVE Journal > Bioengineering

Please note that all translations are automatically generated. Click here for the English version.

Bioingeniería

Базы данных для эффективного управления средними, низкой скоростью, многомерными данными в области тканевой инженерии

Published: November 22, 2019

doi:

10.3791/60038

Alexander R. Ochs², Mehrsa Mehrabi², Danielle Becker², Mira N. Asad², Jing Zhao², Michael V. Zaragoza⁴, Anna Grosberg^2,5,6,7

¹Department of Biomedical Engineering,University of California, Irvine, ²The Edwards Lifesciences Center for Advanced Cardiovascular Technology,University of California, Irvine, ³Pediatrics-Genetics & Genomics Division-School of Medicine,University of California, Irvine, ⁴Biological Chemistry-School of Medicine,University of California, Irvine, ⁵Department of Chemical and Biomolecular Engineering,University of California, Irvine, ⁶Center for Complex Biological Systems,University of California, Irvine, ⁷The NSF-Simons Center for Multiscale Cell Fate Research (CMCF),University of California, Irvine

Summary

Многие исследователи генерируют “средние”, низкоскоростные и многомерные данные, которые могут управляться более эффективно с помощью баз данных, а не электронных таблиц. Здесь мы предоставляем концептуальный обзор баз данных, включая визуализацию многомерных данных, увязку таблиц в реляционных структурах баз данных, картирование полуавтоматических конвейеров данных и использование базы данных для выяснения значения данных.

Abstract

Наука опирается на все более сложные наборы данных для прогресса, но общие методы управления данными, такие как программы электронных таблиц, недостаточны для роста масштабов и сложности этой информации. Хотя системы управления базами данных обладают потенциалом для исправления этих проблем, они обычно не используются за пределами областей бизнеса и информатики. Тем не менее, многие исследовательские лаборатории уже генерируют “средние”, низкие скорости, многомерные данные, которые могли бы извлечь большую пользу из внедрения аналогичных систем. В этой статье мы предоставляем концептуальный обзор, объясняющий, как функционируют базы данных и как их преимущества они предоставляют в приложениях для разработки тканей. Структурные данные фибробластов от лиц с мутацией a/C ламина были использованы для иллюстрации примеров в определенном экспериментальном контексте. Примеры включают визуализацию многомерных данных, увязку таблиц в реляционной структуре базы данных, отображение полуавтоматизированного конвейера данных для преобразования необработанных данных в структурированные форматы и объяснение лежащего в основе синтаксиса запроса. Результаты анализа данных были использованы для создания участков различных механизмов и значение было продемонстрировано в организации клеток в выровненных средах между положительным контролем Прогерии Хатчинсона-Гилфорда, известной ламинопатии, и всеми другими экспериментальными группами. По сравнению с электронными таблицами методы баз данных были чрезвычайно эффективными по времени, простыми в использовании после настройки, позволяли немедленный доступ к исходным местоположениям файлов и увеличивали строгость данных. В ответ на то, что Национальные институты здравоохранения (НИЗ) уделяют особое внимание экспериментальной строгости, вполне вероятно, что многие научные области в конечном итоге примут базы данных в качестве обычной практики из-за их мощной способности эффективно организовывать сложные данные.

Introduction

В эпоху, когда научный прогресс в значительной степени определяется технологией, обработка больших объемов данных стала неотъемлемым аспектом исследований во всех дисциплинах. Появление новых областей, таких как вычислительная биология и геномика, подчеркивает, насколько важным стало упреждающее использование технологий. Эти тенденции, несомненно, будет продолжаться в связи с законом Мура и устойчивый прогресс, полученный от технического прогресса¹^,². Одним из следствий, однако, является рост количества генерируемых данных, которые превышают возможности ранее жизнеспособных методов организации. Хотя большинство академических лабораторий имеют достаточные вычислительные ресурсы для обработки сложных наборов данных, многие группы не имеют технических знаний, необходимых для создания пользовательских систем, подходящих для разработки потребностей^3. Наличие навыков управления и обновления таких наборов данных по-прежнему имеет решающее значение для эффективного рабочего процесса и вывода. Преодоление разрыва между данными и опытом имеет важное значение для эффективного обработки, повторного обновления и анализа широкого спектра многогранных данных.

Масштабируемость является важным фактором при обработке больших наборов данных. Большие данные, например, является процветающей области исследований, которая включает в себя выявление новых идей от обработки данных характеризуется огромными объемами, большой неоднородности, и высокие темпы генерации, такие как аудио и видео⁴^,⁵. Использование автоматизированных методов организации и анализа является обязательным для этой области для надлежащей обработки потоков данных. Однако многие технические термины, используемые в больших данных, четко не определены и могут ввести в заблуждение; например, данные о “высокой скорости” часто ассоциируются с миллионами новых записей в день, в то время как данные о низкой скорости могут составить лишь сотни записей в день, например, в учебной лаборатории. Хотя Есть много интересных выводов еще предстоит обнаружить с помощью больших данных, большинство академических лабораторий не требуют масштабов, мощности и сложности таких методов для решения своих собственных научных вопросов⁵. Хотя не вызывает сомнений, что научные данные становятся все более сложными со временем^6,многие ученые продолжают использовать методы организации, которые больше не отвечают их расширяющимся потребностям данных. Например, удобные программы электронной таблицы часто используются для организации научных данных, но за счет того, что немасштабируемы, подвержены ошибкам, и время неэффективно в долгосрочной перспективе⁷^,⁸. И наоборот, базы данных являются эффективным решением проблемы, поскольку они масштабируемы, относительно дешевы и просты в обработке различных наборов данных текущих проектов.

Непосредственными проблемами, возникающими при рассмотрении схем организации данных, являются затраты, доступность и время инвестирования для обучения и использования. Часто используемые в бизнес-настройках программы баз данных являются более экономичными, либо относительно недорогими или бесплатными, чем средства, необходимые для поддержки использования систем больших данных. На самом деле, существует множество коммерчески доступных и открытых исходных программ для создания и обслуживания баз данных, таких как Oracle Database, MyS’L и Microsoft (MS) Access⁹. Многие исследователи также будет поощряться, чтобы узнать, что несколько MS Office академических пакетов поставляются с MS Access включены, дальнейшее сведение к минимуму расходы соображений. Кроме того, почти все разработчики предоставляют обширную документацию в Интернете и есть множество бесплатных интернет-ресурсов, таких как Codecademy, W3Schools, и S’LBolt, чтобы помочь исследователям понять и использовать структурированный язык запроса (S’L)¹⁰^,¹¹^,¹². Как и любой язык программирования, научиться использовать базы данных и код с помощью S’L требуется время, чтобы освоить, но с достаточными ресурсами, доступных процесс прост и стоит вложенных усилий.

Базы данных могут быть мощными инструментами для повышения доступности данных и простоты агрегирования, но важно определить, какие данные в наибольшей степени выиграют от усиления контроля над организацией. Многомерность относится к числу условий, с которыми можно сгруппировать измерения, а базы данных являются наиболее мощными при управлении различными условиями^13. И наоборот, информацию с низкой размерностью проще всего обрабатывать с помощью программы электронных таблиц; например, набор данных, содержащий годы и значение за каждый год, имеет только одну возможную группировку (измерения по отношению к годам). Высокомерные данные, такие как из клинических параметров потребует большой степени ручной организации для того, чтобы эффективно поддерживать, утомительный и подверженный ошибкам процесс за пределами объема электронных таблиц программ¹³. Нереляционные базы данных (NoS’L) также выполняют различные роли, в первую очередь в приложениях, где данные не организуются хорошо в строки и столбцы¹⁴. Помимо того, что эти организационные схемы часто используются с открытым исходным кодом, они включают графические ассоциации, данные временных рядов или данные на основе документов. НоСЗЛ лучше масштабирует масштабируемость, чем S’L, но не может создавать сложные запросы, поэтому реляционные базы данных лучше в ситуациях, требующих согласованности, стандартизации и нечастых крупномасштабных изменений данных^15. Базы данных лучше всего на эффективной группировки и повторного обновления данных в большой массив конформации часто необходимы в научных условиях¹³^,¹⁶.

Таким образом, основная цель этой работы заключается в информировании научного сообщества о потенциале баз данных в качестве масштабируемых систем управления данными для “средних”, данных о низкой скорости, а также в предоставлении общего шаблона с использованием конкретных примеров экспериментов на клеточных линиях, полученных пациентом. Другие аналогичные приложения включают геопространственные данные о руслах рек, анкеты из продольных клинических исследований, а также условия роста микробов в носителях роста¹⁷^,¹⁸^,¹⁹. В этой работе освещаются общие соображения и полезность построения базы данных в сочетании с конвейером данных, необходимым для преобразования необработанных данных в структурированные форматы. Основы интерфейсов баз данных и кодирования баз данных в СЗЛ представлены и иллюстрированы примерами, позволяющими другим получить знания, применимые к созданию базовых рамок. Наконец, пример экспериментального набора данных показывает, насколько легко и эффективно базы данных могут быть разработаны для агрегирования многогранных данных различными способами. Эта информация предоставляет контекст, комментарии и шаблоны для оказания помощи коллегам-ученым на пути к внедрению баз данных для их собственных экспериментальных потребностей.

Для создания масштабируемой базы данных в исследовательской лаборатории за последние три года были собраны данные экспериментов с использованием клеток фибробластов человека. Основное внимание в этом протоколе заключается в представлении информации об организации компьютерного программного обеспечения, с тем чтобы пользователь мог агрегировать, обновлять и управлять данными максимально экономичным и экономичным способом, но соответствующие экспериментальные методы предоставляются также для Контексте.

Экспериментальная установка
Экспериментальный протокол для подготовки образцов был описан ранее²⁰^,²¹, и представлен кратко здесь. Конструкции были подготовлены спин-покрытие прямоугольных стеклянных покрывало с 10:1 смесь полидиметилсилоксана (PDMS) и лечащий агент, затем применение 0,05 мг / мл фибронектин, либо в неорганизованных (изотропных) или 20 мкм линий с 5 мкм разрыв микропаттернов (линий). Клетки фибробласта были посеяны при прохождении 7 (или проходе 16 для положительного контроля) на крышки при оптимальной плотности и оставлены расти в течение 48 ч с носителями, меняемыми после 24 ч. Клетки были затем исправлены с помощью 4% параформальдегида (PFA) раствор и 0,0005% неионический сурфактант, а затем крышки иммуноокрашенные для ядер клеток (4′,6′-diaminodino-2-phenylinodole (DAPI), актин (Alexa Fluor 488 phalloidin), и фиброн. Вторичное пятно для фибронектина с использованием козла анти-кроликig IgG антител (Alexa Fluor 750 коза анти-кролик) был применен и сохранения агент был установлен на все крышки для предотвращения флуоресцентных выцветания. Лак для ногтей был использован для уплотнения coverslips на микроскоп слайды затем оставили высохнуть в течение 24 ч.

Флуоресценция изображения были получены, как описано ранее²⁰ с помощью 40x нефти погружения цели в сочетании с цифровой заряда соединенных устройств (CCD) камера установлена на перевернутой моторизованной микроскоп. Десять случайно выбранных полей зрения были изображены для каждого coverslip на 40x увеличение, что соответствует 6,22 пикселей / мкм резолюции. Пользовательские написанные коды использовались для количественной оценки различных переменных изображений, описывающих ядра, актиновые нити и фибронектин; соответствующие значения, а также параметры организации и геометрии были автоматически сохранены в файлах данных.

Сотовые линии
Более обширная документация по всем линиям ячейки выборочных данных содержится в предыдущих публикациях²⁰. Для краткого описания, сбор данных был одобрен и информированное согласие было выполнено в соответствии с UC Irvine Институциональный обзор совета (IRB 2014-1253). Клетки фибробласта человека были собраны из трех семейств различных вариаций мутации гена ламина A/C(LMNA): гетерозиготная мутация сращивания LMNA (c.357-2A-gt;G)²² (семья A); Мутация нонсенса LMNA (c.736 C’gt;T, p’246X) в экзоне 4²³ (семья B); и мутация LMNA (c.1003C-gt;T, pR335W) в экзоне 6²⁴ (семья C). Клетки фибробласта были также собраны у других людей в каждой семье в качестве связанных мутационно-отрицательных элементов управления, именуемых «Контролем», а другие были приобретены как несвязанные мутационно-отрицательные элементы управления, именуемые «донорами». В качестве положительного контроля, фибробластные клетки от человека с Хатчинсон-Глифорд прогерия (HGPS) были приобретены и выросли из биопсии кожи взяты из 8-летняя пациентка с HGPS обладающих LMNA G608G точки мутации²⁵. В общей сложности, фибробласты из 22 человек были протестированы и использованы в качестве данных в этой работе.

Типы данных
Данные Fibroblast делятся на одну из двух категорий: клеточные переменные ядер (т.е. процент дисморфических ядер, площадь ядер, эксцентриситет ядер)²⁰ или структурные переменные, вытекающие из параметра ориентационного порядка (OOP)^21,^26,²⁷ (т.е. актин OOP, fibronectin OOP, nuopiO). Этот параметр равен максимальной eigenvalue среднего заказа тензор всех векторов ориентации, и он подробно определен в предыдущих публикациях^26,²⁸. Эти значения агрегируются в различные возможные конформации, такие как значения по возрасту, полу, статусу заболевания, наличие определенных симптомов и т.д. Примеры использования этих переменных можно найти в разделе результатов.

Пример кодов и файлов
Примеры кодов и других файлов, основанных на приведенных выше данных, могут быть загружены в этом документе, а их имена и типы суммируются в таблице 1.

Protocol

ПРИМЕЧАНИЕ: Смотрите таблицу материалов для версий программного обеспечения, используемых в этом протоколе. 1. Оценить, выиграют ли данные от схемы организации баз данных Скачать пример коды и базы данных (см. Дополнительные файлы кодирования, кот?…

Representative Results

Многомерность данныхВ контексте приведенного здесь набора данных испытуемые, описанные в разделе Методы, были разделены на группы лиц из трех семейс с сердечно-сказательной мутацией LMNA (“Пациенты”), связанные с немутационным негативным контролем (“Контроль”), не связанн?…

Discussion

Техническое обсуждение протокола
Первым шагом при рассмотрении вопроса об использовании баз данных является оценка того, выиграют ли данные от такой организации.

Следующим важным шагом является создание автоматизированного кода, который будет запрашивать м…

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

Эта работа поддерживается Национальным институтом сердца, легких и крови при Национальных институтах здравоохранения, грант номер R01 HL129008. Авторы особенно благодарит членов семьи мутации гена LMNA за их участие в исследовании. Мы также хотели бы поблагодарить Линду Маккарти за помощь в культуре клеток и поддержание лабораторных пространств, Насама Чокра за ее участие в визуализации клеток и анализе данных ядер, и Майкла А. Гросберга за его соответствующие советы с настройкой нашей первоначальной базы данных Microsoft Access, а также ответами на другие технические вопросы.

Materials

4',6'-diaminodino-2-phenylinodole (DAPI)	Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin	Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit	Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B	Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin	Corning, Corning, NY
IX-83 inverted motorized microscope	Olympus America, Center Valley, PA
Matlab R2018b	Mathworks, Natick, MA
MS Access	Microsoft, Redmond, WA
paraformaldehyde (PFA)	Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin	Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS)	Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade	Life Technologies, Carlsbad, CA
rectangular glass coverslips	Fisher Scientific Company, Hanover Park, IL
Triton-X	Sigma Aldrich Inc., Saint Louis, MO

Referencias

Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore’s law. Proceedings of the IEEE. 100, 1720-1749 (2012).
Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
. Learn SQL – Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
. SQL Tutorial – w3schools.com Available from: https://www.w3schools.com/sql (2018)
. Introduction to SQL – SQLBolt Available from: https://sqlbolt.com (2018)
Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren’s and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
Harris, P. A., et al. Research electronic data capture (REDCap)–a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
. SQL Training and Tutorials – Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citar este artículo

Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

Базы данных для эффективного управления средними, низкой скоростью, многомерными данными в области тканевой инженерии

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgaciones

Acknowledgements

Materials

Referencias

Tags

Play Video

Citar este artículo

View Video

Базы данных для эффективного управления средними, низкой скоростью, многомерными данными в области тканевой инженерии

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgaciones

Acknowledgements

Materials

Referencias

Tags

Play Video

Citar este artículo

View Video

✖

To prove you're not a robot, please enter the text in the image below