Summary

Bases de données pour gérer efficacement les données de taille moyenne, à faible vitesse et multidimensionnelles en génie tissulaire

Published: November 22, 2019
doi:

Summary

De nombreux chercheurs génèrent des données « de taille moyenne », à basse vitesse et multidimensionnelles, qui peuvent être gérées plus efficacement avec des bases de données plutôt que des feuilles de calcul. Nous fournissons ici un aperçu conceptuel des bases de données, y compris la visualisation des données multidimensionnelles, le lien entre les tables dans les structures relationnelles de base de données, la cartographie des pipelines de données semi-automatisés et l’utilisation de la base de données pour élucider le sens des données.

Abstract

La science s’appuie sur des ensembles de données de plus en plus complexes pour progresser, mais les méthodes courantes de gestion des données telles que les programmes de feuilles de calcul sont insuffisantes pour l’ampleur et la complexité croissantes de cette information. Bien que les systèmes de gestion des bases de données aient le potentiel de corriger ces problèmes, ils ne sont pas couramment utilisés en dehors des domaines d’affaires et d’informatique. Pourtant, de nombreux laboratoires de recherche génèrent déjà des données multidimensionnelles de « taille moyenne », à basse vitesse et multidimensionnelles, qui pourraient grandement bénéficier de la mise en place de systèmes similaires. Dans cet article, nous fournissons un aperçu conceptuel expliquant comment les bases de données fonctionnent et les avantages qu’elles fournissent dans les applications d’ingénierie tissulaire. Des données structurales de fibroblaste des individus avec une mutation de lamin A/C ont été employées pour illustrer des exemples dans un contexte expérimental spécifique. Par exemple, la visualisation de données multidimensionnelles, le fait de relier les tables dans une structure de base de données relationnelle, la cartographie d’un pipeline de données semi-automatisé pour convertir les données brutes en formats structurés et l’explication de la syntaxe sous-jacente d’une requête. Les résultats de l’analyse des données ont été utilisés pour créer des parcelles de divers arrangements et l’importance a été démontrée dans l’organisation cellulaire dans des environnements alignés entre le contrôle positif de la progeria Hutchinson-Gilford, une laminopathie bien connue, et tous les autres groupes expérimentaux. Par rapport aux feuilles de calcul, les méthodes de base de données étaient extrêmement efficaces en temps, simples à utiliser une fois mises en place, permettaient un accès immédiat aux emplacements de fichiers originaux et augmentaient la rigueur des données. En réponse à l’accent mis par les National Institutes of Health (NIH) sur la rigueur expérimentale, il est probable que de nombreux domaines scientifiques finiront par adopter des bases de données comme pratique courante en raison de leur forte capacité à organiser efficacement des données complexes.

Introduction

À une époque où le progrès scientifique est fortement tiré par la technologie, la manipulation de grandes quantités de données est devenue une facette intégrale de la recherche dans toutes les disciplines. L’émergence de nouveaux domaines tels que la biologie computationnelle et la génomique souligne à quel point l’utilisation proactive de la technologie est devenue critique. Ces tendances sont certaines de continuer en raison de la loi de Moore et des progrès constants réalisés grâce aux progrès technologiques1,2. Une conséquence, cependant, est l’augmentation des quantités de données générées qui dépassent les capacités des méthodes d’organisation précédemment viables. Bien que la plupart des laboratoires universitaires disposent de ressources informatiques suffisantes pour gérer des ensembles de données complexes, de nombreux groupes n’ont pas l’expertise technique nécessaire pour construire des systèmes personnalisés adaptés au développement des besoins3. Avoir les compétences nécessaires pour gérer et mettre à jour ces ensembles de données demeure essentiel pour un flux de travail et une sortie efficaces. Il est important de combler l’écart entre les données et l’expertise pour gérer, réorganiser et analyser efficacement un large éventail de données à multiples facettes.

L’évolutivité est une considération essentielle lors du traitement de grands ensembles de données. Le Big Data, par exemple, est un domaine de recherche florissant qui implique de révéler de nouvelles perspectives à partir de données de traitement caractérisées par d’énormes volumes, une grande hétérogénéité, et des taux élevés de production, tels que l’audio et la vidéo4,5. L’utilisation de méthodes automatisées d’organisation et d’analyse est obligatoire pour ce domaine afin de traiter de manière appropriée les torrents de données. Cependant, de nombreux termes techniques utilisés dans le Big Data ne sont pas clairement définis et peuvent prêter à confusion; par exemple, les données « à haute vitesse » sont souvent associées à des millions de nouvelles entrées par jour, alors que les données « à basse vitesse » ne peuvent être que des centaines d’entrées par jour, comme dans un laboratoire universitaire. Bien qu’il y ait beaucoup de résultats passionnants encore à découvrir utilisant le Big Data, la plupart des laboratoires universitaires n’exigent pas la portée, la puissance, et la complexité de telles méthodes pour répondre à leurs propres questions scientifiques5. Bien qu’il soit incontestable que les données scientifiques deviennent de plus en plus complexes avec le temps6, de nombreux scientifiques continuent d’utiliser des méthodes d’organisation qui ne répondent plus à leurs besoins croissants en matière de données. Par exemple, les programmes pratiques de feuilles de calcul sont fréquemment utilisés pour organiser les données scientifiques, mais au prix d’être inétalable, sujet aux erreurs et inefficace à long terme7,8. Inversement, les bases de données sont une solution efficace au problème car elles sont évolutives, relativement bon marché et faciles à utiliser dans le traitement d’ensembles de données variés de projets en cours.

Les préoccupations immédiates qui se posent lors de l’examen des schémas d’organisation des données sont le coût, l’accessibilité et l’investissement de temps pour la formation et l’utilisation. Fréquemment utilisés dans les milieux d’affaires, les programmes de base de données sont plus économiques, étant soit relativement peu coûteux, soit gratuits, que le financement nécessaire pour soutenir l’utilisation des systèmes de données volumineuses. En fait, une variété de logiciels disponibles dans le commerce et open source existe pour la création et la maintenance de bases de données, telles que Oracle Database, MySQL, et Microsoft (MS) Access9. De nombreux chercheurs seraient également encouragés à apprendre que plusieurs trousses universitaires du Bureau de la SP sont accompagnées d’un accès à la SP inclus, ce qui réduirait davantage les coûts. En outre, presque tous les développeurs fournissent une documentation complète en ligne et il ya une pléthore de ressources en ligne gratuites telles que Codecademy, W3Schools, et SQLBolt pour aider les chercheurs à comprendre et à utiliser le langage de requête structurée (SQL)10,11,12. Comme tout langage de programmation, apprendre à utiliser les bases de données et le code à l’aide de SQL prend du temps à maîtriser, mais avec les ressources abondantes disponibles, le processus est simple et vaut bien l’effort investi.

Les bases de données peuvent être des outils puissants pour accroître l’accessibilité des données et la facilité d’agrégation, mais il est important de discerner quelles données bénéficieraient le plus d’un meilleur contrôle de l’organisation. La multidimensionnalité se réfère au nombre de conditions auxquelles une mesure peut être regroupée, et les bases de données sont plus puissantes lors de la gestion de nombreuses conditions différentes13. Inversement, l’information à faible dimensionnalité est la plus simple à gérer à l’aide d’un programme de feuilles de calcul; par exemple, un ensemble de données contenant des années et une valeur pour chaque année n’a qu’un seul groupement possible (mesures par rapport aux années). Les données de grande dimension, comme les milieux cliniques, nécessiteraient un grand degré d’organisation manuelle afin de maintenir efficacement un processus fastidieux et sujet aux erreurs au-delà de la portée des programmes de feuilles de calcul13. Les bases de données non relationnelles (NoSQL) remplissent également une variété de rôles, principalement dans les applications où les données ne s’organisent pas bien en lignes et colonnes14. En plus d’être fréquemment open source, ces schémas organisationnels comprennent des associations graphiques, des données de séries chronologiques ou des données basées sur des documents. NoSQL excelle mieux dans l’évolutivité que SQL, mais ne peut pas créer de requêtes complexes, de sorte que les bases de données relationnelles sont meilleures dans les situations qui nécessitent une cohérence, une normalisation et des modifications peu fréquentes des données à grande échelle15. Les bases de données sont les meilleures pour regrouper efficacement et remettre à jour les données dans le large éventail de conformations souvent nécessaires dans les contextes scientifiques13,16.

L’objectif principal de ce travail est donc d’informer la communauté scientifique sur le potentiel des bases de données en tant que systèmes évolutifs de gestion des données pour les données de « taille moyenne », à faible vitesse, ainsi que de fournir un modèle général à l’aide d’exemples spécifiques d’expériences de lignée cellulaire d’origine du patient. D’autres applications similaires incluent des données géospatiales des lits de rivières, des questionnaires d’études cliniques longitudinales et des conditions de croissance microbiennedans les médias de croissance17,18,19. Ce travail met en évidence des considérations communes pour la construction et l’utilité de la construction d’une base de données couplée à un pipeline de données nécessaire pour convertir les données brutes en formats structurés. Les bases des interfaces de base de données et du codage pour les bases de données dans SQL sont fournies et illustrées d’exemples pour permettre à d’autres d’acquérir les connaissances applicables à l’établissement de cadres de base. Enfin, un ensemble d’échantillons de données expérimentales démontre à quel point les bases de données peuvent être conçues facilement et efficacement pour agréger les données multiformes de diverses façons. Cette information fournit le contexte, les commentaires et les modèles pour aider d’autres scientifiques sur la voie vers la mise en œuvre de bases de données pour leurs propres besoins expérimentaux.

Dans le but de créer une base de données évolutive dans un laboratoire de recherche, des données provenant d’expériences utilisant des cellules de fibroblaste humain ont été recueillies au cours des trois dernières années. L’objectif principal de ce protocole est de rendre compte de l’organisation de logiciels informatiques pour permettre à l’utilisateur d’agréger, de mettre à jour et de gérer les données de la manière la plus rentable et la plus rapide possible, mais les méthodes expérimentales pertinentes sont également fournies pour Contexte.

Configuration expérimentale
Le protocole expérimental pour la préparation des échantillons a été décrit précédemment20,21, et est présenté brièvement ici. Les constructions ont été préparées par des couvercles rectangulaires en verre enrobés de spin avec un mélange de 10:1 de polydiméthylsiloxane (PDMS) et d’agent de durcissement, puis en appliquant une fibronectine de 0,05 mg/mL, soit dans des lignes non organisées (isotropes) ou de 20 m avec des arrangements micropatternés de 5 m d’écart (lignes). Les cellules de fibroblaste ont été ensepépinées au passage 7 (ou passage 16 pour des contrôles positifs) sur les couvertures aux densités optimales et laissées pour se développer pendant 48 h avec des médias étant changés après 24 h. Les cellules ont ensuite été fixées à l’aide de 4% de paraformaldéhyde (PFA) solution et 0,0005% surfactant nonionic, suivi par les couvertures étant immunostained pour les noyaux cellulaires (4′,6′-diaminodino-2-phenylinodole [DAPI]), actine (Alexa Fluor 488 phalloidin), et fibronectin (polycloncal rabbit anti-human fibronectin). Une tache secondaire pour la fibronectin utilisant des anticorps d’IgG anti-lapin de chèvre (Alexa Fluor 750 chèvre anti-lapin) a été appliquée et l’agent de conservation a été monté sur toutes les couvertures pour empêcher la décoloration fluorescente. Le vernis à ongles a été utilisé pour sceller les feuilles de couverture sur les lames de microscope, puis laissé à sécher pendant 24 h.

Des images de fluorescence ont été obtenues comme décrit précédemment20 utilisant un objectif d’immersion d’huile 40x couplé avec une caméra couplée numérique de dispositif de charge (CCD) montée sur un microscope motorisé inversé. Dix champs de vision choisis au hasard ont été photographiés pour chaque coverslip à 40x grossissement, correspondant à une résolution de 6,22 pixels/m. Des codes écrits sur mesure ont été utilisés pour quantifier différentes variables des images décrivant les noyaux, les filaments d’actine et la fibronectine; les valeurs correspondantes, ainsi que les paramètres d’organisation et de géométrie, ont été automatiquement enregistrés dans les fichiers de données.

Lignes cellulaires
Vous trouverez une documentation plus complète sur toutes les lignées de cellules de données d’échantillons dans les publications antérieures20. Pour décrire brièvement, la collecte de données a été approuvée et le consentement éclairé a été effectué conformément à la Commission d’examen institutionnel de l’UC Irvine (CISR no 2014-1253). Des cellules humaines de fibroblaste ont été rassemblées de trois familles de différentes variations de la mutation de gène de lamin A/C (LMNA): mutation hétérozygote d’épissage-site de LMNA (c.357-2A-gt;G)22 (famille A); Mutation non-sens LMNA (c.736 C-gt;T, pQ246X) en exon 423 (famille B); et mutation de mauvais sens de LMNA (c.1003C-gt;T, pR335W) dans exon 624 (famille C). Des cellules de fibroblaste ont également été rassemblées d’autres individus dans chaque famille en tant que contrôles mutation-négatifs liés, appelés « contrôles , » et d’autres ont été achetés en tant que contrôles mutation-négatifs indépendants, appelés « donateurs ». Comme un contrôle positif, les cellules de fibroblaste d’un individu avec la progeria de Hutchinson-Gliford (HGPS) ont été achetées et cultivées à partir d’une biopsie de peau prise d’un patient féminin de 8 ans présentant HGPS possédant une mutation de point de G608G de LMNA 25. Au total, les fibroblastes de 22 personnes ont été testés et utilisés comme données dans ce travail.

Types de données
Les données sur le fibroblaste se sont regroupées en deux catégories : les variables des noyaux cellulaires (c.-à-d. pourcentage de noyaux dysmorphiques, zone de noyaux, excentricité des noyaux)20 ou variables structurelles provenant du paramètre de l’ordre d’orientation (OOP)21,26,27 (c.-à-d., actino, fibronectin OOP, nuclei OOP). Ce paramètre est égal à l’eigenvalue maximale du tenseur d’ordre moyen de tous les vecteurs d’orientation, et il est défini en détail dans les publications précédentes26,28. Ces valeurs sont regroupées en diverses conformations possibles, telles que les valeurs par rapport à l’âge, au sexe, à l’état de la maladie, à la présence de certains symptômes, etc. Des exemples de la façon dont ces variables sont utilisées peuvent être trouvés dans la section des résultats.

Exemple de codes et de fichiers
Les codes d’exemple et autres fichiers basés sur les données ci-dessus peuvent être téléchargés avec ce document, et leurs noms et types sont résumés dans le tableau 1.

Protocol

REMARQUE : Voir tableau des matériaux pour les versions logicielles utilisées dans ce protocole. 1. Évaluer si les données bénéficieraient d’un système d’organisation de bases de données Téléchargez les exemples de codes et de bases de données (voir Fichiers de codage supplémentaires, qui sont résumés dans le tableau 1). Utilisez la figure 1 pour évaluer si l’ensemble de données…

Representative Results

Multidimensionnalité des donnéesDans le contexte de l’exemple de l’ensemble de données présenté ici, les sujets, décrits dans la section Méthodes, ont été divisés en groupes d’individus des trois familles atteintes de la mutation LMNA causant une maladie cardiaque («Patients»), témoins négatifs non-mutation connexes («Contrôles»), des contrôles négatifs non liés à la non-mutation («donateurs»), et un individu avec le syndrome de Progeria Hutchinson-Gilford (HGPS) comme…

Discussion

Discussion technique du protocole
La première étape lors de l’examen de l’utilisation des bases de données consiste à évaluer si les données bénéficieraient d’une telle organisation.

La prochaine étape essentielle consiste à créer un code automatisé qui demandera l’entrée minimale de l’utilisateur et générera la structure de données de table. Dans l’exemple, l’utilisateur est entré dans la catégorie du type de données (noyaux cellulaires ou mesures struct…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ce travail est soutenu par le National Heart, Lung, and Blood Institute des National Institutes of Health, numéro de subvention R01 HL129008. Les auteurs remercient particulièrement les membres de la famille de la mutation génétique LMNA pour leur participation à l’étude. Nous tenons également à remercier Linda McCarthy pour son aide dans la culture cellulaire et le maintien des espaces de laboratoire, Nasam Chokr pour sa participation à l’imagerie cellulaire et l’analyse des données des noyaux, et Michael A. Grosberg pour ses conseils pertinents avec la mise en place de notre base de données Microsoft Access initiale ainsi que répondre à d’autres questions techniques.

Materials

4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore’s law. Proceedings of the IEEE. 100, 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. . Learn SQL – Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
  11. . SQL Tutorial – w3schools.com Available from: https://www.w3schools.com/sql (2018)
  12. . Introduction to SQL – SQLBolt Available from: https://sqlbolt.com (2018)
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren’s and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)–a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. . SQL Training and Tutorials – Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)
check_url/60038?article_type=t

Play Video

Cite This Article
Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

View Video