Bioengineering

Bases de données pour gérer efficacement les données de taille moyenne, à faible vitesse et multidimensionnelles en génie tissulaire

Published: November 22, 2019 doi: 10.3791/60038

Alexander R. Ochs^1,2, Mehrsa Mehrabi^1,2, Danielle Becker^1,2, Mira N. Asad^1,2, Jing Zhao^1,2, Michael V. Zaragoza^3,4, Anna Grosberg^1,2,5,6,7

¹Department of Biomedical Engineering, University of California, Irvine, ²The Edwards Lifesciences Center for Advanced Cardiovascular Technology, University of California, Irvine, ³Pediatrics-Genetics & Genomics Division-School of Medicine, University of California, Irvine, ⁴Biological Chemistry-School of Medicine, University of California, Irvine, ⁵Department of Chemical and Biomolecular Engineering, University of California, Irvine, ⁶Center for Complex Biological Systems, University of California, Irvine, ⁷The NSF-Simons Center for Multiscale Cell Fate Research (CMCF), University of California, Irvine

Summary

De nombreux chercheurs génèrent des données « de taille moyenne », à basse vitesse et multidimensionnelles, qui peuvent être gérées plus efficacement avec des bases de données plutôt que des feuilles de calcul. Nous fournissons ici un aperçu conceptuel des bases de données, y compris la visualisation des données multidimensionnelles, le lien entre les tables dans les structures relationnelles de base de données, la cartographie des pipelines de données semi-automatisés et l'utilisation de la base de données pour élucider le sens des données.

Abstract

La science s'appuie sur des ensembles de données de plus en plus complexes pour progresser, mais les méthodes courantes de gestion des données telles que les programmes de feuilles de calcul sont insuffisantes pour l'ampleur et la complexité croissantes de cette information. Bien que les systèmes de gestion des bases de données aient le potentiel de corriger ces problèmes, ils ne sont pas couramment utilisés en dehors des domaines d'affaires et d'informatique. Pourtant, de nombreux laboratoires de recherche génèrent déjà des données multidimensionnelles de « taille moyenne », à basse vitesse et multidimensionnelles, qui pourraient grandement bénéficier de la mise en place de systèmes similaires. Dans cet article, nous fournissons un aperçu conceptuel expliquant comment les bases de données fonctionnent et les avantages qu'elles fournissent dans les applications d'ingénierie tissulaire. Des données structurales de fibroblaste des individus avec une mutation de lamin A/C ont été employées pour illustrer des exemples dans un contexte expérimental spécifique. Par exemple, la visualisation de données multidimensionnelles, le fait de relier les tables dans une structure de base de données relationnelle, la cartographie d'un pipeline de données semi-automatisé pour convertir les données brutes en formats structurés et l'explication de la syntaxe sous-jacente d'une requête. Les résultats de l'analyse des données ont été utilisés pour créer des parcelles de divers arrangements et l'importance a été démontrée dans l'organisation cellulaire dans des environnements alignés entre le contrôle positif de la progeria Hutchinson-Gilford, une laminopathie bien connue, et tous les autres groupes expérimentaux. Par rapport aux feuilles de calcul, les méthodes de base de données étaient extrêmement efficaces en temps, simples à utiliser une fois mises en place, permettaient un accès immédiat aux emplacements de fichiers originaux et augmentaient la rigueur des données. En réponse à l'accent mis par les National Institutes of Health (NIH) sur la rigueur expérimentale, il est probable que de nombreux domaines scientifiques finiront par adopter des bases de données comme pratique courante en raison de leur forte capacité à organiser efficacement des données complexes.

Introduction

À une époque où le progrès scientifique est fortement tiré par la technologie, la manipulation de grandes quantités de données est devenue une facette intégrale de la recherche dans toutes les disciplines. L'émergence de nouveaux domaines tels que la biologie computationnelle et la génomique souligne à quel point l'utilisation proactive de la technologie est devenue critique. Ces tendances sont certaines de continuer en raison de la loi de Moore et des progrès constants réalisés grâce aux progrès technologiques¹^,². Une conséquence, cependant, est l'augmentation des quantités de données générées qui dépassent les capacités des méthodes d'organisation précédemment viables. Bien que la plupart des laboratoires universitaires disposent de ressources informatiques suffisantes pour gérer des ensembles de données complexes, de nombreux groupes n'ont pas l'expertise technique nécessaire pour construire des systèmes personnalisés adaptés au développement des besoins³. Avoir les compétences nécessaires pour gérer et mettre à jour ces ensembles de données demeure essentiel pour un flux de travail et une sortie efficaces. Il est important de combler l'écart entre les données et l'expertise pour gérer, réorganiser et analyser efficacement un large éventail de données à multiples facettes.

L'évolutivité est une considération essentielle lors du traitement de grands ensembles de données. Le Big Data, par exemple, est un domaine de recherche florissant qui implique de révéler de nouvelles perspectives à partir de données de traitement caractérisées par d'énormes volumes, une grande hétérogénéité, et des taux élevés de production, tels que l'audio et la vidéo⁴^,⁵. L'utilisation de méthodes automatisées d'organisation et d'analyse est obligatoire pour ce domaine afin de traiter de manière appropriée les torrents de données. Cependant, de nombreux termes techniques utilisés dans le Big Data ne sont pas clairement définis et peuvent prêter à confusion; par exemple, les données « à haute vitesse » sont souvent associées à des millions de nouvelles entrées par jour, alors que les données « à basse vitesse » ne peuvent être que des centaines d'entrées par jour, comme dans un laboratoire universitaire. Bien qu'il y ait beaucoup de résultats passionnants encore à découvrir utilisant le Big Data, la plupart des laboratoires universitaires n'exigent pas la portée, la puissance, et la complexité de telles méthodes pour répondre à leurs propres questions scientifiques⁵. Bien qu'il soit incontestable que les données scientifiques deviennent de plus en plus complexes avec le temps⁶, de nombreux scientifiques continuent d'utiliser des méthodes d'organisation qui ne répondent plus à leurs besoins croissants en matière de données. Par exemple, les programmes pratiques de feuilles de calcul sont fréquemment utilisés pour organiser les données scientifiques, mais au prix d'être inétalable, sujet aux erreurs et inefficace à long terme⁷^,⁸. Inversement, les bases de données sont une solution efficace au problème car elles sont évolutives, relativement bon marché et faciles à utiliser dans le traitement d'ensembles de données variés de projets en cours.

Les préoccupations immédiates qui se posent lors de l'examen des schémas d'organisation des données sont le coût, l'accessibilité et l'investissement de temps pour la formation et l'utilisation. Fréquemment utilisés dans les milieux d'affaires, les programmes de base de données sont plus économiques, étant soit relativement peu coûteux, soit gratuits, que le financement nécessaire pour soutenir l'utilisation des systèmes de données volumineuses. En fait, une variété de logiciels disponibles dans le commerce et open source existe pour la création et la maintenance de bases de données, telles que Oracle Database, MySQL, et Microsoft (MS) Access⁹. De nombreux chercheurs seraient également encouragés à apprendre que plusieurs trousses universitaires du Bureau de la SP sont accompagnées d'un accès à la SP inclus, ce qui réduirait davantage les coûts. En outre, presque tous les développeurs fournissent une documentation complète en ligne et il ya une pléthore de ressources en ligne gratuites telles que Codecademy, W3Schools, et SQLBolt pour aider les chercheurs à comprendre et à utiliser le langage de requête structurée (SQL)¹⁰^,¹¹^,¹². Comme tout langage de programmation, apprendre à utiliser les bases de données et le code à l'aide de SQL prend du temps à maîtriser, mais avec les ressources abondantes disponibles, le processus est simple et vaut bien l'effort investi.

Les bases de données peuvent être des outils puissants pour accroître l'accessibilité des données et la facilité d'agrégation, mais il est important de discerner quelles données bénéficieraient le plus d'un meilleur contrôle de l'organisation. La multidimensionnalité se réfère au nombre de conditions auxquelles une mesure peut être regroupée, et les bases de données sont plus puissantes lors de la gestion de nombreuses conditions différentes¹³. Inversement, l'information à faible dimensionnalité est la plus simple à gérer à l'aide d'un programme de feuilles de calcul; par exemple, un ensemble de données contenant des années et une valeur pour chaque année n'a qu'un seul groupement possible (mesures par rapport aux années). Les données de grande dimension, comme les milieux cliniques, nécessiteraient un grand degré d'organisation manuelle afin de maintenir efficacement un processus fastidieux et sujet aux erreurs au-delà de la portée des programmes de feuilles de calcul¹³. Les bases de données non relationnelles (NoSQL) remplissent également une variété de rôles, principalement dans les applications où les données ne s'organisent pas bien en lignes et colonnes¹⁴. En plus d'être fréquemment open source, ces schémas organisationnels comprennent des associations graphiques, des données de séries chronologiques ou des données basées sur des documents. NoSQL excelle mieux dans l'évolutivité que SQL, mais ne peut pas créer de requêtes complexes, de sorte que les bases de données relationnelles sont meilleures dans les situations qui nécessitent une cohérence, une normalisation et des modifications peu fréquentes des données à grande échelle¹⁵. Les bases de données sont les meilleures pour regrouper efficacement et remettre à jour les données dans le large éventail de conformations souvent nécessaires dans les contextes scientifiques¹³^,¹⁶.

L'objectif principal de ce travail est donc d'informer la communauté scientifique sur le potentiel des bases de données en tant que systèmes évolutifs de gestion des données pour les données de « taille moyenne », à faible vitesse, ainsi que de fournir un modèle général à l'aide d'exemples spécifiques d'expériences de lignée cellulaire d'origine du patient. D'autres applications similaires incluent des données géospatiales des lits de rivières, des questionnaires d'études cliniques longitudinales et des conditions de croissance microbiennedans les médias de croissance¹⁷^,¹⁸^,¹⁹. Ce travail met en évidence des considérations communes pour la construction et l'utilité de la construction d'une base de données couplée à un pipeline de données nécessaire pour convertir les données brutes en formats structurés. Les bases des interfaces de base de données et du codage pour les bases de données dans SQL sont fournies et illustrées d'exemples pour permettre à d'autres d'acquérir les connaissances applicables à l'établissement de cadres de base. Enfin, un ensemble d'échantillons de données expérimentales démontre à quel point les bases de données peuvent être conçues facilement et efficacement pour agréger les données multiformes de diverses façons. Cette information fournit le contexte, les commentaires et les modèles pour aider d'autres scientifiques sur la voie vers la mise en œuvre de bases de données pour leurs propres besoins expérimentaux.

Dans le but de créer une base de données évolutive dans un laboratoire de recherche, des données provenant d'expériences utilisant des cellules de fibroblaste humain ont été recueillies au cours des trois dernières années. L'objectif principal de ce protocole est de rendre compte de l'organisation de logiciels informatiques pour permettre à l'utilisateur d'agréger, de mettre à jour et de gérer les données de la manière la plus rentable et la plus rapide possible, mais les méthodes expérimentales pertinentes sont également fournies pour Contexte.

Configuration expérimentale
Le protocole expérimental pour la préparation des échantillons a été décrit précédemment²⁰^,²¹, et est présenté brièvement ici. Les constructions ont été préparées par des couvercles rectangulaires en verre enrobés de spin avec un mélange de 10:1 de polydiméthylsiloxane (PDMS) et d'agent de durcissement, puis en appliquant une fibronectine de 0,05 mg/mL, soit dans des lignes non organisées (isotropes) ou de 20 m avec des arrangements micropatternés de 5 m d'écart (lignes). Les cellules de fibroblaste ont été ensepépinées au passage 7 (ou passage 16 pour des contrôles positifs) sur les couvertures aux densités optimales et laissées pour se développer pendant 48 h avec des médias étant changés après 24 h. Les cellules ont ensuite été fixées à l'aide de 4% de paraformaldéhyde (PFA) solution et 0,0005% surfactant nonionic, suivi par les couvertures étant immunostained pour les noyaux cellulaires (4',6'-diaminodino-2-phenylinodole [DAPI]), actine (Alexa Fluor 488 phalloidin), et fibronectin (polycloncal rabbit anti-human fibronectin). Une tache secondaire pour la fibronectin utilisant des anticorps d'IgG anti-lapin de chèvre (Alexa Fluor 750 chèvre anti-lapin) a été appliquée et l'agent de conservation a été monté sur toutes les couvertures pour empêcher la décoloration fluorescente. Le vernis à ongles a été utilisé pour sceller les feuilles de couverture sur les lames de microscope, puis laissé à sécher pendant 24 h.

Des images de fluorescence ont été obtenues comme décrit précédemment²⁰ utilisant un objectif d'immersion d'huile 40x couplé avec une caméra couplée numérique de dispositif de charge (CCD) montée sur un microscope motorisé inversé. Dix champs de vision choisis au hasard ont été photographiés pour chaque coverslip à 40x grossissement, correspondant à une résolution de 6,22 pixels/m. Des codes écrits sur mesure ont été utilisés pour quantifier différentes variables des images décrivant les noyaux, les filaments d'actine et la fibronectine; les valeurs correspondantes, ainsi que les paramètres d'organisation et de géométrie, ont été automatiquement enregistrés dans les fichiers de données.

Lignes cellulaires
Vous trouverez une documentation plus complète sur toutes les lignées de cellules de données d'échantillons dans les publications antérieures²⁰. Pour décrire brièvement, la collecte de données a été approuvée et le consentement éclairé a été effectué conformément à la Commission d'examen institutionnel de l'UC Irvine (CISR no 2014-1253). Des cellules humaines de fibroblaste ont été rassemblées de trois familles de différentes variations de la mutation de gène de lamin A/C (LMNA): mutation hétérozygote d'épissage-site de LMNA (c.357-2A-gt;G)²² (famille A); Mutation non-sens LMNA (c.736 C-gt;T, pQ246X) en exon 4²³ (famille B); et mutation de mauvais sens de LMNA (c.1003C-gt;T, pR335W) dans exon 6²⁴ (famille C). Des cellules de fibroblaste ont également été rassemblées d'autres individus dans chaque famille en tant que contrôles mutation-négatifs liés, appelés « contrôles , » et d'autres ont été achetés en tant que contrôles mutation-négatifs indépendants, appelés « donateurs ». Comme un contrôle positif, les cellules de fibroblaste d'un individu avec la progeria de Hutchinson-Gliford (HGPS) ont été achetées et cultivées à partir d'une biopsie de peau prise d'un patient féminin de 8 ans présentant HGPS possédant une mutation de point de G608G de LMNA ^25. Au total, les fibroblastes de 22 personnes ont été testés et utilisés comme données dans ce travail.

Types de données
Les données sur le fibroblaste se sont regroupées en deux catégories : les variables des noyaux cellulaires (c.-à-d. pourcentage de noyaux dysmorphiques, zone de noyaux, excentricité des noyaux)²⁰ ou variables structurelles provenant du paramètre de l'ordre d'orientation (OOP)²¹^,²⁶^,²⁷ (c.-à-d., actino, fibronectin OOP, nuclei OOP). Ce paramètre est égal à l'eigenvalue maximale du tenseur d'ordre moyen de tous les vecteurs d'orientation, et il est défini en détail dans les publications précédentes²⁶^,²⁸. Ces valeurs sont regroupées en diverses conformations possibles, telles que les valeurs par rapport à l'âge, au sexe, à l'état de la maladie, à la présence de certains symptômes, etc. Des exemples de la façon dont ces variables sont utilisées peuvent être trouvés dans la section des résultats.

Exemple de codes et de fichiers
Les codes d'exemple et autres fichiers basés sur les données ci-dessus peuvent être téléchargés avec ce document, et leurs noms et types sont résumés dans le tableau 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

REMARQUE : Voir tableau des matériaux pour les versions logicielles utilisées dans ce protocole.

1. Évaluer si les données bénéficieraient d'un système d'organisation de bases de données

Téléchargez les exemples de codes et de bases de données (voir Fichiers de codage supplémentaires, qui sont résumés dans le tableau 1).
Utilisez la figure 1 pour évaluer si l'ensemble de données d'intérêt est « multidimensionnel ».
REMARQUE : La figure 1 est une représentation graphique d'une base de données multidimensionnelle fournie pour l'ensemble de données par exemple.
Si les données peuvent être visualisées sous une forme « multidimensionnelle » comme l'exemple et si la capacité de relier un résultat expérimental spécifique à l'une ou l'autre des dimensions (c.-à-d. les conditions) permettrait une meilleure connaissance scientifique des données disponibles, construire une base de données relationnelle.

2. Organiser la structure de la base de données

REMARQUE : Les bases de données relationnelles stockent des informations sous forme de tableaux. Les tableaux sont organisés en schéma de lignes et de colonnes, semblables aux feuilles de calcul, et peuvent être utilisés pour relier les informations d'identification dans la base de données.

Organiser les fichiers de données, de sorte qu'ils ont bien pensé des noms uniques. Les bonnes pratiques en matière de conventions de nommage de fichiers et de structures de dossiers, lorsqu'elles sont bien faites, permettent une évolutivité de base de données large sans compromettre la lisibilité de l'accès manuel aux fichiers. Ajoutez des fichiers de date dans un format cohérent, tel que "20XX-YY-ZZ", et les sous-dossiers de noms selon les métadonnées en sont un exemple.
Au fur et à mesure que la structure de base de données est conçue, tracez des relations entre les champs dans différentes tables. Ainsi, la multidimensionnalité est traitée en reliant différents champs (c.-à-d. colonnes dans les tables) dans des tables individuelles les uns aux autres.
Créez une documentation de lecture qui décrit la base de données et les relations qui ont été créées à l'étape 2.2. Une fois qu'une entrée entre les différentes tables est liée, toutes les informations associées sont liées à cette entrée et peuvent être utilisées pour appeler des requêtes complexes pour filtrer vers le bas pour les informations désirées.
REMARQUE : Les documents Readme sont une solution courante pour fournir des informations supplémentaires et des informations structurelles de base de données sur un projet sans ajouter de données non uniformes à la structure.
Après les étapes 2.1-2.3, rendre le résultat final semblable à cet exemple où les caractéristiques différentes des individus (figure 2A) sont liées aux données expérimentales associées de ces individus (figure 2B). La même chose a été faite par le biais de colonnes relatives de types de modèles (figure 2C) et de types de données (figure 2D) à des entrées correspondantes dans le tableau des valeurs de données principales pour expliquer diverses notations abrégées (figure 2B).
Déterminez tous les points de données essentiels et simplement utiles qui doivent être enregistrés pour la collecte de données à longue portée.
REMARQUE : L'un des principaux avantages de l'utilisation des bases de données sur les programmes de feuilles de calcul, comme mentionné précédemment, est l'évolutivité : des points de données supplémentaires peuvent être ajoutés trivialement à n'importe quel point et les calculs, tels que les moyennes, sont instantanément mis à jour pour refléter les points de données nouvellement ajoutés.
1. Identifiez les informations nécessaires à la création de points de données distincts avant le début. Laissez les données brutes intactes, au lieu de modifier ou d'économiser sur elle, de sorte que la réanalyse est possible et accessible.
  REMARQUE : Pour l'exemple donné (figure 2), le « désignateur » correspondant à un individu, « type de modèle », « glissement de bande » et « type variable » étaient tous des champs vitaux pour la distinctité de la valeur associée.
2. Si vous le souhaitez, ajoutez d'autres informations utiles et non vitales telles que le "Total de Coverslips" pour indiquer le nombre de répétitions effectuées et aider à déterminer si les points de données sont manquants dans cet exemple.

3. Mettre en place et organiser le pipeline

Identifiez toutes les différentes expériences et méthodes d'analyse de données qui pourraient mener à la collecte de données ainsi que les pratiques normales de stockage de données pour chaque type de données. Travaillez avec un logiciel de contrôle de version open source tel que GitHub pour assurer la cohérence et le contrôle de version nécessaires tout en minimisant le fardeau de l'utilisateur.
Si possible, créez une procédure de dénomination et de stockage cohérents des données pour permettre un pipeline automatisé.
REMARQUE : Dans l'exemple, les extrants ont tous été nommés de façon cohérente, créant ainsi un pipeline de données qui cherchait des attributs spécifiques une fois que les fichiers ont été sélectionnés. Si une dénomination cohérente n'est pas possible, les tables de la base de données devront être remplies manuellement, ce qui n'est pas recommandé.
Utilisez n'importe quel langage de programmation pratique pour générer de nouvelles entrées de données pour la base de données.
1. Créez de petites tables d'aide (fichiers #8 #10 dans le tableau 1) dans des fichiers distincts qui peuvent guider la sélection automatisée des données. Ces fichiers servent de modèle de possibilités pour le pipeline à fonctionner sous et sont faciles à modifier.
2. Pour générer de nouvelles entrées de données pour le pipeline de données (figure 3D), programmez le code (LocationPointer.m, fichier #1 dans le tableau 1) pour utiliser les tableaux d'aide comme entrées à sélectionner par l'utilisateur (fichiers #8 #10 dans le tableau 1).
3. À partir de là, assemblez une nouvelle feuille de calcul des emplacements de fichiers en combinant les nouvelles entrées avec les entrées précédentes (Figure 3E). Créez un code pour automatiser cette étape comme indiqué dans LocationPointerCompile.m (fichier #2 dans le tableau 1).
4. Ensuite, vérifiez cette feuille de calcul fusionnée pour les doublons, qui doivent être automatiquement supprimés. Créez un code pour automatiser cette étape comme indiqué dans LocationPointer_Remove_Duplicates.m (fichier #3 dans le tableau 1).
5. De plus, vérifiez les erreurs dans la feuille de calcul et informez l'utilisateur de sa raison et de son emplacement (figure 3F). Créez un code pour automatiser cette étape comme indiqué dans BadPointerCheck.m (fichier #4 dans le tableau 1). Vous pouvez également rédiger un code qui vérifiera la base de données compilée et identifiera les doublons en une seule étape, comme indiqué dans LocationPointer_Check.m (fichier #5 dans le tableau 1).
6. Créez un code pour permettre à l'utilisateur de supprimer manuellement les mauvais points sans perdre l'intégrité de la base de données comme indiqué dans Manual_Pointer_Removal.m (fichier #6 dans le tableau 1).
7. Ensuite, utilisez les emplacements de fichiers pour générer une feuille de calcul de la valeur des données (Figure 3G, fichier #12 dans le tableau 1) ainsi que pour créer une liste la plus mise à jour des entrées qui peuvent être consultées pour identifier les emplacements des fichiers ou fusionné avec les entrées futures (Figure 3H). Créez un code pour automatiser cette étape comme indiqué dans Database_Generate.m (fichier #7 dans le tableau 1).
Vérifiez doublement que le pipeline ajoute à la rigueur expérimentale en vérifiant l'inclusion de conventions de nommage rigoureuses, de codes automatisés d'assemblage de fichiers et de vérifications automatisées d'erreurs comme décrit précédemment.

4. Créer la base de données et les requêtes

REMARQUE : Si les tableaux stockent des informations dans des bases de données, les requêtes sont des demandes à la base de données pour obtenir des informations qui sont assidus à des critères spécifiques. Il existe deux méthodes pour créer la base de données : à partir d'un document vierge ou à partir des fichiers existants. La figure 4 montre une requête d'échantillon utilisant la syntaxe SQL qui est conçue pour s'exécuter en utilisant les relations de base de données indiquées dans la figure 2.

Méthode 1 : À partir de zéro dans la création de la base de données et des requêtes
1. Créez un document de base de données vierge.
2. Chargez les tableaux d'aide (fichiers #8 #10 dans le tableau 1) en sélectionnant les données externes. Importation de fichiers de texte Choisissez le fichier (fichiers #8-#10) Délimité (en anglais) La première rangée contient des en-têtes, Virgule laisser par défaut Choisissez ma propre clé principale (Désignateur pour les lignées cellulaires fichier #8, Nom variable pour les types de données Fichier #9, Nom Pat pour le fichier de type de modèle #10) laisser par défaut Finition.
3. Chargez le tableau de valeur des données (fichier #12 dans le tableau 1) en sélectionnant les données externes. Importation de fichiers de texte Choisissez le fichier (fichier #12) Délimité (en anglais) La première rangée contient des en-têtes, Virgule laisser par défaut Laissez Access Ajouter la clé principale Import to Table: DataValues (en anglais seulement) Finition.
4. Créez les relations en sélectionnant les outils de base de données. Relations et relations Faites glisser toutes les tables sur le tableau. Modifier les relations (en anglais) Créer de nouveaux Associez les champs DataValue avec les désignateurs de tables d'aide ( Type joint 3.
5. Sélectionnez Créer Conception de requête.
6. Sélectionnez ou faites glisser toutes les tables pertinentes dans la fenêtre supérieure. Dans cet exemple, 'Cell Lines', 'Data Values', 'Data Types' et 'Pattern Type'. Les relations doivent automatiquement être définies en fonction de la conception précédente de la relation.
7. Remplissez les colonnes de requête pour les résultats souhaités, par exemple :
  1. Cliquer sur L'émission de l'émission Total.
  2. Remplir la première colonne (Tableau: DataValues, Field: DataVar, Total: GroupBy, Critères: "Act_OOP"), la deuxième colonne (Tableau: DataValues, Field: PatVar, Total: GroupBy, Criteria: "Lines"), et la troisième colonne (Tableau: Cell_Lines, Champ: Désignateur, Total: GroupBy, Tri: Ascendant).
  3. Remplissez la quatrième colonne (Tableau: DataValues, Field: Parameter, Total: Ave), la cinquième colonne (Tableau: DataValues, Field: Parameter, Total: StDev), et la sixième colonne (Tableau: DataValues, Field: Parameter, Total: Count).
8. Exécutez la requête.
Vous pouvez également utiliser la base de données d'exemples fournie comme base d'exemples. Ouvrez le fichier de base de données Database_Queries.accdb (fichier #13 dans le tableau 1) qui a été téléchargé plus tôt. Utilisez-le comme modèle en remplaçant les tables existantes par les données d'intérêt.

5. Déplacer les tableaux de sortie vers un logiciel statistique pour l'analyse de l'importance

Pour cet exemple de données expérimentales, utilisez l'analyse à sens unique de la variance (ANOVA) à l'aide du test de Tukey pour des comparaisons moyennes entre différentes conditions.
REMARQUE : Les valeurs de p 'lt; 0,05 ont été considérées statistiquement significatives.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Multidimensionnalité des données
Dans le contexte de l'exemple de l'ensemble de données présenté ici, les sujets, décrits dans la section Méthodes, ont été divisés en groupes d'individus des trois familles atteintes de la mutation LMNA causant une maladie cardiaque («Patients»), témoins négatifs non-mutation connexes («Contrôles»), des contrôles négatifs non liés à la non-mutation («donateurs»), et un individu avec le syndrome de Progeria Hutchinson-Gilford (HGPS) comme un contrôle positif²⁰. Les résultats des contrôles et des donateurs pourraient être regroupés en tant que groupe global de contrôle négatif (N.C.), étant donné leur manque collectif de mutations l'ALP. La lignée cellulaire de chaque sujet avait un « statut de mutation » qui lui était associé, en fonction de son groupe d'état(figure 1 - axe bleu foncé). Pour chaque expérience, les cellules fibroblastes des sujets ont été cultivées sur des arrangements de fibronectine non organisée (isotrope) ou micromodèle (lignes), créant l'état du « type de modèle »(figure 1 - axe orange). Après que les cellules ont été fixées, immunostained, et imaged, le « Coverslip » a été transcrit, puisque de multiples expériences (c.-à-d., répliques techniques) se produiraient utilisant les cellules du même individu(figure 1 - axe vert clair). Les codes MATLAB^{personnalisés 20}^,²¹ ont ensuite été utilisés pour quantifier différents aspects des noyaux cellulaires ou des variables d'organisation des tissus sous le nom de « type variable »(figure 1 - axe vert sarcelle). Les trois facteurs étaient associés à la source humaine des cellules et, par conséquent, liés à la « famille »(figure 1 - axe rose foncé) et à « l'âge au moment de la biopsie »(figure 1 - axe vert foncé) en plus de « statut de mutation ». D'autres dimensions qui n'étaient pas incluses dans la figure 1 étaient « L'âge de la présentation », « Symptômes », « Désignateur » et « Genre » de la personne en question. L'exemple fourni ici donne au moins dix dimensions possibles pour l'agrégation des données. Ainsi, cet exemple de données est un candidat de choix pour l'organisation par bases de données relationnelles.

Figure 1 : Visualisation de données multidimensionnelles provenant de l'ensemble de données sur les mutations LMNA. Un seul cube est défini par les trois dimensions de « type variable », de « type de modèle » et de « coverslip ». D'autres dimensions sont représentées comme les axes de «Mutation Status», «Age of biopsy» (yrs), et «Famille». Les étiquettes colorées correspondent aux différents axes indiqués, comme l'âge de la biopsie (nombres verts) pour le cube de chaque individu. Ici, six des dix dimensions possibles sont utilisées pour illustrer la multidimensionnalité des points de données expérimentaux. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Organisation du pipeline
Jusqu'à environ 95 % de toutes les données numériques ne sont pas structurées^4,mais des formats structurés sont nécessaires pour les bases de données. Pourtant, la création d'une bonne méthode automatisée pour le pipeline de données dépend fortement du contexte.

Figure 2 : Relations de tableau et de conception des relations dans l'ensemble de données sur les mutations LMNA. Les bases de données relationnelles ont l'avantage de relier les champs d'une table à des informations dans un autre tableau, ce qui permet une interchangeabilité immédiate de l'agrégation. L'exemple ici démontre visuellement comment des informations différentes peuvent être liées. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Pour cet exemple, les images recueillies à partir de chaque expérience ont été stockées dans des dossiers nommés par date et initiale du membre du laboratoire responsable, avec des sous-dossiers énumérant le sujet et le numéro de couverture. Les fichiers de pipeline sont fournis dans les fichiers de codage supplémentaires, ainsi que résumés dans une illustration de diagramme de flux ( figure3). Différentes mesures de diverses conditions expérimentales à travers une variété de sujets ont été quantifiées à partir de ces images fluorescentes (Figure 3A) en utilisant des codes personnalisés (Figure 3B)²⁰^,²¹. Par exemple, le paramètre d'ordre d'orientation²¹ d'actine a été extrait des tissus souillés avec la phalloidine (figure 3A) et utilisé pour comparer l'organisation des fibroblastes de différentes personnes. Les sorties de code ont été enregistrées dans le même dossier que les images source (Figure 3C).

Figure 3 : Exemple de besoins communs en matière de pipeline de données dans un contexte généralisé. De nouvelles entrées ont été créées à l'aide d'entrées d'utilisateurs et de codes automatisés, formatant des informations importantes dans un format de feuille de calcul. Ces entrées ont été combinées avec l'ensemble le plus récent d'entrées de localisation de fichiers, vérifiées pour les erreurs, puis stockées à la fois comme une feuille de calcul des emplacements de fichiers et une feuille de calcul des valeurs de données. Barre d'échelle de 20 m. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Identifier une nouvelle relation dans l'ensemble de données sur les mutations LMNA
Lorsqu'on lui donne une multitude de conformations possibles, il peut être difficile d'identifier où de nouvelles relations existent à l'aide de méthodes manuelles d'agrégation de données. Dans ce contexte spécifique, nous nous sommes intéressés à comparer l'organisation des filaments d'actine subcellulaires dans de multiples conditions, mesurées à l'aide de l'OOP²⁷.

Figure 4 : Une requête d'exemple utilisant la syntaxe SQL. Les instructions SELECT et FROM sont des exigences pour générer une requête, mais des commandes et des critères supplémentaires sont souvent inclus. GROUP BY fournit des précisions sur la façon dont les instructions agrégées, D'UN ET de l'OLo limitent la sortie aux données qui répondent à des critères spécifiques, et ORDER BY indique l'ordre par lequel les sorties doivent être organisées. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

OOP est une construction mathématique quantifiant le degré d'ordre dans les environnements anisotropes, normalisé à zéro correspondant au tissu complètement isotrope et correspondant au tissu complètement aligné. L'ensemble de données a d'abord été divisé par type de modèle en tant que lignes (figure 5A) et isotropes (figure 5B) conditions, qui devaient avoir des OOP très différents depuis la fibronectine micropatterning influence fortement l'organisation des tissus. Il n'y avait pas de différences significatives entre les conditions lors de la comparaison des tissus isotropes (figure 5B). Inversement, les tissus à motifs étaient statistiquement moins organisés dans la lignée cellulaire témoin positive (HGPS)(figure 5A),et cette relation s'est maintenue même lorsque les données ont été regroupées en différents groupes (figure 5C). Actin OOP a en outre été comploté contre l'âge des individus au moment de la biopsie (Figure 5D), séparés par le statut de mutation et la famille, pour illustrer l'agrégation contre une variable clinique. Contrairement aux défauts nucléaires²⁰, il n'y a pas de corrélation entre l'organisation de l'actine et l'âge d'un individu (figure 5D). En fin de compte, les parcelles présentées dans la figure 5 illustrent comment les mêmes données peuvent être analysées dans différentes combinaisons et la facilité avec laquelle la tâche normalement difficile d'agréger les données qui relèvent de plusieurs classes peut être accomplie à l'aide de bases de données.

Pour cet article, des données des fibroblastes d'origine patiente ont été comparées entre les conditions pour déterminer des conséquences de mutation. Bien que les deux HGPS et les trois familles dans cette étude ont LMNA-liésmaladies qui perturbent potentiellement l'enveloppe nucléaire, les patients présentent des symptômes principalement associés à la dysfonction cardiaque tandis que les individus HGPS ont plusieurs systèmes d'organes affectés²²^,²³^,²⁴. En effet, malgré les cellules micropatternées de l'environnement provenant d'un patient HGPS avait une valeur d'actine statistiquement inférieure OOP que n'importe laquelle des autres lignées cellulaires considérées (Figure 5A,C). Ceci s'harmonise avec des patients de HGPS étant les seuls dans l'étude avec toutes les anomalies de peau provoquées par la mutation. L'affichage des mêmes données dans différentes conformations est également utile pour fournir des informations supplémentaires et des avenues dans la recherche scientifique dans un ensemble de données variés (figure 5).

Figure 5 : Comparaisons entre les conditions de la variable OOP actine. (A,B) les groupes correspondent aux quatre conditions primaires : donneurs de contrôle négatif non liés, contrôles négatifs connexes, mutation LMNA Patients de trois familles, et HGPS de contrôle positif. (C) tous les contrôles négatifs (N.C.) ont été combinés et les patients ont été séparés par la famille (PA, PB, PC) à la place. (D) Un graphique potentiel de l'actine isotrope OOP contre l'âge au moment de la biopsie recueillie pour cette étude, séparée par l'état et la famille. Les panneaux A, C et D sont tracés pour les tissus micropatterned avec un modèle de lignes, tandis que le panneau B est tracé pour des tissus isotropes. L'importance statistique de p 'lt; 0.05 () a été trouvée dans les panneaux A, C, et D. Aucune signification entre les paires n'a été trouvée dans le panneau B. Toutes les barres d'erreur représentent les écarts types calculés dans la base de données. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.

Fichiers de codage supplémentaires. S'il vous plaît cliquez ici pour voir ce fichier (Clic droit pour télécharger).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Discussion technique du protocole
La première étape lors de l'examen de l'utilisation des bases de données consiste à évaluer si les données bénéficieraient d'une telle organisation.

La prochaine étape essentielle consiste à créer un code automatisé qui demandera l'entrée minimale de l'utilisateur et générera la structure de données de table. Dans l'exemple, l'utilisateur est entré dans la catégorie du type de données (noyaux cellulaires ou mesures structurelles), du sujet de la lignée cellulaire et du nombre de fichiers sélectionnés. Les fichiers pertinents ont ensuite été sélectionnés par l'utilisateur (Tableau 2, colonne 1), les entrées de ligne étant automatiquement créées et peuplées de toutes les variables contenues dans le fichier (Tableau 2, colonne 2). En outre, il est important que le code soit flexible de sorte que si une autre entrée expérimentale doit être ajoutée, l'utilisateur peut choisir de continuer la boucle; sinon, les fichiers sont enregistrés et la boucle se termine. Les fonctions de base de l'ajout de nouvelles entrées, la vérification des erreurs, et l'assemblage de la feuille de calcul à partir des emplacements de fichiers décrits dans cette étape sont tous essentiels pour une configuration efficace de pipeline de données.

Il est impératif de noter que l'utilisation des emplacements de fichiers lors de la création du pipeline de données augmente la rigueur expérimentale. Plus précisément, le fait d'avoir une feuille de calcul correspondante énumérant tous les emplacements de fichiers pour les valeurs de données permet à un utilisateur de revenir sur tout point de données vers le carnet de laboratoire du chercheur qui a recueilli les données brutes. Lorsqu'il s'agit de centaines à des dizaines de milliers de points de données, une plus grande transparence et une plus grande accessibilité sont inestimables au cours de la durée de vie d'un projet. Il est fortement recommandé aux utilisateurs d'envisager d'enregistrer d'abord et plus tard des valeurs de compilation de données au lieu de stocker uniquement les valeurs de données.

Une fois que la base de données est créée, la façon la plus simple de commencer est de programmer les requêtes à travers la vue de conception. L'utilisateur trouvera utile de télécharger le modèle fourni (fichier #13 dans le tableau 1) comme point de départ. Alternativement, ceux-ci peuvent être programmés directement par la langue SQL (figure 4).

Discussion scientifique
Le but de cet article était de diffuser des méthodes impliquant un pipeline de données et une base de données qui élucidaient l'évolutivité et la transparence des ensembles de données. Ces méthodes ne sont pas largement utilisées en dehors de l'informatique et des affaires, mais ont un énorme potentiel pour ceux qui travaillent dans des contextes biologiques. Comme la science continue de s'appuyer sur les ordinateurs plus fortement, l'importance des systèmes de gestion efficaces augmente également⁶^,²⁹. Les bases de données sont fréquemment utilisées pour des applications à volume élevé et/ou à haute vitesse et sont bien citées dans la littérature, en particulier en ce qui concerne leur utilisation pour les populations de patients cliniques⁸^,³⁰^,³¹. Plusieurs ont déjà été construits pour des domaines spécifiques tels que les outils de curation De base de données sur le génome des rats ou REDCap pour la recherche clinique et translationnelle³²^,³³. Ainsi, l'utilisation des bases de données a été adoptée dans le domaine clinique⁸ ou les grandes bases de données génomiques³², mais n'est pas devenue commune dans d'autres disciplines scientifiques telles que l'ingénierie tissulaire.

Les problèmes de traitement des données de plus en plus complexes à l'aide de programmes de feuilles de calcul sont reconnus depuis longtemps au sein de la communauté scientifique³⁴. Une étude a rapporté qu'environ 20% des journaux génomiques avec des fichiers supplémentaires avaient des noms de gènes qui ont été convertis à tort en dates³⁵. Ces erreurs ont augmenté en moyenne de 15 % par année de 2010 à 2015, dépassant de loin l'augmentation annuelle des papiers en génomique de 4 % par année. Il est souvent presque impossible d'identifier les erreurs individuelles dans un grand volume de données, car par nature les programmes de feuilles de calcul ne sont pas adaptés à la validation facile des résultats ou des calculs de formules. Des articles publiés existent même pour éduquer les scientifiques sur de meilleures pratiques de feuilles de calcul dans le but de réduire la fréquence des erreurs⁷. L'un des avantages les plus importants des bases de données est la réduction des erreurs grâce à des méthodes automatisées et la capacité de valider des données potentiellement douteuses (figure 3).

Un résultat significatif de cette méthodologie est la rigueur accrue de l'analyse des données. L'importance d'accroître la reproductibilité des données a été soulignée par les NIH ainsi que par d'autres scientifiques et institutions³⁶^,³⁷. En ayant une feuille de calcul des emplacements de fichiers correspondant à chaque base de données, il est facile de retracer un point de données jusqu'au carnet de laboratoire de l'expérience en question (Figure 3). Les points de données individuels peuvent également être rapidement identifiés et trouvés électroniquement à l'aide des emplacements de fichiers correspondants, ce qui est parfois inestimable, même lorsqu'il est couplé avec le contrôle automatique des erreurs pendant le processus de pipeline de données. Même si l'ensemble de données est modifié au fil du temps, les meilleures pratiques consistent à conserver tous les fichiers passés au cas où des problèmes se produisent ou que les anciennes versions doivent être vérifiées. Le travail non destructif et le maintien d'anciennes versions dans le pipeline de données créent la sécurité grâce à la redondance et permettent un meilleur dépannage.

Il existe une myriade de systèmes de gestion de bases de données relationnels en combinaison de langages de codage qui peuvent être utilisés pour les mêmes besoins de pipeline de données. Les choix les plus appropriés dépendent fortement des données et du contexte utilisés; certaines applications excellent au mieux en matière d'évolutivité, de flexibilité, de fiabilité et d'autres priorités⁹. Bien que les bases de données soient encore techniquement limitées dans l'échelle, atteindre les limites de mémoire reste au-delà de la portée de la plupart des laboratoires scientifiques. Par exemple, une base de données MS Access a une limite de taille de mémoire de 2 Go, qui serait un ensemble de données de l'ordre de centaines de milliers à des millions d'entrées en fonction des données et du nombre de champs. La plupart des laboratoires n'auront jamais des besoins expérimentaux de cette ampleur, mais s'ils le faisaient, les logiciels de feuilles de calcul seraient de toute façon bien au-delà de leurs limites effectives. En comparaison, les systèmes de gestion de bases de données relationnelles au niveau de l'entreprise peuvent gérer des ensembles de données de plus grande ampleur tout en traitant simultanément des millions de transactions²⁹. Une partie de la raison pour laquelle les bases de données ne sont pas couramment utilisées dans les laboratoires scientifiques est que les expériences passées ont rarement des besoins de crête de telles magnitudes de données, de sorte que les logiciels de tableur faciles à utiliser se sont répandus à la place. Un investissement important est toutefois nécessaire pour faire fonctionner ces méthodes, soit le temps nécessaire pour planifier le pipeline de données et apprendre SQL pour l'utilisation des bases de données(figure 3 et figure 4). Bien que l'expérience de codage accélère considérablement le processus, la plupart devront apprendre SQL à partir de zéro. Une mine de documentation est disponible en ligne grâce à une documentation exhaustive par les développeurs, ainsi que des tutoriels SQL gratuits tels que à Codecademy, W3Schools, et SQLBolt¹⁰^,¹¹^,¹². Certaines alternatives qui nécessitent des abonnements existent, cependant, comme le site d'enseignement du programme Lynda^38; une lecture plus approfondie des bases de la base de données peut être trouvée en ligne. Dans un cadre académique, un bon buy-in de laboratoire et des systèmes robustes peuvent survivre à leurs créateurs et aider à faciliter de nombreuses années de projets à travers plusieurs étudiants. Cela peut être accompli par la création de lignes directrices et d'étapes de mise en œuvre au cours de la configuration. En effet, il est très utile pour tous les chercheurs d'avoir un système de pipeline de données et de bases de données conjoint s'il fonctionne bien.

Parmi les autres avantages de cette méthodologie, mentionnons la possibilité d'utiliser des méthodes automatisées pour convertir les données brutes en formats structurés, la facilité d'utilisation une fois stockée à l'intérieur de la base de données, et la remise à jour et la réagrégation constantes des ensembles de données (figure 3). Il est également possible de extraire la valeur de plusieurs variables d'informations d'un seul fichier de données et d'automatiser le pipeline de données pour le faire lorsqu'il est invité. Dans le contexte montré, des logiciels couramment disponibles et économiques ont été utilisés pour obtenir des résultats démontrant que les progiciels coûteux et de niche ne sont pas obligatoires dans la réalisation d'une base de données fonctionnelle. Étant donné la portée limitée des fonds de recherche de la plupart des laboratoires, la capacité d'accroître l'efficacité de la gestion des bases de données est un produit inestimable.

En conclusion, à mesure que les ensembles de données scientifiques deviennent plus complexes, les bases de données deviennent de plus en plus importantes pour la communauté scientifique et ont un grand potentiel pour être aussi courantes et encore plus efficaces que l'utilisation généralisée actuelle des feuilles de calcul pour les données. Stockage. Les problèmes liés à la transparence des données et à la reproductibilité scientifique ne feront que continuer à se développer à l'avenir, car les ensembles de données continueront de croître en taille et en complexité, ce qui souligne l'importance d'une adoption plus répandue des bases de données et des méthodes automatisées de pipeline de données pour besoins scientifiques généraux aujourd'hui et à l'avenir.

Numéro de référence	Nom du fichier	Type
1	EmplacementPointer.m	Pipe-line Code
2	EmplacementPointerCompile.m	Pipe-line Code
3	LocationPointer_Remove_Duplicates.m	Pipe-line Code
4	BadPointerCheck.m BadPointerCheck.m BadPointerCheck.m	Pipe-line Code
5	LocationPointer_Check.m	Pipe-line Code
6	Manual_Pointer_Removal heures	Pipe-line Code
7	Database_Generate heures	Pipe-line Code
8	Cell_Lines.csv	Table d'aide
9	Data_Types.csv	Table d'aide
10	Pattern_Types.csv	Table d'aide
11	DataLocation_Comp_2018_6_26_10_01.csv	Exemple de fichier de localisation de données
12	DataValues_2018_6_26_10_02.csv	Exemple de fichier de valeurs de données
13	Database_Queries.accdb	Exemple de base de données

Tableau 1 : Liste de tous les fichiers d'exemple qui peuvent être téléchargés pour exécuter le protocole.

Fichier sélectionné	Variable
Résumé.mat	Proportion de noyaux défectueux
	Tous les Nucléiques Moyenne de la superficie (m2)
	Moyenne de la superficie de noyaux défectueux (m2)
	Moyenne normale de la superficie des noyaux (m2)
	Tous les Nucléi Excentricité moyenne
	Moyenne d'excentricité des noyaux défectueux
	Moyenne normale d'excentricité des noyaux
	Tous les Nuclei MNC Moyenne
	Moyenne de MNC de noyaux défectueux
	Moyenne normale de MNC de noyaux
Act_OOP.mat	Actin OOP
Act_OOP.mat	Actin OOP Directeur Angle
Fibro_OOP.mat	Fibronectin OOP
Fibro_OOP.mat	Fibronectin OOP Directeur Angle
Nuc_OOP.mat	OOP nucléique
Nuc_OOP.mat	Angle, Directeur de Nuclei OOP

Tableau 2 : Liste des fichiers sélectionnés qui correspondent à différentes variables des mesures des noyaux cellulaires ou des données structurales du fibroblaste (OOP).

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n'ont rien à révéler.

Acknowledgments

Ce travail est soutenu par le National Heart, Lung, and Blood Institute des National Institutes of Health, numéro de subvention R01 HL129008. Les auteurs remercient particulièrement les membres de la famille de la mutation génétique LMNA pour leur participation à l'étude. Nous tenons également à remercier Linda McCarthy pour son aide dans la culture cellulaire et le maintien des espaces de laboratoire, Nasam Chokr pour sa participation à l'imagerie cellulaire et l'analyse des données des noyaux, et Michael A. Grosberg pour ses conseils pertinents avec la mise en place de notre base de données Microsoft Access initiale ainsi que répondre à d'autres questions techniques.

Materials

Name	Company	Catalog Number	Comments
4',6'-diaminodino-2-phenylinodole (DAPI)	Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin	Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit	Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B	Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin	Corning, Corning, NY
IX-83 inverted motorized microscope	Olympus America, Center Valley, PA
Matlab R2018b	Mathworks, Natick, MA
MS Access	Microsoft, Redmond, WA
paraformaldehyde (PFA)	Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin	Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS)	Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade	Life Technologies, Carlsbad, CA
rectangular glass coverslips	Fisher Scientific Company, Hanover Park, IL
Triton-X	Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Bioengineering

Bases de données pour gérer efficacement les données de taille moyenne, à faible vitesse et multidimensionnelles en génie tissulaire

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.