Summary

Database per gestire in modo efficiente dati di medie dimensioni, a bassa velocità e multidimensionali nell'ingegneria dei tessuti

Published: November 22, 2019
doi:

Summary

Molti ricercatori generano dati “di medie dimensioni”, a bassa velocità e multidimensionali, che possono essere gestiti in modo più efficiente con i database anziché con i fogli di calcolo. In questo argomento viene fornita una panoramica concettuale dei database, inclusa la visualizzazione di dati multidimensionali, il collegamento di tabelle in strutture di database relazionali, il mapping di pipeline di dati semiautomatizzate e l’utilizzo del database per chiarire il significato dei dati.

Abstract

La scienza si basa su set di dati sempre più complessi per il progresso, ma i metodi comuni di gestione dei dati come i programmi per fogli di calcolo sono inadeguati alla crescente portata e alla complessità di queste informazioni. Mentre i sistemi di gestione di database hanno il potenziale per risolvere questi problemi, non sono comunemente utilizzati al di fuori dei campi aziendali e informatici. Tuttavia, molti laboratori di ricerca generano già dati multidimensionali “di medie dimensioni”, a bassa velocità, che potrebbero trarre grande beneficio dall’implementazione di sistemi simili. In questo articolo viene fornita una panoramica concettuale che spiega il funzionamento dei database e i vantaggi che offrono nelle applicazioni di ingegneria tissutale. I dati strutturali del fibroblasto proveniente da individui con mutazione Lamin A/C sono stati utilizzati per illustrare esempi all’interno di un contesto sperimentale specifico. Gli esempi includono la visualizzazione di dati multidimensionali, il collegamento di tabelle in una struttura di database relazionale, il mapping di una pipeline di dati semiautomatizzati per convertire i dati non elaborati in formati strutturati e l’spiegazione della sintassi sottostante di una query. I risultati derivanti dall’analisi dei dati sono stati utilizzati per creare grafici di vari arrangiamenti e il significato è stato dimostrato nell’organizzazione cellulare in ambienti allineati tra il controllo positivo della progeria di Hutchinson-Gilford, una noto laminopatia e tutti gli altri gruppi sperimentali. Rispetto ai fogli di calcolo, i metodi di database erano estremamente efficienti in termini di tempo, semplici da usare una volta impostati, consentito l’accesso immediato alle posizioni dei file originali e un maggiore rigore dei dati. In risposta all’enfasi del National Institutes of Health (NIH) sul rigore sperimentale, è probabile che molti campi scientifici alla fine adotteranno banche dati come pratica comune a causa della loro forte capacità di organizzare efficacemente dati complessi.

Introduction

In un’epoca in cui il progresso scientifico è fortemente guidato dalla tecnologia, la gestione di grandi quantità di dati è diventata un aspetto integrale della ricerca in tutte le discipline. L’emergere di nuovi campi come la biologia computazionale e la genomica sottolinea quanto sia diventato critico l’utilizzo proattivo della tecnologia. Queste tendenze sono sicuramente per continuare a causa della legge di Moore e progressi costanti ottenuti dai progressi tecnologici1,2. Una conseguenza, tuttavia, è l’aumento delle quantità di dati generati che superano le capacità dei metodi di organizzazione precedentemente vitali. Sebbene la maggior parte dei laboratori accademici disponga di risorse computazionali sufficienti per la gestione di insiemi di dati complessi, molti gruppi non dispongono delle competenze tecniche necessarie per costruire sistemi personalizzati adatti allo sviluppo delle esigenze3. Avere le competenze per gestire e aggiornare tali set di dati rimane fondamentale per un flusso di lavoro e un output efficienti. Colmare il divario tra dati e competenze è importante per gestire, aggiornare nuovamente e analizzare in modo efficiente un ampio spettro di dati sfaccettati.

La scalabilità è una considerazione essenziale quando si gestiscono grandi set di dati. I Big Data, ad esempio, sono un’area fiorente di ricerca che comporta la rivelazione di nuove intuizioni dall’elaborazione di dati caratterizzati da enormi volumi, grandi eterogeneità e alti tassi di generazione, come audio e video4,5. L’utilizzo di metodi automatizzati di organizzazione e analisi è obbligatorio per questo campo per gestire in modo appropriato i torrenti di dati. Molti termini tecnici utilizzati nei Big Data, tuttavia, non sono chiaramente definiti e possono creare confusione; ad esempio, i dati “ad alta velocità” sono spesso associati a milioni di nuove voci al giorno, mentre i dati “a bassa velocità” potrebbero essere solo centinaia di voci al giorno, ad esempio in un ambiente di laboratorio accademico. Anche se ci sono molte scoperte interessanti ancora da scoprire utilizzando i big data, la maggior parte dei laboratori accademici non richiedono l’ambito, il potere e la complessità di tali metodi per affrontare le proprie domande scientifiche5. Mentre è indubbio che i dati scientifici diventano sempre più complessi con il tempo6, molti scienziati continuano a utilizzare metodi di organizzazione che non soddisfano più le loro esigenze di dati in espansione. Ad esempio, comodi programmi di fogli di calcolo vengono spesso utilizzati per organizzare dati scientifici, ma a costo di essere non riscalabili, soggetti a errori e tempo inefficiente a lungo termine7,8. Al contrario, i database sono una soluzione efficace al problema in quanto sono scalabili, relativamente economici e facili da usare nella gestione di diversi set di dati di progetti in corso.

Le preoccupazioni immediate che sorgono quando si considerano gli schemi dell’organizzazione dei dati sono investimenti in termini di costi, accessibilità e tempo per la formazione e l’utilizzo. Utilizzati di frequente nelle impostazioni aziendali, i programmi di database sono più economici, essendo relativamente economici o gratuiti, rispetto ai finanziamenti necessari per supportare l’uso dei sistemi di Big Data. Infatti, esiste una varietà di software sia disponibile in commercio che open source per la creazione e la manutenzione di database, come Oracle Database, MySQL e Microsoft (MS) Access9. Molti ricercatori sarebbero anche incoraggiati a imparare che diversi pacchetti accademici MS Office sono dotati di MS Access incluso, riducendo ulteriormente le considerazioni sui costi. Inoltre, quasi tutti gli sviluppatori forniscono un’ampia documentazione online e c’è una pletora di risorse online gratuite come Codecademy, W3Schools e SQLBolt per aiutare i ricercatori a comprendere e utilizzare il linguaggio di query strutturato (SQL)10,11,12. Come qualsiasi linguaggio di programmazione, imparare a usare database e codice con SQL richiede tempo per padroneggiare, ma con le ampie risorse disponibili il processo è semplice e vale la pena investire.

I database possono essere potenti strumenti per aumentare l’accessibilità e la facilità di aggregazione dei dati, ma è importante individuare quali dati trarrebbero maggiori vantaggi da un maggiore controllo dell’organizzazione. La multidimensionalità si riferisce al numero di condizioni in base alle quali una misurazione può essere raggruppata e i database sono più potenti quando si gestiscono molte condizioni diverse13. Al contrario, le informazioni con bassa dimensionalità sono più semplici da gestire utilizzando un foglio di calcolo; ad esempio, un set di dati contenente anni e un valore per ogni anno ha un solo raggruppamento possibile (misurazioni su anni). I dati dimensionali come le impostazioni cliniche richiederebbero un grande grado di organizzazione manuale al fine di mantenere in modo efficace, un processo noioso e soggetto a errori al di là dell’ambito dei programmi di fogli di calcolo13. Anche i database non relazionali (NoSQL) svolgono una varietà di ruoli, principalmente nelle applicazioni in cui i dati non si organizzano bene in righe e colonne14. Oltre ad essere spesso open source, questi schemi organizzativi includono associazioni grafiche, dati di serie temporali o dati basati su documenti. NoSQL eccelle al livello di scalabilità migliore di SQL, ma non è in grado di creare query complesse, pertanto i database relazionali sono migliori in situazioni che richiedono coerenza, standardizzazione e modifiche ai dati su larga scala poco frequenti15. I database sono i migliori per raggruppare e riaggiornare i dati nella vasta gamma di conformazioni spesso necessarie nelle impostazioni scientifiche13,16.

L’intento principale di questo lavoro, quindi, è quello di informare la comunità scientifica circa il potenziale dei database come sistemi di gestione dei dati scalabili per “dati di medie dimensioni”, a bassa velocità, nonché di fornire un modello generale utilizzando esempi specifici di esperimenti di riga cellulare di provenienza del paziente. Altre applicazioni simili includono dati geospaziali di letti fluviali, questionari da studi clinici longitudinali e condizioni di crescita microbica nei media di crescita17,18,19. Questa operazione evidenzia considerazioni comuni e utilità per la costruzione di un database accoppiato con una pipeline di dati necessaria per convertire i dati non elaborati in formati strutturati. Le nozioni di base delle interfacce di database e della codifica per i database in SQL vengono fornite e illustrate con esempi per consentire ad altri utenti di acquisire le informazioni applicabili alla creazione di framework di base. Infine, un set di dati sperimentale di esempio dimostra come i database possano essere progettati in modo semplice ed efficace per aggregare i dati sfaccettati in diversi modi. Queste informazioni forniscono contesto, commenti e modelli per assistere altri scienziati nel percorso verso l’implementazione dei database per le proprie esigenze sperimentali.

Ai fini della creazione di un database scalabile in un ambiente di laboratorio di ricerca, sono stati raccolti i dati degli esperimenti che utilizzano cellule fibroblaste umane negli ultimi tre anni. L’obiettivo principale di questo protocollo è quello di creare report sull’organizzazione di software per computer per consentire all’utente di aggregare, aggiornare e gestire i dati nel modo più efficiente in termini di costi e tempo possibile, ma vengono forniti anche i relativi metodi sperimentali per Contesto.

Configurazione sperimentale
Il protocollo sperimentale per la preparazione dei campioni è stato descritto in precedenza20,21, ed è presentato brevemente qui. I costrutti sono stati preparati da coperture rettangolari in vetro con una miscela di polidimeilsiloxane (PDMS) e agente di polimerità, applicando quindi fibronectin da 0,05 mg/mL, in linee non organizzate (isotropiche) o da 20 m con disposizioni micromodellate di 5 m di divario (linee). Le cellule fibroblaste sono state seminate al passaggio 7 (o passaggio 16 per i controlli positivi) sui coperchi dei copricopertine a densità ottimali e lasciate crescere per 48 h con i media che sono stati cambiati dopo 24 h. Le cellule sono state poi fissate utilizzando una soluzione di paraformaldeide (PFA) del 4% e 0,0005% di surfactant nonionico, seguiti dai coprilabbra immunostainsi per nuclei cellulari (4′,6′-diaminodino-2-fenylinodole [DAPI]), actina (Alexa Fluor 488 phalloidin) e fibronetina (fibroneta anti-uomo del coniglio clonano È stata applicata una macchia secondaria per la fibronectina che utilizza anticorpi IgG di capra anti-coniglio (Alexa Fluor 750 capra anti-coniglio) ed agente di conservazione è stato montato su tutte le coverlips per prevenire la dissolvenza fluorescente. Lo smalto per unghie è stato utilizzato per sigillare i copricapi sui vetrini al microscopio, poi lasciati asciugare per 24 h.

Le immagini di fluorescenza sono state ottenute come descritto in precedenza20 utilizzando un obiettivo di immersione dell’olio 40x accoppiato con una telecamera a dispositivo accoppiato a carica digitale (CCD) montata su un microscopio motorizzato invertito. Dieci campi di visualizzazione selezionati casualmente sono stati immagini per ogni coverslip con un ingrandimento di 40x, corrispondente a una risoluzione di 6,22 pixel/m. Codici scritti su misura sono stati utilizzati per quantificare diverse variabili dalle immagini che descrivono i nuclei, filamenti di actina e fibronectin; i valori corrispondenti, così come i parametri organizzativi e geometrici, sono stati salvati automaticamente nei file di dati.

Linee cellulari
Una documentazione più ampia su tutte le righe di celle di dati di esempio è disponibile nelle pubblicazioni precedenti20. Per descrivere brevemente, la raccolta dei dati è stata approvata e il consenso informato è stato effettuato in conformità con UC Irvine Institutional Review Board (IRB – 2014-1253). Le cellule fibroblaste umane sono state raccolte da tre famiglie con diverse variazioni della mutazione genica lamin A/C (LMNA):mutazione eterozigomana del sito di LMNA (c.357-2A>G)22 (famiglia A); Mutazione non sense LMNA (c.736 C>T, pQ246X) nell’exon 423 (famiglia B); e Mutazione missense LMNA (c.1003C>T, pR335W) in exon 624 (famiglia C). Le cellule fibroblaste sono state raccolte anche da altri individui in ogni famiglia come controlli negativi della mutazione correlati, indicati come “controlli”, mentre altri sono stati acquistati come controlli mutazioni-negativi non correlati, indicati come “donatori”. Come controllo positivo, le cellule fibroblaste di un individuo con progeria di Hutchinson-Gliford (HGPS) sono state acquistate e coltivate da una biopsia cutanea presa da una paziente di 8 anni con HGPS in possesso di una mutazione del punto LMNA G608G25. In totale, i fibroblasti di 22 individui sono stati testati e utilizzati come dati in questo lavoro.

Tipi di dati
I dati del fibroblasto rientravano in una delle due categorie: variabili nuclei cellulari (cioè, percentuale di nuclei dismorfici, area di nuclei, eccentricità dei nuclei)20 o variabili strutturali derivanti dal parametro di ordine di orientamento (OOP)21,26,27 (cioè, actin OOP, fibronectinO, nuclei OOP). Questo parametro è uguale all’eigenvalue massimo del tensore medio di tutti i vettori di orientamento ed è definito in dettaglio nelle pubblicazioni precedenti26,28. Questi valori sono aggregati in una varietà di possibili conformazioni, come i valori contro l’età, il sesso, lo stato della malattia, la presenza di alcuni sintomi, ecc. Esempi di utilizzo di queste variabili sono disponibili nella sezione dei risultati.

Codici e file di esempio
I codici di esempio e gli altri file basati sui dati precedenti possono essere scaricati con questo documento e i relativi nomi e tipi sono riepilogati nella tabella 1.

Protocol

NOTA: vedere Tabella dei materiali per le versioni software utilizzate in questo protocollo. 1. Valutare se i dati trarrebbero vantaggio da uno schema di organizzazione del database Scaricare i codici e i database di esempio (vedere File di codifica supplementari, riepilogati nella tabella 1). Utilizzare Figura 1 per valutare se il set di dati di interesse è “multidimensionale”.NOTA: <stro…

Representative Results

Multidimensionalità dei datiNel contesto del set di dati di esempio qui presentato, i soggetti, descritti nella sezione Metodi, sono stati divisi in gruppi di individui delle tre famiglie con la mutazione LMNA che causa la malattia cardiaca (“Pazienti”), i relativi controlli negativi non mutazione (“Controlli”), controlli negativi non mutazionali non correlati (“donatori”) e un individuo con sindrome di Hutchinson-Gilford progeria (HGPS) come controllo positivo20. I …

Discussion

Discussione tecnica del protocollo
Il primo passaggio quando si considera l’utilizzo dei database consiste nel valutare se i dati trarrebbero vantaggio da tale organizzazione.

Il passaggio essenziale successivo consiste nel creare un codice automatizzato che richiederà l’input minimo all’utente e genererà la struttura dei dati della tabella. Nell’esempio, l’utente ha immesso la categoria del tipo di dati (nuclei cellulari o misure strutturali), il designatore del soggetto…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è supportato dal National Heart, Lung, and Blood Institute presso i National Institutes of Health, numero di sovvenzione R01 HL129008. Gli autori ringraziano in particolare i membri della famiglia della mutazione genica LMNA per la loro partecipazione allo studio. Vorremmo anche ringraziare Linda McCarthy per la sua assistenza nella coltura cellulare e il mantenimento degli spazi di laboratorio, Nasam Chokr per la sua partecipazione all’imaging cellulare e all’analisi dei dati nuclei, e Michael A. Grosberg per i suoi consigli pertinenti con la creazione del nostro database iniziale di Microsoft Access e la risposta ad altre domande tecniche.

Materials

4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore’s law. Proceedings of the IEEE. 100, 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. . Learn SQL – Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
  11. . SQL Tutorial – w3schools.com Available from: https://www.w3schools.com/sql (2018)
  12. . Introduction to SQL – SQLBolt Available from: https://sqlbolt.com (2018)
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren’s and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)–a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. . SQL Training and Tutorials – Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)
check_url/60038?article_type=t

Play Video

Cite This Article
Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

View Video