Summary

Databaser til effektivt at styre mellemstore, lav hastighed, flerdimensionelle data i vævsteknik

Published: November 22, 2019
doi:

Summary

Mange forskere genererer “mellemstore”, lavhastigheds-og flerdimensionelle data, som kan styres mere effektivt med databaser i stedet for regneark. Her giver vi en konceptuel oversigt over databaser, herunder visualisering af flerdimensionelle data, sammenkædning af tabeller i relationsdatabase strukturer, kortlægning af semi-automatiserede datapipelines og brug af databasen til at belyse data betydning.

Abstract

Videnskaben er afhængig af stadigt mere komplekse datasæt for fremskridt, men fælles datastyrings metoder som regnearksprogrammer er utilstrækkelige til at gøre disse oplysninger større og mere komplekse. Mens databasestyringssystemer har potentialet til at rette op på disse problemer, udnyttes de ikke normalt uden for forretnings-og informatik felter. Endnu, mange forskningslaboratorier allerede generere “medium størrelse”, lav hastighed, multi-dimensionelle data, der kunne i høj grad drage fordel af gennemførelsen af lignende systemer. I denne artikel giver vi en konceptuel oversigt, der forklarer, hvordan databaser fungerer, og de fordele, de giver i vævsteknik applikationer. Strukturelle fibroblast data fra personer med en Lamin A/C-mutation blev brugt til at illustrere eksempler inden for en bestemt eksperimentel kontekst. Eksempler omfatter visualisering af flerdimensionelle data, sammenkædning af tabeller i en relationsdatabase struktur, tilknytning af en semi-automatiseret datapipeline til konvertering af rå data til strukturerede formater og forklaring af den underliggende syntaks i en forespørgsel. Resultater fra analyse af data blev brugt til at oprette plots af forskellige arrangementer og betydning blev demonstreret i celle organisation i justerede miljøer mellem den positive kontrol af Hutchinson-Gilford Progeria, en velkendt laminopati, og alle andre eksperimentelle grupper. I forhold til regneark, database metoder var enormt tidsbesparende, enkel at bruge, når de er oprettet, tilladt for umiddelbar adgang til originale filplaceringer, og øget data rigor. Som svar på de nationale institutter for sundhed (NIH) vægt på eksperimentel rigor, er det sandsynligt, at mange videnskabelige områder i sidste ende vil vedtage databaser som almindelig praksis på grund af deres stærke evne til effektivt at organisere komplekse data.

Introduction

I en tid, hvor den videnskabelige udvikling er stærkt drevet af teknologi, er håndteringen af store mængder data blevet en integreret del af forskningen på tværs af alle discipliner. Fremkomsten af nye områder som Computational Biology og genomforskning understreger, hvor kritisk den proaktive udnyttelse af teknologien er blevet. Disse tendenser er sikker på at fortsætte på grund af Moores lov og støt fremskridt opnået fra teknologiske fremskridt1,2. En konsekvens er imidlertid de stigende mængder af genererede data, der overskrider mulighederne i tidligere levedygtige organisationsmetoder. Selv om de fleste akademiske laboratorier har tilstrækkelige beregningsressourcer til håndtering af komplekse datasæt, mangler mange grupper den tekniske ekspertise, som er nødvendig for at konstruere tilpassede systemer, som er velegnede til udvikling af behov3. At have færdigheder til at administrere og opdatere sådanne datasæt er fortsat afgørende for effektiv arbejdsgang og output. Det er vigtigt at slå bro over kløften mellem data og ekspertise for effektivt at håndtere, re-opdatere og analysere et bredt spektrum af mangefacetterede data.

Skalerbarhed er en vigtig overvejelse ved håndtering af store datasæt. Big data, for eksempel, er en blomstrende område af forskning, der indebærer afslørende ny indsigt fra behandling af data karakteriseret ved store mængder, store heterogenitet, og høje satser for generation, såsom lyd og video4,5. Brug af automatiserede metoder til organisering og analyse er obligatorisk for dette felt til passende håndtere torrents af data. Mange tekniske termer, der anvendes i Big data er ikke klart defineret, men, og kan være forvirrende; for eksempel, “høj hastighed” data er ofte forbundet med millioner af nye indgange pr. dag, hvorimod “lav hastighed” data kan kun være hundredvis af indgange om dagen, som i en akademisk Lab indstilling. Selv om der er mange spændende fund endnu at blive opdaget ved hjælp af Big data, de fleste akademiske laboratorier kræver ikke omfanget, magt, og kompleksiteten af sådanne metoder til at behandle deres egne videnskabelige spørgsmål5. Selv om det er ubestrideligt, at videnskabelige data bliver mere og mere komplekse med tid6, mange videnskabsfolk fortsætter med at bruge metoder til organisation, der ikke længere opfylder deres voksende databehov. For eksempel bruges praktiske regnearksprogrammer ofte til at organisere videnskabelige data, men på bekostning af at være uskalerbare, fejl tilbøjelige og tid ineffektive i det lange løb7,8. Omvendt er databaser en effektiv løsning på problemet, da de er skalerbare, relativt billige og nemme at bruge i håndteringen af varierede datasæt af igangværende projekter.

Umiddelbare bekymringer, der opstår, når man overvejer skemaer af data organisation er omkostninger, tilgængelighed og tid investering for uddannelse og brug. Ofte bruges i erhvervslivet indstillinger, databaseprogrammer er mere økonomisk, er enten relativt billige eller gratis, end den finansiering, der kræves for at støtte brugen af Big data-systemer. Faktisk findes der en række af både kommercielt tilgængelige og open source software til oprettelse og vedligeholdelse af databaser, såsom Oracle database, MySQL, og Microsoft (MS) Access9. Mange forskere vil også blive opfordret til at lære, at flere MS Office akademiske pakker kommer med MS Access inkluderet, yderligere minimering af omkostningerne overvejelser. Desuden, næsten alle udviklere levere omfattende dokumentation online, og der er en overflod af gratis online ressourcer såsom Codecademy, W3Schools, og SQLBolt at hjælpe forskerne med at forstå og udnytte strukturerede forespørgselssprog (SQL)10,11,12. Ligesom alle programmeringssprog, lære at bruge databaser og kode ved hjælp af SQL tager tid at mestre, men med de rigelige ressourcer til rådighed processen er ligetil og værd investeret indsats.

Databaser kan være kraftfulde værktøjer til at øge datatilgængelighed og nem sammenlægning, men det er vigtigt at skelne hvilke data ville mest drage fordel af en større kontrol af organisationen. Fler dimensionalitet refererer til antallet af betingelser, som en måling kan grupperes imod, og databaser er mest effektive, når de administrerer mange forskellige betingelser13. Omvendt er oplysninger med lav dimensionalitet enkleste at håndtere ved hjælp af et regnearksprogram; for eksempel har et datasæt, der indeholder år og en værdi for hvert år, kun én mulig gruppering (målinger mod år). Høj dimensionelle data såsom fra kliniske indstillinger ville kræve en stor grad af manuel organisation for effektivt at vedligeholde, en kedelig og fejlbehæftet proces uden for rammerne af regnearksprogrammer13. Ikke-relationelle (NoSQL) databaser også opfylde en række forskellige roller, primært i applikationer, hvor data ikke organisere sig godt i rækker og kolonner14. Ud over at være ofte open source omfatter disse organisationsskemaer grafiske tilknytninger, tidsseriedata eller dokumentbaserede data. NoSQL udmærker sig ved skalerbarhed bedre end SQL, men kan ikke oprette komplekse forespørgsler, så relationsdatabaser er bedre i situationer, der kræver konsistens, standardisering og sjældne dataændringer i stor skala15. Databaser er bedst til effektivt at gruppere og re-opdatere data i den store vifte af konstellationer ofte behov i videnskabelige indstillinger13,16.

Hovedformålet med dette arbejde er derfor at informere det videnskabelige samfund om potentialet i databaser som skalerbare datastyringssystemer for “medium størrelse”, lav hastighed data samt at give en generel skabelon ved hjælp af specifikke eksempler på patient fremskaffede celle-line eksperimenter. Andre lignende anvendelser omfatter geospatiale data af flodsenge, spørgeskemaer fra langsgående kliniske undersøgelser og mikrobielle vækstbetingelser i vækstmedier17,18,19. Dette arbejde underst hæver fælles overvejelser og nytten af at konstruere en database kombineret med en datapipeline, der er nødvendig for at konvertere rå data til strukturerede formater. Grundlæggende oplysninger om database grænseflader og kodning for databaser i SQL leveres og illustreres med eksempler, der giver andre mulighed for at opnå den viden, der gælder for opbygning af grundlæggende rammer. Endelig viser et eksempel på et eksperimentelt datasæt, hvor nemt og effektivt databaser kan designes til at aggregere mangefacetterede data på en række forskellige måder. Disse oplysninger giver kontekst, kommentarer og skabeloner til at hjælpe andre videnskabsfolk på vej mod at implementere databaser til deres egne eksperimentelle behov.

Med henblik på at skabe en skalerbar database i en forskningslaboratorium indstilling, data fra forsøg med humane fibroblast celler blev indsamlet i løbet af de seneste tre år. Den primære fokus for denne protokol er at rapportere om organiseringen af edb-software til at gøre det muligt for brugeren at aggregere, opdatere og administrere data på den mest omkostningseffektive og tidsbesparende måde, men de relevante eksperimentelle metoder leveres samt for Forbindelse.

Eksperimentel opsætning
Forsøgsprotokollen til forberedelse af prøverne er beskrevet tidligere20,21og præsenteres kort her. Konstruktioner blev fremstillet ved spin-coating rektangulære glas dæksedler med en 10:1 blanding af Polydimethylsiloxan (PDMS) og Hærdningsmiddel, derefter anvende 0,05 mg/mL fibronectin, i enten uorganiseret (isotropisk) eller 20 μm linjer med 5 μm Gap mikromønstrede ordninger (linjer). Fibroblast celler blev seedet ved passage 7 (eller passage 16 for positive kontroller) på dæksedlerne ved optimale tætheder og venstre for at vokse til 48 h med medier, der skiftes efter 24 h. Cellerne blev derefter fikseret med 4% PARAFORMALDEHYD (PFA) opløsning og 0,0005% nonioniske overfladeaktive stoffer, efterfulgt af coverglider er immun plettet for cellekerner (4 ‘, 6 ‘-diaminodino-2-phenylinodole [dapi]), actin (Alexa fluor 488 phalloidin), og fibronektin (polycloncal kanin anti-humant fibronektin). En sekundær plet til fibronektin ved hjælp af ged anti-kanin IgG antistoffer (Alexa fluor 750 ged anti-kanin) blev anvendt og konserveringsmiddel blev monteret på alle dæksedler for at forhindre fluorescerende fading. Neglelak blev brugt til at forsegle dæksedler på mikroskop slides derefter overladt til at tørre i 24 h.

Fluorescensbilleder blev opnået som beskrevet tidligere20 ved hjælp af en 40x olie nedsænkning mål kombineret med en digital Charge koblet anordning (CCD) kamera monteret på en inverteret motoriseret mikroskop. Ti tilfældigt udvalgte synsfelter blev inddelt for hver dækglas ved 40x forstørrelse, svarende til en 6,22 pixels/μm opløsning. Custom-skrevne koder blev brugt til at kvantificere forskellige variabler fra de billeder, der beskriver kerner, actin filamenter, og fibronectin; tilsvarende værdier, samt organisations-og geometri parametre, blev automatisk gemt i datafiler.

Cellelinjer
Mere omfattende dokumentation om alle eksempeldata cellelinjer kan findes i tidligere publikationer20. For kortfattet at beskrive, blev dataindsamlingen godkendt og informeret samtykke blev udført i overensstemmelse med UC Irvine institutions revision Board (IRB # 2014-1253). Humane fibroblast celler blev indsamlet fra tre familier af forskellige variationer af Lamin A/C (lmna) genmutation: heterozygot lmna Splice-site mutation (C. 357-2a > G)22 (familie A); Lmna nonsense-mutation (c. 736 c > T, pQ246X) i exon 423 (familie B); og Lmna missense mutation (c. 1003c > T, pR335W) i exon 624 (familie c). Fibroblast celler blev også indsamlet fra andre individer i hver familie som relaterede mutation-negative kontroller, benævnt “kontrol”, og andre blev købt som uafhængige mutation-negative kontrol, benævnt “donorer”. Som en positiv kontrol, fibroblast celler fra en person med Hutchinson-Gliford Progeria (HGPS) blev købt og dyrket fra en hudbiopsi taget fra en 8-årig kvindelig patient med HGPS besidder en Lmna G608G point mutation25. I alt blev fibroblaster fra 22 individer testet og anvendt som data i dette arbejde.

Data typer
Fibroblast data faldt i en af to kategorier: cellekerner variabler (dvs., procentdel af dysmorfe kerner, område af kerner, kerner excentricity)20 eller strukturelle variabler stammer fra orienterings Order parameter (OOP)21,26,27 (dvs., actin oop, fibronektin oop, kerner OOP). Denne parameter er lig med den maksimale eigenværdi af den gennemsnitlige ordre tensor for alle orienterings vektorer, og den er nærmere defineret i tidligere publikationer26,28. Disse værdier samles i en række mulige konstellationer, såsom værdier mod alder, køn, sygdomsstatus, tilstedeværelsen af visse symptomer osv. Eksempler på, hvordan disse variabler bruges, finder du i afsnittet resultater.

Eksempelkoder og filer
Eksempel koderne og andre filer, der er baseret på ovenstående data, kan downloades med dette papir, og deres navne og typer er opsummeret i tabel 1.

Protocol

Bemærk: Se tabel over materialer til de softwareversioner, der anvendes i denne protokol. 1. evaluere, om dataene ville drage fordel af en database organisation ordning Hent eksempel koderne og databaserne (Se supplerende kodnings filer, som er opsummeret i tabel 1). Brug figur 1 til at evaluere, om datasættet af interesse er “flerdimensionel”.Bemærk: figur 1</strong…

Representative Results

Fler dimensionalitet af dataI forbindelse med det eksempeldatasæt, der præsenteres her, er emnerne, beskrevet i afsnittet metoder, blev opdelt i grupper af individer fra de tre familier med hjertesygdomme-forårsager Lmna mutation (“patienter”), relaterede ikke-mutation negative kontroller (“kontrol”), uafhængige ikke-mutation negative kontroller (“donorer”), og en person med Hutchinson-Gilford Progeria syndrom (HGPS) som en positiv kontrol20. Resultaterne fra kont…

Discussion

Teknisk drøftelse af protokollen
Det første skridt, når man overvejer brugen af databaser, er at evaluere, om dataene ville få gavn af en sådan organisation.

Det næste væsentlige skridt er at skabe en automatiseret kode, der vil bede minimum input fra brugeren og generere tabeldata struktur. I eksemplet har brugeren indtastet kategorien af datatype (cellekerner eller strukturelle målinger), cellelinjer ‘ emne betegnelse og antal filer, der vælges. De relevante file…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbejde er støttet af national Heart, Lung, og Blood Institute på National Institutes of Health, Grant nummer R01 HL129008. Forfatterne især takke Lmna gene mutation familiemedlemmer for deres deltagelse i undersøgelsen. Vi vil også gerne takke Linda McCarthy for hendes hjælp med cellekultur og vedligeholde Lab Spaces, nasam chokr for hendes deltagelse i Cell Imaging og kerner data analysis, og Michael A. grosberg for hans relevante råd med at oprette vores første Microsoft Access-database samt besvare andre tekniske spørgsmål.

Materials

4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore’s law. Proceedings of the IEEE. 100, 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. . Learn SQL – Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
  11. . SQL Tutorial – w3schools.com Available from: https://www.w3schools.com/sql (2018)
  12. . Introduction to SQL – SQLBolt Available from: https://sqlbolt.com (2018)
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren’s and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)–a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. . SQL Training and Tutorials – Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)
check_url/60038?article_type=t

Play Video

Cite This Article
Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

View Video