Summary

Databaser for å effektivt administrere mellom store, lav hastighet, flerdimensjonale data i vev engineering

Published: November 22, 2019
doi:

Summary

Mange forskere genererer “middels store”, lav hastighet og flerdimensjonale data, som kan administreres mer effektivt med databaser i stedet for regneark. Her gir vi en konseptuell oversikt over databaser, inkludert visualisering av flerdimensjonale data, kobling av tabeller i relasjonsdatabase strukturer, tilordning av semi-automatiserte datasamlebånd og bruk av databasen til å belyse data betydning.

Abstract

Vitenskapen baserer seg på stadig mer komplekse datasett for fremdrift, men vanlige metoder for dataadministrasjon, for eksempelregneark programmer, er utilstrekkelige for å øke omfanget og kompleksiteten i denne informasjonen. Mens database management systemer har potensial til å rette opp disse problemene, er de ikke ofte utnyttet utenfor virksomheten og informatikk felt. Likevel, mange forskningslaboratorier allerede generere “medium sized”, lav hastighet, multi-dimensjonale data som kan ha stor nytte av å implementere lignende systemer. I denne artikkelen gir vi en konseptuell oversikt som forklarer hvordan databaser fungerer og fordelene de gir i vevs tekniske applikasjoner. Strukturelle Fibroblast data fra individer med en Lamin A/C mutasjon ble brukt for å illustrere eksempler innenfor en spesifikk eksperimentell kontekst. Eksempler omfatter visualisering av flerdimensjonale data, kobling av tabeller i en relasjonsdatabase struktur, tilordning av en semi-automatisert datakanal for å konvertere rådata til strukturerte formater og forklare den underliggende syntaksen for en spørring. Resultater fra analysere dataene ble brukt til å lage tomter av ulike ordninger og betydning ble demonstrert i celle organisasjonen i justerte miljøer mellom positiv kontroll av Hutchinson-Gilford progeria, en velkjent laminopathy, og alle andre eksperimentelle grupper. I forhold til regneark, database metoder var enormt tid effektiv, enkel å bruke en gang satt opp, tillatt for umiddelbar tilgang til opprinnelige filen steder, og økt data rigor. Som svar på National Institutes of Health (NIH) vekt på eksperimentell rigor, er det sannsynlig at mange vitenskapelige felt vil etter hvert vedta databaser som vanlig praksis på grunn av deres sterke evne til å effektivt organisere komplekse data.

Introduction

I en tid hvor vitenskapelig fremgang er tungt drevet av teknologi, har håndtering av store mengder data blitt en integrert fasett av forskning på tvers av alle disipliner. Fremveksten av nye felt som beregningsorientert biologi og Genomics understreker hvor kritisk den proaktive utnyttelse av teknologi har blitt. Disse trendene er sikker på å fortsette på grunn av Moores lov og jevn fremgang fått fra teknologiske fremskritt1,2. En konsekvens, derimot, er stigende mengder av genererte data som overskrider evnene til tidligere levedyktig organisasjon metoder. Selv om de fleste akademiske laboratorier har tilstrekkelige beregningsressurser for håndtering av komplekse datasett, mangler mange grupper den tekniske kompetansen som er nødvendig for å konstruere tilpassede systemer som passer for utviklingsbehov3. Å ha ferdighetene til å administrere og oppdatere slike datasett er fortsatt avgjørende for effektiv arbeidsflyt og produksjon. Å bygge bro over gapet mellom data og ekspertise er viktig for effektiv håndtering, ny oppdatering og analysering av et bredt spekter av mangesidig data.

Skalerbarhet er en viktig faktor når du håndterer store datasett. Big data, for eksempel, er et blomstrende område av forskning som innebærer å avsløre ny innsikt fra behandling av data preget av store volumer, store heterogenitet, og høy forekomst av generasjon, for eksempel lyd og video4,5. Ved hjelp av automatiserte metoder for organisering og analyse er obligatorisk for dette feltet til riktig håndtere torrents av data. Mange tekniske begreper som brukes i store data er ikke klart definert, men og kan være forvirrende; for eksempel, “høy hastighet” data er ofte forbundet med millioner av nye oppføringer per dag mens “lav hastighet” data kan bare hundrevis av oppføringer per dag, for eksempel i en akademisk Lab innstilling. Selv om det er mange spennende funn ennå å bli oppdaget ved hjelp av store data, de fleste akademiske laboratorier ikke krever omfang, makt og kompleksitet slike metoder for å ta opp sine egne vitenskapelige spørsmål5. Mens det er undoubtable at vitenskapelige data vokser stadig mer kompleks med tid6, mange forskere fortsette å bruke metoder for organisering som ikke lenger oppfyller sine utvide databehov. Praktiske regnearkprogrammer brukes for eksempel ofte til å organisere vitenskapelige data, men på bekostning av å være unscalable, utsatt for feil og tid ineffektiv i det lange løp7,8. Omvendt databaser er en effektiv løsning på problemet som de er skalerbare, relativt billig, og enkel å bruke i håndteringen varierte datasett av pågående prosjekter.

Umiddelbare bekymringer som oppstår når du vurderer skjemaer for data organisering er kostnader, tilgjengelighet og tids investering for opplæring og bruk. Ofte brukt i Bedriftsinnstillinger, databaseprogrammer er mer økonomisk, enten relativt billig eller gratis, enn finansieringen som kreves for å støtte bruk av store datasystemer. Faktisk finnes en rekke både kommersielt tilgjengelige og åpen kildekode-programvare for å opprette og vedlikeholde databaser, for eksempel Oracle database, MySQL, og Microsoft (MS) Access9. Mange forskere vil også bli oppmuntret til å lære at flere MS Office akademiske pakker kommer med MS Access inkludert, ytterligere minimere kostnader betraktninger. Videre nesten alle utviklere gir omfattende dokumentasjon på nettet og det er en overflod av gratis online ressurser som Codecademy, W3Schools, og SQLBolt å hjelpe forskerne å forstå og bruke strukturert Query Language (SQL)10,11,12. Som alle programmeringsspråk, lære å bruke databaser og kode ved hjelp av SQL tar tid å mestre, men med rikelig ressurser tilgjengelig prosessen er grei og vel verdt innsatsen investert.

Databaser kan være kraftige verktøy for å øke datatilgjengeligheten og enkelt aggregering, men det er viktig å skjelne hvilke data som vil mest nytte av en større kontroll over organisasjonen. Multi-dimensionality refererer til antall betingelser som en måling kan grupperes mot, og databaser er mektigste når håndtere mange ulike forhold13. I motsatt fall er informasjon med lav dimensionality enklest å håndtere ved hjelp av et regnearkprogram. et datasett som inneholder år og en verdi for hvert år, har for eksempel bare én mulig gruppering (mål mot år). Høy dimensjonal data som fra kliniske innstillinger vil kreve en stor grad av manuell organisasjon for å effektivt opprettholde en kjedelig og feil utsatt prosess utover omfanget av regnearkprogrammer13. Ikke-relasjonsdatabaser (NoSQL) oppfyller også en rekke roller, hovedsakelig i programmer der data ikke organiserer seg godt i rader og kolonner14. I tillegg til å være ofte åpen kildekode, omfatter disse organisatoriske skjemaene grafiske tilknytninger, tidsseriedata eller dokumentbasert data. NoSQL utmerker seg med skalerbarhet bedre enn SQL, men kan ikke opprette komplekse spørringer, slik at relasjonsdatabaser er bedre i situasjoner som krever konsekvens, standardisering og sjeldne data i stor skala, endres15. Databaser er best på effektivt gruppering og re-oppdatering av data i stort utvalg av konformasjonen ofte nødvendig i vitenskapelige innstillinger13,16.

Hovedformålet med dette arbeidet er derfor å informere det vitenskapelige samfunnet om potensialet i databaser som skalerbare data styringssystemer for “medium sized”, lav hastighet data samt å gi en generell mal ved hjelp av konkrete eksempler på pasienten Hentet celle-linje eksperimenter. Andre lignende applikasjoner inkluderer geografiske data av elve senger, spørreskjemaer fra langsgående kliniske studier, og mikrobiell vekstforhold i vekst Media17,18,19. Dette arbeidet fremhever felles hensyn og nytten av å konstruere en database sammen med en data-pipeline som er nødvendig for å konvertere rådata til strukturerte formater. Det grunnleggende om databasegrensesnitt og koding for databaser i SQL er gitt og illustrert med eksempler for å tillate andre å få den kunnskapen som gjelder for å bygge grunnleggende rammer. Til slutt demonstrerer et eksperimentdata sett hvor enkelt og effektivt databaser kan utformes for å samle mangesidig data på en rekke måter. Denne informasjonen gir kontekst, kommentarer og maler for å bistå andre forskere på veien mot å implementere databaser for egne eksperimentelle behov.

For å skape en skalerbar database i et forskningslaboratorium innstilling, data fra eksperimenter ved hjelp av menneskelige Fibroblast celler ble samlet inn de siste tre årene. Hovedfokuset i denne protokollen er å rapportere om organiseringen av dataprogramvare slik at brukeren kan samle, oppdatere og administrere data på en mest mulig kostnads-og tidseffektiv måte, men de relevante eksperimentelle metodene leveres også for Sammenheng.

Eksperimentell oppsett
Den eksperimentelle protokollen for å forberede prøvene har blitt beskrevet tidligere20,21, og blir presentert kort her. Konstruksjoner ble utarbeidet av Spin-coating rektangulære glass coverslips med en 10:1 blanding av Polydimethylsiloxan (PDMS) og herding agent, deretter bruke 0,05 mg/mL fibronektin, i enten uorganisert (isotropic) eller 20 μm linjer med 5 μm gap micropatterned ordninger (linjer). Fibroblast celler ble sådd i passasje 7 (eller passasje 16 for positive kontroller) på coverslips i optimal tetthet og venstre for å vokse for 48 h med Media blir endret etter 24 h. Cellene ble deretter løst ved hjelp av 4% paraformaldehyde (PFA) løsning og 0,0005% ioniske overflateaktivt middel, etterfulgt av coverslips blir immunostained for cellekjerner (4 ‘, 6 ‘-diaminodino-2-phenylinodole [DAPI]), utgangen (Alexa fluor 488 phalloidin), og fibronektin (polycloncal kanin anti-menneskelige fibronektin). En sekundær flekk for fibronektin bruker geit anti-kanin IgG antistoffer (Alexa fluor 750 geit anti-kanin) ble brukt og bevaring agent ble montert på alle coverslips å hindre fluorescerende falming. Neglelakk ble brukt til å forsegle coverslips på mikroskop lysbilder deretter til venstre for å tørke for 24 h.

Fluorescens bilder ble innhentet som beskrevet tidligere20 bruker en 40x olje nedsenking mål kombinert med en digital ladning kombinert enhet (CCD) kamera montert på en invertert motorisert mikroskop. Ti tilfeldig utvalgte felt av visningen ble avbildet for hver dekkglass ved 40x forstørrelse, tilsvarende en 6,22 piksler/μm oppløsning. Custom-skriftlige koder ble brukt til å kvantifisere ulike variabler fra bildene som beskriver kjerner, utgangen filamenter, og fibronektin; tilsvarende verdier, samt organisasjons-og geometri parametre, ble automatisk lagret i datafiler.

Cellelinjer
Mer omfattende dokumentasjon på alle eksempel datacelle linjer finnes i tidligere publikasjoner20. For å beskrive kort, ble datainnsamlingen godkjent og informert samtykke ble utført i samsvar med UC Irvine institusjonelle Review Board (IRB # 2014-1253). Menneskelige Fibroblast celler ble samlet inn fra tre familier av ulike varianter av Lamin A/C (LMNA) genmutasjon: heterozygot LMNA skjøte-site mutasjon (C. 357-2a > G)22 (familie A); LMNA tøv mutasjon (c. 736 c > T, pQ246X) i ekson 423 (familie B); og LMNA missense mutasjon (c. 1003C > T, pR335W) i ekson 624 (familie c). Fibroblast celler ble også samlet inn fra andre individer i hver familie som relatert mutasjon-negative kontroller, referert til som “Controls”, og andre ble kjøpt som urelaterte mutasjon-negative kontroller, referert til som “givere”. Som en positiv kontroll, Fibroblast celler fra en person med Hutchinson-Gliford progeria (HGPS) ble kjøpt og vokst fra en hud biopsi Hentet fra en 8-år gammel kvinnelig pasient med HGPS inneha en LMNA G608G punkt mutasjon25. Totalt ble fibroblaster fra 22 individer testet og brukt som data i dette arbeidet.

Data typer
Fibroblast data falt inn i en av to kategorier: cellulære kjerner variabler (dvs. prosentandel av Dysmorfofobi kjerner, område av kjerner, kjerner valse)20 eller strukturelle variabler som stammer fra orientational rekkefølge parameter (oop) 21,26,27 (dvs. utgangen oop, fibronektin oop, kjerner oop). Denne parameteren er lik maksimums eigenvalue for gjennomsnittlig rekkefølge-tensor for alle orienterings vektorene, og den er definert i detalj i tidligere publikasjoner26,28. Disse verdiene er samlet i en rekke mulige konformasjonen, for eksempel verdier mot alder, kjønn, sykdomsstatus, tilstedeværelse av visse symptomer, etc. Eksempler på hvordan disse variablene brukes, finner du i resultatdelen.

Eksempel koder og-filer
Eksempel kodene og andre filer som er basert på dataene ovenfor, kan lastes ned med dette papiret, og navnene og typene deres oppsummeres i tabell 1.

Protocol

Merk: se tabell over materialer for programvareversjonene som brukes i denne protokollen. 1. vurdere om dataene vil dra nytte av en database organisasjon ordningen Last ned eksempel kodene og databasene (se Tilleggskode filer, som er oppsummert i tabell 1). Bruk figur 1 til å evaluere om datasett av interesse er “multi-dimensjonale”.Merk: figur 1 er en grafisk…

Representative Results

Multi-dimensionality av dataI sammenheng med eksempeldatasettet som presenteres her, fagene, beskrevet i metoder delen, ble delt inn i grupper av individer fra de tre familiene med hjertesykdom-forårsaker LMNA mutasjon (“pasienter”), relatert ikke-mutasjon negative kontroller (“Controls”), urelaterte ikke-mutasjon negative kontroller (“givere”), og en person med Hutchinson-Gilford progeria syndrom (HGPS) som en positiv kontroll20. Resultater fra kontroller og givere …

Discussion

Teknisk diskusjon av protokollen
Det første trinnet når du vurderer bruk av databaser er å vurdere om dataene vil ha nytte av en slik organisasjon.

Det neste viktige trinnet er å lage en automatisert kode som vil spørre minimum innspill fra brukeren og generere tabellen datastruktur. I eksemplet gikk brukeren inn i kategorien for datatypen (cellekjerner eller strukturelle målinger), subjekt betegnelsen på cellelinjene og antall filer som ble valgt. De relevante filen…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbeidet er støttet av National Heart, Lung, og Blood Institute ved National Institutes of Health, gi nummer R01 HL129008. Forfatterne spesielt takke LMNA genet mutasjon familiemedlemmer for deres deltakelse i studien. Vi vil også takke Linda McCarthy for hennes hjelp med cellekultur og vedlikeholde Lab områder, Nasam Chokr for hennes deltakelse i celle Imaging og kjerner dataanalyse, og Michael A. Grosberg for hans relevante råd med å sette opp vår første Microsoft Access database, samt svare på andre tekniske spørsmål.

Materials

4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore’s law. Proceedings of the IEEE. 100, 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. . Learn SQL – Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
  11. . SQL Tutorial – w3schools.com Available from: https://www.w3schools.com/sql (2018)
  12. . Introduction to SQL – SQLBolt Available from: https://sqlbolt.com (2018)
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren’s and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)–a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. . SQL Training and Tutorials – Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)

Play Video

Cite This Article
Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

View Video