Summary

Databaser för att effektivt hantera medelstora, låg hastighet, flerdimensionella data i vävnadsteknik

Published: November 22, 2019
doi:

Summary

Många forskare genererar “medelstora”, låg hastighet, och flerdimensionella data, som kan hanteras mer effektivt med databaser i stället för kalkylblad. Här ger vi en konceptuell översikt över databaser, inklusive visualisering av flerdimensionella data, länkning av tabeller i relationsdatabas strukturer, mappning av halvautomatiserade datapipelines och användning av databasen för att belysa data innebörd.

Abstract

Vetenskapen förlitar sig på alltmer komplexa datauppsättningar för framsteg, men vanliga datahanterings metoder som kalkylbladsprogram är otillräckliga för den växande omfattningen och komplexiteten i den här informationen. Även databashanteringssystem har potential att rätta till dessa frågor, de är inte ofta utnyttjas utanför affärs-och informatik fält. Men många forskningslaboratorier redan generera “medelstora”, låg hastighet, flerdimensionella data som kan ha stor nytta av att genomföra liknande system. I den här artikeln ger vi en konceptuell översikt som förklarar hur databaser fungerar och de fördelar de ger i vävnadstekniska tillämpningar. Strukturell fibroblast data från individer med en Lamin A/C-mutation användes för att illustrera exempel inom en viss experimentell kontext. Exempel på detta är att visualisera flerdimensionella data, Länka tabeller i en relationsdatabas struktur, mappa en halvautomatiserad datapipeline för att konvertera rådata till strukturerade format och förklara den underliggande syntaxen för en fråga. Resultat från analys av data användes för att skapa tomter av olika arrangemang och betydelse visades i cell organisation i anpassade miljöer mellan den positiva kontrollen av Hutchinson-Gilford progeri, en välkänd laminopati, och alla andra experimentella grupper. I jämförelse med kalkylblad, databas metoder var enormt tidseffektiv, enkel att använda en gång inrättas, tillåtet för omedelbar tillgång till ursprungliga filplatser, och ökad data noggrannhet. Som svar på National Institutes of Health (NIH) betoning på experimentell stringens, är det troligt att många vetenskapliga områden så småningom kommer att anta databaser som vanlig praxis på grund av deras starka förmåga att effektivt organisera komplexa data.

Introduction

I en tid där vetenskapliga framsteg är starkt driven av teknik, har hantering av stora mängder data blivit en integrerad aspekt av forskning inom alla discipliner. Framväxten av nya områden som beräkningsbiologi och genomik understryker hur kritisk den proaktiva användningen av teknik har blivit. Dessa trender är säkra på att fortsätta på grund av Moores lag och stadig framsteg som vunnits från tekniska framsteg1,2. En konsekvens är dock den ökande mängden genererade data som överskrider kapaciteten hos tidigare livskraftiga organisationsmetoder. Även om de flesta akademiska laboratorier har tillräckliga beräkningsresurser för att hantera komplexa datamängder, saknar många grupper den tekniska expertis som krävs för att konstruera anpassade system som lämpar sig för utvecklingsbehov3. Att ha kunskaper för att hantera och uppdatera sådana datauppsättningar är fortfarande avgörande för effektivt arbetsflöde och utdata. Att överbrygga klyftan mellan data och expertis är viktigt för att effektivt hantera, uppdatera och analysera ett brett spektrum av mångfacetterade data.

Skalbarhet är en viktig faktor vid hantering av stora datamängder. Big data, till exempel, är ett blomstrande område av forskning som innebär att avslöja nya insikter från bearbetning av data som kännetecknas av stora volymer, stora heterogenitet, och höga nivåer av generation, såsom ljud och video4,5. Använda automatiserade metoder för organisation och analys är obligatoriskt för det här fältet för att hantera dataflöden på rätt sätt. Många tekniska termer som används i stordata är dock inte tydligt definierade och kan vara förvirrande; till exempel associeras “hög hastighet”-data ofta med miljontals nya poster per dag, medan “låg hastighet”-data kanske bara är hundratals poster per dag, till exempel i en akademisk labb inställning. Även om det finns många spännande fynd ännu inte upptäcks med hjälp av Big data, de flesta akademiska laboratorier kräver inte omfattningen, makt, och komplexitet sådana metoder för att ta itu med sina egna vetenskapliga frågor5. Även om det är obestridig att vetenskapliga data blir alltmer komplexa med tiden6, många forskare fortsätter att använda metoder för organisation som inte längre uppfyller deras växande databehov. Till exempel är praktiska kalkylprogram ofta används för att organisera vetenskapliga data, men på bekostnad av att vara oskalbar, felbenägna, och tid ineffektiva på lång sikt7,8. Omvänt är databaser en effektiv lösning på problemet eftersom de är skalbara, relativt billiga och enkla att använda för att hantera olika datauppsättningar av pågående projekt.

Omedelbara problem som uppstår när du överväger scheman för data organisation är kostnad, tillgänglighet och tid investering för utbildning och användning. Ofta används i Företagsinställningar, databasprogram är mer ekonomiska, är antingen relativt billigt eller gratis, än den finansiering som krävs för att stödja användningen av Big datasystem. I själva verket finns en mängd olika både kommersiellt tillgänglig och öppen källkod för att skapa och underhålla databaser, såsom Oracle Database, MySQL och Microsoft (MS) Access9. Många forskare skulle också uppmuntras att lära sig att flera MS Office akademiska paket kommer med MS Access ingår, ytterligare minimera kostnaderna överväganden. Dessutom, nästan alla utvecklare tillhandahåller omfattande dokumentation på nätet och det finns en uppsjö av gratis online-resurser som Codecademy, W3Schools, och SQLBolt att hjälpa forskare att förstå och använda strukturerade Query Language (SQL)10,11,12. Liksom alla programmeringsspråk, lära sig att använda databaser och kod med SQL tar tid att behärska, men med rikliga resurser tillgängliga processen är enkel och väl värt ansträngningen investerat.

Databaser kan vara kraftfulla verktyg för att öka datatillgängligheten och underlätta aggregering, men det är viktigt att urskilja vilka data som mest skulle gynnas av en större kontroll över organisationen. Flerdimensionalitet refererar till antalet villkor som en mätning kan grupperas mot, och databaser är mest kraftfulla vid hantering av många olika villkor13. Omvänt är information med låg dimensionalitet enklast att hantera med hjälp av ett kalkylbladsprogram. till exempel har en datauppsättning som innehåller år och ett värde för varje år endast en möjlig gruppering (mätningar mot år). Hög dimensionella data såsom från kliniska inställningar skulle kräva en stor grad av manuell organisation för att effektivt upprätthålla, en långtråkig och felbenägna process utöver omfattningen av kalkylprogram13. Icke-relationella (NoSQL) databaser uppfyller också en mängd olika roller, främst i program där data inte organiserar väl i rader och kolumner14. Förutom att de ofta är öppen källkod, inkluderar dessa organisationsscheman grafiska associationer, tidsseriedata eller dokumentbaserade data. NoSQL utmärker sig vid skalbarhet bättre än SQL, men kan inte skapa komplexa frågor, så relationsdatabaser är bättre i situationer som kräver konsekvens, standardisering och sällan storskaliga dataändringar15. Databaser är bäst på att effektivt gruppera och uppdatera data i det stora utbudet av konformationer som ofta behövs i vetenskapliga inställningar13,16.

Det huvudsakliga syftet med detta arbete är därför att informera forskarsamfundet om potentialen i databaser som skalbara datahanteringssystem för “medelstora”, låg hastighet data samt att ge en allmän mall med hjälp av specifika exempel på patient inköpta cell-line experiment. Andra liknande tillämpningar omfattar geospatiala data för flodbäddar, enkäter från longitudinella kliniska studier och mikrobiella tillväxtförhållanden i tillväxt medier17,18,19. Detta arbete belyser vanliga överväganden och nytta av att konstruera en databas tillsammans med en data-pipeline som krävs för att omvandla rådata till strukturerade format. Grunderna i Databasgränssnitt och kodning för databaser i SQL tillhandahålls och illustreras med exempel för att låta andra få den kunskap som gäller för att bygga grundläggande ramverk. Slutligen visar en exempel experimentell datauppsättning hur enkelt och effektivt databaser kan utformas för att aggregera mångfacetterade data på flera olika sätt. Denna information ger kontext, kommentarer och mallar för att hjälpa forskare på vägen mot att implementera databaser för sina egna experimentella behov.

För att skapa en skalbar databas i en forsknings laboratoriemiljö samlades data från experiment med humana fibroblastceller under de senaste tre åren. Det primära syftet med detta protokoll är att rapportera om organisationen av programvara för att göra det möjligt för användaren att aggregera, uppdatera och hantera data på det mest kostnads-och tidseffektiva sättet, men de relevanta experimentella metoderna tillhandahålls också för Sammanhang.

Experimentell installation
Experiment protokollet för beredning av prover har beskrivits tidigare20,21, och presenteras kortfattat här. Konstruktioner bereddes genom spinn-beläggning rektangulära glas täckband med en 10:1 blandning av Polydimetylsiloxan (PDMS) och härdningsmedel, sedan tillämpa 0,05 mg/mL fibronectin, i antingen oorganiserade (isotrop) eller 20 μm linjer med 5 μm gap mikromönstrade arrangemang (linjer). Fibroblastceller var seedade vid passage 7 (eller passage 16 för positiva kontroller) på täckglas vid optimala densiteter och vänster för att växa för 48 h med Media ändras efter 24 h. Cellerna fixades sedan med 4% paraformaldehydlösning (PFA) och 0,0005% nonioniskt ytaktivt ämne, följt av täckglas är immunostained för cellkärnor (4 ‘, 6 ‘-diaminodino-2-phenylinodole [DAPI]), aktin (Alexa fluor 488 phalloidin), och Fibronektin (polycloncal kanin anti-human Fibronektin). En sekundär fläck för Fibronektin med get anti-kanin IgG antikroppar (Alexa fluor 750 Goat anti-kanin) tillämpades och bevarande agent var monterad på alla täckglas för att förhindra fluorescerande blekning. Nagellack användes för att försegla täckglas på mikroskopbilder sedan vänster för att torka i 24 h.

Fluorescensbilder erhölls som beskrivits tidigare20 med hjälp av en 40x Oil Immersion mål tillsammans med en digital laddning kopplad enhet (CCD) kamera monterad på ett inverterat motoriserat Mikroskop. Tio slumpmässigt utvalda fält av vyn var avbildas för varje täckslip på 40x förstoring, vilket motsvarar en 6,22 pixlar/μm upplösning. Specialskrivna koder användes för att kvantifiera olika variabler från bilderna som beskriver kärnors, aktin filament och fibronectin; motsvarande värden, samt organisations-och geometri parametrar, sparades automatiskt i datafiler.

Cellinjer
Mer omfattande dokumentation om alla exempeldata cellinjer finns i tidigare publikationer20. För att kortfattat beskriva datainsamlingen godkändes och informerat samtycke utfördes i enlighet med UC Irvine institutionella Review Board (IRB # 2014-1253). Humana fibroblastceller samlades in från tre familjer av olika varianter av Lamin A/C (lmna) genmutation: heterozygot lmna splice-site mutation (C. 357-2a > G)22 (familj A); Lmna nonsenmutation (c. 736 c > T, pQ246X) i exon 423 (familj B); och lmna genom mutation (c. 1003c > T, pR335W) i exon 624 (familj c). Fibroblastceller samlades också in från andra individer i varje familj som relaterade mutation-negativa kontroller, kallad “kontroller”, och andra köptes som icke-närstående mutation-negativa kontroller, kallas “givare”. Som en positiv kontroll, fibroblast celler från en individ med Hutchinson-Gliford progeri (HGPS) köptes och odlas från en hudbiopsi tas från en 8-årig kvinnlig patient med HGPS innehar en Lmna G608G punktmutation25. Totalt har fibroblaster från 22 individer testats och använts som data i detta arbete.

Data typer
Fibroblast data föll i en av två kategorier: cellulära kärnor variabler (dvs, procent av dysmorphic kärnor, område av kärnor, kärnor excentricitet)20 eller strukturella variabler som härrör från vägledare gällande order parameter (OOP)21,26,27 (dvs., aktin OOP, Fibronektin OOP, kärnor OOP). Denna parameter är lika med den maximala egen värdes av medelvärdet för tensor av alla orienterings vektorer, och det definieras i detalj i tidigare publikationer26,28. Dessa värden sammanställs i en mängd olika möjliga konformationer, såsom värden mot ålder, kön, sjukdomsstatus, förekomst av vissa symtom, etc. Exempel på hur dessa variabler används finns i resultat avsnittet.

Exempel koder och filer
Exempel koderna och andra filer baserade på ovanstående data kan laddas ner med detta papper, och deras namn och typer sammanfattas i tabell 1.

Protocol

Anmärkning: se tabell över material för programversionerna som används i detta protokoll. 1. utvärdera om data skulle gynnas av ett databas organisations system Hämta exempel koderna och databaserna (se kompletterande Kodningsfilersom sammanfattas i tabell 1). Använd figur 1 för att utvärdera om datauppsättningen av intresse är “flerdimensionell”.Anm: bild 1<…

Representative Results

Flerdimensionalitet av dataI samband med exempeldata-set som presenteras här, ämnena, som beskrivs i avsnittet metoder, delades in i grupper av individer från de tre familjerna med den hjärtsjukdomsalstrande lmna -mutationen (“patienter”), relaterade icke-mutationsnegativa kontroller (“kontroller”), orelaterade icke-mutationskontroller (“givare”) och en individ med Hutchinson-Gilford progeri syndrome (HGPS) som positiv kontroll20. Resultat från kontroller och giv…

Discussion

Teknisk diskussion om protokollet
Det första steget när man överväger att använda databaser är att utvärdera om data skulle gynnas av en sådan organisation.

Nästa viktiga steg är att skapa en automatiserad kod som kommer att fråga minsta indata från användaren och generera tabelldata struktur. I exemplet angav användaren kategorin data typ (cellkärnor eller strukturella mätningar), cellinjer ämnes beteckning och antal filer som valdes. De relevanta filerna …

Disclosures

The authors have nothing to disclose.

Acknowledgements

Detta arbete stöds av nationella hjärt-, lung-och blod institutet vid National Institutes of Health, Grant nummer R01 HL129008. Författarna tackar särskilt Lmna genmutation familjemedlemmar för deras deltagande i studien. Vi vill också tacka Linda McCarthy för hennes hjälp med cellkultur och underhålla Lab Spaces, Nasam Chokr för hennes deltagande i cell Imaging och kärnor dataanalys, och Michael A. GROSBERG för hans relevanta råd med att inrätta vår första Microsoft Access-databas samt svara på andra tekniska frågor.

Materials

4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore’s law. Proceedings of the IEEE. 100, 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. . Learn SQL – Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
  11. . SQL Tutorial – w3schools.com Available from: https://www.w3schools.com/sql (2018)
  12. . Introduction to SQL – SQLBolt Available from: https://sqlbolt.com (2018)
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren’s and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)–a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. . SQL Training and Tutorials – Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)
check_url/60038?article_type=t

Play Video

Cite This Article
Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

View Video