Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

Databaser til effektivt at styre mellemstore, lav hastighed, flerdimensionelle data i vævsteknik

Published: November 22, 2019 doi: 10.3791/60038

Summary

Mange forskere genererer "mellemstore", lavhastigheds-og flerdimensionelle data, som kan styres mere effektivt med databaser i stedet for regneark. Her giver vi en konceptuel oversigt over databaser, herunder visualisering af flerdimensionelle data, sammenkædning af tabeller i relationsdatabase strukturer, kortlægning af semi-automatiserede datapipelines og brug af databasen til at belyse data betydning.

Abstract

Videnskaben er afhængig af stadigt mere komplekse datasæt for fremskridt, men fælles datastyrings metoder som regnearksprogrammer er utilstrækkelige til at gøre disse oplysninger større og mere komplekse. Mens databasestyringssystemer har potentialet til at rette op på disse problemer, udnyttes de ikke normalt uden for forretnings-og informatik felter. Endnu, mange forskningslaboratorier allerede generere "medium størrelse", lav hastighed, multi-dimensionelle data, der kunne i høj grad drage fordel af gennemførelsen af lignende systemer. I denne artikel giver vi en konceptuel oversigt, der forklarer, hvordan databaser fungerer, og de fordele, de giver i vævsteknik applikationer. Strukturelle fibroblast data fra personer med en Lamin A/C-mutation blev brugt til at illustrere eksempler inden for en bestemt eksperimentel kontekst. Eksempler omfatter visualisering af flerdimensionelle data, sammenkædning af tabeller i en relationsdatabase struktur, tilknytning af en semi-automatiseret datapipeline til konvertering af rå data til strukturerede formater og forklaring af den underliggende syntaks i en forespørgsel. Resultater fra analyse af data blev brugt til at oprette plots af forskellige arrangementer og betydning blev demonstreret i celle organisation i justerede miljøer mellem den positive kontrol af Hutchinson-Gilford Progeria, en velkendt laminopati, og alle andre eksperimentelle grupper. I forhold til regneark, database metoder var enormt tidsbesparende, enkel at bruge, når de er oprettet, tilladt for umiddelbar adgang til originale filplaceringer, og øget data rigor. Som svar på de nationale institutter for sundhed (NIH) vægt på eksperimentel rigor, er det sandsynligt, at mange videnskabelige områder i sidste ende vil vedtage databaser som almindelig praksis på grund af deres stærke evne til effektivt at organisere komplekse data.

Introduction

I en tid, hvor den videnskabelige udvikling er stærkt drevet af teknologi, er håndteringen af store mængder data blevet en integreret del af forskningen på tværs af alle discipliner. Fremkomsten af nye områder som Computational Biology og genomforskning understreger, hvor kritisk den proaktive udnyttelse af teknologien er blevet. Disse tendenser er sikker på at fortsætte på grund af Moores lov og støt fremskridt opnået fra teknologiske fremskridt1,2. En konsekvens er imidlertid de stigende mængder af genererede data, der overskrider mulighederne i tidligere levedygtige organisationsmetoder. Selv om de fleste akademiske laboratorier har tilstrækkelige beregningsressourcer til håndtering af komplekse datasæt, mangler mange grupper den tekniske ekspertise, som er nødvendig for at konstruere tilpassede systemer, som er velegnede til udvikling af behov3. At have færdigheder til at administrere og opdatere sådanne datasæt er fortsat afgørende for effektiv arbejdsgang og output. Det er vigtigt at slå bro over kløften mellem data og ekspertise for effektivt at håndtere, re-opdatere og analysere et bredt spektrum af mangefacetterede data.

Skalerbarhed er en vigtig overvejelse ved håndtering af store datasæt. Big data, for eksempel, er en blomstrende område af forskning, der indebærer afslørende ny indsigt fra behandling af data karakteriseret ved store mængder, store heterogenitet, og høje satser for generation, såsom lyd og video4,5. Brug af automatiserede metoder til organisering og analyse er obligatorisk for dette felt til passende håndtere torrents af data. Mange tekniske termer, der anvendes i Big data er ikke klart defineret, men, og kan være forvirrende; for eksempel, "høj hastighed" data er ofte forbundet med millioner af nye indgange pr. dag, hvorimod "lav hastighed" data kan kun være hundredvis af indgange om dagen, som i en akademisk Lab indstilling. Selv om der er mange spændende fund endnu at blive opdaget ved hjælp af Big data, de fleste akademiske laboratorier kræver ikke omfanget, magt, og kompleksiteten af sådanne metoder til at behandle deres egne videnskabelige spørgsmål5. Selv om det er ubestrideligt, at videnskabelige data bliver mere og mere komplekse med tid6, mange videnskabsfolk fortsætter med at bruge metoder til organisation, der ikke længere opfylder deres voksende databehov. For eksempel bruges praktiske regnearksprogrammer ofte til at organisere videnskabelige data, men på bekostning af at være uskalerbare, fejl tilbøjelige og tid ineffektive i det lange løb7,8. Omvendt er databaser en effektiv løsning på problemet, da de er skalerbare, relativt billige og nemme at bruge i håndteringen af varierede datasæt af igangværende projekter.

Umiddelbare bekymringer, der opstår, når man overvejer skemaer af data organisation er omkostninger, tilgængelighed og tid investering for uddannelse og brug. Ofte bruges i erhvervslivet indstillinger, databaseprogrammer er mere økonomisk, er enten relativt billige eller gratis, end den finansiering, der kræves for at støtte brugen af Big data-systemer. Faktisk findes der en række af både kommercielt tilgængelige og open source software til oprettelse og vedligeholdelse af databaser, såsom Oracle database, MySQL, og Microsoft (MS) Access9. Mange forskere vil også blive opfordret til at lære, at flere MS Office akademiske pakker kommer med MS Access inkluderet, yderligere minimering af omkostningerne overvejelser. Desuden, næsten alle udviklere levere omfattende dokumentation online, og der er en overflod af gratis online ressourcer såsom Codecademy, W3Schools, og SQLBolt at hjælpe forskerne med at forstå og udnytte strukturerede forespørgselssprog (SQL)10,11,12. Ligesom alle programmeringssprog, lære at bruge databaser og kode ved hjælp af SQL tager tid at mestre, men med de rigelige ressourcer til rådighed processen er ligetil og værd investeret indsats.

Databaser kan være kraftfulde værktøjer til at øge datatilgængelighed og nem sammenlægning, men det er vigtigt at skelne hvilke data ville mest drage fordel af en større kontrol af organisationen. Fler dimensionalitet refererer til antallet af betingelser, som en måling kan grupperes imod, og databaser er mest effektive, når de administrerer mange forskellige betingelser13. Omvendt er oplysninger med lav dimensionalitet enkleste at håndtere ved hjælp af et regnearksprogram; for eksempel har et datasæt, der indeholder år og en værdi for hvert år, kun én mulig gruppering (målinger mod år). Høj dimensionelle data såsom fra kliniske indstillinger ville kræve en stor grad af manuel organisation for effektivt at vedligeholde, en kedelig og fejlbehæftet proces uden for rammerne af regnearksprogrammer13. Ikke-relationelle (NoSQL) databaser også opfylde en række forskellige roller, primært i applikationer, hvor data ikke organisere sig godt i rækker og kolonner14. Ud over at være ofte open source omfatter disse organisationsskemaer grafiske tilknytninger, tidsseriedata eller dokumentbaserede data. NoSQL udmærker sig ved skalerbarhed bedre end SQL, men kan ikke oprette komplekse forespørgsler, så relationsdatabaser er bedre i situationer, der kræver konsistens, standardisering og sjældne dataændringer i stor skala15. Databaser er bedst til effektivt at gruppere og re-opdatere data i den store vifte af konstellationer ofte behov i videnskabelige indstillinger13,16.

Hovedformålet med dette arbejde er derfor at informere det videnskabelige samfund om potentialet i databaser som skalerbare datastyringssystemer for "medium størrelse", lav hastighed data samt at give en generel skabelon ved hjælp af specifikke eksempler på patient fremskaffede celle-line eksperimenter. Andre lignende anvendelser omfatter geospatiale data af flodsenge, spørgeskemaer fra langsgående kliniske undersøgelser og mikrobielle vækstbetingelser i vækstmedier17,18,19. Dette arbejde underst hæver fælles overvejelser og nytten af at konstruere en database kombineret med en datapipeline, der er nødvendig for at konvertere rå data til strukturerede formater. Grundlæggende oplysninger om database grænseflader og kodning for databaser i SQL leveres og illustreres med eksempler, der giver andre mulighed for at opnå den viden, der gælder for opbygning af grundlæggende rammer. Endelig viser et eksempel på et eksperimentelt datasæt, hvor nemt og effektivt databaser kan designes til at aggregere mangefacetterede data på en række forskellige måder. Disse oplysninger giver kontekst, kommentarer og skabeloner til at hjælpe andre videnskabsfolk på vej mod at implementere databaser til deres egne eksperimentelle behov.

Med henblik på at skabe en skalerbar database i en forskningslaboratorium indstilling, data fra forsøg med humane fibroblast celler blev indsamlet i løbet af de seneste tre år. Den primære fokus for denne protokol er at rapportere om organiseringen af edb-software til at gøre det muligt for brugeren at aggregere, opdatere og administrere data på den mest omkostningseffektive og tidsbesparende måde, men de relevante eksperimentelle metoder leveres samt for Forbindelse.

Eksperimentel opsætning
Forsøgsprotokollen til forberedelse af prøverne er beskrevet tidligere20,21og præsenteres kort her. Konstruktioner blev fremstillet ved spin-coating rektangulære glas dæksedler med en 10:1 blanding af Polydimethylsiloxan (PDMS) og Hærdningsmiddel, derefter anvende 0,05 mg/mL fibronectin, i enten uorganiseret (isotropisk) eller 20 μm linjer med 5 μm Gap mikromønstrede ordninger (linjer). Fibroblast celler blev seedet ved passage 7 (eller passage 16 for positive kontroller) på dæksedlerne ved optimale tætheder og venstre for at vokse til 48 h med medier, der skiftes efter 24 h. Cellerne blev derefter fikseret med 4% PARAFORMALDEHYD (PFA) opløsning og 0,0005% nonioniske overfladeaktive stoffer, efterfulgt af coverglider er immun plettet for cellekerner (4 ', 6 '-diaminodino-2-phenylinodole [dapi]), actin (Alexa fluor 488 phalloidin), og fibronektin (polycloncal kanin anti-humant fibronektin). En sekundær plet til fibronektin ved hjælp af ged anti-kanin IgG antistoffer (Alexa fluor 750 ged anti-kanin) blev anvendt og konserveringsmiddel blev monteret på alle dæksedler for at forhindre fluorescerende fading. Neglelak blev brugt til at forsegle dæksedler på mikroskop slides derefter overladt til at tørre i 24 h.

Fluorescensbilleder blev opnået som beskrevet tidligere20 ved hjælp af en 40x olie nedsænkning mål kombineret med en digital Charge koblet anordning (CCD) kamera monteret på en inverteret motoriseret mikroskop. Ti tilfældigt udvalgte synsfelter blev inddelt for hver dækglas ved 40x forstørrelse, svarende til en 6,22 pixels/μm opløsning. Custom-skrevne koder blev brugt til at kvantificere forskellige variabler fra de billeder, der beskriver kerner, actin filamenter, og fibronectin; tilsvarende værdier, samt organisations-og geometri parametre, blev automatisk gemt i datafiler.

Cellelinjer
Mere omfattende dokumentation om alle eksempeldata cellelinjer kan findes i tidligere publikationer20. For kortfattet at beskrive, blev dataindsamlingen godkendt og informeret samtykke blev udført i overensstemmelse med UC Irvine institutions revision Board (IRB # 2014-1253). Humane fibroblast celler blev indsamlet fra tre familier af forskellige variationer af Lamin A/C (lmna) genmutation: heterozygot lmna Splice-site mutation (C. 357-2a > G)22 (familie A); Lmna nonsense-mutation (c. 736 c > T, pQ246X) i exon 423 (familie B); og Lmna missense mutation (c. 1003c > T, pR335W) i exon 624 (familie c). Fibroblast celler blev også indsamlet fra andre individer i hver familie som relaterede mutation-negative kontroller, benævnt "kontrol", og andre blev købt som uafhængige mutation-negative kontrol, benævnt "donorer". Som en positiv kontrol, fibroblast celler fra en person med Hutchinson-Gliford Progeria (HGPS) blev købt og dyrket fra en hudbiopsi taget fra en 8-årig kvindelig patient med HGPS besidder en Lmna G608G point mutation25. I alt blev fibroblaster fra 22 individer testet og anvendt som data i dette arbejde.

Data typer
Fibroblast data faldt i en af to kategorier: cellekerner variabler (dvs., procentdel af dysmorfe kerner, område af kerner, kerner excentricity)20 eller strukturelle variabler stammer fra orienterings Order parameter (OOP)21,26,27 (dvs., actin oop, fibronektin oop, kerner OOP). Denne parameter er lig med den maksimale eigenværdi af den gennemsnitlige ordre tensor for alle orienterings vektorer, og den er nærmere defineret i tidligere publikationer26,28. Disse værdier samles i en række mulige konstellationer, såsom værdier mod alder, køn, sygdomsstatus, tilstedeværelsen af visse symptomer osv. Eksempler på, hvordan disse variabler bruges, finder du i afsnittet resultater.

Eksempelkoder og filer
Eksempel koderne og andre filer, der er baseret på ovenstående data, kan downloades med dette papir, og deres navne og typer er opsummeret i tabel 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Bemærk: Se tabel over materialer til de softwareversioner, der anvendes i denne protokol.

1. evaluere, om dataene ville drage fordel af en database organisation ordning

  1. Hent eksempel koderne og databaserne (Se supplerende kodnings filer, som er opsummeret i tabel 1).
  2. Brug figur 1 til at evaluere, om datasættet af interesse er "flerdimensionel".
    Bemærk: figur 1 er en grafisk gengivelse af en flerdimensionel database, der er angivet for eksempeldatasættet.
  3. Hvis dataene kan visualiseres i en "flerdimensionel" form som eksemplet, og hvis evnen til at relatere et bestemt eksperimentelt resultat til nogen af dimensionerne (dvs. betingelser) ville give mulighed for større videnskabelig indsigt i de tilgængelige data, skal du fortsætte til Konstruer en relationsdatabase.

2. Organiser databasestrukturen

Bemærk: relationsdatabaser lagrer oplysninger i form af tabeller. Tabeller er organiseret i skema med rækker og kolonner, svarende til regneark, og kan bruges til at sammenkæde identificerende oplysninger i databasen.

  1. Organiser datafilerne, så de har velgennemtænkte unikke navne. God praksis med filnavngivnings konventioner og mappe-undermapper strukturer, når det er gjort godt, giver mulighed for bred database skalerbarhed uden at kompromittere læsbarheden af adgang til filer manuelt. Tilføj dato filer i et ensartet format, såsom "20XX-YY-ZZ", og navngiv undermapper i henhold til metadata er et sådant eksempel.
  2. Når database strukturen er udformet, tegnes relationer mellem felterne i forskellige tabeller. Multi dimensionalitet håndteres således ved at sammen gøre forskellige felter (dvs. kolonner i tabellerne) i individuelle tabeller med hinanden.
  3. Opret vigtigt-dokumentation, der beskriver den database og de relationer, der blev oprettet i trin 2,2. Når en indtastning mellem forskellige tabeller er sammenkædet, er alle tilknyttede oplysninger relateret til denne post og kan bruges til at kalde komplekse forespørgsler for at filtrere ned til de ønskede oplysninger.
    Bemærk: Readme-dokumenter er en fælles løsning til at give supplerende oplysninger og database strukturelle oplysninger om et projekt uden at tilføje ikke-ensartede data til strukturen.
  4. I følge trin 2.1 − 2.3 skal slutresultatet være det samme som i dette eksempel, hvor enkeltpersoners forskellige karakteristika (figur 2A) er relateret til de tilknyttede forsøgsdata for disse personer (figur 2B). Det samme blev gjort ved at sammensætte kolonner af mønster typer (figur 2C) og datatyper (figur 2D) til tilsvarende indgange i tabellen hoveddata værdier for at forklare forskellige forkortelser (figur 2B).
  5. Bestem alle de væsentlige og blot nyttige datapunkter, der skal registreres for langtrækkende dataindsamling.
    Bemærk: en vigtig fordel ved at bruge databaser over regnearksprogrammer, som tidligere nævnt, er skalerbarhed: yderligere datapunkter kan trivielt tilføjes på ethvert tidspunkt og beregninger, såsom gennemsnit, opdateres øjeblikkeligt for at afspejle nyligt tilføjede datapunkter.
    1. Identificer de nødvendige oplysninger til oprettelse af særskilte datapunkter før starten. Efterlad rå data uberørt, i stedet for at ændre eller gemme over det, så omanalyse er mulig og tilgængelig.
      Bemærk: for det givne eksempel (figur 2) var "betegnelse" svarende til en individuel, "mønster type", "coverslip #" og "variabeltype" alle vitale felter for selvstændighed af den tilknyttede værdi.
    2. Hvis du ønsker det, kan du tilføje andre nyttige, ikke-vitale oplysninger som "total # of Coverglider" for at angive antallet af gentagelser, der er udført, og hjælpe med at afgøre, om der mangler datapunkter i dette eksempel.

3. opsætning og organisering af rørledningen

  1. Identificer alle de forskellige eksperimenter og dataanalysemetoder, der kan føre til dataindsamling sammen med den normale datalagring praksis for hver datatype. Arbejd med open source version Control software såsom GitHub at sikre nødvendige konsistens og versionskontrol samtidig minimere bruger byrden.
  2. Hvis det er muligt, skal du oprette en procedure for ensartet navngivning og lagring af data for at tillade en automatiseret pipeline.
    Bemærk: i eksemplet blev output alle konsekvent navnet, hvilket skabte en datapipeline, der ledte efter bestemte attributter, var ligetil, når filerne blev valgt. Hvis det ikke er muligt at bruge konsekvent navngivning, skal tabellerne i databasen udfyldes manuelt, hvilket ikke anbefales.
  3. Brug et hvilket som helst praktisk programmeringssprog til at generere nye dataposter for databasen.
    1. Opret små "hjælper" tabeller (filer #8 − #10 i tabel 1) i separate filer, der kan vejlede automatiseret udvælgelse af data. Disse filer fungerer som en skabelon af muligheder for rørledningen til at operere under og er nemme at redigere.
    2. Hvis du vil generere nye dataposter for dataledningen (figur 3D), skal du programmere koden (locationpointer. m, fil #1 i tabel 1) for at bruge hjælpetabellerne som input, der skal vælges af brugeren (filer #8 − #10 i tabel 1).
    3. Herfra samles et nyt regneark med filplaceringer ved at kombinere de nye indgange med de tidligere indtastninger (figur 3E). Opret en kode for at automatisere dette trin som vist i LocationPointerCompile. m (fil #2 i tabel 1).
    4. Bagefter skal du kontrollere dette flettede regneark for dubletter, som bør fjernes automatisk. Opret en kode for at automatisere dette trin som vist i LocationPointer_Remove_Duplicates. m (fil #3 i tabel 1).
    5. Kontroller desuden regnearket for fejl, og Giv brugeren besked om årsagen og placeringen (figur 3F). Opret en kode for at automatisere dette trin som vist i BadPointerCheck. m (fil #4 i tabel 1). Alternativt, skrive en kode, der vil kontrollere den kompilerede database og identificere dubletter i et trin som vist i LocationPointer_Check. m (fil #5 i tabel 1).
    6. Opret en kode for at lade brugeren manuelt fjerne dårlige punkter uden at miste integriteten af databasen som vist i Manual_Pointer_Removal. m (fil #6 i tabel 1).
    7. Brug derefter filplaceringer til at generere et dataværdi regneark (figur 3G, fil #12 i tabel 1) samt til at oprette en mest opdateret liste over indgange, der kan tilgås for at identificere filplaceringer eller fusioneret med fremtidige indgange (figur 3H). Opret en kode for at automatisere dette trin som vist i Database_Generate. m (fil #7 i tabel 1).
  4. Dobbelttjek, at pipelinen tilføjer til den eksperimentelle stringens ved at kontrollere for medtagelse af strenge navngivningskonventioner, automatiserede filsamlings koder og automatiseret fejlkontrol som tidligere beskrevet.

4. Opret databasen og forespørgsler

Bemærk: Hvis tabeller lagrer oplysninger i databaser, sendes forespørgsler til databasen for at få oplysninger om bestemte kriterier. Der er to metoder til at oprette databasen: starter fra et tomt dokument eller starter fra de eksisterende filer. Figur 4 viser en eksempelforespørgsel ved hjælp af SQL-syntaks, der er designet til at køre ved hjælp af database relationerne vist i figur 2.

  1. Metode 1: start fra bunden i oprettelse af databasen og forespørgsler
    1. Opret et tomt databasedokument.
    2. Indlæs hjælpetabellerne (filer #8 − #10 i tabel 1) ved at vælge eksterne data | Import af tekstfiler | Vælg fil (filer #8 − #10) | Afgrænset | Første række indeholder overskrifter, komma | Forlad standard | Vælg min egen primære nøgle (betegnelse for cellelinjer fil #8, variabelnavn for data typer fil #9, Pat navn for mønster Type fil #10) | Forlad standard | .
    3. Indlæs dataværdi tabellen (fil #12 i tabel 1) ved at vælge eksterne data | Import af tekstfiler | Vælg fil (fil #12) | Afgrænset | Første række indeholder overskrifter, komma | Forlad standard | Lad Access tilføje primær nøgle | Importer til tabel: DataValues | .
    4. Opret relationerne ved at vælge database værktøjer | Relationer | Træk alle tabeller til tavlen | Rediger relationer | Opret ny | Matche felterne med hjælpe tabeller i DataValue | Fælles type 3.
    5. Vælg Opret | Forespørgsels design.
    6. Vælg eller træk alle relevante tabeller til det øverste vindue. I dette eksempel ' cellelinjer ', ' dataværdier ', ' datatyper ' og ' mønster type '. Relationerne bør automatisk konfigureres ud fra det tidligere Relations design.
    7. Udfyld forespørgsels kolonnerne for at fà ¥ de ønskede resultater, f. eks.:
      1. Klik på Vis | Totaler.
      2. Udfyld den første kolonne (tabel: DataValues, felt: DataVar, total: GroupBy, kriterier: "Act_OOP"), den anden kolonne (tabel: DataValues, felt: PatVar, total: GroupBy, kriterier: "linjer") og den tredje kolonne (tabel: Cell_Lines, felt: betegnelse, total: GroupBy, sortere: stigende).
      3. Udfyld den fjerde kolonne (tabel: DataValues, felt: parameter, total: Ave), den femte kolonne (tabel: DataValues, felt: parameter, total: StDev) og den sjette kolonne (tabel: DataValues, felt: parameter, total: Count).
    8. Kør forespørgslen.
  2. Alternativt kan du bruge den medfølgende eksempeldatabase som grundlag for eksempler. Åbn databasefilen Database_Queries. accdb (fil #13 i tabel 1), der blev hentet tidligere. Brug den som skabelon ved at erstatte eksisterende tabeller med data af interesse.

5. Flyt output tabellerne til en statistisk software for signifikans analyse

  1. Til dette eksempel eksperimentelle data, bruge envejs analyse af variansen (ANOVA) ved hjælp af Tukey test for gennemsnitlige sammenligninger mellem forskellige betingelser.
    Bemærk: værdierne for p < 0,05 blev anset for at være statistisk signifikante.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Fler dimensionalitet af data
I forbindelse med det eksempeldatasæt, der præsenteres her, er emnerne, beskrevet i afsnittet metoder, blev opdelt i grupper af individer fra de tre familier med hjertesygdomme-forårsager Lmna mutation ("patienter"), relaterede ikke-mutation negative kontroller ("kontrol"), uafhængige ikke-mutation negative kontroller ("donorer"), og en person med Hutchinson-Gilford Progeria syndrom (HGPS) som en positiv kontrol20. Resultaterne fra kontrol og donorer kunne grupperes yderligere som en samlet negativ kontrolgruppe (N.C.) i betragtning af deres kollektive mangel på Lmna -mutationer. Hvert cellelinje havde en mutation status forbundet med det, baseret på deres tilstand gruppe (figur 1 -mørkeblå akse). For hvert eksperiment blev fibroblast celler fra emnerne dyrket på arrangementer af enten uorganiseret (isotropisk) eller mikromønstrede (linjer) fibronectin, hvilket skabte betingelsen "mønster type" (figur 1 -orange akse). Efter at cellerne var faste, immun farvede og imaged, blev "Coverslip #" transkriberet, da flere eksperimenter (dvs. tekniske replikater) ville forekomme ved hjælp af den samme persons celler (figur 1 -lys grøn akse). Custom MATLAB koder20,21 blev derefter brugt til at kvantificere forskellige aspekter af cellekerner eller væv organisation variabler som "variabeltype" (figur 1 -Teal grøn akse). De tre faktorer var forbundet med cellernes menneskelige kilde og dermed knyttet til "familien" (figur 1 – mørk pink akse) og "alder på tidspunktet for biopsi" (figur 1 – mørk grøn akse) ud over "mutation status." Andre dimensioner, der ikke er medtaget i figur 1 , var "præsentations alder", "Symptomer", "betegnelse" og "køn" for den pågældende person. Eksemplet, der er angivet her, resulterer i mindst ti mulige dimensioner for dataaggregering. Således er dette eksempeldata er en prime kandidat til organisation af relationsdatabaser.

Figure 1
Figur 1: en visualisering af flerdimensionelle data fra lmna -Mutations datasættet. En enkelt kube defineres af de tre dimensioner "variabeltype", "mønster type" og "Coverslip #". Yderligere dimensioner vises som akser for "Mutations status", "alder af biopsi" (yrs) og "familie". Farvede etiketter svarer til de viste forskellige akser, såsom alder af biopsi (grønne tal) for hver enkelt terning. Her anvendes seks af de ti mulige dimensioner til at illustrere de eksperimentelle datapunkternes multidimensionalitet. Venligst klik her for at se en større version af dette tal.

Organisering af rørledningen
Op til en anslået 95% af alle digitale data er ustruktureret4, men strukturerede formater er nødvendige for databaser. Stadig, at skabe en god automatiseret metode til data-pipeline er meget kontekstafhængige.

Figure 2
Figur 2: tabel-og design visnings relationer i lmna -Mutations datasættet. Relationsdatabaser har fordelen ved at sammenkæde felter i én tabel med oplysninger i en anden tabel, hvilket giver mulighed for umiddelbar udskiftelighed af aggregering. Eksemplet her viser visuelt, hvordan forskellige oplysninger kan knyttes sammen. Venligst klik her for at se en større version af dette tal.

I dette eksempel blev de billeder, der blev indsamlet fra hvert eksperiment, gemt i mapper med navnet dato og Initial for det ansvarlige Lab-medlem, med undermapper med angivelse af emne og dækglas-nummer. Pipeline-filer leveres i de supplerende kodnings filersamt opsummeret i en diagram illustration (figur 3). Forskellige målinger fra forskellige eksperimentelle forhold på tværs af en række emner blev kvantificeret fra disse fluorescerende billeder (figur 3a) ved hjælp af brugerdefinerede koder (figur 3B)20,21. For eksempel, actin orienterings Order parameter21 blev udvundet fra væv plettet med phalloidin (figur 3A) og bruges til at sammenligne organiseringen af fibroblaster fra forskellige individer. Kode udgangene blev gemt i samme mappe som kildebillederne (figur 3C).

Figure 3
Figur 3: et eksempel på fælles data-pipeline behov i en generel sammenhæng. Nye poster blev oprettet ved hjælp af brugerinput og automatiserede koder, formatering af vigtige oplysninger i et regnearksformat. Disse poster blev kombineret med det seneste sæt filplacerings poster, kontrolleret for fejl og derefter gemt som både et regneark med filplaceringer og et regneark med dataværdier. Skala bjælke = 20 μm. Klik her for at se en større version af dette tal.

Identifikation af et nyt forhold i Lmna mutation datasæt
Når der gives mange mulige konstellationer, kan det være svært at identificere, hvor nye relationer eksisterer ved hjælp af manuelle data Aggregation metoder. I denne specifikke sammenhæng, vi var interesseret i at sammenligne organiseringen af subcellulære actin filamenter på tværs af flere betingelser, målt ved hjælp af OOP27.

Figure 4
Figur 4: et eksempel på en forespørgsel ved hjælp af SQL-syntaks. Vælg og fra-sætninger er krav for at generere en forespørgsel, men yderligere kommandoer og kriterier er ofte inkluderet. GROUP BY giver en afklaring af, hvordan aggregerede data, at have eller hvor opgørelser begrænser output til data, der opfylder specifikke kriterier, og rækkefølge ved angiver den rækkefølge, som output skal arrangeres af. Venligst klik her for at se en større version af dette tal.

OOP er en matematisk konstruktion, der kvantificerer graden af orden i anisotrope miljøer, normaliseret til nul svarende til fuldstændigt isotropisk væv og et svarende til fuldstændigt justeret væv. Datasættet blev først opdelt efter mønster type som linjer (figur 5A) og isotropisk (figur 5B) betingelser, som blev forventet at have meget forskellige oops siden fibronektin mikromønstring stærkt påvirker væv organisation. Der var ingen signifikante forskelle mellem forholdene ved sammenligning af isotropisk væv (figur 5B). Omvendt var det mønstrede væv statistisk mindre organiseret i den positive kontrol cellelinje (HGPS) (figur 5A), og dette forhold blev holdt, selv når dataene blev aggregeret i forskellige grupper (figur 5C). Actin OOP blev desuden plottet mod enkeltpersoners alder på tidspunktet for biopsi (figur 5D), adskilt af mutation status og familie, for at illustrere aggregering mod en klinisk variabel. I modsætning til nukleare defekter20, er der ingen sammenhæng mellem actin organisation og en persons alder (figur 5D). I sidste ende viser de parceller, der er vist i figur 5 , hvordan de samme data kan analyseres i forskellige kombinationer, og hvor let den normalt vanskelige opgave med at aggregere data, som falder under flere klasser, kan udføres ved hjælp af databaser.

Til denne artikel blev data fra patient fremskaffede fibroblaster sammenlignet mellem betingelserne for at bestemme Mutations konsekvenser. Selv om både HGPS og de tre familier i denne undersøgelse har lmna-relaterede sygdomme, der potentielt forstyrrer den nukleare konvolut, patienterne udviser symptomer primært forbundet med hjerte dysfunktion mens HGPS individer har flere organ systemerpåvirket 22,23,24. På trods af de mikromønstrede miljø celler, der stammer fra en HGPS-patient, havde en statistisk lavere actin OOP-værdi end nogen af de andre cellelinjer, der blev taget i betragtning (figur 5a,C). Dette passer med HGPS-patienter er de eneste i studiet med eventuelle hudabnormaliteter forårsaget af mutationen. Visning af de samme data i forskellige konstellationer er også nyttigt for at give yderligere indsigt og muligheder i videnskabelig undersøgelse i et varieret datasæt (figur 5).

Figure 5
Figur 5: sammenligninger mellem betingelserne for variablen actin OOP. (A,B) grupperinger svarer til de fire primære betingelser: ikke-relaterede negative kontrol donorer, relaterede negative kontrol Kontroller, lmna mutation patienter fra tre familier, og positiv kontrol HGPS. (C) alle negative kontroller (N.C.) blev kombineret, og patienterne blev i stedet adskilt af familie (PA, Pb, PC). (D) en potentiel graf af isotropisk ACTIN OOP mod alder på tidspunktet for biopsi indsamlet for denne undersøgelse, adskilt af tilstand og familie. Paneler A, C og D er afbildet for vævene micromønstrede med et linjemønster, mens panel B er afbildet for isotropisk væv. Statistisk signifikans af p < 0,05 (*) blev fundet i panelerne A, C og D. Der blev ikke fundet nogen betydning mellem par i panel B. Alle fejllinjer repræsenterer standardafvigelser, som er beregnet i databasen. Venligst klik her for at se en større version af dette tal.

Supplerende kodnings filer. Klik venligst her for at se denne fil (Højreklik for at downloade).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Teknisk drøftelse af protokollen
Det første skridt, når man overvejer brugen af databaser, er at evaluere, om dataene ville få gavn af en sådan organisation.

Det næste væsentlige skridt er at skabe en automatiseret kode, der vil bede minimum input fra brugeren og generere tabeldata struktur. I eksemplet har brugeren indtastet kategorien af datatype (cellekerner eller strukturelle målinger), cellelinjer ' emne betegnelse og antal filer, der vælges. De relevante filer blev derefter valgt af brugeren (tabel 2, kolonne 1), og række posterne blev automatisk oprettet og udfyldt med alle variabler indeholdt i filen (tabel 2, kolonne 2). Desuden er det vigtigt, at koden er fleksibel, så brugeren kan vælge at fortsætte løkken, hvis der skal tilføjes en anden eksperimentel indgang. Hvis ikke, gemmes filerne, og Løkken slutter. De grundlæggende funktioner i forbindelse med tilføjelse af nye poster, kontrol af fejl og samling af regnearket fra filplaceringer, der er beskrevet i dette trin, er alle vigtige for en effektiv opsætning af datapipeline.

Det er bydende nødvendigt at bemærke, at bruge filplaceringer, når du opretter data-pipeline øger eksperimentel rigor. Specifikt, at have en tilsvarende regneark notering alle Filplaceringer for dataværdier giver en bruger til at BackTrack ethvert datapunkt tilbage til lab notesbog af forskeren, der indsamlede de rå data. Når det drejer sig om hundredvis af titusinder af datapunkter, er større gennemsigtighed og tilgængelighed uvurderlig i et projekts levetid. Det anbefales stærkt, at brugerne overveje at gemme filplaceringer først og senere kompilere værdier for data i stedet for kun at gemme dataværdierne.

Når databasen er oprettet, er den enkleste måde at komme i gang på ved at programmere forespørgslerne gennem designvisningen. Brugeren vil finde det nyttigt at downloade den medfølgende skabelon (fil #13 i tabel 1) som udgangspunkt. Alternativt kan disse programmeret direkte via SQL Language (figur 4).

Videnskabelig drøftelse
Formålet med denne artikel var at udbrede metoder, der involverer en datapipeline og database, som belyset datasættet skalerbarhed og gennemsigtighed. Disse metoder er ikke almindeligt anvendt uden for Informatik og erhvervslivet, men har et enormt potentiale for dem, der arbejder i biologiske sammenhænge. Da videnskaben fortsat stoler mere på computere, stiger betydningen af effektive ledelsessystemer også6,29. Databaser bruges ofte til høj volumen og/eller høj hastighed applikationer og er godt citeret i litteraturen, især med hensyn til deres brug for kliniske patientpopulationer8,30,31. Flere er allerede blevet konstrueret til specifikke områder såsom rat Genome database kuration Tools eller Redcap for klinisk og Translationel forskning32,33. Derfor er brugen af databaser blevet vedtaget i det kliniske domæne8 eller store genomdata baser32, men er ikke blevet almindelig i andre videnskabelige discipliner såsom vævsteknik.

Spørgsmålene om håndtering af stadig mere komplekse data ved hjælp af regnearksprogrammer har længe været anerkendt i det videnskabelige samfund34. En undersøgelse rapporterede, at omkring 20% af genomisk Journal papirer med supplerende filer havde gennavne, der fejlagtigt blev konverteret til datoer35. Disse fejl steg med gennemsnitligt 15% pr. år fra 2010 til 2015, hvilket er langt større end den årlige stigning i genomforskning-papirerne på 4% om året. Det er ofte næsten umuligt at identificere individuelle fejl inden for en stor mængde data, som i naturen regnearksprogrammer er uegnede til nem validering af resultater eller formelberegninger. Publicerede artikler eksisterer endda for at uddanne videnskabsfolk om bedre regnearks praksis i et forsøg på at reducere hyppigheden af fejl7. En af de stærkeste fordele ved databaser er reduktionen af fejl ved hjælp af automatiserede metoder og evne til at validere potentielt tvivlsomme data (figur 3).

Et væsentligt resultat af denne metode er den øgede stringens af dataanalyse. Betydningen af at øge reproducerbarhed af data er blevet fremhævet af NIH samt af andre videnskabsfolk og institutioner36,37. Ved at have et regneark med filplaceringer, der svarer til alle databaser, er det let at spore et datapunkt tilbage til laboratorie notesbogen i det pågældende eksperiment (figur 3). Individuelle datapunkter kan også hurtigt identificeres og findes elektronisk ved hjælp af de tilsvarende filplaceringer, som til tider er uvurderlige, selv når de kombineres med automatisk fejl screening under datapipeline processen. Selv da datasættet er ændret over tid, bedste praksis indebærer at holde alle tidligere filer i tilfælde problemer opstår eller ældre versioner skal kontrolleres. At arbejde uden at ødelægge og holde gamle versioner i dataledningen skaber sikkerhed gennem redundans og giver mulighed for bedre fejlfinding.

Der findes utallige relationsdatabase styringssystemer i kombination af kodningssprog, der kan bruges til de samme datapipeline behov. De mest hensigtsmæssige valg afhænger i høj grad af de data og den kontekst, der anvendes; nogle programmer udmærker bedst ved skalerbarhed, fleksibilitet, pålidelighed og andre prioriteter9. Selv om databaser stadig er teknisk begrænset i omfang, nå hukommelse grænser forbliver uden for rammerne af de fleste videnskabelige laboratorier. For eksempel, en MS Access database har en hukommelse størrelse grænse på 2 GB, hvilket ville være et datasæt på rækkefølgen af hundredtusinder til millioner af poster, afhængigt af data og antallet af felter. De fleste laboratorier vil aldrig have eksperimentelle behov af denne størrelsesorden, men hvis de gjorde så regneark software ville være langt ud over deres effektive grænser alligevel. Til sammenligning kan Business-level relationelle database management systemer håndtere datasæt af større størrelser, mens behandling af millioner af transaktioner samtidigt29. En del af årsagen databaser er ikke almindeligt anvendt i videnskabelige laboratorier er, at tidligere eksperimenter sjældent Crest behov for sådanne data størrelser, så let at bruge regnearkssoftware blev udbredt i stedet. En væsentlig investering, der kræves for at gøre disse metoder fungerer, er imidlertid den tid, der er nødvendig for at planlægge data-pipeline og lære SQL for brug af databaser (figur 3 og figur 4). Selvom kodning erfaring i høj grad fremskynder processen, de fleste bliver nødt til at lære SQL fra bunden. Et væld af dokumentation er tilgængelig online gennem omfattende dokumentation af udviklere, samt gratis SQL tutorials såsom på Codecademy, W3Schools, og SQLBolt10,11,12. Nogle alternativer, der kræver abonnementer findes dog, såsom programmet undervisning hjemmeside Lynda38; yderligere læse om database Basics kan findes online. I en akademisk indstilling kan gode Lab buy-in og robuste systemer overgå deres skabere og hjælpe med at lette mange års projekter på tværs af flere studerende. Dette kan opnås ved at oprette retningslinjer og implementerings trin under opsætningen. Der er faktisk stor værdi for alle forskere i at have et velfungerende fælles data-pipeline-og databasesystem.

Andre fordele ved denne metode omfatter evnen til at ansætte automatiserede metoder til konvertering af rå data til strukturerede formater, brugervenlighed, når de er lagret i databasen, og konstant re-ajourføring og re-Aggregation af datasæt (figur 3). Det er også muligt at trække flere variabler oplysninger fra en enkelt datafil og automatisere data-pipeline til at gøre det, når du bliver bedt om. I den viste kontekst blev almindeligt tilgængelig og økonomisk software brugt til at opnå resultater, der viste, at dyre og niche softwarepakker ikke er obligatoriske for at opnå en funktionel database. I betragtning af de fleste laboratoriers forsknings fondes begrænsede rækkevidde er evnen til at øge effektiviteten af databasestyringen en uvurderlig råvare.

Som konklusion, da videnskabelige datasæt bliver mere komplekse, databaser bliver stadig vigtigere for det videnskabelige samfund og har et stort potentiale til at være så hverdagskost som og endnu mere effektiv end den nuværende udbredte regneark brug for data Opbevaring. Problemer med data gennemsigtighed og replikabilitet inden for videnskab vil kun fortsætte med at ekspandere i fremtiden, da datasæt fortsat vokser i størrelse og kompleksitet og understreger betydningen af en mere udbredt anvendelse af databaser og automatiserede datapipeline-metoder til generelle videnskabelige behov nu og i fremtiden.

Reference nummer Filnavn Type
1 LocationPointer. m Rørlednings kode
2 LocationPointerCompile. m Rørlednings kode
3 LocationPointer_Remove_Duplicates. m Rørlednings kode
4 BadPointerCheck. m Rørlednings kode
5 LocationPointer_Check. m Rørlednings kode
6 Manual_Pointer_Removal. m Rørlednings kode
7 Database_Generate. m Rørlednings kode
8 Cell_Lines. csv Hjælper tabel
9 Data_Types. csv Hjælper tabel
10 Pattern_Types. csv Hjælper tabel
11 DataLocation_Comp_2018_6_26_10_01. csv Eksempel på data placerings filen
12 DataValues_2018_6_26_10_02. csv Eksempel på data værdiers fil
13 Database_Queries. accdb Eksempeldata base

Tabel 1: liste over alle de eksempelfiler, der kan uploades for at køre protokollen.

Fil markeret Variabel
Resumé. mat Andel af defekte kerner
Alle nuclei område gennemsnit (μm2)
Defekt nuclei område gennemsnit (μm2)
Normal nuclei område gennemsnit (μm2)
Alle nuclei Excentricity gennemsnit
Defekt Nuklei Excentricitetgennem snit
Normal nuclei Excentricity gennemsnit
Alle nuclei MNC gennemsnit
Defekte kerner MNC gennemsnit
Normal nuclei MNC gennemsnit
Act_OOP. mat Actin OOP
Actin OOP instruktør vinkel
Fibro_OOP. mat Fibronectin OOP
Fibronectin OOP instruktør vinkel
Nuc_OOP. mat Nuclei OOP
Nuclei OOP instruktør vinkel

Tabel 2: listet Vælg filer, der svarer til forskellige variabler af enten Cell kerner målinger eller fibroblast strukturelle (OOP) data.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Dette arbejde er støttet af national Heart, Lung, og Blood Institute på National Institutes of Health, Grant nummer R01 HL129008. Forfatterne især takke Lmna gene mutation familiemedlemmer for deres deltagelse i undersøgelsen. Vi vil også gerne takke Linda McCarthy for hendes hjælp med cellekultur og vedligeholde Lab Spaces, nasam chokr for hendes deltagelse i Cell Imaging og kerner data analysis, og Michael A. grosberg for hans relevante råd med at oprette vores første Microsoft Access-database samt besvare andre tekniske spørgsmål.

Materials

Name Company Catalog Number Comments
4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
  11. SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
  12. Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Tags

Bioengineering medium størrelse data databaser LMNA data organisation flerdimensionelle data vævsteknik
Databaser til effektivt at styre mellemstore, lav hastighed, flerdimensionelle data i vævsteknik
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Ochs, A. R., Mehrabi, M., Becker,More

Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter