Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

Databaser for å effektivt administrere mellom store, lav hastighet, flerdimensjonale data i vev engineering

Published: November 22, 2019 doi: 10.3791/60038

Summary

Mange forskere genererer "middels store", lav hastighet og flerdimensjonale data, som kan administreres mer effektivt med databaser i stedet for regneark. Her gir vi en konseptuell oversikt over databaser, inkludert visualisering av flerdimensjonale data, kobling av tabeller i relasjonsdatabase strukturer, tilordning av semi-automatiserte datasamlebånd og bruk av databasen til å belyse data betydning.

Abstract

Vitenskapen baserer seg på stadig mer komplekse datasett for fremdrift, men vanlige metoder for dataadministrasjon, for eksempelregneark programmer, er utilstrekkelige for å øke omfanget og kompleksiteten i denne informasjonen. Mens database management systemer har potensial til å rette opp disse problemene, er de ikke ofte utnyttet utenfor virksomheten og informatikk felt. Likevel, mange forskningslaboratorier allerede generere "medium sized", lav hastighet, multi-dimensjonale data som kan ha stor nytte av å implementere lignende systemer. I denne artikkelen gir vi en konseptuell oversikt som forklarer hvordan databaser fungerer og fordelene de gir i vevs tekniske applikasjoner. Strukturelle Fibroblast data fra individer med en Lamin A/C mutasjon ble brukt for å illustrere eksempler innenfor en spesifikk eksperimentell kontekst. Eksempler omfatter visualisering av flerdimensjonale data, kobling av tabeller i en relasjonsdatabase struktur, tilordning av en semi-automatisert datakanal for å konvertere rådata til strukturerte formater og forklare den underliggende syntaksen for en spørring. Resultater fra analysere dataene ble brukt til å lage tomter av ulike ordninger og betydning ble demonstrert i celle organisasjonen i justerte miljøer mellom positiv kontroll av Hutchinson-Gilford progeria, en velkjent laminopathy, og alle andre eksperimentelle grupper. I forhold til regneark, database metoder var enormt tid effektiv, enkel å bruke en gang satt opp, tillatt for umiddelbar tilgang til opprinnelige filen steder, og økt data rigor. Som svar på National Institutes of Health (NIH) vekt på eksperimentell rigor, er det sannsynlig at mange vitenskapelige felt vil etter hvert vedta databaser som vanlig praksis på grunn av deres sterke evne til å effektivt organisere komplekse data.

Introduction

I en tid hvor vitenskapelig fremgang er tungt drevet av teknologi, har håndtering av store mengder data blitt en integrert fasett av forskning på tvers av alle disipliner. Fremveksten av nye felt som beregningsorientert biologi og Genomics understreker hvor kritisk den proaktive utnyttelse av teknologi har blitt. Disse trendene er sikker på å fortsette på grunn av Moores lov og jevn fremgang fått fra teknologiske fremskritt1,2. En konsekvens, derimot, er stigende mengder av genererte data som overskrider evnene til tidligere levedyktig organisasjon metoder. Selv om de fleste akademiske laboratorier har tilstrekkelige beregningsressurser for håndtering av komplekse datasett, mangler mange grupper den tekniske kompetansen som er nødvendig for å konstruere tilpassede systemer som passer for utviklingsbehov3. Å ha ferdighetene til å administrere og oppdatere slike datasett er fortsatt avgjørende for effektiv arbeidsflyt og produksjon. Å bygge bro over gapet mellom data og ekspertise er viktig for effektiv håndtering, ny oppdatering og analysering av et bredt spekter av mangesidig data.

Skalerbarhet er en viktig faktor når du håndterer store datasett. Big data, for eksempel, er et blomstrende område av forskning som innebærer å avsløre ny innsikt fra behandling av data preget av store volumer, store heterogenitet, og høy forekomst av generasjon, for eksempel lyd og video4,5. Ved hjelp av automatiserte metoder for organisering og analyse er obligatorisk for dette feltet til riktig håndtere torrents av data. Mange tekniske begreper som brukes i store data er ikke klart definert, men og kan være forvirrende; for eksempel, "høy hastighet" data er ofte forbundet med millioner av nye oppføringer per dag mens "lav hastighet" data kan bare hundrevis av oppføringer per dag, for eksempel i en akademisk Lab innstilling. Selv om det er mange spennende funn ennå å bli oppdaget ved hjelp av store data, de fleste akademiske laboratorier ikke krever omfang, makt og kompleksitet slike metoder for å ta opp sine egne vitenskapelige spørsmål5. Mens det er undoubtable at vitenskapelige data vokser stadig mer kompleks med tid6, mange forskere fortsette å bruke metoder for organisering som ikke lenger oppfyller sine utvide databehov. Praktiske regnearkprogrammer brukes for eksempel ofte til å organisere vitenskapelige data, men på bekostning av å være unscalable, utsatt for feil og tid ineffektiv i det lange løp7,8. Omvendt databaser er en effektiv løsning på problemet som de er skalerbare, relativt billig, og enkel å bruke i håndteringen varierte datasett av pågående prosjekter.

Umiddelbare bekymringer som oppstår når du vurderer skjemaer for data organisering er kostnader, tilgjengelighet og tids investering for opplæring og bruk. Ofte brukt i Bedriftsinnstillinger, databaseprogrammer er mer økonomisk, enten relativt billig eller gratis, enn finansieringen som kreves for å støtte bruk av store datasystemer. Faktisk finnes en rekke både kommersielt tilgjengelige og åpen kildekode-programvare for å opprette og vedlikeholde databaser, for eksempel Oracle database, MySQL, og Microsoft (MS) Access9. Mange forskere vil også bli oppmuntret til å lære at flere MS Office akademiske pakker kommer med MS Access inkludert, ytterligere minimere kostnader betraktninger. Videre nesten alle utviklere gir omfattende dokumentasjon på nettet og det er en overflod av gratis online ressurser som Codecademy, W3Schools, og SQLBolt å hjelpe forskerne å forstå og bruke strukturert Query Language (SQL)10,11,12. Som alle programmeringsspråk, lære å bruke databaser og kode ved hjelp av SQL tar tid å mestre, men med rikelig ressurser tilgjengelig prosessen er grei og vel verdt innsatsen investert.

Databaser kan være kraftige verktøy for å øke datatilgjengeligheten og enkelt aggregering, men det er viktig å skjelne hvilke data som vil mest nytte av en større kontroll over organisasjonen. Multi-dimensionality refererer til antall betingelser som en måling kan grupperes mot, og databaser er mektigste når håndtere mange ulike forhold13. I motsatt fall er informasjon med lav dimensionality enklest å håndtere ved hjelp av et regnearkprogram. et datasett som inneholder år og en verdi for hvert år, har for eksempel bare én mulig gruppering (mål mot år). Høy dimensjonal data som fra kliniske innstillinger vil kreve en stor grad av manuell organisasjon for å effektivt opprettholde en kjedelig og feil utsatt prosess utover omfanget av regnearkprogrammer13. Ikke-relasjonsdatabaser (NoSQL) oppfyller også en rekke roller, hovedsakelig i programmer der data ikke organiserer seg godt i rader og kolonner14. I tillegg til å være ofte åpen kildekode, omfatter disse organisatoriske skjemaene grafiske tilknytninger, tidsseriedata eller dokumentbasert data. NoSQL utmerker seg med skalerbarhet bedre enn SQL, men kan ikke opprette komplekse spørringer, slik at relasjonsdatabaser er bedre i situasjoner som krever konsekvens, standardisering og sjeldne data i stor skala, endres15. Databaser er best på effektivt gruppering og re-oppdatering av data i stort utvalg av konformasjonen ofte nødvendig i vitenskapelige innstillinger13,16.

Hovedformålet med dette arbeidet er derfor å informere det vitenskapelige samfunnet om potensialet i databaser som skalerbare data styringssystemer for "medium sized", lav hastighet data samt å gi en generell mal ved hjelp av konkrete eksempler på pasienten Hentet celle-linje eksperimenter. Andre lignende applikasjoner inkluderer geografiske data av elve senger, spørreskjemaer fra langsgående kliniske studier, og mikrobiell vekstforhold i vekst Media17,18,19. Dette arbeidet fremhever felles hensyn og nytten av å konstruere en database sammen med en data-pipeline som er nødvendig for å konvertere rådata til strukturerte formater. Det grunnleggende om databasegrensesnitt og koding for databaser i SQL er gitt og illustrert med eksempler for å tillate andre å få den kunnskapen som gjelder for å bygge grunnleggende rammer. Til slutt demonstrerer et eksperimentdata sett hvor enkelt og effektivt databaser kan utformes for å samle mangesidig data på en rekke måter. Denne informasjonen gir kontekst, kommentarer og maler for å bistå andre forskere på veien mot å implementere databaser for egne eksperimentelle behov.

For å skape en skalerbar database i et forskningslaboratorium innstilling, data fra eksperimenter ved hjelp av menneskelige Fibroblast celler ble samlet inn de siste tre årene. Hovedfokuset i denne protokollen er å rapportere om organiseringen av dataprogramvare slik at brukeren kan samle, oppdatere og administrere data på en mest mulig kostnads-og tidseffektiv måte, men de relevante eksperimentelle metodene leveres også for Sammenheng.

Eksperimentell oppsett
Den eksperimentelle protokollen for å forberede prøvene har blitt beskrevet tidligere20,21, og blir presentert kort her. Konstruksjoner ble utarbeidet av Spin-coating rektangulære glass coverslips med en 10:1 blanding av Polydimethylsiloxan (PDMS) og herding agent, deretter bruke 0,05 mg/mL fibronektin, i enten uorganisert (isotropic) eller 20 μm linjer med 5 μm gap micropatterned ordninger (linjer). Fibroblast celler ble sådd i passasje 7 (eller passasje 16 for positive kontroller) på coverslips i optimal tetthet og venstre for å vokse for 48 h med Media blir endret etter 24 h. Cellene ble deretter løst ved hjelp av 4% paraformaldehyde (PFA) løsning og 0,0005% ioniske overflateaktivt middel, etterfulgt av coverslips blir immunostained for cellekjerner (4 ', 6 '-diaminodino-2-phenylinodole [DAPI]), utgangen (Alexa fluor 488 phalloidin), og fibronektin (polycloncal kanin anti-menneskelige fibronektin). En sekundær flekk for fibronektin bruker geit anti-kanin IgG antistoffer (Alexa fluor 750 geit anti-kanin) ble brukt og bevaring agent ble montert på alle coverslips å hindre fluorescerende falming. Neglelakk ble brukt til å forsegle coverslips på mikroskop lysbilder deretter til venstre for å tørke for 24 h.

Fluorescens bilder ble innhentet som beskrevet tidligere20 bruker en 40x olje nedsenking mål kombinert med en digital ladning kombinert enhet (CCD) kamera montert på en invertert motorisert mikroskop. Ti tilfeldig utvalgte felt av visningen ble avbildet for hver dekkglass ved 40x forstørrelse, tilsvarende en 6,22 piksler/μm oppløsning. Custom-skriftlige koder ble brukt til å kvantifisere ulike variabler fra bildene som beskriver kjerner, utgangen filamenter, og fibronektin; tilsvarende verdier, samt organisasjons-og geometri parametre, ble automatisk lagret i datafiler.

Cellelinjer
Mer omfattende dokumentasjon på alle eksempel datacelle linjer finnes i tidligere publikasjoner20. For å beskrive kort, ble datainnsamlingen godkjent og informert samtykke ble utført i samsvar med UC Irvine institusjonelle Review Board (IRB # 2014-1253). Menneskelige Fibroblast celler ble samlet inn fra tre familier av ulike varianter av Lamin A/C (LMNA) genmutasjon: heterozygot LMNA skjøte-site mutasjon (C. 357-2a > G)22 (familie A); LMNA tøv mutasjon (c. 736 c > T, pQ246X) i ekson 423 (familie B); og LMNA missense mutasjon (c. 1003C > T, pR335W) i ekson 624 (familie c). Fibroblast celler ble også samlet inn fra andre individer i hver familie som relatert mutasjon-negative kontroller, referert til som "Controls", og andre ble kjøpt som urelaterte mutasjon-negative kontroller, referert til som "givere". Som en positiv kontroll, Fibroblast celler fra en person med Hutchinson-Gliford progeria (HGPS) ble kjøpt og vokst fra en hud biopsi Hentet fra en 8-år gammel kvinnelig pasient med HGPS inneha en LMNA G608G punkt mutasjon25. Totalt ble fibroblaster fra 22 individer testet og brukt som data i dette arbeidet.

Data typer
Fibroblast data falt inn i en av to kategorier: cellulære kjerner variabler (dvs. prosentandel av Dysmorfofobi kjerner, område av kjerner, kjerner valse)20 eller strukturelle variabler som stammer fra orientational rekkefølge parameter (oop) 21,26,27 (dvs. utgangen oop, fibronektin oop, kjerner oop). Denne parameteren er lik maksimums eigenvalue for gjennomsnittlig rekkefølge-tensor for alle orienterings vektorene, og den er definert i detalj i tidligere publikasjoner26,28. Disse verdiene er samlet i en rekke mulige konformasjonen, for eksempel verdier mot alder, kjønn, sykdomsstatus, tilstedeværelse av visse symptomer, etc. Eksempler på hvordan disse variablene brukes, finner du i resultatdelen.

Eksempel koder og-filer
Eksempel kodene og andre filer som er basert på dataene ovenfor, kan lastes ned med dette papiret, og navnene og typene deres oppsummeres i tabell 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Merk: se tabell over materialer for programvareversjonene som brukes i denne protokollen.

1. vurdere om dataene vil dra nytte av en database organisasjon ordningen

  1. Last ned eksempel kodene og databasene (se Tilleggskode filer, som er oppsummert i tabell 1).
  2. Bruk figur 1 til å evaluere om datasett av interesse er "multi-dimensjonale".
    Merk: figur 1 er en grafisk fremstilling av en multi-dimensjonal database som er gitt for eksempeldatasettet.
  3. Hvis dataene kan bli visualisere i et "multi-dimensjonale" form som eksempel og hvis evnen til å relatere en bestemt eksperimentell utfall til noen av dimensjonene (dvs. forhold) ville tillate større vitenskapelig innsikt i tilgjengelige data, gå videre til konstruere en relasjonsdatabase.

2. organisere databasestrukturen

Merk: relasjonsdatabaser lagrer informasjon i form av tabeller. Tabeller er ordnet i skjema for rader og kolonner, i likhet med regneark, og kan brukes til å koble identifiserende informasjon i databasen.

  1. Organiser datafiler, slik at de har godt gjennomtenkt unike navn. God praksis med filnavn konvensjoner og mappe-undermappe strukturer, når det gjøres bra, tillate bred database skalerbarhet uten å svekke lesbarheten av tilgang til filer manuelt. Legg til dato filer i et konsistent format, for eksempel "20XX-YY-ZZ", og navn undermapper i henhold til metadata er et slikt eksempel.
  2. Når data basestrukturen er utformet, tegner du relasjoner mellom feltene i forskjellige tabeller. Dermed håndteres multi-dimensionality ved å forholde ulike felt (dvs. kolonner i tabellene) i individuelle tabeller til hverandre.
  3. Opprett viktig-dokumentasjonen som beskriver databasen og relasjonene som ble opprettet i trinn 2,2. Når en oppføring mellom forskjellige tabeller er koblet, er all tilknyttet informasjon relatert til denne oppføringen og kan brukes til å kalle komplekse spørringer for å filtrere ned til ønsket informasjon.
    Merk: viktig-dokumenter er en vanlig løsning for å gi tilleggsinformasjon og database struktur informasjon om et prosjekt uten å legge til ikke-ensartede data i strukturen.
  4. Følgende trinn 2.1 − 2.3, gjør sluttresultatet ligner på dette eksempelet der ulike karakteristika for individer (figur 2A) er knyttet til tilknyttede eksperimentelle data for disse individene (figur 2B). Det samme ble gjort gjennom knyttet kolonner av mønster typer (figur 2C) og datatyper (figur 2D) til samsvarende oppføringer i hovedvinduet dataverdier tabellen for å forklare ulike forkortede notater (figur 2B).
  5. Bestem alle de essensielle og bare nyttig datapunkter som må registreres for lang rekkevidde datainnsamling.
    Merk: en viktig fordel med å bruke databaser over regnearkprogrammer, som nevnt tidligere, er skalerbarhet: flere datapunkter kan trivially legges til når som helst og beregninger, for eksempel gjennomsnitt, oppdateres umiddelbart for å gjenspeile nylig tillagte datapunkter.
    1. Identifiser nødvendig informasjon for å opprette distinkte datapunkter før begynnelsen. La rådata være urørt, i stedet for å endre eller lagre over den, slik at reanalysis er mulig og tilgjengelig.
      Merk: for det gitte eksempelet (figur 2), "betegnelse" som tilsvarer en individuell, "mønstertype", "dekkglass #" og "variabeltype" var alle vitale felt for distinctness av den tilknyttede verdien.
    2. Hvis du vil, kan du legge til annen nyttig, ikke-vital informasjon, for eksempel "Totalt antall Coverslips" for å angi antall repetisjoner som utføres, og til å avgjøre om datapunkter mangler i dette eksemplet.

3 definere og organisere rørledningen

  1. Identifiser alle de ulike eksperimentene og dataanalyse metodene som kan føre til datainnsamling sammen med den vanlige datalagrings praksisen for hver datatype. Arbeide med åpen kildekode versjon kontrollprogramvare som GitHub for å sikre nødvendig konsistens og versjonskontroll samtidig minimere bruker byrden.
  2. Hvis det er mulig, oppretter du en prosedyre for konsekvent navngiving og lagring av data for å muliggjøre en automatisert pipeline.
    Merk: i eksempelet var utganger alle konsekvent navngitt, og dermed skape en data-pipeline som så etter bestemte attributter var grei når filene ble valgt. Hvis konsekvent navngiving ikke er mulig, må tabellene i databasen fylles ut manuelt, noe som ikke anbefales.
  3. Bruk et praktisk programmeringsspråk til å generere nye dataoppføringer for databasen.
    1. Opprett små hjelpe tabeller (filer #8 − #10 i tabell 1) i separate filer som kan veilede automatiserte datautvalg. Disse filene tjene som en mal av muligheter for rørledningen til å operere under og er enkle å redigere.
    2. Hvis du vil generere nye dataoppføringer for data rørledningen (Figur 3D), kan du programmere koden (LocationPointer. m, fil #1 i tabell 1) for å bruke hjelpetabellene som innganger som skal velges av brukeren (filer #8 − #10 i tabell 1).
    3. Herfra kan du sette sammen et nytt regneark med filplasseringer ved å kombinere de nye oppføringene med de forrige oppføringene (Figur 3E). Opprett en kode for å automatisere dette trinnet som vist i LocationPointerCompile. m (fil #2 i tabell 1).
    4. Etterpå kontrollerer du dette flettede regnearket for duplikater, som skal fjernes automatisk. Opprett en kode for å automatisere dette trinnet som vist i LocationPointer_Remove_Duplicates. m (fil #3 i tabell 1).
    5. I tillegg kan du se etter feil i regnearket og varsle brukeren om årsaken og plasseringen (Figur 3F). Opprett en kode for å automatisere dette trinnet som vist i BadPointerCheck. m (fil #4 i tabell 1). Alternativt, skrive en koden det vill sjekk det kompilert data bank og identifisere kopierer inne ettall steg idet vist inne LocationPointer_Check. m (arkiv #5 inne bord 1).
    6. Opprett en kode for å la brukeren manuelt fjerne dårlige punkter uten å miste integriteten til databasen som vist i Manual_Pointer_Removal. m (fil #6 i tabell 1).
    7. Deretter bruker du filplasseringene til å generere et dataverdi regneark (Figur 3G, fil #12 i tabell 1) i tillegg til å opprette en mest oppdaterte liste over oppføringer som kan åpnes for å identifisere filplasseringer eller flettes med fremtidige oppføringer (Figur 3H). Opprett en kode for å automatisere dette trinnet som vist i Database_Generate. m (fil #7 i tabell 1).
  4. Dobbeltsjekk at rørledningen legger til eksperimentell rigor ved å sjekke for inkludering av strenge navnekonvensjoner, automatiserte fil montering koder, og automatiserte feil sjekker som tidligere beskrevet.

4. Opprett databasen og spørringene

Merk: Hvis tabeller lagrer informasjon i databaser, er spørringer forespørsler til databasen for informasjon gitt spesifikke kriterier. Det finnes to metoder for å opprette databasen: fra et tomt dokument eller fra de eksisterende filene. Figur 4 viser en eksempel spørring med SQL-syntaks som er utformet for å kjøre ved hjelp av database relasjonene som vises i figur 2.

  1. Metode 1: starte fra grunnen av når du oppretter databasen og spørringene
    1. Opprett et tomt databasedokument.
    2. Last inn hjelpetabellene (filer #8 − #10 i tabell 1) ved å velge eksterne data | Tekst fil import | Velg fil (filer #8 − #10) | Avgrenset | Første rad inneholder overskrifter, komma | La standard | Velg min egen primærnøkkel (betegnelse for cellelinjer fil #8, variabelnavn for data typer fil #9, Pat navn for mønster Type fil #10) | La standard | Finish.
    3. Last inndataverdi tabellen (fil #12 i tabell 1) ved å velge eksterne data | Tekst fil import | Velg fil (fil #12) | Avgrenset | Første rad inneholder overskrifter, komma | La standard | La Access Legg til primærnøkkel | Importer til tabell: DataValues | Finish.
    4. Opprett relasjonene ved å velge database verktøy | Relasjoner | Dra alle bord til tavlen | Redigere relasjoner | Opprett ny | Samsvarer med dataverdi-feltene med hjelpe tabeller betegnelser | Ledd type 3.
    5. Velg Opprett | Spørringsutforming.
    6. Velg eller dra alle relevante tabeller til det øverste vinduet. I dette eksempelet ' Cell Lines ', ' dataverdier ', ' datatyper ', og ' mønster type '. Relasjonene bør automatisk settes opp basert på den forrige Relasjons utformingen.
    7. Fyll ut spørrings kolonnene for ønskede resultater, for eksempel:
      1. Klikk på Vis | Totaler.
      2. Fyll ut den første kolonnen (tabell: DataValues, felt: DataVar, sum: GroupBy, vilkår: "Act_OOP"), den andre kolonnen (tabell: DataValues, felt: PatVar, sum: GroupBy, vilkår: "linjer"), og den tredje kolonnen (tabell: Cell_Lines, felt: betegnelse, sum: GroupBy, Sorter: stigende).
      3. Fyll ut den fjerde kolonnen (tabell: DataValues, felt: parameter, total: Ave), den femte kolonnen (tabell: DataValues, felt: parameter, sum: STDAV), og den sjette kolonnen (tabell: DataValues, felt: parameter, totalt: antall).
    8. Kjør spørringen.
  2. Du kan også bruke den angitte eksempeldatabasen som grunnlag for eksempler. Åpne databasefilen Database_Queries. accdb (fil #13 i tabell 1) som ble lastet ned tidligere. Bruk den som en mal ved å erstatte eksisterende tabeller med dataene av interesse.

5. Flytt produksjonen tabellene til en statistisk programvare for betydning analyse

  1. For denne prøven eksperimentelle data, bruk enveis analyse av varians (ANOVA) bruker Tukey ' s test for gjennomsnittlig sammenligninger mellom ulike forhold.
    Merk: verdier av p < 0,05 ble betraktet som statistisk signifikante.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Multi-dimensionality av data
I sammenheng med eksempeldatasettet som presenteres her, fagene, beskrevet i metoder delen, ble delt inn i grupper av individer fra de tre familiene med hjertesykdom-forårsaker LMNA mutasjon ("pasienter"), relatert ikke-mutasjon negative kontroller ("Controls"), urelaterte ikke-mutasjon negative kontroller ("givere"), og en person med Hutchinson-Gilford progeria syndrom (HGPS) som en positiv kontroll20. Resultater fra kontroller og givere kan bli ytterligere gruppert sammen som en overordnet negativ kontroll (NC) gruppe, gitt deres kollektive mangel på LMNA mutasjoner. Hver gjenstand ' s cellelinje hadde en "mutasjon status" knyttet til den, basert på deres tilstand gruppe (figur 1 -mørk blå akse). For hvert eksperiment, Fibroblast celler fra fagene var kultivert på arrangementer av enten uorganisert (isotropic) eller micropatterned (Lines) fibronektin, skape tilstanden til "mønstertype" (figur 1 -oransje akse). Etter at cellene var faste, immunostained og avbildet, ble "dekkglass #" gjengitt, siden flere eksperimenter (dvs. tekniske replikeres) ville forekomme ved å bruke de samme individuelle cellene (figur 1 – lys grønn akse). Custom MATLAB koder20,21 ble deretter brukt til å kvantifisere ulike aspekter av cellekjerner eller vev organisasjon variabler som "variabeltype" (figur 1 -turkis grønn akse). De tre faktorene ble assosiert med cellenes menneskelige kilde og følgelig knyttet til "Family" (figur 1 -mørk rosa akse) og "alder på tidspunktet for biopsi" (figur 1 – mørk grønn akse) i tillegg til "mutasjon status." Andre dimensjoner som ikke er inkludert i figur 1 var "Age of presentasjon", "symptomer", "betegnelse" og "kjønn" for den aktuelle personen. Eksempelet gitt her resulterer i minst ti mulige dimensjoner for data aggregering. Dermed er dette eksempelet data en førsteklasses kandidat for organisering av relasjonsdatabaser.

Figure 1
Figur 1: en visualisering av multi-dimensjonale data fra LMNA mutasjon datasett. En enkelt kube defineres av de tre dimensjonene "variabeltype", "mønstertype" og "dekkglass #". Ytterligere dimensjoner er vist som aksene av "mutasjon status", "Age of biopsi" (år), og "familie". Fargede etiketter tilsvarer de forskjellige aksene som vises, for eksempel en alder av biopsi (grønne tall) for hver enkelt kube. Her brukes seks av de ti mulige dimensjonene for å illustrere multi-dimensionality av eksperimentelle datapunkter. Vennligst klikk her for å se en større versjon av dette tallet.

Organisering av rørledningen
Opptil Anslagsvis 95% av alle digitale data er ustrukturert4, men strukturerte formater kreves for databaser. Likevel, å skape en god automatisert metode for data-pipeline er svært sammenheng avhengig.

Figure 2
Figur 2: tabell og designvisning relasjoner innenfor LMNA mutasjon datasett. Relasjonsdatabaser har fordelen av å koble felt i én tabell med informasjon i en annen tabell, som gjør det mulig med umiddelbar interchangeability av aggregering. Eksempelet her viser visuelt hvordan ulik informasjon kan knyttes sammen. Vennligst klikk her for å se en større versjon av dette tallet.

I dette eksempelet ble bildene som ble samlet inn fra hvert eksperiment, lagret i mapper navngitt etter dato og innledende av laboratorie medlemmet som var ansvarlig, med undermapper som viser emnet og dekkglass nummer. Pipeline-filer er gitt i supplerende Coding files, samt oppsummert i en flyt diagram illustrasjon (Figur 3). Ulike beregninger fra ulike eksperimentelle forhold på tvers av en rekke emner ble kvantifisert fra disse fluorescerende bilder (Figur 3a) ved hjelp av egendefinerte koder (Figur 3B)20,21. For eksempel utgangen orientational ordre parameter21 ble Hentet fra vev beiset med Phalloidin (Figur 3A) og brukes til å sammenligne organiseringen av fibroblaster fra forskjellige individer. Kode utgangene ble lagret i samme mappe som kildebildene (Figur 3C).

Figure 3
Figur 3: et eksempel på felles data pipeline-behov i en generalisert kontekst. Nye oppføringer ble opprettet ved hjelp av bruker innganger og automatiserte koder, formatering viktig informasjon i et regnearkformat. Disse oppføringene ble kombinert med det siste settet med fil plasserings oppføringer, kontrollert for feil, og deretter lagret som både et regneark med filplasseringer og et regneark med dataverdier. Scale bar = 20 μm. Vennligst klikk her for å se en større versjon av dette tallet.

Identifisere en roman forhold i LMNA mutasjon datasett
Når gitt mangfold av mulige konformasjonen, kan det være vanskelig å identifisere hvor romanen relasjoner eksisterer ved hjelp av manuelle data aggregering metoder. I denne spesifikke konteksten, var vi interessert i å sammenligne organiseringen av subcellulære utgangen filamenter på tvers av flere forhold, målt ved hjelp av OOP27.

Figure 4
Figur 4: en eksempel spørring med SQL-syntaks. SELECT-og FROM-setninger er krav for å generere en spørring, men flere kommandoer og vilkår er ofte inkludert. GROUP BY gir avklaring om hvordan data, HAVING-eller WHERE-setninger begrenser utdataene til data som oppfyller bestemte kriterier, og ORDER BY angir rekkefølgen som utgangene skal ordnes etter. Vennligst klikk her for å se en større versjon av dette tallet.

OOP er en matematisk konstruere kvantifisere graden av orden i Anisotrop miljøer, normalisert til null tilsvarende helt isotropic vev og en tilsvarende helt justert vev. Datasettet ble først delt opp etter mønstertype som linjer (figur 5A) og isotropic (figur 5B) betingelser, som var forventet å ha svært forskjellige OOPs siden fibronektin micropatterning sterkt påvirker vev organisasjonen. Det var ingen vesentlige forskjeller mellom forholdene ved sammenligning av isotropic vev (fig. 5B). Omvendt var det mønstrede vevet statistisk mindre organisert i den positive kontroll cellelinjen (HGPS) (figur 5A), og dette forholdet holdt selv når dataene ble samlet inn i ulike grupper (figur 5C). Utgangen OOP ble i tillegg plottet mot individets alder på tidspunktet for biopsi (figur 5D), adskilt av mutasjon status og familie, for å illustrere aggregering mot en klinisk variabel. I motsetning til kjernefysiske defekter20, er det ingen sammenheng mellom utgangen organisasjon og en persons alder (figur 5D). Til syvende og sist, tomter vist i figur 5 illustrerer hvordan de samme dataene kan analyseres i ulike kombinasjoner og hvor lett den normalt vanskelige oppgaven med å samle data som faller inn under flere klasser kan oppnås ved hjelp av databaser.

For denne artikkelen, data fra pasient Hentet fibroblaster ble sammenlignet mellom vilkår for å bestemme mutasjon konsekvenser. Selv om både HGPS og de tre familiene i denne studien har LMNA-koblede sykdommer som potensielt forstyrrer den kjernefysiske konvolutten, viser pasientene symptomer primært assosiert med hjerte dysfunksjon mens HGPS individer har flere organsystemer berørt22,23,24. Faktisk, til tross for micropatterned miljø celler som stammer fra en HGPS pasient hadde en statistisk lavere utgangen OOP verdi enn noen av de andre cellelinjer vurderes (figur 5a,C). Denne dovetails med HGPS-pasienter er de eneste i studien med eventuelle hudforandringer forårsaket av mutasjonen. Vise de samme dataene i ulike konformasjonen er også nyttig for å gi ytterligere innsikt og muligheter i vitenskapelige undersøkelser i et variert datasett (figur 5).

Figure 5
Figur 5: sammenligninger mellom betingelsene for den utgangen oop-variabelen. (A,B) grupperinger tilsvarer de fire primære betingelsene: ikke-relaterte negative kontroll donorer, relaterte negative kontroll kontroller, LMNA mutasjon pasienter fra tre familier, og positiv kontroll HGPS. (C) alle negative kontroller (NC) ble kombinert og pasientene ble separert av familien (PA, PB, PC) i stedet. (D) en potensiell graf av ISOTROPIC utgangen oop mot alder på tidspunktet for biopsi samlet for denne studien, adskilt av tilstand og familie. Paneler A, C og D er plottet for vev micropatterned med en Lines mønster, mens panel B er plottet for isotropic vev. Statistisk betydning av p < 0,05 (*) ble funnet i paneler A, C og D. Det ble ikke funnet noen betydning mellom parene i panel B. Alle feilfelt representerer standardavvik som er beregnet i databasen. Vennligst klikk her for å se en større versjon av dette tallet.

Supplerende Coding filer. Vennligst klikk her for å se denne filen (Høyreklikk for å laste ned).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Teknisk diskusjon av protokollen
Det første trinnet når du vurderer bruk av databaser er å vurdere om dataene vil ha nytte av en slik organisasjon.

Det neste viktige trinnet er å lage en automatisert kode som vil spørre minimum innspill fra brukeren og generere tabellen datastruktur. I eksemplet gikk brukeren inn i kategorien for datatypen (cellekjerner eller strukturelle målinger), subjekt betegnelsen på cellelinjene og antall filer som ble valgt. De relevante filene ble deretter valgt av brukeren (tabell 2, kolonne 1), med rad oppføringene automatisk opprettet og fylt ut med alle variabler i filen (tabell 2, kolonne 2). Videre er det viktig at koden er fleksibel, slik at hvis en annen eksperimentell oppføring må legges til, kan brukeren velge å fortsette loopen; Hvis ikke, lagres filene og sløyfen avsluttes. De grunnleggende funksjonene for å legge til nye oppføringer, se etter feil og sette sammen regnearket fra filplasseringer som er beskrevet i dette trinnet, er alle kritiske for en effektiv konfigurasjon av datasamlebånd.

Det er viktig å merke seg at bruk av filplasseringer når du oppretter data-pipeline øker eksperimentell rigor. Spesielt å ha et tilsvarende regneark som viser alle filplasseringer for dataverdiene tillater en bruker å Backtrack noen datapunkt tilbake til laboratoriet bærbare av forskeren som samlet rådata. Når du arbeider med hundrevis til titusenvis av datapunkter, er større åpenhet og tilgjengelighet uvurderlig i løpet av levetiden til et prosjekt. Det anbefales på det sterkeste at brukere vurderer å lagre filplasseringer først og senere kompilere verdier for data i stedet for bare å lagre dataverdiene.

Når databasen er opprettet, er den enkleste måten å komme i gang på, å programmere spørringene gjennom utformingsvisningen. Brukeren vil finne det nyttig å laste ned den angitte malen (fil #13 i tabell 1) som utgangspunkt. Alternativt, disse kan programmerte direkte igjennom SQL omgangsspråk (skikkelsen 4).

Vitenskapelig diskusjon
Hensikten med denne artikkelen var å spre metoder som involverer en data-pipeline og database som belyst datasett skalerbarhet og åpenhet. Disse metodene er ikke mye brukt utenfor informatikk og næringsliv, men har enormt potensial for de som arbeider i biologiske sammenhenger. Som vitenskapen fortsetter å stole på datamaskiner mer tungt, viktigheten av effektive styringssystemer også stiger6,29. Databaser brukes ofte for høyt volum og/eller høy hastighet applikasjoner og er godt sitert i litteraturen, spesielt om deres bruk for klinisk pasientpopulasjoner8,30,31. Adskillige ha allerede blitt bygget for spesifikk felter som rotta Genova data bank håndplukking verktøy eller REDCap for klinisk og translational forskning32,33. Dermed har bruken av databaser er vedtatt i det kliniske domenet8 eller store genomisk databaser32, men har ikke blitt vanlig i andre vitenskapelige disipliner som vev engineering.

Spørsmålene om håndtering av stadig mer komplekse data ved hjelp av regnearkprogrammer har lenge vært anerkjent innenfor det vitenskapelige samfunnet34. En studie rapporterte at rundt 20% av genomisk Journal papirer med supplerende filer hadde gen navn som ble feilaktig konvertert til datoer35. Disse feilene økte med et gjennomsnitt på 15% per år fra 2010 til 2015, langt outpacing den årlige økningen av Genomics papirer på 4% per år. Det er ofte nesten umulig å identifisere individuelle feil i et stort volum av data, som av natur regnearkprogrammer er unsuited for enkel validering av resultater eller formelberegninger. Publiserte artikler enda eksisterer for å utdanne forskere på bedre regneark praksis i et forsøk på å redusere hyppigheten av feil7. En av de sterkeste fordelene med databaser er reduksjon av feil gjennom automatiserte metoder og evne til å validere potensielt tvilsomme data (Figur 3).

Et betydelig utfall av denne metodikken er økt rigor av dataanalyse. Viktigheten av å øke reproduserbarhet av data har blitt fremhevet av NIH så vel som av andre forskere og institusjoner36,37. Ved å ha et regneark med filplasseringer som tilsvarer hver database, er det enkelt å spore et datapunkt tilbake til laboratorie notatblokken for det aktuelle eksperimentet (Figur 3). Individuelle datapunkter kan også raskt identifiseres og funnet elektronisk ved hjelp av tilsvarende filplasseringer, som er uvurderlig til tider, selv når kombinert med automatisk feil screening under data-pipeline-prosessen. Selv når datasettet endres over tid, innebærer beste praksis å holde alle tidligere filer i tilfelle det oppstår problemer eller eldre versjoner må sjekkes. Å arbeide ikke-ødeleggende måte og holde gamle versjoner innenfor data forløpet skaper sikkerhet gjennom redundans og gir bedre feilsøking.

Det finnes utallige relasjonsdatabase styringssystemer i kombinasjon av koding språk som kan brukes for samme data-pipeline behov. De mest hensiktsmessige valgene er svært avhengige av dataene og konteksten som brukes. noen programmer Excel best på skalerbarhet, fleksibilitet, pålitelighet og andre prioriteringer9. Selv om databaser er fortsatt teknisk begrenset i skala, nådde minne grenser forblir utenfor omfanget av de fleste vitenskapelige laboratorier. For eksempel har en MS Access-database en minne størrelsesgrense på 2 GB, noe som vil være et datasett på rekkefølgen av hundretusener til millioner av oppføringer avhengig av data og antall felt. De fleste laboratorier vil aldri ha eksperimentelle behov av denne størrelsesorden, men hvis de gjorde da regnearkprogram vare ville være langt utover sine effektive grenser uansett. Til sammenligning kan forretningsnivå relasjonsdatabase behandlingssystemer håndtere datasett med større magnitudes, mens de behandler millioner av transaksjoner samtidig29. En del av grunnen databasene ikke er ofte brukt i vitenskapelige laboratorier er at tidligere eksperimenter sjelden kam behov av slike data magnitudes, så lett-å-bruke regnearkprogram vare ble utbredt i stedet. En betydelig investering som kreves for å gjøre disse metodene funksjon, er imidlertid tiden som trengs for å planlegge data-pipeline og lære SQL for å bruke databaser (Figur 3 og Figur 4). Selv om koding erfaring sterkt fremskynder prosessen, vil de fleste trenger å lære SQL fra bunnen av. Et vell av dokumentasjon er tilgjengelig online gjennom omfattende dokumentasjon av utviklere, samt gratis SQL Tutorials som på Codecademy, W3Schools, og SQLBolt10,11,12. Noen alternativer som krever abonnement finnes imidlertid, slik som programmet undervisning nettstedet Lynda38; Videre lesning om grunnleggende database kan bli funnet på nettet. I en akademisk setting kan gode laboratorie innkjøp og robuste systemer overleve sine skapere og bidra til å forenkle mange års prosjekter på tvers av flere studenter. Dette kan gjøres ved å opprette retningslinjer og implementerings trinn under installasjonen. Det er faktisk høy verdi for alle forskere i å ha en velfungerende joint data-pipeline og database system.

Andre fordeler med denne metodikken inkluderer muligheten til å ansette automatiserte metoder for å konvertere rådata til strukturerte formater, brukervennlighet når de er lagret i databasen, og konstant re-oppdatering og re-aggregering av datasett (Figur 3). Det er også mulig å trekke flere variabler ' verd av informasjon fra en enkelt datafil og automatisere data-pipeline å gjøre det når du blir bedt om. I konteksten som vises, allment tilgjengelig og økonomisk programvare ble brukt til å oppnå resultater demonstrere at dyre og nisje programvarepakker er ikke obligatorisk i å oppnå en funksjonell database. Gitt den begrensede rekkevidden av de fleste laboratorier ' forskningsfond, evnen til å øke effektiviteten av database management er en uvurderlig vare.

I konklusjonen, som vitenskapelige datasett blir mer komplekse, databaser blir stadig mer viktig for det vitenskapelige samfunnet og har stort potensial til å være så vanlig som, og enda mer effektiv enn dagens utbredt regneark bruk for data Lagring. Problemer med data åpenhet og replicability i vitenskapen vil bare fortsette å ekspandere i fremtiden som datasett fortsetter å vokse i størrelse og kompleksitet, fremhever viktigheten av mer utbredt bruk av databaser og automatiserte data-pipeline metoder for generelle vitenskapelige behov nå og i fremtiden.

Referansenummer Filnavn Type
1 LocationPointer. m Pipe-linje kode
2 LocationPointerCompile. m Pipe-linje kode
3 LocationPointer_Remove_Duplicates. m Pipe-linje kode
4 BadPointerCheck. m Pipe-linje kode
5 LocationPointer_Check. m Pipe-linje kode
6 Manual_Pointer_Removal. m Pipe-linje kode
7 Database_Generate. m Pipe-linje kode
8 Cell_Lines. csv Hjelpe tabell
9 Data_Types. csv Hjelpe tabell
10 Pattern_Types. csv Hjelpe tabell
11 DataLocation_Comp_2018_6_26_10_01. csv Eksempel på data lokasjons fil
12 DataValues_2018_6_26_10_02. csv Eksempel på data Values-fil
13 Database_Queries. ACCDB Eksempel database

Tabell 1: liste over alle eksempel filer som kan lastes opp for å kjøre protokollen.

Fil valgt Variabel
Sammendrag. mat Andelen defekte kjerner
Alle kjerner område gjennomsnitt (μm2)
Defekte kjerner området gjennomsnitt (μm2)
Normal kjerner området gjennomsnitt (μm2)
Alle kjerner valse gjennomsnitt
Defekte kjerner valse gjennomsnitt
Normal kjerner valse gjennomsnitt
Alle kjerner MNC gjennomsnitt
Defekte kjerner MNC gjennomsnitt
Normal kjerner MNC gjennomsnitt
Act_OOP. mat Utgangen OOP
Utgangen OOP direktør Angle
Fibro_OOP. mat Fibronektin OOP
Fibronektin OOP direktør Angle
Nuc_OOP. mat Kjerner OOP
Kjerner OOP direktør Angle

Tabell 2: listet opp Velg filer som tilsvarer ulike variabler av enten cellekjerner målinger eller Fibroblast strukturelle (OOP) data.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

Dette arbeidet er støttet av National Heart, Lung, og Blood Institute ved National Institutes of Health, gi nummer R01 HL129008. Forfatterne spesielt takke LMNA genet mutasjon familiemedlemmer for deres deltakelse i studien. Vi vil også takke Linda McCarthy for hennes hjelp med cellekultur og vedlikeholde Lab områder, Nasam Chokr for hennes deltakelse i celle Imaging og kjerner dataanalyse, og Michael A. Grosberg for hans relevante råd med å sette opp vår første Microsoft Access database, samt svare på andre tekniske spørsmål.

Materials

Name Company Catalog Number Comments
4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
  11. SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
  12. Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Tags

Bioteknologi mellom store data databaser LMNA data organisering flerdimensjonale data vev engineering
Databaser for å effektivt administrere mellom store, lav hastighet, flerdimensjonale data i vev engineering
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Ochs, A. R., Mehrabi, M., Becker,More

Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter