Mange forskere genererer “middels store”, lav hastighet og flerdimensjonale data, som kan administreres mer effektivt med databaser i stedet for regneark. Her gir vi en konseptuell oversikt over databaser, inkludert visualisering av flerdimensjonale data, kobling av tabeller i relasjonsdatabase strukturer, tilordning av semi-automatiserte datasamlebånd og bruk av databasen til å belyse data betydning.
Vitenskapen baserer seg på stadig mer komplekse datasett for fremdrift, men vanlige metoder for dataadministrasjon, for eksempelregneark programmer, er utilstrekkelige for å øke omfanget og kompleksiteten i denne informasjonen. Mens database management systemer har potensial til å rette opp disse problemene, er de ikke ofte utnyttet utenfor virksomheten og informatikk felt. Likevel, mange forskningslaboratorier allerede generere “medium sized”, lav hastighet, multi-dimensjonale data som kan ha stor nytte av å implementere lignende systemer. I denne artikkelen gir vi en konseptuell oversikt som forklarer hvordan databaser fungerer og fordelene de gir i vevs tekniske applikasjoner. Strukturelle Fibroblast data fra individer med en Lamin A/C mutasjon ble brukt for å illustrere eksempler innenfor en spesifikk eksperimentell kontekst. Eksempler omfatter visualisering av flerdimensjonale data, kobling av tabeller i en relasjonsdatabase struktur, tilordning av en semi-automatisert datakanal for å konvertere rådata til strukturerte formater og forklare den underliggende syntaksen for en spørring. Resultater fra analysere dataene ble brukt til å lage tomter av ulike ordninger og betydning ble demonstrert i celle organisasjonen i justerte miljøer mellom positiv kontroll av Hutchinson-Gilford progeria, en velkjent laminopathy, og alle andre eksperimentelle grupper. I forhold til regneark, database metoder var enormt tid effektiv, enkel å bruke en gang satt opp, tillatt for umiddelbar tilgang til opprinnelige filen steder, og økt data rigor. Som svar på National Institutes of Health (NIH) vekt på eksperimentell rigor, er det sannsynlig at mange vitenskapelige felt vil etter hvert vedta databaser som vanlig praksis på grunn av deres sterke evne til å effektivt organisere komplekse data.
I en tid hvor vitenskapelig fremgang er tungt drevet av teknologi, har håndtering av store mengder data blitt en integrert fasett av forskning på tvers av alle disipliner. Fremveksten av nye felt som beregningsorientert biologi og Genomics understreker hvor kritisk den proaktive utnyttelse av teknologi har blitt. Disse trendene er sikker på å fortsette på grunn av Moores lov og jevn fremgang fått fra teknologiske fremskritt1,2. En konsekvens, derimot, er stigende mengder av genererte data som overskrider evnene til tidligere levedyktig organisasjon metoder. Selv om de fleste akademiske laboratorier har tilstrekkelige beregningsressurser for håndtering av komplekse datasett, mangler mange grupper den tekniske kompetansen som er nødvendig for å konstruere tilpassede systemer som passer for utviklingsbehov3. Å ha ferdighetene til å administrere og oppdatere slike datasett er fortsatt avgjørende for effektiv arbeidsflyt og produksjon. Å bygge bro over gapet mellom data og ekspertise er viktig for effektiv håndtering, ny oppdatering og analysering av et bredt spekter av mangesidig data.
Skalerbarhet er en viktig faktor når du håndterer store datasett. Big data, for eksempel, er et blomstrende område av forskning som innebærer å avsløre ny innsikt fra behandling av data preget av store volumer, store heterogenitet, og høy forekomst av generasjon, for eksempel lyd og video4,5. Ved hjelp av automatiserte metoder for organisering og analyse er obligatorisk for dette feltet til riktig håndtere torrents av data. Mange tekniske begreper som brukes i store data er ikke klart definert, men og kan være forvirrende; for eksempel, “høy hastighet” data er ofte forbundet med millioner av nye oppføringer per dag mens “lav hastighet” data kan bare hundrevis av oppføringer per dag, for eksempel i en akademisk Lab innstilling. Selv om det er mange spennende funn ennå å bli oppdaget ved hjelp av store data, de fleste akademiske laboratorier ikke krever omfang, makt og kompleksitet slike metoder for å ta opp sine egne vitenskapelige spørsmål5. Mens det er undoubtable at vitenskapelige data vokser stadig mer kompleks med tid6, mange forskere fortsette å bruke metoder for organisering som ikke lenger oppfyller sine utvide databehov. Praktiske regnearkprogrammer brukes for eksempel ofte til å organisere vitenskapelige data, men på bekostning av å være unscalable, utsatt for feil og tid ineffektiv i det lange løp7,8. Omvendt databaser er en effektiv løsning på problemet som de er skalerbare, relativt billig, og enkel å bruke i håndteringen varierte datasett av pågående prosjekter.
Umiddelbare bekymringer som oppstår når du vurderer skjemaer for data organisering er kostnader, tilgjengelighet og tids investering for opplæring og bruk. Ofte brukt i Bedriftsinnstillinger, databaseprogrammer er mer økonomisk, enten relativt billig eller gratis, enn finansieringen som kreves for å støtte bruk av store datasystemer. Faktisk finnes en rekke både kommersielt tilgjengelige og åpen kildekode-programvare for å opprette og vedlikeholde databaser, for eksempel Oracle database, MySQL, og Microsoft (MS) Access9. Mange forskere vil også bli oppmuntret til å lære at flere MS Office akademiske pakker kommer med MS Access inkludert, ytterligere minimere kostnader betraktninger. Videre nesten alle utviklere gir omfattende dokumentasjon på nettet og det er en overflod av gratis online ressurser som Codecademy, W3Schools, og SQLBolt å hjelpe forskerne å forstå og bruke strukturert Query Language (SQL)10,11,12. Som alle programmeringsspråk, lære å bruke databaser og kode ved hjelp av SQL tar tid å mestre, men med rikelig ressurser tilgjengelig prosessen er grei og vel verdt innsatsen investert.
Databaser kan være kraftige verktøy for å øke datatilgjengeligheten og enkelt aggregering, men det er viktig å skjelne hvilke data som vil mest nytte av en større kontroll over organisasjonen. Multi-dimensionality refererer til antall betingelser som en måling kan grupperes mot, og databaser er mektigste når håndtere mange ulike forhold13. I motsatt fall er informasjon med lav dimensionality enklest å håndtere ved hjelp av et regnearkprogram. et datasett som inneholder år og en verdi for hvert år, har for eksempel bare én mulig gruppering (mål mot år). Høy dimensjonal data som fra kliniske innstillinger vil kreve en stor grad av manuell organisasjon for å effektivt opprettholde en kjedelig og feil utsatt prosess utover omfanget av regnearkprogrammer13. Ikke-relasjonsdatabaser (NoSQL) oppfyller også en rekke roller, hovedsakelig i programmer der data ikke organiserer seg godt i rader og kolonner14. I tillegg til å være ofte åpen kildekode, omfatter disse organisatoriske skjemaene grafiske tilknytninger, tidsseriedata eller dokumentbasert data. NoSQL utmerker seg med skalerbarhet bedre enn SQL, men kan ikke opprette komplekse spørringer, slik at relasjonsdatabaser er bedre i situasjoner som krever konsekvens, standardisering og sjeldne data i stor skala, endres15. Databaser er best på effektivt gruppering og re-oppdatering av data i stort utvalg av konformasjonen ofte nødvendig i vitenskapelige innstillinger13,16.
Hovedformålet med dette arbeidet er derfor å informere det vitenskapelige samfunnet om potensialet i databaser som skalerbare data styringssystemer for “medium sized”, lav hastighet data samt å gi en generell mal ved hjelp av konkrete eksempler på pasienten Hentet celle-linje eksperimenter. Andre lignende applikasjoner inkluderer geografiske data av elve senger, spørreskjemaer fra langsgående kliniske studier, og mikrobiell vekstforhold i vekst Media17,18,19. Dette arbeidet fremhever felles hensyn og nytten av å konstruere en database sammen med en data-pipeline som er nødvendig for å konvertere rådata til strukturerte formater. Det grunnleggende om databasegrensesnitt og koding for databaser i SQL er gitt og illustrert med eksempler for å tillate andre å få den kunnskapen som gjelder for å bygge grunnleggende rammer. Til slutt demonstrerer et eksperimentdata sett hvor enkelt og effektivt databaser kan utformes for å samle mangesidig data på en rekke måter. Denne informasjonen gir kontekst, kommentarer og maler for å bistå andre forskere på veien mot å implementere databaser for egne eksperimentelle behov.
For å skape en skalerbar database i et forskningslaboratorium innstilling, data fra eksperimenter ved hjelp av menneskelige Fibroblast celler ble samlet inn de siste tre årene. Hovedfokuset i denne protokollen er å rapportere om organiseringen av dataprogramvare slik at brukeren kan samle, oppdatere og administrere data på en mest mulig kostnads-og tidseffektiv måte, men de relevante eksperimentelle metodene leveres også for Sammenheng.
Eksperimentell oppsett
Den eksperimentelle protokollen for å forberede prøvene har blitt beskrevet tidligere20,21, og blir presentert kort her. Konstruksjoner ble utarbeidet av Spin-coating rektangulære glass coverslips med en 10:1 blanding av Polydimethylsiloxan (PDMS) og herding agent, deretter bruke 0,05 mg/mL fibronektin, i enten uorganisert (isotropic) eller 20 μm linjer med 5 μm gap micropatterned ordninger (linjer). Fibroblast celler ble sådd i passasje 7 (eller passasje 16 for positive kontroller) på coverslips i optimal tetthet og venstre for å vokse for 48 h med Media blir endret etter 24 h. Cellene ble deretter løst ved hjelp av 4% paraformaldehyde (PFA) løsning og 0,0005% ioniske overflateaktivt middel, etterfulgt av coverslips blir immunostained for cellekjerner (4 ‘, 6 ‘-diaminodino-2-phenylinodole [DAPI]), utgangen (Alexa fluor 488 phalloidin), og fibronektin (polycloncal kanin anti-menneskelige fibronektin). En sekundær flekk for fibronektin bruker geit anti-kanin IgG antistoffer (Alexa fluor 750 geit anti-kanin) ble brukt og bevaring agent ble montert på alle coverslips å hindre fluorescerende falming. Neglelakk ble brukt til å forsegle coverslips på mikroskop lysbilder deretter til venstre for å tørke for 24 h.
Fluorescens bilder ble innhentet som beskrevet tidligere20 bruker en 40x olje nedsenking mål kombinert med en digital ladning kombinert enhet (CCD) kamera montert på en invertert motorisert mikroskop. Ti tilfeldig utvalgte felt av visningen ble avbildet for hver dekkglass ved 40x forstørrelse, tilsvarende en 6,22 piksler/μm oppløsning. Custom-skriftlige koder ble brukt til å kvantifisere ulike variabler fra bildene som beskriver kjerner, utgangen filamenter, og fibronektin; tilsvarende verdier, samt organisasjons-og geometri parametre, ble automatisk lagret i datafiler.
Cellelinjer
Mer omfattende dokumentasjon på alle eksempel datacelle linjer finnes i tidligere publikasjoner20. For å beskrive kort, ble datainnsamlingen godkjent og informert samtykke ble utført i samsvar med UC Irvine institusjonelle Review Board (IRB # 2014-1253). Menneskelige Fibroblast celler ble samlet inn fra tre familier av ulike varianter av Lamin A/C (LMNA) genmutasjon: heterozygot LMNA skjøte-site mutasjon (C. 357-2a > G)22 (familie A); LMNA tøv mutasjon (c. 736 c > T, pQ246X) i ekson 423 (familie B); og LMNA missense mutasjon (c. 1003C > T, pR335W) i ekson 624 (familie c). Fibroblast celler ble også samlet inn fra andre individer i hver familie som relatert mutasjon-negative kontroller, referert til som “Controls”, og andre ble kjøpt som urelaterte mutasjon-negative kontroller, referert til som “givere”. Som en positiv kontroll, Fibroblast celler fra en person med Hutchinson-Gliford progeria (HGPS) ble kjøpt og vokst fra en hud biopsi Hentet fra en 8-år gammel kvinnelig pasient med HGPS inneha en LMNA G608G punkt mutasjon25. Totalt ble fibroblaster fra 22 individer testet og brukt som data i dette arbeidet.
Data typer
Fibroblast data falt inn i en av to kategorier: cellulære kjerner variabler (dvs. prosentandel av Dysmorfofobi kjerner, område av kjerner, kjerner valse)20 eller strukturelle variabler som stammer fra orientational rekkefølge parameter (oop) 21,26,27 (dvs. utgangen oop, fibronektin oop, kjerner oop). Denne parameteren er lik maksimums eigenvalue for gjennomsnittlig rekkefølge-tensor for alle orienterings vektorene, og den er definert i detalj i tidligere publikasjoner26,28. Disse verdiene er samlet i en rekke mulige konformasjonen, for eksempel verdier mot alder, kjønn, sykdomsstatus, tilstedeværelse av visse symptomer, etc. Eksempler på hvordan disse variablene brukes, finner du i resultatdelen.
Eksempel koder og-filer
Eksempel kodene og andre filer som er basert på dataene ovenfor, kan lastes ned med dette papiret, og navnene og typene deres oppsummeres i tabell 1.
Teknisk diskusjon av protokollen
Det første trinnet når du vurderer bruk av databaser er å vurdere om dataene vil ha nytte av en slik organisasjon.
Det neste viktige trinnet er å lage en automatisert kode som vil spørre minimum innspill fra brukeren og generere tabellen datastruktur. I eksemplet gikk brukeren inn i kategorien for datatypen (cellekjerner eller strukturelle målinger), subjekt betegnelsen på cellelinjene og antall filer som ble valgt. De relevante filen…
The authors have nothing to disclose.
Dette arbeidet er støttet av National Heart, Lung, og Blood Institute ved National Institutes of Health, gi nummer R01 HL129008. Forfatterne spesielt takke LMNA genet mutasjon familiemedlemmer for deres deltakelse i studien. Vi vil også takke Linda McCarthy for hennes hjelp med cellekultur og vedlikeholde Lab områder, Nasam Chokr for hennes deltakelse i celle Imaging og kjerner dataanalyse, og Michael A. Grosberg for hans relevante råd med å sette opp vår første Microsoft Access database, samt svare på andre tekniske spørsmål.
4',6'-diaminodino-2-phenylinodole (DAPI) | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 488 Phalloidin | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 750 goat anti-rabbit | Life Technologies, Carlsbad, CA | ||
digital CCD camera ORCAR2 C10600-10B | Hamamatsu Photonics, Shizuoka Prefecture, Japan | ||
fibronectin | Corning, Corning, NY | ||
IX-83 inverted motorized microscope | Olympus America, Center Valley, PA | ||
Matlab R2018b | Mathworks, Natick, MA | ||
MS Access | Microsoft, Redmond, WA | ||
paraformaldehyde (PFA) | Fisher Scientific Company, Hanover Park, IL | ||
polycloncal rabbit anti-human fibronectin | Sigma Aldrich Inc., Saint Louis, MO | ||
polydimethylsiloxane (PDMS) | Ellsworth Adhesives, Germantown, WI | ||
Prolong Gold Antifade | Life Technologies, Carlsbad, CA | ||
rectangular glass coverslips | Fisher Scientific Company, Hanover Park, IL | ||
Triton-X | Sigma Aldrich Inc., Saint Louis, MO |