Mange forskere genererer “mellemstore”, lavhastigheds-og flerdimensionelle data, som kan styres mere effektivt med databaser i stedet for regneark. Her giver vi en konceptuel oversigt over databaser, herunder visualisering af flerdimensionelle data, sammenkædning af tabeller i relationsdatabase strukturer, kortlægning af semi-automatiserede datapipelines og brug af databasen til at belyse data betydning.
Videnskaben er afhængig af stadigt mere komplekse datasæt for fremskridt, men fælles datastyrings metoder som regnearksprogrammer er utilstrækkelige til at gøre disse oplysninger større og mere komplekse. Mens databasestyringssystemer har potentialet til at rette op på disse problemer, udnyttes de ikke normalt uden for forretnings-og informatik felter. Endnu, mange forskningslaboratorier allerede generere “medium størrelse”, lav hastighed, multi-dimensionelle data, der kunne i høj grad drage fordel af gennemførelsen af lignende systemer. I denne artikel giver vi en konceptuel oversigt, der forklarer, hvordan databaser fungerer, og de fordele, de giver i vævsteknik applikationer. Strukturelle fibroblast data fra personer med en Lamin A/C-mutation blev brugt til at illustrere eksempler inden for en bestemt eksperimentel kontekst. Eksempler omfatter visualisering af flerdimensionelle data, sammenkædning af tabeller i en relationsdatabase struktur, tilknytning af en semi-automatiseret datapipeline til konvertering af rå data til strukturerede formater og forklaring af den underliggende syntaks i en forespørgsel. Resultater fra analyse af data blev brugt til at oprette plots af forskellige arrangementer og betydning blev demonstreret i celle organisation i justerede miljøer mellem den positive kontrol af Hutchinson-Gilford Progeria, en velkendt laminopati, og alle andre eksperimentelle grupper. I forhold til regneark, database metoder var enormt tidsbesparende, enkel at bruge, når de er oprettet, tilladt for umiddelbar adgang til originale filplaceringer, og øget data rigor. Som svar på de nationale institutter for sundhed (NIH) vægt på eksperimentel rigor, er det sandsynligt, at mange videnskabelige områder i sidste ende vil vedtage databaser som almindelig praksis på grund af deres stærke evne til effektivt at organisere komplekse data.
I en tid, hvor den videnskabelige udvikling er stærkt drevet af teknologi, er håndteringen af store mængder data blevet en integreret del af forskningen på tværs af alle discipliner. Fremkomsten af nye områder som Computational Biology og genomforskning understreger, hvor kritisk den proaktive udnyttelse af teknologien er blevet. Disse tendenser er sikker på at fortsætte på grund af Moores lov og støt fremskridt opnået fra teknologiske fremskridt1,2. En konsekvens er imidlertid de stigende mængder af genererede data, der overskrider mulighederne i tidligere levedygtige organisationsmetoder. Selv om de fleste akademiske laboratorier har tilstrækkelige beregningsressourcer til håndtering af komplekse datasæt, mangler mange grupper den tekniske ekspertise, som er nødvendig for at konstruere tilpassede systemer, som er velegnede til udvikling af behov3. At have færdigheder til at administrere og opdatere sådanne datasæt er fortsat afgørende for effektiv arbejdsgang og output. Det er vigtigt at slå bro over kløften mellem data og ekspertise for effektivt at håndtere, re-opdatere og analysere et bredt spektrum af mangefacetterede data.
Skalerbarhed er en vigtig overvejelse ved håndtering af store datasæt. Big data, for eksempel, er en blomstrende område af forskning, der indebærer afslørende ny indsigt fra behandling af data karakteriseret ved store mængder, store heterogenitet, og høje satser for generation, såsom lyd og video4,5. Brug af automatiserede metoder til organisering og analyse er obligatorisk for dette felt til passende håndtere torrents af data. Mange tekniske termer, der anvendes i Big data er ikke klart defineret, men, og kan være forvirrende; for eksempel, “høj hastighed” data er ofte forbundet med millioner af nye indgange pr. dag, hvorimod “lav hastighed” data kan kun være hundredvis af indgange om dagen, som i en akademisk Lab indstilling. Selv om der er mange spændende fund endnu at blive opdaget ved hjælp af Big data, de fleste akademiske laboratorier kræver ikke omfanget, magt, og kompleksiteten af sådanne metoder til at behandle deres egne videnskabelige spørgsmål5. Selv om det er ubestrideligt, at videnskabelige data bliver mere og mere komplekse med tid6, mange videnskabsfolk fortsætter med at bruge metoder til organisation, der ikke længere opfylder deres voksende databehov. For eksempel bruges praktiske regnearksprogrammer ofte til at organisere videnskabelige data, men på bekostning af at være uskalerbare, fejl tilbøjelige og tid ineffektive i det lange løb7,8. Omvendt er databaser en effektiv løsning på problemet, da de er skalerbare, relativt billige og nemme at bruge i håndteringen af varierede datasæt af igangværende projekter.
Umiddelbare bekymringer, der opstår, når man overvejer skemaer af data organisation er omkostninger, tilgængelighed og tid investering for uddannelse og brug. Ofte bruges i erhvervslivet indstillinger, databaseprogrammer er mere økonomisk, er enten relativt billige eller gratis, end den finansiering, der kræves for at støtte brugen af Big data-systemer. Faktisk findes der en række af både kommercielt tilgængelige og open source software til oprettelse og vedligeholdelse af databaser, såsom Oracle database, MySQL, og Microsoft (MS) Access9. Mange forskere vil også blive opfordret til at lære, at flere MS Office akademiske pakker kommer med MS Access inkluderet, yderligere minimering af omkostningerne overvejelser. Desuden, næsten alle udviklere levere omfattende dokumentation online, og der er en overflod af gratis online ressourcer såsom Codecademy, W3Schools, og SQLBolt at hjælpe forskerne med at forstå og udnytte strukturerede forespørgselssprog (SQL)10,11,12. Ligesom alle programmeringssprog, lære at bruge databaser og kode ved hjælp af SQL tager tid at mestre, men med de rigelige ressourcer til rådighed processen er ligetil og værd investeret indsats.
Databaser kan være kraftfulde værktøjer til at øge datatilgængelighed og nem sammenlægning, men det er vigtigt at skelne hvilke data ville mest drage fordel af en større kontrol af organisationen. Fler dimensionalitet refererer til antallet af betingelser, som en måling kan grupperes imod, og databaser er mest effektive, når de administrerer mange forskellige betingelser13. Omvendt er oplysninger med lav dimensionalitet enkleste at håndtere ved hjælp af et regnearksprogram; for eksempel har et datasæt, der indeholder år og en værdi for hvert år, kun én mulig gruppering (målinger mod år). Høj dimensionelle data såsom fra kliniske indstillinger ville kræve en stor grad af manuel organisation for effektivt at vedligeholde, en kedelig og fejlbehæftet proces uden for rammerne af regnearksprogrammer13. Ikke-relationelle (NoSQL) databaser også opfylde en række forskellige roller, primært i applikationer, hvor data ikke organisere sig godt i rækker og kolonner14. Ud over at være ofte open source omfatter disse organisationsskemaer grafiske tilknytninger, tidsseriedata eller dokumentbaserede data. NoSQL udmærker sig ved skalerbarhed bedre end SQL, men kan ikke oprette komplekse forespørgsler, så relationsdatabaser er bedre i situationer, der kræver konsistens, standardisering og sjældne dataændringer i stor skala15. Databaser er bedst til effektivt at gruppere og re-opdatere data i den store vifte af konstellationer ofte behov i videnskabelige indstillinger13,16.
Hovedformålet med dette arbejde er derfor at informere det videnskabelige samfund om potentialet i databaser som skalerbare datastyringssystemer for “medium størrelse”, lav hastighed data samt at give en generel skabelon ved hjælp af specifikke eksempler på patient fremskaffede celle-line eksperimenter. Andre lignende anvendelser omfatter geospatiale data af flodsenge, spørgeskemaer fra langsgående kliniske undersøgelser og mikrobielle vækstbetingelser i vækstmedier17,18,19. Dette arbejde underst hæver fælles overvejelser og nytten af at konstruere en database kombineret med en datapipeline, der er nødvendig for at konvertere rå data til strukturerede formater. Grundlæggende oplysninger om database grænseflader og kodning for databaser i SQL leveres og illustreres med eksempler, der giver andre mulighed for at opnå den viden, der gælder for opbygning af grundlæggende rammer. Endelig viser et eksempel på et eksperimentelt datasæt, hvor nemt og effektivt databaser kan designes til at aggregere mangefacetterede data på en række forskellige måder. Disse oplysninger giver kontekst, kommentarer og skabeloner til at hjælpe andre videnskabsfolk på vej mod at implementere databaser til deres egne eksperimentelle behov.
Med henblik på at skabe en skalerbar database i en forskningslaboratorium indstilling, data fra forsøg med humane fibroblast celler blev indsamlet i løbet af de seneste tre år. Den primære fokus for denne protokol er at rapportere om organiseringen af edb-software til at gøre det muligt for brugeren at aggregere, opdatere og administrere data på den mest omkostningseffektive og tidsbesparende måde, men de relevante eksperimentelle metoder leveres samt for Forbindelse.
Eksperimentel opsætning
Forsøgsprotokollen til forberedelse af prøverne er beskrevet tidligere20,21og præsenteres kort her. Konstruktioner blev fremstillet ved spin-coating rektangulære glas dæksedler med en 10:1 blanding af Polydimethylsiloxan (PDMS) og Hærdningsmiddel, derefter anvende 0,05 mg/mL fibronectin, i enten uorganiseret (isotropisk) eller 20 μm linjer med 5 μm Gap mikromønstrede ordninger (linjer). Fibroblast celler blev seedet ved passage 7 (eller passage 16 for positive kontroller) på dæksedlerne ved optimale tætheder og venstre for at vokse til 48 h med medier, der skiftes efter 24 h. Cellerne blev derefter fikseret med 4% PARAFORMALDEHYD (PFA) opløsning og 0,0005% nonioniske overfladeaktive stoffer, efterfulgt af coverglider er immun plettet for cellekerner (4 ‘, 6 ‘-diaminodino-2-phenylinodole [dapi]), actin (Alexa fluor 488 phalloidin), og fibronektin (polycloncal kanin anti-humant fibronektin). En sekundær plet til fibronektin ved hjælp af ged anti-kanin IgG antistoffer (Alexa fluor 750 ged anti-kanin) blev anvendt og konserveringsmiddel blev monteret på alle dæksedler for at forhindre fluorescerende fading. Neglelak blev brugt til at forsegle dæksedler på mikroskop slides derefter overladt til at tørre i 24 h.
Fluorescensbilleder blev opnået som beskrevet tidligere20 ved hjælp af en 40x olie nedsænkning mål kombineret med en digital Charge koblet anordning (CCD) kamera monteret på en inverteret motoriseret mikroskop. Ti tilfældigt udvalgte synsfelter blev inddelt for hver dækglas ved 40x forstørrelse, svarende til en 6,22 pixels/μm opløsning. Custom-skrevne koder blev brugt til at kvantificere forskellige variabler fra de billeder, der beskriver kerner, actin filamenter, og fibronectin; tilsvarende værdier, samt organisations-og geometri parametre, blev automatisk gemt i datafiler.
Cellelinjer
Mere omfattende dokumentation om alle eksempeldata cellelinjer kan findes i tidligere publikationer20. For kortfattet at beskrive, blev dataindsamlingen godkendt og informeret samtykke blev udført i overensstemmelse med UC Irvine institutions revision Board (IRB # 2014-1253). Humane fibroblast celler blev indsamlet fra tre familier af forskellige variationer af Lamin A/C (lmna) genmutation: heterozygot lmna Splice-site mutation (C. 357-2a > G)22 (familie A); Lmna nonsense-mutation (c. 736 c > T, pQ246X) i exon 423 (familie B); og Lmna missense mutation (c. 1003c > T, pR335W) i exon 624 (familie c). Fibroblast celler blev også indsamlet fra andre individer i hver familie som relaterede mutation-negative kontroller, benævnt “kontrol”, og andre blev købt som uafhængige mutation-negative kontrol, benævnt “donorer”. Som en positiv kontrol, fibroblast celler fra en person med Hutchinson-Gliford Progeria (HGPS) blev købt og dyrket fra en hudbiopsi taget fra en 8-årig kvindelig patient med HGPS besidder en Lmna G608G point mutation25. I alt blev fibroblaster fra 22 individer testet og anvendt som data i dette arbejde.
Data typer
Fibroblast data faldt i en af to kategorier: cellekerner variabler (dvs., procentdel af dysmorfe kerner, område af kerner, kerner excentricity)20 eller strukturelle variabler stammer fra orienterings Order parameter (OOP)21,26,27 (dvs., actin oop, fibronektin oop, kerner OOP). Denne parameter er lig med den maksimale eigenværdi af den gennemsnitlige ordre tensor for alle orienterings vektorer, og den er nærmere defineret i tidligere publikationer26,28. Disse værdier samles i en række mulige konstellationer, såsom værdier mod alder, køn, sygdomsstatus, tilstedeværelsen af visse symptomer osv. Eksempler på, hvordan disse variabler bruges, finder du i afsnittet resultater.
Eksempelkoder og filer
Eksempel koderne og andre filer, der er baseret på ovenstående data, kan downloades med dette papir, og deres navne og typer er opsummeret i tabel 1.
Teknisk drøftelse af protokollen
Det første skridt, når man overvejer brugen af databaser, er at evaluere, om dataene ville få gavn af en sådan organisation.
Det næste væsentlige skridt er at skabe en automatiseret kode, der vil bede minimum input fra brugeren og generere tabeldata struktur. I eksemplet har brugeren indtastet kategorien af datatype (cellekerner eller strukturelle målinger), cellelinjer ‘ emne betegnelse og antal filer, der vælges. De relevante file…
The authors have nothing to disclose.
Dette arbejde er støttet af national Heart, Lung, og Blood Institute på National Institutes of Health, Grant nummer R01 HL129008. Forfatterne især takke Lmna gene mutation familiemedlemmer for deres deltagelse i undersøgelsen. Vi vil også gerne takke Linda McCarthy for hendes hjælp med cellekultur og vedligeholde Lab Spaces, nasam chokr for hendes deltagelse i Cell Imaging og kerner data analysis, og Michael A. grosberg for hans relevante råd med at oprette vores første Microsoft Access-database samt besvare andre tekniske spørgsmål.
4',6'-diaminodino-2-phenylinodole (DAPI) | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 488 Phalloidin | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 750 goat anti-rabbit | Life Technologies, Carlsbad, CA | ||
digital CCD camera ORCAR2 C10600-10B | Hamamatsu Photonics, Shizuoka Prefecture, Japan | ||
fibronectin | Corning, Corning, NY | ||
IX-83 inverted motorized microscope | Olympus America, Center Valley, PA | ||
Matlab R2018b | Mathworks, Natick, MA | ||
MS Access | Microsoft, Redmond, WA | ||
paraformaldehyde (PFA) | Fisher Scientific Company, Hanover Park, IL | ||
polycloncal rabbit anti-human fibronectin | Sigma Aldrich Inc., Saint Louis, MO | ||
polydimethylsiloxane (PDMS) | Ellsworth Adhesives, Germantown, WI | ||
Prolong Gold Antifade | Life Technologies, Carlsbad, CA | ||
rectangular glass coverslips | Fisher Scientific Company, Hanover Park, IL | ||
Triton-X | Sigma Aldrich Inc., Saint Louis, MO |