Många forskare genererar “medelstora”, låg hastighet, och flerdimensionella data, som kan hanteras mer effektivt med databaser i stället för kalkylblad. Här ger vi en konceptuell översikt över databaser, inklusive visualisering av flerdimensionella data, länkning av tabeller i relationsdatabas strukturer, mappning av halvautomatiserade datapipelines och användning av databasen för att belysa data innebörd.
Vetenskapen förlitar sig på alltmer komplexa datauppsättningar för framsteg, men vanliga datahanterings metoder som kalkylbladsprogram är otillräckliga för den växande omfattningen och komplexiteten i den här informationen. Även databashanteringssystem har potential att rätta till dessa frågor, de är inte ofta utnyttjas utanför affärs-och informatik fält. Men många forskningslaboratorier redan generera “medelstora”, låg hastighet, flerdimensionella data som kan ha stor nytta av att genomföra liknande system. I den här artikeln ger vi en konceptuell översikt som förklarar hur databaser fungerar och de fördelar de ger i vävnadstekniska tillämpningar. Strukturell fibroblast data från individer med en Lamin A/C-mutation användes för att illustrera exempel inom en viss experimentell kontext. Exempel på detta är att visualisera flerdimensionella data, Länka tabeller i en relationsdatabas struktur, mappa en halvautomatiserad datapipeline för att konvertera rådata till strukturerade format och förklara den underliggande syntaxen för en fråga. Resultat från analys av data användes för att skapa tomter av olika arrangemang och betydelse visades i cell organisation i anpassade miljöer mellan den positiva kontrollen av Hutchinson-Gilford progeri, en välkänd laminopati, och alla andra experimentella grupper. I jämförelse med kalkylblad, databas metoder var enormt tidseffektiv, enkel att använda en gång inrättas, tillåtet för omedelbar tillgång till ursprungliga filplatser, och ökad data noggrannhet. Som svar på National Institutes of Health (NIH) betoning på experimentell stringens, är det troligt att många vetenskapliga områden så småningom kommer att anta databaser som vanlig praxis på grund av deras starka förmåga att effektivt organisera komplexa data.
I en tid där vetenskapliga framsteg är starkt driven av teknik, har hantering av stora mängder data blivit en integrerad aspekt av forskning inom alla discipliner. Framväxten av nya områden som beräkningsbiologi och genomik understryker hur kritisk den proaktiva användningen av teknik har blivit. Dessa trender är säkra på att fortsätta på grund av Moores lag och stadig framsteg som vunnits från tekniska framsteg1,2. En konsekvens är dock den ökande mängden genererade data som överskrider kapaciteten hos tidigare livskraftiga organisationsmetoder. Även om de flesta akademiska laboratorier har tillräckliga beräkningsresurser för att hantera komplexa datamängder, saknar många grupper den tekniska expertis som krävs för att konstruera anpassade system som lämpar sig för utvecklingsbehov3. Att ha kunskaper för att hantera och uppdatera sådana datauppsättningar är fortfarande avgörande för effektivt arbetsflöde och utdata. Att överbrygga klyftan mellan data och expertis är viktigt för att effektivt hantera, uppdatera och analysera ett brett spektrum av mångfacetterade data.
Skalbarhet är en viktig faktor vid hantering av stora datamängder. Big data, till exempel, är ett blomstrande område av forskning som innebär att avslöja nya insikter från bearbetning av data som kännetecknas av stora volymer, stora heterogenitet, och höga nivåer av generation, såsom ljud och video4,5. Använda automatiserade metoder för organisation och analys är obligatoriskt för det här fältet för att hantera dataflöden på rätt sätt. Många tekniska termer som används i stordata är dock inte tydligt definierade och kan vara förvirrande; till exempel associeras “hög hastighet”-data ofta med miljontals nya poster per dag, medan “låg hastighet”-data kanske bara är hundratals poster per dag, till exempel i en akademisk labb inställning. Även om det finns många spännande fynd ännu inte upptäcks med hjälp av Big data, de flesta akademiska laboratorier kräver inte omfattningen, makt, och komplexitet sådana metoder för att ta itu med sina egna vetenskapliga frågor5. Även om det är obestridig att vetenskapliga data blir alltmer komplexa med tiden6, många forskare fortsätter att använda metoder för organisation som inte längre uppfyller deras växande databehov. Till exempel är praktiska kalkylprogram ofta används för att organisera vetenskapliga data, men på bekostnad av att vara oskalbar, felbenägna, och tid ineffektiva på lång sikt7,8. Omvänt är databaser en effektiv lösning på problemet eftersom de är skalbara, relativt billiga och enkla att använda för att hantera olika datauppsättningar av pågående projekt.
Omedelbara problem som uppstår när du överväger scheman för data organisation är kostnad, tillgänglighet och tid investering för utbildning och användning. Ofta används i Företagsinställningar, databasprogram är mer ekonomiska, är antingen relativt billigt eller gratis, än den finansiering som krävs för att stödja användningen av Big datasystem. I själva verket finns en mängd olika både kommersiellt tillgänglig och öppen källkod för att skapa och underhålla databaser, såsom Oracle Database, MySQL och Microsoft (MS) Access9. Många forskare skulle också uppmuntras att lära sig att flera MS Office akademiska paket kommer med MS Access ingår, ytterligare minimera kostnaderna överväganden. Dessutom, nästan alla utvecklare tillhandahåller omfattande dokumentation på nätet och det finns en uppsjö av gratis online-resurser som Codecademy, W3Schools, och SQLBolt att hjälpa forskare att förstå och använda strukturerade Query Language (SQL)10,11,12. Liksom alla programmeringsspråk, lära sig att använda databaser och kod med SQL tar tid att behärska, men med rikliga resurser tillgängliga processen är enkel och väl värt ansträngningen investerat.
Databaser kan vara kraftfulla verktyg för att öka datatillgängligheten och underlätta aggregering, men det är viktigt att urskilja vilka data som mest skulle gynnas av en större kontroll över organisationen. Flerdimensionalitet refererar till antalet villkor som en mätning kan grupperas mot, och databaser är mest kraftfulla vid hantering av många olika villkor13. Omvänt är information med låg dimensionalitet enklast att hantera med hjälp av ett kalkylbladsprogram. till exempel har en datauppsättning som innehåller år och ett värde för varje år endast en möjlig gruppering (mätningar mot år). Hög dimensionella data såsom från kliniska inställningar skulle kräva en stor grad av manuell organisation för att effektivt upprätthålla, en långtråkig och felbenägna process utöver omfattningen av kalkylprogram13. Icke-relationella (NoSQL) databaser uppfyller också en mängd olika roller, främst i program där data inte organiserar väl i rader och kolumner14. Förutom att de ofta är öppen källkod, inkluderar dessa organisationsscheman grafiska associationer, tidsseriedata eller dokumentbaserade data. NoSQL utmärker sig vid skalbarhet bättre än SQL, men kan inte skapa komplexa frågor, så relationsdatabaser är bättre i situationer som kräver konsekvens, standardisering och sällan storskaliga dataändringar15. Databaser är bäst på att effektivt gruppera och uppdatera data i det stora utbudet av konformationer som ofta behövs i vetenskapliga inställningar13,16.
Det huvudsakliga syftet med detta arbete är därför att informera forskarsamfundet om potentialen i databaser som skalbara datahanteringssystem för “medelstora”, låg hastighet data samt att ge en allmän mall med hjälp av specifika exempel på patient inköpta cell-line experiment. Andra liknande tillämpningar omfattar geospatiala data för flodbäddar, enkäter från longitudinella kliniska studier och mikrobiella tillväxtförhållanden i tillväxt medier17,18,19. Detta arbete belyser vanliga överväganden och nytta av att konstruera en databas tillsammans med en data-pipeline som krävs för att omvandla rådata till strukturerade format. Grunderna i Databasgränssnitt och kodning för databaser i SQL tillhandahålls och illustreras med exempel för att låta andra få den kunskap som gäller för att bygga grundläggande ramverk. Slutligen visar en exempel experimentell datauppsättning hur enkelt och effektivt databaser kan utformas för att aggregera mångfacetterade data på flera olika sätt. Denna information ger kontext, kommentarer och mallar för att hjälpa forskare på vägen mot att implementera databaser för sina egna experimentella behov.
För att skapa en skalbar databas i en forsknings laboratoriemiljö samlades data från experiment med humana fibroblastceller under de senaste tre åren. Det primära syftet med detta protokoll är att rapportera om organisationen av programvara för att göra det möjligt för användaren att aggregera, uppdatera och hantera data på det mest kostnads-och tidseffektiva sättet, men de relevanta experimentella metoderna tillhandahålls också för Sammanhang.
Experimentell installation
Experiment protokollet för beredning av prover har beskrivits tidigare20,21, och presenteras kortfattat här. Konstruktioner bereddes genom spinn-beläggning rektangulära glas täckband med en 10:1 blandning av Polydimetylsiloxan (PDMS) och härdningsmedel, sedan tillämpa 0,05 mg/mL fibronectin, i antingen oorganiserade (isotrop) eller 20 μm linjer med 5 μm gap mikromönstrade arrangemang (linjer). Fibroblastceller var seedade vid passage 7 (eller passage 16 för positiva kontroller) på täckglas vid optimala densiteter och vänster för att växa för 48 h med Media ändras efter 24 h. Cellerna fixades sedan med 4% paraformaldehydlösning (PFA) och 0,0005% nonioniskt ytaktivt ämne, följt av täckglas är immunostained för cellkärnor (4 ‘, 6 ‘-diaminodino-2-phenylinodole [DAPI]), aktin (Alexa fluor 488 phalloidin), och Fibronektin (polycloncal kanin anti-human Fibronektin). En sekundär fläck för Fibronektin med get anti-kanin IgG antikroppar (Alexa fluor 750 Goat anti-kanin) tillämpades och bevarande agent var monterad på alla täckglas för att förhindra fluorescerande blekning. Nagellack användes för att försegla täckglas på mikroskopbilder sedan vänster för att torka i 24 h.
Fluorescensbilder erhölls som beskrivits tidigare20 med hjälp av en 40x Oil Immersion mål tillsammans med en digital laddning kopplad enhet (CCD) kamera monterad på ett inverterat motoriserat Mikroskop. Tio slumpmässigt utvalda fält av vyn var avbildas för varje täckslip på 40x förstoring, vilket motsvarar en 6,22 pixlar/μm upplösning. Specialskrivna koder användes för att kvantifiera olika variabler från bilderna som beskriver kärnors, aktin filament och fibronectin; motsvarande värden, samt organisations-och geometri parametrar, sparades automatiskt i datafiler.
Cellinjer
Mer omfattande dokumentation om alla exempeldata cellinjer finns i tidigare publikationer20. För att kortfattat beskriva datainsamlingen godkändes och informerat samtycke utfördes i enlighet med UC Irvine institutionella Review Board (IRB # 2014-1253). Humana fibroblastceller samlades in från tre familjer av olika varianter av Lamin A/C (lmna) genmutation: heterozygot lmna splice-site mutation (C. 357-2a > G)22 (familj A); Lmna nonsenmutation (c. 736 c > T, pQ246X) i exon 423 (familj B); och lmna genom mutation (c. 1003c > T, pR335W) i exon 624 (familj c). Fibroblastceller samlades också in från andra individer i varje familj som relaterade mutation-negativa kontroller, kallad “kontroller”, och andra köptes som icke-närstående mutation-negativa kontroller, kallas “givare”. Som en positiv kontroll, fibroblast celler från en individ med Hutchinson-Gliford progeri (HGPS) köptes och odlas från en hudbiopsi tas från en 8-årig kvinnlig patient med HGPS innehar en Lmna G608G punktmutation25. Totalt har fibroblaster från 22 individer testats och använts som data i detta arbete.
Data typer
Fibroblast data föll i en av två kategorier: cellulära kärnor variabler (dvs, procent av dysmorphic kärnor, område av kärnor, kärnor excentricitet)20 eller strukturella variabler som härrör från vägledare gällande order parameter (OOP)21,26,27 (dvs., aktin OOP, Fibronektin OOP, kärnor OOP). Denna parameter är lika med den maximala egen värdes av medelvärdet för tensor av alla orienterings vektorer, och det definieras i detalj i tidigare publikationer26,28. Dessa värden sammanställs i en mängd olika möjliga konformationer, såsom värden mot ålder, kön, sjukdomsstatus, förekomst av vissa symtom, etc. Exempel på hur dessa variabler används finns i resultat avsnittet.
Exempel koder och filer
Exempel koderna och andra filer baserade på ovanstående data kan laddas ner med detta papper, och deras namn och typer sammanfattas i tabell 1.
Teknisk diskussion om protokollet
Det första steget när man överväger att använda databaser är att utvärdera om data skulle gynnas av en sådan organisation.
Nästa viktiga steg är att skapa en automatiserad kod som kommer att fråga minsta indata från användaren och generera tabelldata struktur. I exemplet angav användaren kategorin data typ (cellkärnor eller strukturella mätningar), cellinjer ämnes beteckning och antal filer som valdes. De relevanta filerna …
The authors have nothing to disclose.
Detta arbete stöds av nationella hjärt-, lung-och blod institutet vid National Institutes of Health, Grant nummer R01 HL129008. Författarna tackar särskilt Lmna genmutation familjemedlemmar för deras deltagande i studien. Vi vill också tacka Linda McCarthy för hennes hjälp med cellkultur och underhålla Lab Spaces, Nasam Chokr för hennes deltagande i cell Imaging och kärnor dataanalys, och Michael A. GROSBERG för hans relevanta råd med att inrätta vår första Microsoft Access-databas samt svara på andra tekniska frågor.
4',6'-diaminodino-2-phenylinodole (DAPI) | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 488 Phalloidin | Life Technologies, Carlsbad, CA | ||
Alexa Fluor 750 goat anti-rabbit | Life Technologies, Carlsbad, CA | ||
digital CCD camera ORCAR2 C10600-10B | Hamamatsu Photonics, Shizuoka Prefecture, Japan | ||
fibronectin | Corning, Corning, NY | ||
IX-83 inverted motorized microscope | Olympus America, Center Valley, PA | ||
Matlab R2018b | Mathworks, Natick, MA | ||
MS Access | Microsoft, Redmond, WA | ||
paraformaldehyde (PFA) | Fisher Scientific Company, Hanover Park, IL | ||
polycloncal rabbit anti-human fibronectin | Sigma Aldrich Inc., Saint Louis, MO | ||
polydimethylsiloxane (PDMS) | Ellsworth Adhesives, Germantown, WI | ||
Prolong Gold Antifade | Life Technologies, Carlsbad, CA | ||
rectangular glass coverslips | Fisher Scientific Company, Hanover Park, IL | ||
Triton-X | Sigma Aldrich Inc., Saint Louis, MO |