Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

Bancos de dados para gerenciar eficientemente dados multidimensionais de médio porte, baixa velocidade e multidimensional em engenharia de tecidos

Published: November 22, 2019 doi: 10.3791/60038

Summary

Muitos pesquisadores geram dados "de tamanho médio", de baixa velocidade e multidimensionais, que podem ser gerenciados de forma mais eficiente com bancos de dados em vez de planilhas. Aqui fornecemos uma visão conceitual dos bancos de dados, incluindo a visualização de dados multidimensionais, a vinculação de tabelas em estruturas de banco de dados relacionais, o mapeamento de pipelines de dados semiautomatizados e o uso do banco de dados para elucidar o significado dos dados.

Abstract

A ciência depende de conjuntos de dados cada vez mais complexos para o progresso, mas os métodos comuns de gerenciamento de dados, como programas de planilhas, são inadequados para a crescente escala e complexidade dessas informações. Embora os sistemas de gerenciamento de banco de dados tenham o potencial de corrigir esses problemas, eles não são comumente utilizados fora dos campos de negócios e informática. No entanto, muitos laboratórios de pesquisa já geram dados multidimensionais de "tamanho médio", de baixa velocidade que poderiam se beneficiar muito da implementação de sistemas semelhantes. Neste artigo, fornecemos uma visão conceitual explicando como os bancos de dados funcionam e as vantagens que eles fornecem em aplicações de engenharia de tecidos. Os dados estruturais do fibroblasto dos indivíduos com uma mutação do Laminado A/C foram usados para ilustrar exemplos dentro de um contexto experimental específico. Exemplos incluem visualizar dados multidimensionais, vincular tabelas em uma estrutura de banco de dados relacional, mapear um pipeline de dados semiautomatizado para converter dados brutos em formatos estruturados e explicar a sintaxe subjacente de uma consulta. Os resultados da análise dos dados foram usados para criar parcelas de vários arranjos e significado foi demonstrado na organização celular em ambientes alinhados entre o controle positivo da progeria Hutchinson-Gilford, uma laminopatia bem conhecida, e todos os outros grupos experimentais. Em comparação com planilhas, os métodos de banco de dados foram extremamente eficientes em termos de tempo, simples de usar uma vez configurados, permitidos para acesso imediato aos locais de arquivos originais e maior rigor de dados. Em resposta à ênfase dos Institutos Nacionais de Saúde (NIH) no rigor experimental, é provável que muitos campos científicos adotem eventualmente bases de dados como prática comum devido à sua forte capacidade de organizar eficazmente dados complexos.

Introduction

Em uma época em que o progresso científico é fortemente impulsionado pela tecnologia, lidar com grandes quantidades de dados tornou-se uma faceta integrante da pesquisa em todas as disciplinas. O surgimento de novos campos, como biologia computacional e genômica, ressalta a crítica a utilização proativa da tecnologia. Estas tendências são certas continuar devido à lei de Moore e ao progresso constante ganhado dos avanços tecnológicos1,2. Uma consequência, no entanto, é o aumento das quantidades de dados gerados que excedem as capacidades dos métodos de organização anteriormente viáveis. Embora a maioria dos laboratórios acadêmicos tenha recursos computacionais suficientes para lidar com conjuntos de dados complexos, muitos grupos não possuem a experiência técnica necessária para construir sistemas personalizados adequados para o desenvolvimento de necessidades3. Ter as habilidades para gerenciar e atualizar esses conjuntos de dados continua a ser fundamental para um fluxo de trabalho e saída eficientes. Preencher a lacuna entre dados e conhecimentos é importante para lidar, reatualizar e analisar de forma eficiente um amplo espectro de dados multifacetados.

A escalabilidade é uma consideração essencial ao lidar com grandes conjuntos de dados. Big data, por exemplo, é uma área florescente de pesquisa que envolve a revelação de novos insights de processamento de dados caracterizados por grandes volumes, grande heterogeneidade e altas taxas de geração, como áudio e vídeo4,5. O uso de métodos automatizados de organização e análise é obrigatório para que esse campo manuseie adequadamente torrentes de dados. Muitos termos técnicos usados em big data não são claramente definidos, no entanto, e podem ser confusos; por exemplo, os dados de "alta velocidade" são frequentemente associados a milhões de novas entradas por dia, enquanto os dados de "baixa velocidade" podem ser apenas centenas de entradas por dia, como em um ambiente de laboratório acadêmico. Embora existam muitas descobertas interessantes ainda a serem descobertas usando big data, a maioria dos laboratórios acadêmicos não requer o escopo, o poder e a complexidade de tais métodos para abordar suas próprias questões científicas5. Embora seja inquestionável que os dados científicos se aumentem cada vez mais complexos com o tempo6,muitos cientistas continuam a usar métodos de organização que não atendem mais às suas necessidades de dados em expansão. Por exemplo, programas convenientes de planilhas são frequentemente usados para organizar dados científicos, mas à custa de serem incaláveis, propensos a erros e ineficientes de tempo a longo prazo7,8. Por outro lado, os bancos de dados são uma solução eficaz para o problema, pois são escaláveis, relativamente baratos e fáceis de usar no manuseio de conjuntos de dados variados de projetos em andamento.

Preocupações imediatas que surgem quando se considera schemas da organização de dados são custo, acessibilidade e investimento de tempo para treinamento e uso. Frequentemente usados em configurações de negócios, os programas de banco de dados são mais econômicos, sendo relativamente baratos ou gratuitos, do que o financiamento necessário para suportar o uso de sistemas de big data. Na verdade, existe uma variedade de software de código aberto e comercialmente disponível para a criação e manutenção de bancos de dados, como Oracle Database, MySQL e Microsoft (MS) Access9. Muitos investigadores também seriam encorajados a saber que vários pacotes académicos do MS Office vêm com o MS Access incluído, minimizando ainda mais as considerações de custos. Além disso, quase todos os desenvolvedores fornecem documentação extensa on-line e há uma infinidade de recursos on-line gratuitos, como Codecademy, W3Schools e SQLBolt para ajudar os pesquisadores a entender e utilizar linguagem consultada estruturada (SQL)10,11,12. Como qualquer linguagem de programação, aprender a usar bancos de dados e código usando SQL leva tempo para dominar, mas com os amplos recursos disponíveis, o processo é simples e vale a pena o esforço investido.

Os bancos de dados podem ser ferramentas poderosas para aumentar a acessibilidade de dados e a facilidade de agregação, mas é importante discernir quais dados mais se beneficiariam de um maior controle da organização. Multidimensionalidade refere-se ao número de condições que uma medição pode ser agrupada contra, e bancos de dados são mais poderosos ao gerenciar muitas condições diferentes13. Por outro lado, a informação com baixa dimensionalidade é mais simples de lidar com o uso de um programa de planilha; por exemplo, um conjunto de dados contendo anos e um valor para cada ano tem apenas um possível agrupamento (medições contra anos). Dados de alta dimensão, como de configurações clínicas, exigiriam um grande grau de organização manual para manter efetivamente, um processo tedioso e propenso a erros além do escopo dos programas de planilha13. Os bancos de dados não relacionais (NoSQL) também cumprem uma variedade de funções, principalmente em aplicativos onde os dados não se organizam bem em linhas e colunas14. Além de serem frequentemente de código aberto, esses esquemas organizacionais incluem associações gráficas, dados de séries de tempo ou dados baseados em documentos. NoSQL se destaca em escalabilidade melhor do que SQL, mas não pode criar consultas complexas, de modo bancos de dados relacionais são melhores em situações que exigem consistência, padronização e dados em larga escala pouco frequentes muda15. Os bancos de dados são os melhores em agrupar e reatualizar efetivamente os dados para a grande variedade de conformações muitas vezes necessárias em ambientes científicos13,16.

A principal intenção deste trabalho, portanto, é informar a comunidade científica sobre o potencial dos bancos de dados como sistemas escaláveis de gerenciamento de dados para dados de "tamanho médio", de baixa velocidade, bem como fornecer um modelo geral usando exemplos específicos de experimentos de linha celular de origem do paciente. Outras aplicações semelhantes incluem dados geoespaciais de leitos de rios, questionários de estudos clínicos longitudinais e condições de crescimento microbiana na mídia de crescimento17,18,19. Este trabalho destaca considerações comuns e utilidade da construção de um banco de dados juntamente com um pipeline de dados necessário para converter dados brutos em formatos estruturados. Os conceitos básicos de interfaces de banco de dados e codificação para bancos de dados em SQL são fornecidos e ilustrados com exemplos para permitir que outros obtenham o conhecimento aplicável à construção de estruturas básicas. Finalmente, um conjunto de dados experimentais de amostra demonstra a facilidade e eficácia dos bancos de dados para agregar dados multifacetados de várias maneiras. Essas informações fornecem contexto, comentários e modelos para ajudar colegas cientistas no caminho para a implementação de bancos de dados para suas próprias necessidades experimentais.

Para fins de criação de um banco de dados escalável em um ambiente de laboratório de pesquisa, dados de experimentos usando células fibroblastos humanas foram coletados nos últimos três anos. O foco principal deste protocolo é informar sobre a organização do software de computador para permitir que o usuário agregue, atualize e gerencie dados da maneira mais econômica e eficiente quanto ao tempo possível, mas os métodos experimentais relevantes também são fornecidos para Contexto.

Configuração experimental
O protocolo experimental para a preparação de amostras foi descrito anteriormente20,21,e é apresentado brevemente aqui. As construções foram preparadas por revestimentos retangulares de revestimento giratório com uma mistura 10:1 de polidimitilsiloxano (PDMS) e agente de cura, aplicando então 0,05 mg/mL fibronectina, em linhas desorganizadas (isotrópicas) ou 20 μm com arranjos micropadronizados de 5 μm gap (linhas). As células fibroblastas foram semeadas na passagem 7 (ou passagem 16 para controles positivos) para os lábios em densidades ideais e deixadas para crescer por 48 h, com a mídia sendo alterada após 24 h. As células foram então fixadas usando a solução de paraformaldeído (PFA) de 4% e surfactante nonionic de 0,0005%, seguida dos lábios sendo imunossmanizadas para núcleos celulares (4',6'-diaminodino-2-fenilodole [DAPI]), actina (Alexa Fluor 488 phalloidin) e fibronecina (fibronecina policlonco-humano). Uma mancha secundária para fibronectina usando anticorpos IgG anti-coelho de cabra (Alexa Fluor 750 cabra anti-coelho) foi aplicada e agente de preservação foi montado em todos os coverslips para evitar o desbotamento fluorescente. Esmalte foi usado para selar coverslips em lâminas de microscópio, em seguida, deixou para secar por 24 h.

As imagens de fluorescência foram obtidas conforme descrito anteriormente20 usando um objetivo de imersão de óleo 40x juntamente com uma câmera de dispositivo acoplado à carga digital (CCD) montada em um microscópio motorizado invertido. Dez campos de visão selecionados aleatoriamente foram visualizados para cada deslizamento de cobertura em ampliação 40x, correspondendo a uma resolução de 6,22 pixels/μm. Códigos personalizados foram usados para quantificar diferentes variáveis das imagens que descrevem os núcleos, filamentos de actina e fibronectina; Os valores correspondentes, bem como os parâmetros de organização e geometria, foram automaticamente salvos em arquivos de dados.

Linhas celulares
Documentação mais extensa em todas as linhas de células de dados de amostra pode ser encontrada em publicações anteriores20. Para descrever brevemente, a coleta de dados foi aprovada e o consentimento informado foi realizado de acordo com o Conselho de Revisão Institucional da UC Irvine (IRB # 2014-1253). Células fibroblastas humanas foram coletadas de três famílias de diferentes variações da mutação genética lamina A/C (LMNA),mutação do sítio de emenda lmna heterozigêutica LMNA (c.357-2A>G)22 (família A); Mutação sem sentido LMNA (c.736 C>T, pQ246X) em exon 423 (família B); e mutação insensata LMNA (c.1003C>T, pR335W) em exon 624 (família C). As células fibroblastos também foram coletadas de outros indivíduos em cada família como controles relacionados de mutação negativa, referidos como "Controles", e outros foram comprados como controles negativos de mutação não relacionados, referidos como "Doadores". Como um controle positivo, as pilhas do fibroblasto de um indivíduo com progeria de Hutchinson-Gliford (HGPS) foram compradas e crescidas de uma biópsia da pele tomada de um paciente fêmea dos anos de idade 8 com HGPS que possui uma mutação25do ponto de LMNA G608G. No total, os fibroblastos de 22 indivíduos foram testados e utilizados como dados neste trabalho.

Tipos de dados
Os dados do fibroblasto caíram em uma das duas categorias: variáveis de núcleos celulares (ou seja, percentual de núcleos dismórficos, área de núcleos, excentricidade de núcleos)20 ou variáveis estruturais decorrentes do parâmetro de ordem orientacional (OOP)21,26,27 (ou seja, actino, fibronectina OOP, núcleos OOP). Este parâmetro é igual ao eigenvalue máximo do tensor médio da ordem de todos os vetores da orientação, e é definido em detalhe em publicações precedentes26,28. Esses valores são agregados em uma variedade de possíveis conformações, como valores contra idade, sexo, estado da doença, presença de certos sintomas, etc. Exemplos de como essas variáveis são usadas podem ser encontrados na seção de resultados.

Exemplo de códigos e arquivos
Os códigos de exemplo e outros arquivos com base nos dados acima podem ser baixados com este papel, e seus nomes e tipos são resumidos na Tabela 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: Veja a tabela de materiais para as versões de software usadas neste protocolo.

1. Avaliar se os dados se beneficiariam de um esquema de organização de banco de dados

  1. Baixe os códigos de exemplo e bancos de dados (ver Arquivos de Codificação Suplementar,que são resumidos na Tabela 1).
  2. Use a Figura 1 para avaliar se o conjunto de dados de interesse é "multidimensional".
    NOTA: A Figura 1 é uma representação gráfica de um banco de dados multidimensional fornecido para o conjunto de dados de exemplo.
  3. Se os dados puderem ser visualizados de forma "multidimensional", como o exemplo, e se a capacidade de relacionar um resultado experimental específico a qualquer uma das dimensões (ou seja, condições) permitiria uma maior percepção científica sobre os dados disponíveis, prossiga para construir um banco de dados relacional.

2. Organizar a estrutura do banco de dados

NOTA: Bancos de dados relacionais armazenam informações na forma de tabelas. As tabelas são organizadas em esquemas de linhas e colunas, semelhantes às planilhas, e podem ser usadas para vincular informações de identificação no banco de dados.

  1. Organize os arquivos de dados, para que eles tenham pensado bem nomes únicos. As boas práticas com convenções de nomeação de arquivos e estruturas de pasta-pasta, quando bem feitas, permitem a escalabilidade ampla do banco de dados sem comprometer a legibilidade do acesso manualaos arquivos. Adicionar arquivos de data em um formato consistente, como "20XX-YY-ZZ", e subdobradores de nome de acordo com metadados é um exemplo.
  2. À medida que a estrutura de base de dados é projetada, desenhe relações entre os campos em diferentes tabelas. Assim, a multidimensionalidade é tratada relacionando diferentes campos (ou seja, colunas nas tabelas) em tabelas individuais entre si.
  3. Crie documentação de leitura que descreva o banco de dados e as relações que foram criadas na etapa 2.2. Uma vez que uma entrada entre tabelas diferentes é lig, toda a informação associada é relacionada a essa entrada e pode ser usada para chamar consultas complexas para filtrar para baixo à informação desejada.
    NOTA: Os documentos da Readme são uma solução comum para fornecer informações complementares e informações estruturais de banco de dados sobre um projeto sem adicionar dados não uniformes à estrutura.
  4. Seguindo etapas 2.1-2.3, faça o resultado final similar a este exemplo onde as características de deferimento dos indivíduos(figura 2A)são relacionadas aos dados experimentais associados daqueles indivíduos(figura 2B). O mesmo foi feito através de colunas relativas de tipos de padrões(Figura 2C)e tipos de dados(Figura 2D) a entradas correspondentes na tabela de valores de dados principais para explicar várias anotações de taquigrafia ( Figura2B).
  5. Determine todos os pontos de dados essenciais e meramente úteis que precisam ser registrados para coleta de dados de longo alcance.
    NOTA: Uma vantagem fundamental do uso de bancos de dados sobre programas de planilha, como mencionado anteriormente, é a escalabilidade: pontos de dados adicionais podem ser adicionados trivialmente em qualquer ponto e os cálculos, como médias, são instantaneamente atualizados para refletir pontos de dados recém-adicionados.
    1. Identifique as informações necessárias para a criação de pontos de dados distintos antes do início. Deixe os dados brutos intocados, em vez de modificar ou economizar sobre ele, para que a reanálise seja possível e acessível.
      NOTA: Para o exemplo dado (Figura 2), o "Designator" correspondente a um indivíduo, "Tipo padrão", "Coverslip #", e "Tipo variável" foram todos os campos vitais para a distinção do valor associado.
    2. Se desejar, adicione outras informações úteis e não vitais, como o "Total # of Coverslips" para indicar o número de repetições realizadas e ajudar a determinar se os pontos de dados estão faltando neste exemplo.

3. Configurar e organizar o gasoduto

  1. Identifique todos os vários experimentos e métodos de análise de dados que podem levar à coleta de dados, juntamente com as práticas normais de armazenamento de dados para cada tipo de dados. Trabalhe com software de controle de versão de código aberto, como o GitHub, para garantir a consistência e o controle de versão necessários, minimizando a carga do usuário.
  2. Se possível, crie um procedimento para nomear e armazenar dados consistentes para permitir um pipeline automatizado.
    NOTA: No exemplo, as saídas foram todas nomeadas de forma consistente, criando assim um pipeline de dados que procurava atributos específicos era simples uma vez que os arquivos foram selecionados. Se a nomeação consistente não for possível, as tabelas no banco de dados precisarão ser preenchidas manualmente, o que não é recomendado.
  3. Use qualquer linguagem de programação conveniente para gerar novas entradas de dados para o banco de dados.
    1. Crie pequenas tabelas de "ajudantes" (arquivos #8-#10 na Tabela 1)em arquivos separados que podem orientar a seleção automatizada de dados. Esses arquivos servem como um modelo de possibilidades para o pipeline operar e são fáceis de eitar.
    2. Para gerar novas entradas de dados para o pipeline de dados(Figura 3D),programe o código (LocationPointer.m, arquivo #1 na Tabela 1)para usar as tabelas de ajudantes como entradas para serem selecionadas pelo usuário (arquivos #8-#10 na Tabela 1).
    3. A partir daqui, monte uma nova planilha de locais de arquivo, combinando as novas entradas com as entradas anteriores (Figura 3E). Crie um código para automatizar esta etapa, como mostrado no LocationPointerCompile.m (arquivo #2 na Tabela 1).
    4. Posteriormente, verifique esta planilha fundida para duplicatas, que devem ser removidas automaticamente. Criar um código para automatizar esta etapa, como mostrado em LocationPointer_Remove_Duplicates.m (arquivo #3 na Tabela 1).
    5. Além disso, verifique a planilha para erros e notifique o usuário de sua razão e localização(Figura 3F). Crie um código para automatizar esta etapa, como mostrado no BadPointerCheck.m (arquivo #4 na Tabela 1). Alternativamente, escreva um código que verifique o banco de dados compilado e identifique duplicatas em uma etapa, como mostrado em LocationPointer_Check.m (#5 de arquivo na Tabela 1).
    6. Crie um código para permitir que o usuário remova manualmente pontos ruins sem perder a integridade do banco de dados, conforme mostrado em Manual_Pointer_Removal.m (arquivo #6 na Tabela 1).
    7. Em seguida, use os locais do arquivo para gerar uma planilha de valor de dados(Figura 3G,arquivo #12 na Tabela 1),bem como para criar uma lista mais atualizada de entradas que podem ser acessadas para identificar locais de arquivos ou fundidas com entradas futuras ( Figura3H). Criar um código para automatizar esta etapa, como mostrado em Database_Generate.m (arquivo #7 na Tabela 1).
  4. Verifique se o pipeline aumenta o rigor experimental verificando a inclusão de convenções de nomenclatura rigorosas, códigos de montagem de arquivos automatizados e verificações de erro automatizadas como descrito anteriormente.

4. Criar o banco de dados e consultas

NOTA: Se as tabelas armazenam informações em bancos de dados, então as consultas são solicitações ao banco de dados para obter informações dadas critérios específicos. Existem dois métodos para criar o banco de dados: a partir de um documento em branco ou a partir dos arquivos existentes. A figura 4 mostra uma consulta de exemplo usando a sintaxe SQL que é projetada para ser executada usando as relações de banco de dados mostradas na Figura 2.

  1. Método 1: A partir do zero na criação do banco de dados e consultas
    1. Crie um documento de banco de dados em branco.
    2. Carregue as tabelas de ajudantes (arquivos #8-#10 na Tabela 1)selecionando dados externos | Texto Arquivo Importação | Escolha arquivo (arquivos #8-#10) | Delimitada | Primeira fila contém cabeçalhos, Comma | deixar padrão | Escolha minha própria chave primária (designador para #8 de arquivos de linhas celulares, nome variável para #9 de arquivos de tipos de dados, nome pat para #10 de arquivo tipo padrão) | | deixar padrão | Terminar.
    3. Carregue a tabela de valor de dados (#12 de arquivo na Tabela 1)selecionando dados externos | Texto Arquivo Importação | Escolha arquivo (arquivo #12) | Delimitada | Primeira fila contém cabeçalhos, Comma | deixar padrão | Deixe o acesso adicionar a chave primária | Importação à tabela: DataValues | Terminar.
    4. Criar as relações selecionando ferramentas de banco de dados | Relacionamentos | Arraste todas as tabelas para o tabuleiro | Eitie Relacionamentos | Criar novo | Combine os campos datavalue com os projetadores de tabelas de ajudante | Tipo 3 conjunto.
    5. Selecione criar | Projeto de consulta.
    6. Selecione ou arraste todas as tabelas relevantes para a janela superior. Neste exemplo, "Linhas de célula", "valores de dados", "tipos de dados" e "tipo de padrão". As relações devem ser configuradas automaticamente com base no design anterior do Relacionamento.
    7. Preencha as colunas de consulta para os resultados desejados, por exemplo:
      1. Clique no Show | Totais.
      2. Preencha a primeira coluna (Tabela: DataValues, Campo: DataVar, Total: GroupBy, Criteria: "Act_OOP"), a segunda coluna (Tabela: DataValues, Field: PatVar, Total: GroupBy, Criteria: "Lines"), e a terceira coluna (Tabela: Cell_Lines, Campo: Designator, Total: GroupBy, Classificar: Ascendente).
      3. Preencha a quarta coluna (Tabela: DataValues, Campo: Parâmetro, Total: Ave), a quinta coluna (Tabela: DataValues, Campo: Parâmetro, Total: StDev) e a sexta coluna (Tabela: DataValues, Campo: Parâmetro, Total: Contagem).
    8. Executar a consulta.
  2. Alternativamente, use o banco de dados de exemplo fornecido como base para exemplos. Abra o arquivo de banco de dados Database_Queries.accdb (arquivo #13 na Tabela 1)que foi baixado anteriormente. Use-o como modelo, substituindo as tabelas existentes pelos dados de interesse.

5. Mova as tabelas de saída para um software estatístico para análise de significância

  1. Para esta amostra de dados experimentais, use a análise de sentido único da variância (ANOVA) usando o teste de Tukey para comparações médias entre várias condições.
    NOTA: Os valores de p < 0,05 foram considerados estatisticamente significativos.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Multidimensionalidade dos dados
No contexto do exemplo de conjunto de dados apresentado aqui, os sujeitos, descritos na seção Métodos, foram divididos em grupos de indivíduos das três famílias com a mutação lmna causador de doençacardíaca ("Pacientes"), controles negativos não mutacionais relacionados ("Controles), controles negativos não-mutações não relacionados ("Doadores"), e um indivíduo com síndrome de progeria Hutchinson-Gilford (HGPS) como um controle positivo20. Os resultados de Controles e Doadores poderiam ser ainda mais agrupados como um grupo geral de Controle Negativo (N.C.), dada a sua falta coletiva de mutações no LMNA. A linha celular de cada sujeito tinha um "Status de Mutação" associado a ele, com base em seu grupo de condição (Figura 1 - eixo azul escuro). Para cada experimento, as células fibroblastos dos sujeitos eram cultivadas em arranjos de fibronectina desorganizada (Isotrópica) ou micropadronizadas (Linhas), criando a condição de "Tipo padrão" (Figura 1 - eixo laranja). Depois que as células foram fixas, imunosmanchadas e imagem, o "Coverslip #" foi transcrito, uma vez que vários experimentos (ou seja, replicações técnicas) ocorreriam usando as células do mesmo indivíduo (Figura 1 - eixo verde claro). Códigos matlab personalizados20,21 foram então usados para quantificar diferentes aspectos de núcleos celulares ou variáveis de organização de tecidos como "tipo variável" (Figura 1 - eixo verde azul-cerceta). Os três fatores foram associados à fonte humana das células e, consequentemente, ligados ao "Family" (Figura 1 - eixo rosa escuro) e "Idade no momento da biópsia" (Figura 1 - eixo verde escuro), além de "Status de Mutação". Outras dimensões não incluídas na Figura 1 foram a "Era da apresentação", "Sintomas", "Designator" e "Gênero" do indivíduo em questão. O exemplo fornecido aqui resulta em pelo menos dez dimensões possíveis para agregação de dados. Assim, este exemplo de dados é um dos principais candidatos à organização por bancos de dados relacionais.

Figure 1
Figura 1: Uma visualização de dados multidimensionais do conjunto de dados de mutação lmna. Um único cubo é definido pelas três dimensões de "Tipo variável", "tipo padrão" e "Coverslip #". Outras dimensões são mostradas como os eixos de "Status de Mutação", "Idade da biópsia" (anos) e "Família". As etiquetas coloridas correspondem aos eixos diferentes mostrados, tais como a idade da biópsia (números verdes) para o cubo de cada indivíduo. Aqui, seis das dez dimensões possíveis são usadas para ilustrar a multidimensionalidade dos pontos de dados experimentais. Clique aqui para ver uma versão maior deste número.

Organizar o gasoduto
Estima-se que 95% de todos os dados digitais não estejam estruturados4,mas são necessários formatos estruturados para bancos de dados. Ainda assim, a criação de um bom método automatizado para o pipeline de dados é altamente dependente do contexto.

Figure 2
Figura 2: Tabela e design vêem as relações dentro do conjunto de dados de mutação lmna. As bases de dados relacionais têm a vantagem de ligar campos em uma tabela com informações em outra tabela, o que permite a intercambialidade imediata de agregação. O exemplo aqui demonstra visualmente como informações diferentes podem ser vinculadas. Clique aqui para ver uma versão maior deste número.

Para este exemplo, as imagens coletadas de cada experimento foram armazenadas em pastas nomeadas por data e inicial do membro do laboratório responsável, com subpastas listando o assunto e o número de coverslip. Arquivos pipeline são fornecidos nos arquivos de codificação suplementar,bem como resumidos em uma ilustração de fluxograma (Figura 3). Métricas diferentes de várias condições experimentais em uma variedade de sujeitos foram quantificadas a partir dessas imagens fluorescentes (Figura 3A)usando códigos personalizados (Figura 3B)20,21. Por exemplo, o parâmetro de ordem de orientacionalactina 21 foi extraído de tecidos manchados com faloide(Figura 3A)e usado para comparar a organização de fibroblastos de diferentes indivíduos. As saídas de código foram salvas na mesma pasta que as imagens de origem(Figura 3C).

Figure 3
Figura 3: Um exemplo de necessidades comuns de pipeline de dados em um contexto generalizado. Novas entradas foram criadas usando entradas de usuárioe códigos automatizados, formatação de informações importantes em um formato de planilha. Essas entradas foram combinadas com o conjunto mais recente de entradas de localização de arquivos, verificadas se há erros e, em seguida, armazenadas como uma planilha de locais de arquivos e uma planilha de valores de dados. Barra de escala = 20 μm. Por favor, clique aqui para ver uma versão maior deste número.

Identificar uma nova relação no conjunto de dados de mutação do LMNA
Quando dada a infinidade de possíveis conformações, pode ser difícil identificar onde existem novas relações usando métodos de agregação de dados manuais. Neste contexto específico, estávamos interessados em comparar a organização de filamentos de actina subcelular em várias condições, medida suspesse-se pelo OOP27.

Figure 4
Figura 4: Uma consulta de exemplo usando a sintaxe SQL. Selecionar e de declarações são requisitos para gerar uma consulta, mas comandos e critérios adicionais são frequentemente incluídos. O GROUP BY fornece esclarecimentos sobre a agregação dos dados, ter ou onde as declarações limitam a saída a dados que atendam a critérios específicos, e a ORDER BY indica a ordem pela qual os resultados devem ser organizados. Clique aqui para ver uma versão maior deste número.

OOP é uma construção matemática que quantifica o grau de ordem em ambientes anisotrópicos, normalizado a zero correspondente ao tecido completamente isotrópico e um correspondente ao tecido completamente alinhado. O conjunto de dados foi dividido pela primeira vez por tipo de padrão como linhas(Figura 5A)e condições isotrópicas(Figura 5B),que deveriam ter OOPs muito diferentes, uma vez que o micropadrão de fibronectina influencia fortemente a organização do tecido. Não houve diferenças significativas entre as condições ao comparar tecidos isotrópicos (Figura 5B). Por outro lado, os tecidos padronizados foram estatisticamente menos organizados na linha de células de controle positivo (HGPS) (Figura 5A),e essa relação realizada mesmo quando os dados foram agregados em diferentes grupos(Figura 5C). Actin OOP foi adicionalmente traçada contra a idade dos indivíduos no momento da biópsia (Figura 5D), separada pelo status de mutação e família, para ilustrar a agregação contra uma variável clínica. Ao contrário dos defeitos nucleares20,não há correlação entre a organização actin a actina e a idade de um indivíduo (Figura 5D). Em última análise, as parcelas mostradas na Figura 5 ilustram como os mesmos dados podem ser analisados em diferentes combinações e quão facilmente a tarefa normalmente difícil de agregar dados que se enquadram em várias classes pode ser realizada usando bancos de dados.

Para este artigo, os dados dos fibroblastos originados paciente foram comparados entre circunstâncias para determinar conseqüências da mutação. Embora tanto o HGPS quanto as três famílias deste estudo tenham doenças ligadas ao LMNAque potencialmente interrompem o envelope nuclear, os pacientes apresentam sintomas associados principalmente à disfunção cardíaca, enquanto os indivíduos hgps têm múltiplos sistemas de órgãos afetadospor 22,23,24. De fato, apesar das células ambientais micropadronizadas provenientes de um paciente com HGPS terem um valor estatisticamente menor de OOP de actina do que qualquer uma das outras linhas celulares consideradas(Figura 5A,C). Isto encaixa-se com os pacientes de HGPS que são únicos no estudo com todas as anomalias da pele causadas pela mutação. A visualização dos mesmos dados em diferentes conformações também é útil para fornecer informações adicionais e caminhos para a investigação científica em um conjunto de dados variados(Figura 5).

Figure 5
Figura 5: Comparações entre as condições para a variável actin OOP. (A,B) agrupamentos correspondem às quatro condições primárias: doadores de controle negativo não relacionados, controles negativos relacionados, mutação LMNA Pacientes de três famílias e HGPS de controle positivo. (C) todos os controles negativos (Nc) foram combinados e os pacientes foram separados pela família (PA, PB, PC) em vez disso. (D)Um gráfico potencial de ato isotrópico em OOP contra a idade no momento da biópsia coletadopara este estudo, separado por condição e família. Os painéis A, C e D são traçados para os tecidos micromodelados com um padrão de linhas, enquanto o painel B é traçado para tecidos isotrópicos. Significância estatística de p < 0,05 (*) foi encontrada nos painéis A, C e D. Nenhum significado entre os pares foi encontrado no painel B. Todas as barras de erro representam desvios padrão calculados no banco de dados. Clique aqui para ver uma versão maior deste número.

Arquivos de codificação suplementar. Clique aqui para ver este arquivo (Clique certo para baixar).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Discussão técnica do protocolo
O primeiro passo ao considerar o uso de bancos de dados é avaliar se os dados se beneficiariam de tal organização.

O próximo passo essencial é criar um código automatizado que peça a entrada mínima do usuário e gere a estrutura de dados da tabela. No exemplo, o usuário entrou na categoria de tipo de dados (núcleos celulares ou medidas estruturais), designador de sujeitos das linhas celulares e número de arquivos selecionados. Os arquivos relevantes foram então selecionados pelo usuário(Tabela 2,coluna 1), com as entradas de linha sendo automaticamente criadas e povoadas com todas as variáveis contidas no arquivo(Tabela 2,coluna 2). Além disso, é importante que o código seja flexível para que, se outra entrada experimental precisar ser adicionada, o usuário possa selecionar para continuar o loop; se não, os arquivos são salvos e o loop termina. As funções básicas de adicionar novas entradas, verificar erros e montar a planilha dos locais de arquivos descritos nesta etapa são críticas para uma configuração eficiente de pipeline de dados.

É imperativo notar que o uso de locais de arquivos ao criar o pipeline de dados aumenta o rigor experimental. Especificamente, ter uma planilha correspondente listando todos os locais de arquivo para os valores de dados permite que um usuário reaja qualquer ponto de dados de volta para o notebook de laboratório do pesquisador que coletou os dados brutos. Ao lidar com centenas a dezenas de milhares de pontos de dados, uma maior transparência e acessibilidade é inestimável ao longo da vida de um projeto. É altamente recomendado que os usuários considerem salvar locais de arquivos primeiro e depois compilando valores para dados em vez de armazenar apenas os valores dos dados.

Uma vez que o banco de dados é criado, a maneira mais simples de começar é através da programação das consultas através da vista do design. O usuário achará útil baixar o modelo fornecido (arquivo #13 na Tabela 1)como ponto de partida. Alternativamente, estes podem ser programados diretamente através da língua SQL (Figura 4).

Discussão científica
O objetivo deste artigo foi disseminar métodos que envolvem um pipeline de dados e banco de dados que elucidassem a escalabilidade e a transparência do conjunto de dados. Estes métodos não são amplamente utilizados fora da informática e das empresas, mas têm um enorme potencial para aqueles que trabalham em contextos biológicos. Como a ciência continua a depender de computadores mais fortemente, a importância de sistemas de gestão eficazes também sobe6,29. Os bancos de dados são freqüentemente utilizados para aplicações de alto volume e/ou alta velocidade e são bem citados na literatura, especialmente no que diz respeito ao uso de populações de pacientes clínicos8,30,31. Vários já foram construídos para áreas específicas, como as ferramentas de curadoria rat genome database ou REDCap para pesquisa clínica e translacional32,33. Assim, o uso de bancos de dados tem sido adotado no domínio clínico8 ou grandes bancos de dados genômicos32,mas não se tornou comum em outras disciplinas científicas, como engenharia de tecidos.

As questões de lidar com dados cada vez mais complexos usando programas de planilha têm sido reconhecidas dentro da comunidade científica34. Um estudo relatou que cerca de 20% dos artigos de revistas genômicas com arquivos complementares tinham nomes de genes que foram erroneamente convertidos em datas35. Esses erros aumentaram em média 15% ao ano de 2010 a 2015, superando em muito o aumento anual dos papéis genômicos em 4% ao ano. Muitas vezes, é quase impossível identificar erros individuais dentro de um grande volume de dados, já que os programas de planilha por natureza são inadequados para fácil validação de resultados ou cálculos de fórmula. Artigos publicados ainda existem para educar os cientistas sobre melhores práticas de planilha na tentativa de reduzir a freqüência de erros7. Um dos maiores benefícios dos bancos de dados é a redução do erro por meio de métodos automatizados e capacidade de validar dados potencialmente questionáveis (Figura 3).

Um resultado significativo dessa metodologia é o aumento do rigor da análise de dados. A importância de aumentar a reprodutibilidade dos dados tem sido destacada pelo NIH, bem como por outros cientistas e instituições36,37. Por ter uma planilha de locais de arquivo correspondentes a cada banco de dados, é fácil rastrear um ponto de dados de volta para o caderno de laboratório do experimento em questão (Figura 3). Os pontos de dados individuais também podem ser rapidamente identificados e encontrados eletronicamente usando os locais de arquivo correspondentes, o que é inestimável às vezes, mesmo quando combinado com a triagem automática de erros durante o processo de pipeline de dados. Mesmo que o conjunto de dados seja alterado ao longo do tempo, as melhores práticas envolvem manter todos os arquivos passados no caso de problemas ocorrerem ou versões mais antigas precisarem ser verificadas. Trabalhar de forma não destrutiva e manter versões antigas dentro do pipeline de dados cria segurança por meio de redundância e permite uma melhor solução de problemas.

Existem uma miríade de sistemas relacionais de gerenciamento de banco de dados em combinação de linguagens codificadoras que podem ser usadas para as mesmas necessidades de pipeline de dados. As escolhas mais adequadas são altamente dependentes dos dados e do contexto utilizados; algumas aplicações se destacam melhor em escalabilidade, flexibilidade, confiabilidade e outras prioridades9. Embora os bancos de dados ainda sejam tecnicamente finitos em escala, atingir limites de memória permanece além do escopo da maioria dos laboratórios científicos. Por exemplo, um banco de dados ms acesso tem um limite de tamanho de memória de 2 GB, o que seria um conjunto de dados sobre a ordem de centenas de milhares a milhões de entradas, dependendo dos dados e número de campos. A maioria dos laboratórios nunca terá necessidades experimentais dessa magnitude, mas se o fizessem, o software de planilha estaria muito além de seus limites eficazes de qualquer maneira. Em comparação, os sistemas de gerenciamento de banco de dados relacionais em nível de negócios podem lidar com conjuntos de dados de magnitudes maiores enquanto processam milhões de transações simultaneamente29. Parte da razão pela qual os bancos de dados não são comumente usados em laboratórios científicos é que experimentos anteriores raramente alcançam necessidades de tais magnitudes de dados, então o software de planilha fácil de usar se tornou generalizado. Um investimento significativo necessário para fazer esses métodos funcionarem, no entanto, é o tempo necessário para planejar o pipeline de dados e aprender SQL para usar bancos de dados (Figura 3 e Figura 4). Embora a experiência de codificação apresse muito o processo, a maioria precisará aprender SQL a partir do zero. Uma riqueza de documentação está disponível on-line através de extensa documentação por desenvolvedores, bem como tutoriais SQL gratuitos, como em Codecademy, W3Schools e SQLBolt10,11,12. Algumas alternativas que exigem assinaturas existem, no entanto, como o site de ensino do programa Lynda38; mais leitura sobre o básico do banco de dados pode ser encontrada on-line. Em um ambiente acadêmico, a boa adesão de laboratório e sistemas robustos podem durar mais do que seus criadores e ajudar a facilitar muitos anos de projetos em vários alunos. Isso pode ser realizado através da criação de diretrizes e etapas de implementação durante a configuração. Na verdade, há um alto valor para todos os pesquisadores em ter um sistema conjunto de pipeline e banco de dados de dados em bom funcionamento.

Outros benefícios dessa metodologia incluem a capacidade de empregar métodos automatizados para converter dados brutos em formatos estruturados, facilidade de uso uma vez armazenada dentro do banco de dados e constante reatualização e reagregação de conjuntos de dados (Figura 3). Também é possível extrair informações de várias variáveis de um único arquivo de dados e automatizar o pipeline de dados para fazê-lo quando solicitado. No contexto mostrado, o software comumente disponível e econômico foi usado para alcançar resultados demonstrando que pacotes de software caros e de nicho não são obrigatórios para alcançar um banco de dados funcional. Dado o alcance limitado dos fundos de pesquisa da maioria dos laboratórios, a capacidade de aumentar a eficiência da gestão de banco de dados é uma mercadoria inestimável.

Em conclusão, à medida que os conjuntos de dados científicos se tornam mais complexos, os bancos de dados tornam-se cada vez mais importantes para a comunidade científica e têm um grande potencial para serem tão comuns quanto e ainda mais eficazes do que o uso de planilhas generalizadas atuais para dados Armazenamento. Problemas com transparência de dados e reperabilidade na ciência só continuarão a se expandir no futuro, à medida que os conjuntos de dados continuarem a crescer em tamanho e complexidade, destacando a importância de uma adoção mais generalizada de bancos de dados e métodos automatizados de pipeline de dados para necessidades científicas gerais agora e no futuro.

Número de referência Nome do arquivo Tipo
1 LocationPointer.m LocationPointer.m Código da tubulação-linha
2 LocationPointerCompile.m LocationPointerCompile.m Código da tubulação-linha
3 LocationPointer_Remove_Duplicates Código da tubulação-linha
4 BadPointerCheck.m BadPointerCheck.m Código da tubulação-linha
5 LocationPointer_Check Código da tubulação-linha
6 Manual_Pointer_Removal Código da tubulação-linha
7 Database_Generate Código da tubulação-linha
8 Cell_Lines.csv Cell_Lines.csv Tabela do ajudante
9 Data_Types.csv Data_Types.csv Tabela do ajudante
10 Pattern_Types.csv Pattern_Types.csv Tabela do ajudante
11 DataLocation_Comp_2018_6_26_10_01.csv DataLocation_Comp_2018_6_26_10_01.csv Exemplo de arquivo de localização de dados
12 DataValues_2018_6_26_10_02.csv DataValues_2018_6_26_10_02.csv Exemplo de arquivo de valores de dados
13 Database_Queries.accdb Database_Queries.accdb Exemplo de banco de dados

Tabela 1: Lista de todos os arquivos de exemplo que podem ser enviados para executar o protocolo.

Arquivo selecionado Variável
Resumo.mat Proporção de núcleos defeituosos
Média da área de núcleos (μm2)
Média da área de núcleos defeituosos (μm2)
Média normal da área dos núcleos (μm2)
Todos os núcleos excentricidade média
Média de excentricidade de núcleos defeituosos
Média de excentricidade de núcleos normais
Todos os núcleos MNC Média
Núcleos defeituosos MNC Média
Média normal de Núcleos MNC
Act_OOP.mat Actin OOP
Actin OOP Ângulo Diretor
Fibro_OOP.mat Fibronectina OOP
Ângulo do diretor de Fibronectin OOP
Nuc_OOP.mat NúcleoS OOP
Núcleos OOP Diretor Ângulo

Tabela 2: Arquivos selecionados listados que correspondem a diferentes variáveis de medições de núcleos celulares ou dados estruturais de fibroblasto (OOP).

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada a divulgar.

Acknowledgments

Este trabalho é apoiado pelo National Heart, Lung, and Blood Institute no National Institutes of Health, número de subvenção R01 HL129008. Os autores agradecer especialmente os membros da família mutação do gene LMNA por sua participação no estudo. Também gostaríamos de agradecer a Linda McCarthy por sua ajuda com a cultura celular e manutenção dos espaços de laboratório, Nasam Chokr por sua participação em imagens celulares e na análise de dados de núcleos, e Michael A. Grosberg por seu conselho pertinente com a criação de nosso banco de dados inicial do Microsoft Access, bem como responder a outras questões técnicas.

Materials

Name Company Catalog Number Comments
4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
  11. SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
  12. Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Tags

Bioengenharia Edição 153 dados de médio porte bancos de dados LMNA organização de dados dados multidimensionais engenharia de tecidos
Bancos de dados para gerenciar eficientemente dados multidimensionais de médio porte, baixa velocidade e multidimensional em engenharia de tecidos
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Ochs, A. R., Mehrabi, M., Becker,More

Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter