Bioengineering

조직 공학에서 중간 크기의 저속, 다차원 데이터를 효율적으로 관리하는 데이터베이스

Published: November 22, 2019 doi: 10.3791/60038

Alexander R. Ochs^1,2, Mehrsa Mehrabi^1,2, Danielle Becker^1,2, Mira N. Asad^1,2, Jing Zhao^1,2, Michael V. Zaragoza^3,4, Anna Grosberg^1,2,5,6,7

¹Department of Biomedical Engineering, University of California, Irvine, ²The Edwards Lifesciences Center for Advanced Cardiovascular Technology, University of California, Irvine, ³Pediatrics-Genetics & Genomics Division-School of Medicine, University of California, Irvine, ⁴Biological Chemistry-School of Medicine, University of California, Irvine, ⁵Department of Chemical and Biomolecular Engineering, University of California, Irvine, ⁶Center for Complex Biological Systems, University of California, Irvine, ⁷The NSF-Simons Center for Multiscale Cell Fate Research (CMCF), University of California, Irvine

Summary

많은 연구자들은 스프레드시트가 아닌 데이터베이스로 보다 효율적으로 관리할 수 있는 "중간 크기", 저속 및 다차원 데이터를 생성합니다. 여기서는 다차원 데이터 시각화, 관계형 데이터베이스 구조의 테이블 연결, 반자동 데이터 파이프라인 매핑, 데이터베이스 사용 등 데이터베이스의 개념적 개요를 제공하여 데이터 의미를 설명합니다.

Abstract

과학은 진행을 위해 점점 더 복잡한 데이터 세트에 의존하지만 스프레드시트 프로그램과 같은 일반적인 데이터 관리 방법은 이 정보의 규모와 복잡성이 증가하는 데 는 부적절합니다. 데이터베이스 관리 시스템은 이러한 문제를 해결할 수 있지만 일반적으로 비즈니스 및 정보학 분야 외부에서는 사용되지 않습니다. 그러나 많은 연구 실에서는 이미 유사한 시스템을 구현하면 큰 이점을 얻을 수 있는 "중간 크기", 저속, 다차원 데이터를 생성합니다. 이 문서에서는 데이터베이스가 어떻게 작동하는지 설명하고 조직 공학 응용 프로그램에서 제공하는 이점을 설명하는 개념적 개요를 제공합니다. 라메 A/C 돌연변이를 가진 개별에게서 구조섬유아세포 데이터는 특정 실험 문맥 내의 보기를 설명하기 위하여 이용되었습니다. 예를 들어 다차원 데이터 시각화, 관계형 데이터베이스 구조의 테이블 연결, 원시 데이터를 구조화 된 형식으로 변환하는 반자동 데이터 파이프라인 매핑, 쿼리의 기본 구문 설명 등이 있습니다. 데이터를 분석한 결과, 허친슨-길포드 프로게리아, 잘 알려진 laminopathy 및 기타 모든 실험 군 사이의 정렬된 환경에서 세포 조직에서 다양한 배열및 중요성의 플롯을 생성하는 데 사용되었다. 스프레드시트와 비교하여 데이터베이스 메서드는 매우 시간 효율적이고, 한 번 설정하면 사용하기 쉽고, 원본 파일 위치에 즉시 액세스할 수 있으며, 데이터 엄격성도 향상되었습니다. 국립 보건원 (NIH)이 실험적 엄격함을 강조함에 따라 많은 과학 분야가 복잡한 데이터를 효과적으로 구성 할 수있는 강력한 능력으로 인해 결국 데이터베이스를 일반적인 관행으로 채택 할 가능성이 높습니다.

Introduction

과학적 진보가 기술에 의해 크게 좌우되는 시대에, 많은 양의 데이터를 처리하는 것은 모든 분야에서 연구의 필수적인 측면이되었습니다. 전산 생물학 및 유전체학과 같은 새로운 분야의 출현은 기술의 사전 활용이 얼마나 중요한지 강조합니다. 이러한 경향은 무어의 법칙과 기술^발전1,^2에서얻은 꾸준한 진보로 인해 계속될 것이 확실합니다. 그러나 한 가지 결과는 이전에 실행 가능한 조직 방법의 기능을 초과하는 생성된 데이터의 양이 증가하고 있다는 것입니다. 대부분의 학술 실험실은 복잡한 데이터 세트를 처리하기에 충분한 컴퓨팅 리소스를 가지고 있지만, 많은 그룹은 개발 요구에 적합한 사용자 정의 시스템을 구축하는 데 필요한 기술 전문 지식이 부족³. 이러한 데이터 집합을 관리하고 업데이트하는 기술을 갖추는 것은 효율적인 워크플로우 및 출력에 매우 중요합니다. 데이터와 전문 지식 간의 격차를 해소하는 것은 광범위한 다각적인 데이터를 효율적으로 처리, 재업데이트 및 분석하는 데 중요합니다.

확장성은 대용량 데이터 집합을 처리할 때 필수적인 고려 사항입니다. 예를 들어 빅 데이터는 방대한 볼륨, 큰 이질성 및 오디오 및 비디오^4,^5와같은 높은 세대 비율을 특징으로 하는 데이터 처리에서 새로운 통찰력을 드러내는 연구 분야입니다. 이 필드는 자동화된 조직 및 분석 방법을 사용하여 급류를 적절하게 처리해야 합니다. 그러나 빅 데이터에 사용되는 많은 기술 용어는 명확하게 정의되지 않았으며 혼란스러울 수 있습니다. 예를 들어 "고속" 데이터는 종종 하루에 수백만 개의 새 항목과 연관되는 반면 "저속" 데이터는 학술 실험실 설정과 같이 하루에 수백 개의 항목일 수 있습니다. 빅 데이터를 사용하여 아직 발견되지 않은 흥미로운 발견이 많이 있지만 대부분의 학술 실험실은 자신의 과학적 질문을 해결하기위한 이러한 방법의 범위, 힘 및 복잡성을 필요로하지 않습니다⁵. 과학적 데이터가^시간이지남에 따라 점점 더 복잡해지는 것은 의심의 여지가 없지만, 많은 과학자들은 더 이상 확장되는 데이터 요구를 충족시키지 못하는 조직 방법을 계속 사용하고 있습니다. 예를 들어, 편리한 스프레드시트 프로그램은 과학적 데이터를 구성하는 데 자주 사용되지만, 확장할 수 없고, 오류가 발생하기 쉽고, 시간이 비효율적이라는 대가를 치러야 하는 경우⁷^,⁸. 반대로 데이터베이스는 확장 가능하고 비교적 저렴하며 진행 중인 프로젝트의 다양한 데이터 집합을 처리하는 데 사용하기 쉽기 때문에 문제에 대한 효과적인 솔루션입니다.

데이터 조직의 스키마를 고려할 때 발생하는 즉각적인 문제는 교육 및 사용에 대한 비용, 접근성 및 시간 투자입니다. 비즈니스 환경에서 자주 사용되는 데이터베이스 프로그램은 빅 데이터 시스템 사용을 지원하는 데 필요한 자금보다 상대적으로 저렴하거나 무료입니다. 실제로 오라클 데이터베이스, MySQL 및 Microsoft(MS) 액세스^9와같은 데이터베이스를 만들고 유지 관리하기 위한 상용 및 오픈 소스 소프트웨어의 다양한 존재. 많은 연구자들은 또한 여러 MS Office 학술 패키지가 MS 액세스가 포함되어 있다는 것을 배우도록 권장되어 비용 고려 사항을 더욱 최소화합니다. 또한 거의 모든 개발자가 온라인으로 광범위한 문서를 제공하며 연구원이 구조화 된 쿼리 언어 (SQL)¹⁰^,¹¹,^12을이해하고 활용할 수 있도록 Codecademy, W3Schools 및 SQLBolt와 같은 무료 온라인 리소스가 많이 있습니다. 다른 프로그래밍 언어와 마찬가지로 SQL을 사용하여 데이터베이스와 코드를 사용하는 방법을 배우는 데는 시간이 걸리지만 충분한 리소스를 사용할 수 있으므로 프로세스가 간단하고 투자할 만한 가치가 있습니다.

데이터베이스는 데이터 접근성을 높이고 집계의 용이성을 높이기 위한 강력한 도구가 될 수 있지만, 조직을 보다 잘 제어할 때 어떤 데이터가 가장 큰 이점을 얻을 수 있는지 파악하는 것이 중요합니다. 다차원성은 측정을 그룹화할 수 있는 조건의 수를 말하며, 데이터베이스는 다양한 조건을 관리할 때 가장 강력합니다^13. 반대로, 차원이 낮은 정보는 스프레드시트 프로그램을 사용하여 처리하는 것이 가장 간단합니다. 예를 들어 연도와 연도값을 포함하는 데이터 집합에는 가능한 그룹화(연도별 측정)만 있습니다. 임상 설정으로부터와 같은 고차원 데이터는 스프레드시트 프로그램의 범위를 벗어나는 지루하고 오류가 발생하기 쉬운 프로세스를 효과적으로 유지하기 위해 많은 수준의 수동 조직이 필요할 것이다^13. 비관계형(NoSQL) 데이터베이스는 주로 데이터가 행과^열14로잘 구성되지 않는 응용 프로그램에서 다양한 역할을 수행합니다. 이러한 조직 스키마에는 자주 오픈 소스가 되는 것 외에도 그래픽 연결, 열계 데이터 또는 문서 기반 데이터가 포함됩니다. NoSQL은 SQL보다 확장성이 뛰어나지만 복잡한 쿼리를 만들 수 없으므로 일관성, 표준화 및 드물게 대규모 데이터 변경이 필요한 상황에서 관계형 데이터베이스가 더 좋습니다¹⁵. 데이터베이스는 과학적 설정^13,^16에자주 필요한 대규모 적합성 배열로 데이터를 효과적으로 그룹화하고 다시 업데이트하는 데 가장 적합합니다.

이 작업의 주요 의도는, 따라서, "중간 크기", 낮은 속도 데이터에 대한 확장 가능한 데이터 관리 시스템으로 데이터베이스의 잠재력에 대해 과학 커뮤니티에 알리는 것입니다뿐만 아니라 환자 소스 세포주 실험의 특정 예를 사용하여 일반적인 템플릿을 제공하는 것입니다. 다른 유사한 응용 분야는 강바닥의 지리 공간 데이터, 세로 임상 연구에서 설문지, 성장 매체^17,^18,^19에서미생물 성장 조건을 포함한다. 이 작업은 원시 데이터를 구조화 된 형식으로 변환하는 데 필요한 데이터 파이프라인과 결합 된 데이터베이스를 생성하는 일반적인 고려 사항 및 유틸리티를 강조합니다. SQL의 데이터베이스에 대한 데이터베이스 인터페이스 및 코딩의 기본 사항과 예제를 통해 다른 사용자가 기본 프레임워크 를 빌드하는 데 적용할 수 있는 지식을 얻을 수 있도록 합니다. 마지막으로 샘플 실험 데이터 집합은 다각적인 데이터를 다양한 방식으로 집계하도록 데이터베이스를 얼마나 쉽고 효과적으로 설계할 수 있는지 보여 줍니다. 이 정보는 자신의 실험적 요구에 대한 데이터베이스를 구현하는 경로에 동료 과학자를 지원하기위한 컨텍스트, 해설 및 템플릿을 제공합니다.

연구 실험실 환경에서 확장 가능한 데이터베이스를 만들기 위해 지난 3년 동안 인간 섬유아세포 세포를 사용한 실험에서 얻은 데이터를 수집했습니다. 이 프로토콜의 주요 초점은 사용자가 가능한 가장 비용 및 시간 효율적인 방식으로 데이터를 집계, 업데이트 및 관리할 수 있도록 컴퓨터 소프트웨어 조직에 보고하는 것이지만 관련 실험 방법도 제공됩니다. 컨텍스트.

실험 설정
샘플을 준비하기 위한 실험 프로토콜은 이전에^20,^21,및 여기서 간략하게 제시되었다. 컨스트럭트는 폴리디메틸실록산(PDMS)과 경화제의 10:1 혼합물을 가진 스핀 코팅 직사각형 유리 커버립에 의해 제조된 다음, 0.05 mg/mL 섬유넥틴을 비조직(등방성) 또는 5 μm 갭 미세 패턴 배열(lines)으로 20 μm 라인으로 도포하였다. 섬유아세포 세포는 7항(또는 양성 대조을 위한 통로 16)에서 최적의 밀도에서 커버슬립에 시드되었고, 24시간 후에 미디어가 변경되면서 48시간 동안 성장하도록 방치하였다. 세포를 4% 파라포름알데히드(PFA) 용액 및 0.0005% 난오계면활성제를 사용하여 고정한 다음, 세포 핵을 위해 면역염색되는 커버립(4',6'-디아미노디노-2-페닐리노돌[DAPI]), 액틴(알렉사 플루오르 488 플라할로이드) 및 섬유질성 계면활성제를 사용하였다. 염소 항 토끼 IgG 항체(Alexa Fluor 750 염소 항 토끼)를 사용하여 섬유넥틴에 대한 이차 얼룩을 적용하고 보존제가 모든 커버립에 장착되어 형광 퇴색을 방지하였다. 매니큐어는 현미경 슬라이드에 커버립을 밀봉한 다음 24 시간 동안 건조하도록 방치하는 데 사용되었습니다.

형광 영상은 반전된 전동 현미경에 장착된 디지털 전하 결합 장치(CCD) 카메라와 결합된 40x 오일 침지 목표를 사용하여 앞서^20일 설명한 바와 같이 수득되었다. 임의로 선택된 10개의 시야각은 6.22픽셀/μm 해상도에 해당하는 40배 배율로 각 커버슬립에 대해 이미지화되었습니다. 맞춤형 코드는 핵, 액틴 필라멘트 및 피브로넥틴을 설명하는 이미지로부터 다양한 변수를 정량화하는 데 사용되었다; 조직 및 형상 매개 변수뿐만 아니라 해당 값은 데이터 파일에 자동으로 저장되었습니다.

세포주
모든 샘플 데이터 세포주에 대한 보다 광범위한 문서는 이전 간행물^20에서찾을 수 있습니다. 간략하게 설명하기 위해, 데이터 수집이 승인되고 UC 어바인 기관 검토 위원회 (IRB # 2014-1253)에 따라 동의가 수행되었다. 인간 섬유아세포 세포는 라메A/C(LMNA) 유전자돌연변이의 상이한 변이의 3개의 패밀리로부터 수집되었다: 이형이후 LMNA 스플라이스-사이트 돌연변이(c.357-2A>G)^22(패밀리 A); LMNA 넌센스 돌연변이 (c.736 C>T, pQ246X) 에서 4²³ (패밀리 B); 및 LMNA 오인 돌연변이 (c.1003C>T, pR335W) 엑슨 6²⁴ (패밀리 C). 섬유아세포세포는 또한 "대조군"이라 불리는 관련 돌연변이 음성 대조군으로서 각 가족의 다른 개인들로부터 수집되었고, 그 외는 "기증자"라고 불리는 관련 돌연변이 음성 대조군으로서 구입하였다. 양성 대조군으로서, 허친슨-글리포드 프로게리아(HGPS)를 가진 개인으로부터섬유아세포는 LMNA G608G 포인트^{돌연변이(25)를}보유한 HGPS를 가진 8세 여성 환자로부터 채취한 피부 생검으로부터 구입및 성장하였다. 총, 22 명의 개인에서 섬유 아세포 테스트 하 고이 작품에 데이터로 사용.

데이터 유형
섬유아세포 데이터는 세포 핵 변수(즉, 이형성 핵의 백분율, 핵영역, 핵 편심)²⁰ 또는 방향 순서 파라미터(OOP)^21,^26,^27(즉, 액틴 OOP, 피브로넥틴 OOP, 핵 OOP)으로부터 유래하는 구조적 변수 의 두 가지 범주 중 하나로 나타났다. 이 파라미터는 모든 방향 벡터의 평균 차수 텐서의 최대 고유값과 같으며, 이전 간행물^26,^28에서상세하게 정의된다. 이러한 값은 연령, 성별, 질병 상태, 특정 증상의 존재 등에 대한 값과 같은 다양한 가능한 적합성으로 집계됩니다. 이러한 변수가 사용되는 방법의 예는 결과 섹션에서 찾을 수 있습니다.

예제 코드 및 파일
위의 데이터를 기반으로 하는 예제 코드 및 기타 파일을 이 백서와 함께 다운로드할 수 있으며 이름과 형식은 표 1에요약되어 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

참고: 이 프로토콜에 사용된 소프트웨어 버전은 재료 표를 참조하십시오.

1. 데이터가 데이터베이스 조직 구성표의 이점을 얻을 수 있는지 평가합니다.

예제 코드 및 데이터베이스를 다운로드합니다(표 1에요약된 추가 코딩 파일참조).
그림 1을 사용하여 관심 있는 데이터 집합이 "다차원"인지 평가합니다.
참고: 그림 1은 예제 데이터 집합에 대해 제공된 다차원 데이터베이스의 그래픽 표현입니다.
데이터가 예제와 같은 "다차원" 형태로 시각화될 수 있고 특정 실험 결과를 어떤 차원(즉, 조건)과 연관시킬 수 있는 능력이 사용 가능한 데이터에 대한 더 큰 과학적 통찰력을 허용할 경우, 관계형 데이터베이스를 구성할 수 있습니다.

2. 데이터베이스 구조 구성

참고: 관계형 데이터베이스는 정보를 테이블 형식으로 저장합니다. 테이블은 스프레드시트와 유사한 행 및 열 스키마로 구성되며 데이터베이스 내의 식별 정보를 연결하는 데 사용할 수 있습니다.

데이터 파일을 구성하여 고유한 이름을 잘 생각해 보시면 됩니다. 파일 이름 지정 규칙 및 폴더 하위 폴더 구조의 경우 잘 수행되면 파일에 수동으로 액세스하는 가독성을 손상시키지 않으면서 광범위한 데이터베이스 확장성을 허용합니다. "20XX-YY-ZZ"와 같은 일관된 형식으로 날짜 파일을 추가하고 메타데이터에 따라 하위 폴더이름을 지정하는 것이 그 예입니다.
데이터 기반 구조가 디자인되면 서로 다른 테이블의 필드 간의 관계를 그립니다. 따라서 다차원성은 개별 테이블의 서로 다른 필드(즉, 테이블의 열)를 서로 연관시킴으로써 처리됩니다.
2.2단계에서 만든 데이터베이스 및 관계를 설명하는 readme 설명서를 만듭니다. 서로 다른 테이블 간의 항목이 연결되면 모든 관련 정보는 해당 항목과 관련이 있으며 복잡한 쿼리를 호출하여 원하는 정보로 필터링하는 데 사용할 수 있습니다.
참고: Readme 문서는 구조에 균일하지 않은 데이터를 추가하지 않고 프로젝트에 대한 추가 정보 및 데이터베이스 구조 정보를 제공하는 일반적인 솔루션입니다.
2.1-2.3단계에 따라, 최종 결과를 개인의 상이한 특성(도2A)이해당 개인의 관련 실험 데이터와 관련된 경우와 유사하게 만든다(도2B). 패턴형식(그림 2C)과데이터 형식(그림 2D)의관련 열을 통해 메인 데이터 값 표의 항목을 일치시켜 다양한 약어 표기(그림2B)를설명했습니다.
장거리 데이터 수집을 위해 기록해야 하는 모든 필수 데이터 요소와 유용한 데이터 요소만 확인합니다.
참고: 앞에서 설명한 것처럼 스프레드시트 프로그램에 데이터베이스를 사용하는 주요 이점은 확장성입니다.
1. 시작하기 전에 고유한 데이터 포인트를 만드는 데 필요한 정보를 식별합니다. 원시 데이터를 수정하거나 저장하는 대신 그대로 두어 재분석이 가능하고 액세스할 수 있도록 합니다.
  참고: 주어진예제(그림 2)의경우 개별에 해당하는 "지정자", "패턴 유형", "커버슬립 #" 및 "가변 유형"은 모두 관련 값의 구별성에 중요한 필드였습니다.
2. 원하는 경우 "총 커버슬립 의 합계"와 같은 기타 유용하고 중요하지 않은 정보를 추가하여 수행된 반복 횟수를 나타내고 이 예제에서 데이터 요소가 누락되었는지 확인하는 데 도움이 됩니다.

3. 파이프라인 설정 및 구성

각 데이터 유형에 대한 일반적인 데이터 저장소 방법과 함께 데이터 수집으로 이어질 수 있는 모든 다양한 실험 및 데이터 분석 방법을 식별합니다. GitHub와 같은 오픈 소스 버전 제어 소프트웨어와 협력하여 사용자 부담을 최소화하면서 필요한 일관성과 버전 제어를 보장합니다.
가능하면 자동화된 파이프라인을 허용하도록 데이터의 일관된 이름 지정 및 저장 절차를 만듭니다.
참고: 예제에서는 출력의 이름이 일관되게 지정되므로 파일을 선택한 후 특정 특성을 찾는 데이터 파이프라인을 만드는 것이 간단합니다. 일관된 이름을 지정할 수 없는 경우 데이터베이스의 테이블을 수동으로 채워야 하므로 권장되지 않습니다.
편리한 프로그래밍 언어를 사용하여 데이터베이스에 대한 새 데이터 항목을 생성합니다.
1. 자동화된 데이터 선택을 안내할 수 있는 별도의 파일에 작은 "도우미" 테이블(표 1의파일 #8-#10)을 만듭니다. 이러한 파일은 파이프라인이 아래에서 작동할 수 있는 가능성의 템플릿역할을 하며 편집이 용이합니다.
2. 데이터파이프라인에대한 새 데이터 항목을 생성하려면 코드(LocationPointer.m, 파일 #1 표 1)를 사용자(표 1의파일 #8-#10)에 의해 선택되는 입력으로 사용하도록 합니다.
3. 여기에서 새 항목을 이전 항목과 결합하여 파일 위치의 새 스프레드시트를조합합니다(그림 3E). LocationPointerCompile.m(표 1의파일 #2)에 표시된 대로 이 단계를 자동화하는 코드를 만듭니다.
4. 그런 다음 이 병합된 스프레드시트에서 중복된 복제본이 있는지 확인하여 자동으로 제거해야 합니다. LocationPointer_Remove_Duplicates(표 1의파일 #3)에 표시된 대로 이 단계를 자동화하는 코드를 만듭니다.
5. 또한 스프레드시트에 오류가 있는지 확인하고 사용자에게 그 이유와 위치를 알립니다(그림3F). BadPointerCheck.m(표 1의파일 #4)에 표시된 대로 이 단계를 자동화하는 코드를 만듭니다. 또는 컴파일된 데이터베이스를 확인하고 LocationPointer_Check.m(표 1의파일 #5)에 표시된 것처럼 한 단계에서 중복을 식별하는 코드를 작성합니다.
6. Manual_Pointer_Removal.m(표 1의파일 #6)에 표시된 데이터베이스의 무결성을 잃지 않고 사용자가 실수로 잘못점을 수동으로 제거할 수 있도록 코드를 만듭니다.
7. 그런 다음 파일 위치를 사용하여 데이터 값 스프레드시트(그림3G,파일 #12 표 1)를생성하고 파일 위치를 식별하거나 향후 항목과 병합할 수 있는 가장 업데이트된 항목 목록을 만듭니다(그림3H). Database_Generate(표 1의파일 #7)에 표시된 대로 이 단계를 자동화하는 코드를 만듭니다.
파이프라인이 엄격한 명명 규칙, 자동화된 파일 어셈블리 코드 및 앞에서 설명한 자동 오류 검사를 포함시키는지 확인하여 파이프라인이 실험적 엄격에 추가되는지 다시 한 번 확인합니다.

4. 데이터베이스 및 쿼리 만들기

참고: 테이블이 데이터베이스에 정보를 저장하는 경우 쿼리는 특정 기준에 지정된 정보에 대한 데이터베이스에 대한 요청입니다. 데이터베이스를 만드는 방법에는 빈 문서에서 시작하거나 기존 파일에서 시작하는 두 가지 방법이 있습니다. 그림 4는 그림 2에표시된 데이터베이스 관계를 사용하여 실행하도록 설계된 SQL 구문을 사용하여 샘플 쿼리를 보여 주며 있습니다.

방법 1: 데이터베이스 및 쿼리를 만드는 처음부터 시작
1. 빈 데이터베이스 문서를 만듭니다.
2. 외부 데이터 |을 선택하여 도우미 테이블(표 1의 파일 #8-#10)을 로드합니다. 텍스트 파일 가져오기 | 파일 선택(파일 #8-#10) | 구분 | 첫 번째 행에는 헤더, 쉼표가 포함되어 있습니다 | 기본값 그대로 둡니다 | 내 기본 키 선택(셀라인 파일 #8 지정자, 데이터 형식 파일 #9 가변 이름, 패턴 형식 파일 #10 팻 이름) | 기본값 그대로 둡니다 | 완료합니다.
3. 외부 데이터 |을 선택하여 데이터 값 테이블(표 1의 파일 #12)을 로드합니다. 텍스트 파일 가져오기 | 파일 선택(파일 #12) | 구분 | 첫 번째 행에는 헤더, 쉼표가 포함되어 있습니다 | 기본값 그대로 둡니다 | 액세스 하자 기본 키 추가 | 테이블로 가져오기: 데이터 값 | 완료합니다.
4. 데이터베이스 도구를 선택하여 관계 만들기 | 관계 | 모든 테이블을 보드로 드래그 | 관계 편집 | 새로 만들기 | 도우미 테이블 지정자와 데이터 값 필드 일치 | 조인트 타입 3.
5. 만들기 선택 | 쿼리 디자인.
6. 모든 관련 테이블을 선택하거나 위쪽 창으로 끕니다. 이 예제에서는 '세포주', '데이터 값', '데이터 유형' 및 '패턴 유형'입니다. 관계는 이전 관계 디자인에 따라 자동으로 설정되어야 합니다.
7. 예를 들어 원하는 결과를 위해 쿼리 열을 입력합니다.
  1. 쇼 | 클릭 합계.
  2. 첫 번째 열(표: DataValues, 필드: DataVar, Total: GroupBy, Criteria: "Act_OOP"), 두 번째 열(표: 데이터 값, 필드: PatVar, 합계: GroupBy, ["Lines") 및 세 번째 열(표: Cell_Lines, 필드: 지정자, 합계: 그룹비, 정렬: 오름차순).
  3. 네 번째 열(표: DataValues, 필드: 매개 변수, 합계: Ave), 다섯 번째 열(표: 데이터 값, 필드: 매개 변수, 합계: StDev) 및 여섯 번째 열(표: DataValues, 필드, 합계: 개수)을 입력합니다.
8. 쿼리를 실행합니다.
또는 제공된 예제 데이터베이스를 예제의 기초로 사용합니다. 이전에 다운로드한 데이터베이스 파일 Database_Queries.accdb(표 1의파일 #13)를 엽니다. 기존 테이블을 관심 있는 데이터로 대체하여 템플릿으로 사용합니다.

5. 유의 분석을 위해 출력 테이블을 통계 소프트웨어로 이동

이 샘플 실험 데이터의 경우 다양한 조건 간의 평균 비교를 위해 Tukey의 테스트를 사용하여 분산(ANOVA)의 단방향 분석을 사용합니다.
참고: p<, 0.05의 값은 통계적으로 유의한 것으로 간주되었습니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

데이터의 다차원성
여기에 제시된 예제 데이터 세트의 맥락에서, 방법 섹션에 기술된 피험자는 심장 질환을 유발하는 LMNA 돌연변이("환자"), 관련 비돌연변이 음성 대조군("대조군"), 관련 비돌연변이 음성 대조군("Donors"), 허친슨-길포드 프로게리아 증후군(HGPS)을 가진 개인으로부터 3개의 가족으로부터의 집단으로^{분할되었다.} 대조군과 기증자의 결과는 LMNA 돌연변이의 그들의 집합적인 부족을 감안할 때 전반적인 음성 통제 (N.C.) 단으로 더 그룹화될 수 있었습니다. 모든 피험체의 세포주에는 상태군(그림 1 – 진한 청색축)에 따라 "돌연변이 상태"가 연관되었다. 각 실험에 대해, 피험자로부터의 섬유아세포 세포는 조직화되지 않은(등방성) 또는 미세패턴(Lines) 섬유넥틴의 배열에 배양되었고, "패턴 유형"(도1 – 주황색 축)의 조건을 생성하였다. 세포를 고정, 면역 염색 및 이미지화한 후, "커버슬립 #"은 동일한 개인의 세포를 사용하여 여러 실험(즉, 기술적 복제)이 발생하기 때문에 전사되었다(그림1 – 밝은 녹색 축). 사용자 정의 MATLAB 코드^20,^21은 "가변 형"으로 세포 핵 또는 조직 조직 변수의 상이한 양상을 정량화하는 데 사용되었다(도1 – 청록색 축). 3개의 요인은 세포의 인간 근원과 연관되고 그 결과로 "가족"(그림1 – 진한 분홍색 축) 및 "생검의 시간에 나이"(그림 1 - 진한 녹색 축) 이외에 "돌연변이 상태" 이외에 연결되었습니다. 그림 1에 포함되지 않은 다른 차원은 해당 개인의 "프레젠테이션 연령", "증상", "지정자"및 "성별"이었습니다. 여기에 제공된 예제에서는 데이터 집계에 대해 최소 10개의 가능한 차원이 생성됩니다. 따라서 이 예제 데이터는 관계형 데이터베이스에 의해 조직에 대한 주요 후보입니다.

그림 1: LMNA 돌연변이 데이터 세트에서 다차원 데이터의 시각화. 단일 큐브는 "가변 형식", "패턴 유형" 및 "표지 슬립 #"의 세 차원으로 정의됩니다. 추가 치수는 "돌연변이 상태", "생검의 나이"(yrs) 및 "가족"의 축으로 표시됩니다. 컬러 라벨은 각 개인의 큐브에 대한 생검(녹색 숫자)의 나이와 같이 표시된 다른 축에 해당합니다. 여기서는 실험 데이터 포인트의 다차원성을 설명하기 위해 가능한 10가지 차원 중 6개를 사용합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

파이프라인 구성
모든 디지털 데이터의 약 95%가 구조화되지 않은^4이지만데이터베이스에는 구조화 된 형식이 필요합니다. 그러나 데이터 파이프라인에 대해 올바른 자동화된 메서드를 만드는 것은 컨텍스트에 따라 크게 달라집니다.

그림 2: LMNA 돌연변이 데이터 세트 내의 표 및 설계 뷰 관계. 관계형 데이터베이스는 한 테이블의 필드를 다른 테이블의 정보와 연결하여 집계를 즉시 상호 교환할 수 있는 장점이 있습니다. 이 예제에서는 서로 다른 정보를 연결하는 방법을 시각적으로 보여 줍니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

이 예제에서는 각 실험에서 수집된 이미지가 담당 랩 멤버의 날짜 및 이니셜로 명명된 폴더에 저장되었으며 하위 폴더에는 제목과 표지 개수 번호가 나열되어 있습니다. 파이프라인 파일은 보충 코딩 파일에제공되며 순서도 그림으로 요약됩니다(그림3). 다양한 피험자에 걸친 다양한 실험 조건으로부터의 상이한 메트릭들은 이러한 형광 이미지로부터 정량화되었다(도3A)사용자 정의 코드를 사용하여(도 3B)^20,^21. 예를 들어, 액틴 방향 순서^{파라미터(21)는} 팔로이드로 염색된 조직으로부터추출(도 3A)상이한 개인으로부터 섬유아세포의 조직을 비교하는데 사용하였다. 코드 출력은 소스 이미지와 동일한 폴더에 저장되었습니다(그림3C).

그림 3: 일반화된 컨텍스트에서 일반적인 데이터 파이프라인 요구 사항의 예입니다. 사용자 입력 및 자동화된 코드를 사용하여 중요한 정보를 스프레드시트 형식으로 서식을 지정하여 새 항목을 만들었습니다. 이러한 항목은 가장 최근의 파일 위치 항목 집합과 결합되어 오류를 확인한 다음 파일 위치의 스프레드시트와 데이터 값의 스프레드시트로 저장됩니다. 배율 표시줄 = 20 μm. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

LMNA 돌연변이 데이터 세트에서 새로운 관계 식별
가능한 적합성이 여러 번 주어지면 수동 데이터 집계 방법을 사용하여 새로운 관계가 존재하는 위치를 식별하기 어려울 수 있습니다. 이러한 특정 맥락에서, 우리는 OOP^27을사용하여 측정된 여러 조건에 걸쳐 세포간 액틴 필라멘트의 조직을 비교하는 데 관심이 있었다.

그림 4: SQL 구문을 사용하는 예제 쿼리입니다. SELECT 및 FROM 문은 쿼리를 생성하기 위한 요구 사항이지만 추가 명령 및 조건이 종종 포함됩니다. GROUP BY는 데이터를 집계하는 방법에 대한 설명을 제공하며, HAVING 또는 WHERE 문은 출력을 특정 기준을 충족하는 데이터로 제한하며 ORDER BY는 출력을 정렬해야 하는 순서를 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

OOP는 이방성 환경에서 순서의 정도를 정량화하는 수학적 구조이며, 완전히 등방성 조직에 대응하는 0으로 정규화되고 완전히 정렬된 조직에 대응하는 구조이다. 데이터 세트는 먼저 패턴 유형으로라인(도 5A)및 등방성(도5B)조건으로 분할되었으며, 이는 섬유넥틴 미세패턴이 조직 조직에 크게 영향을 미치기 때문에 크게 상이한 OoPs를 가질 것으로 예상되었다. 등방성 조직을 비교할 때 조건 사이에 유의한 차이가 없었다(그림 5B). 반대로, 패턴화된 조직은 양성 대조군 세포주(HGPS)(그림5A)에서통계적으로 덜 조직되었고, 이러한 관계는 데이터가 상이한 그룹으로 집계된 경우에도 유지되었다(도5C). Actin OOP는 임상 변수에 대하여 집합을 설명하기 위하여, 돌연변이 상태 및 가족에 의해 분리된 생검의 시간에 개별의 나이에 대하여 추가로 플롯되었습니다(그림 5D), 핵 결함^20과는 달리, 액틴 조직과 개인의 나이 사이에 상관 관계가 없다(그림 5D). 궁극적으로 그림 5에 표시된 플롯은 동일한 데이터를 서로 다른 조합으로 분석하는 방법과 데이터베이스를 사용하여 여러 클래스에 속하는 데이터를 집계하는 일반적으로 어려운 작업을 얼마나 쉽게 수행할 수 있는지를 보여 줍니다.

이 문서에서는, 환자 근원 섬유아세포에서 데이터는 돌연변이 결과를 결정하기 위하여 조건 사이에서 비교되었습니다. 비록 이 연구에서 HGPS와 3명의 가족 둘 다 잠재적으로 핵 봉투를 중단시키는 LMNA연결한 질병이 있더라도, 환자는 HGPS 개별이^22,^23,^24에영향을 받은 다중 기관 시스템이 있는 반면, 심장 기능 장애와 1 차적으로 관련되었던 현상을 전시합니다. 실제로, HGPS 환자로부터 유래된 미세패턴 환경 세포에도 불구하고 고려된 다른 세포주들보다 통계적으로 낮은 액틴 OOP 값을가졌다(도 5A,C). 이것은 돌연변이에 기인한 어떤 피부 이상든지를 가진 연구 결과에 있는 유일한 사람인 HGPS 환자를 가진 dovetails. 서로 다른 적합성으로 동일한 데이터를 보는 것은 다양한 데이터 세트에서 과학적 탐구에 대한 추가적인 통찰력과 길을 제공하는 데도 도움이됩니다(그림 5).

도 5: 액틴 OOP 변수에 대한 조건 간의 비교. (A,B)그룹은 4가지 주요 조건에 해당한다: 비관련 음성 대조군 기증자, 관련 음성 대조군, 3군에서의 LMNA 돌연변이 환자, 및 양성 대조군 HGPS. (C)모든 음성 대조군(N.C.)을 결합하고 환자를 가족(PA, PB, PC)으로 분리하였다. (D)이 연구를 위해 수집된 생검시 연령에 대한 등방성 액틴 OOP의 잠재적 그래프로, 조건 및 가족별로 구분된다. 패널 A, C 및 D는 라인 패턴으로 미세 패턴이 있는 조직에 대해 플롯되고 패널 B는 등방성 조직에 대해 플롯됩니다. p< 0.05(*)의 통계적 유의는 패널 A, C 및 D에서 발견되었다. 패널 B에서 쌍 간의 의미가 발견되지 않았습니다. 모든 오류 막대는 데이터베이스 내에서 계산된 표준 편차를 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

추가 코딩 파일. 이 파일을 보려면 여기를 클릭하십시오 (다운로드 오른쪽 버튼을 클릭하십시오).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

프로토콜에 대한 기술적 논의
데이터베이스 사용을 고려할 때 첫 번째 단계는 데이터가 이러한 조직에서 도움이 될지 여부를 평가하는 것입니다.

다음 필수 단계는 사용자의 최소 입력을 요청하고 테이블 데이터 구조를 생성하는 자동화된 코드를 만드는 것입니다. 이 예에서 사용자는 데이터 유형(세포 핵 또는 구조 측정), 세포주의 피사체 지정자 및 선택중인 파일 수의 범주를 입력했습니다. 그런 다음 관련 파일을 사용자가 선택하였고(표2,열 1), 행 항목이 자동으로 생성되고 파일 내에 포함된 모든 변수로 채워집니다(표2,열 2). 또한 다른 실험 항목을 추가해야 하는 경우 사용자가 루프를 계속하도록 선택할 수 있도록 코드가 유연해야 합니다. 그렇지 않으면 파일이 저장되고 루프가 끝납니다. 이 단계에서 설명하는 파일 위치에서 새 항목을 추가하고 오류를 확인하고 스프레드시트를 어셈블하는 기본 기능은 모두 효율적인 데이터 파이프라인 설정에 중요합니다.

데이터 파이프라인을 만들 때 파일 위치를 사용하면 실험적인 엄격함이 높아진다는 점에 유의해야 합니다. 특히 데이터 값에 대한 모든 파일 위치를 나열하는 해당 스프레드시트를 사용하면 원시 데이터를 수집한 연구원의 랩 노트북으로 데이터 포인트를 역추적할 수 있습니다. 수백 에서 수만 개의 데이터 포인트를 처리할 때 프로젝트의 수명 동안 투명성과 접근성이 매우 중요합니다. 사용자는 데이터 값만 저장하는 대신 먼저 파일 위치를 저장하고 나중에 데이터에 대한 값을 컴파일하는 것이 좋습니다.

데이터베이스를 만든 후 시작하는 가장 간단한 방법은 디자인 보기를 통해 쿼리를 프로그래밍하는 것입니다. 사용자는 제공된 템플릿(표 1의파일 #13)을 시작점으로 다운로드하는 것이 유용할 것입니다. 또는 SQL 언어를 통해 직접 프로그래밍할 수있습니다(그림 4).

과학적 토론
이 문서의 목적은 데이터 집합 확장성과 투명성을 해명하는 데이터 파이프라인 및 데이터베이스와 관련된 메서드를 보급하는 것이었습니다. 이러한 방법은 정보학 및 비즈니스 외부에서 널리 사용되지 않지만 생물학적 맥락에서 일하는 사람들에게 엄청난 잠재력을 가지고 있습니다. 과학이 컴퓨터에 점점 더 많이 의존함에 따라 효과적인 관리 시스템의 중요성도^6,^29로증가합니다. 데이터베이스는 자주 높은 볼륨 및 / 또는 고속 응용 프로그램에 사용되며, 특히 임상 환자^인구8,^30,^31에대한 사용에 관한 문헌에서 잘 인용된다. 몇몇은 임상 및 번역 연구를 위한 쥐 게놈 데이터베이스 큐레이션 공구 또는 REDCap와 같은 특정 필드를 위해 이미 건설되었습니다^32,^33. 따라서, 데이터베이스의 사용은 임상 도메인⁸ 또는 대형 게놈^{데이터베이스(32)에서}채택되었지만, 조직 공학과 같은 다른 과학적 분야에서는 일반화되지 않았다.

스프레드 시트 프로그램을 사용하여 점점 더 복잡해지는 데이터를 처리하는 문제는 오랫동안 과학 커뮤니티³⁴내에서 인정되었습니다. 한 연구는 보충 파일과 게놈 저널 논문의 약 20 %가 잘못 날짜로 변환 된 유전자 이름을 가지고 있다고보고^35. 이러한 실수는 2010년부터 2015년까지 연평균 15%씩 증가하여 연간 4%의 유전체학 논문 증가를 훨씬 능가합니다. 본질적으로 스프레드시트 프로그램은 결과 또는 수식 계산을 쉽게 검증하기에 적합하지 않습니다. 게시 된 기사는 오류의 빈도를 줄이기 위해 더 나은 스프레드 시트 관행에 과학자를 교육하기위한 존재⁷. 데이터베이스의 가장 큰 이점 중 하나는 자동화된 방법과 잠재적으로 의심스러운 데이터의 유효성을 검사하는 기능을 통해 오류를 줄이는것입니다(그림 3).

이 방법론의 중요한 결과는 데이터 분석의 엄격성 증가입니다. 데이터의 재현성을 높이는 것의 중요성은 NIH뿐만 아니라 다른 과학자 및 기관³⁶^,^37에의해 강조되었습니다. 모든 데이터베이스에 해당하는 파일 위치의 스프레드시트를 두면 데이터 포인트를 해당 실험의 랩 노트북으로 쉽게 추적할 수있습니다(그림 3). 또한 데이터 파이프라인 프로세스 중에 자동 오류 검사와 결합된 경우에도 해당 파일 위치를 사용하여 개별 데이터 포인트를 신속하게 식별하고 전자적으로 찾을 수 있습니다. 시간이 지남에 따라 데이터 집합이 수정되더라도 문제가 발생하거나 이전 버전을 확인해야 하는 경우 모든 과거 파일을 유지하는 것이 좋습니다. 비파괴적으로 작업하고 이전 버전을 데이터 파이프라인 내에서 유지하면 중복성을 통해 보안이 강화되고 문제 해결이 향상됩니다.

동일한 데이터 파이프라인 요구에 사용할 수 있는 코딩 언어의 조합으로 무수한 관계형 데이터베이스 관리 시스템이 있습니다. 가장 적절한 선택은 사용 중인 데이터와 컨텍스트에 크게 의존합니다. 일부 응용 프로그램은 확장성, 유연성, 안정성 및 기타 우선 순위^9에서가장 탁월합니다. 데이터베이스는 여전히 기술적으로 유한한 규모이지만 메모리 한계에 도달하는 것은 대부분의 과학 실험실의 범위를 벗어납니다. 예를 들어 MS Access 데이터베이스에는 메모리 크기 제한이 2GB이며, 이는 데이터 및 필드 수에 따라 수십만 에서 수백만 개의 항목 순서로 설정된 데이터입니다. 대부분의 실험실은 이러한 규모의 실험적 요구를 갖지 않을 것이지만, 만약 그렇게 했다면 스프레드시트 소프트웨어는 어쨌든 효과적인 한계를 훨씬 뛰어넘을 것입니다. 이에 비해 비즈니스 수준의 관계형 데이터베이스 관리 시스템은 수백만 개의 트랜잭션을 동시에 처리하는 동안 더 큰 규모의 데이터 집합을 처리할 수^{있습니다 29}. 데이터베이스가 과학 실험실에서 일반적으로 사용되지 않는 이유 중 하나는 과거의 실험이 이러한 데이터 크기의 필요성을 거의 언급하지 않기 때문에 사용하기 쉬운 스프레드시트 소프트웨어가 널리 보급되었기 때문입니다. 그러나 이러한 메서드가 작동하도록 하는 데 필요한 상당한 투자는 데이터 파이프라인을 계획하고 데이터베이스 사용에 대한 SQL을 학습하는 데 필요한 시간입니다(그림3 및 그림 4). 코딩 환경은 프로세스를 크게 서두를 수 있지만 대부분은 처음부터 SQL을 배워야 합니다. 개발자의 광범위한 설명서뿐만 아니라 Codecademy, W3Schools 및 SQLBolt¹⁰^,¹¹^,^12와같은 무료 SQL 자습서를 통해 온라인으로 풍부한 문서를 사용할 수 있습니다. 구독을 필요로 하는 몇 가지 대안존재, 그러나, 프로그램 교육 웹 사이트 Lynda^{등 38;} 데이터베이스 기본 사항에 대한 자세한 내용은 온라인에서 확인할 수 있습니다. 학업 환경에서, 좋은 실험실 구매 및 강력한 시스템은 제작자를 능가하고 여러 학생에 걸쳐 프로젝트의 많은 년을 용이하게 하는 데 도움이 될 수 있습니다. 이 작업은 설정 하는 동안 지침 및 구현 단계를 만들어 수행할 수 있습니다. 실제로, 잘 작동하는 공동 데이터 파이프 라인 및 데이터베이스 시스템을 갖는 모든 연구자에 대한 높은 가치가있다.

이 방법론의 다른 이점으로는 원시 데이터를 구조화된 형식으로 변환하는 자동화된 메서드를 사용하는 기능, 데이터베이스 내에 저장된 사용 편의성, 데이터 집합의 지속적인 업데이트 및 재집계(그림3)가있습니다. 또한 단일 데이터 파일에서 여러 변수의 정보를 가져오고 메시지가 표시될 때 데이터 파이프라인을 자동화하여 자동화할 수도 있습니다. 표시된 맥락에서, 일반적으로 사용 가능하고 경제적인 소프트웨어는 고가의 틈새 소프트웨어 패키지가 기능적 데이터베이스를 달성하는 데 필수적이지 않다는 것을 입증하는 결과를 얻기 위해 사용되었습니다. 대부분의 실험실의 연구 기금의 범위가 제한적이라는 점을 감안할 때 데이터베이스 관리의 효율성을 높이는 능력은 귀중한 상품입니다.

결론적으로, 과학적 데이터 세트가 점점 더 복잡해짐에 따라 데이터베이스는 과학 커뮤니티에서 점점 더 중요해지고 있으며 데이터에 대한 현재 널리 퍼진 스프레드시트 사용보다 훨씬 더 평범하고 더 효과적일 가능성이 큽니다. 보관소. 데이터 집합의 크기와 복잡성이 계속 증가함에 따라 과학의 데이터 투명성 및 복제가능성에 대한 문제는 앞으로도 계속 확장될 것이며, 데이터베이스및 자동화된 데이터 파이프라인 방법의 보다 광범위한 채택의 중요성을 강조합니다. 현재와 미래의 일반적인 과학적 요구.

참조 번호	파일 이름	형식
1	위치 포인터.m	파이프 라인 코드
2	위치 포인터컴파일.m	파이프 라인 코드
3	LocationPointer_Remove_Duplicates.m	파이프 라인 코드
4	바드포인터체크.m	파이프 라인 코드
5	LocationPointer_Check.m	파이프 라인 코드
6	Manual_Pointer_Removal.m	파이프 라인 코드
7	Database_Generate.m	파이프 라인 코드
8	Cell_Lines.csv	도우미 테이블
9	Data_Types.csv	도우미 테이블
10	Pattern_Types.csv	도우미 테이블
11	DataLocation_Comp_2018_6_26_10_01.csv	예제 데이터 위치 파일
12	DataValues_2018_6_26_10_02.csv	예제 데이터 값 파일
13	Database_Queries.accdb	데이터베이스 예제

표 1: 프로토콜을 실행하기 위해 업로드할 수 있는 모든 예제 파일 목록입니다.

선택한 파일	변수
요약.매트	결함이 있는 핵의 비율
	모든 핵 면적 평균(μm2)
	결함이 있는 핵 영역 평균(μm2)
	정상 핵 면적 평균(μm2)
	모든 핵 편심 평균
	결함이 있는 핵 편심 평균
	법선 핵 편심 평균
	모든 핵 MNC 평균
	결함이 있는 핵 MNC 평균
	정상 핵 MNC 평균
Act_OOP.mat	액틴 OOP
Act_OOP.mat	액틴 OOP 디렉터 앵글
Fibro_OOP.mat	피브로넥틴 OOP
Fibro_OOP.mat	피브로넥틴 OOP 디렉터 앵글
Nuc_OOP.mat	핵 OOP
Nuc_OOP.mat	핵 OOP 디렉터 앵글

표 2: 세포 핵 측정 또는 섬유아세포 구조(OOP) 데이터의 다양한 변수에 해당하는 나열된 선택 파일.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 공개 할 것이 없다.

Acknowledgments

이 작품은 국립 심장에 의해 지원, 폐, 그리고 건강의 국립 연구소에서 혈액 연구소, 부여 번호 R01 HL129008. 저자는 특히 연구 결과에 있는 그들의 참여를 위한 LMNA 유전자 돌연변이 가족 구성원을 감사합니다. 우리는 또한 세포 배양과 실험실 공간을 유지하는 그녀의 도움린다 맥카시에게 감사드리고 싶습니다, 세포 이미징 및 핵 데이터 분석에 그녀의 참여에 대한 Nasam Chokr, 우리의 초기 마이크로 소프트 액세스 데이터베이스를 설정뿐만 아니라 다른 기술적 인 질문에 대답과 관련된 조언에 대한 마이클 A. 그로스 버그.

Materials

Name	Company	Catalog Number	Comments
4',6'-diaminodino-2-phenylinodole (DAPI)	Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin	Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit	Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B	Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin	Corning, Corning, NY
IX-83 inverted motorized microscope	Olympus America, Center Valley, PA
Matlab R2018b	Mathworks, Natick, MA
MS Access	Microsoft, Redmond, WA
paraformaldehyde (PFA)	Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin	Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS)	Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade	Life Technologies, Carlsbad, CA
rectangular glass coverslips	Fisher Scientific Company, Hanover Park, IL
Triton-X	Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Bioengineering

조직 공학에서 중간 크기의 저속, 다차원 데이터를 효율적으로 관리하는 데이터베이스

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.