Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

قواعد البيانات لأداره كفاءه متوسطه الحجم ، والسرعة المنخفضة ، والمعطيات متعددة الابعاد في هندسه الانسجه

Published: November 22, 2019 doi: 10.3791/60038

Summary

ويولد العديد من الباحثين بيانات "متوسطه الحجم" ، ومنخفضه السرعة ، ومتعددة الابعاد ، والتي يمكن ادارتها بكفاءة أكبر باستخدام قواعد بيانات بدلا من جداول للبيانات. هنا نقدم نظره عامه مفاهيمية لقواعد البيانات بما في ذلك تصور المعطيات متعددة الابعاد وربط الجداول في هياكل قاعده البيانات العلائقية وتخطيط خطوط أنابيب البيانات شبه المؤتمتة واستخدام قاعده بيانات لتوضيح معني البيانات.

Abstract

يعتمد العلم علي مجموعات البيانات المعقدة بشكل متزايد من أجل التقدم ، ولكن أساليب أداره البيانات الشائعة مثل برامج الجداول الكترونيه غير كافيه لزيادة حجم هذه المعلومات وتعقيدها. وفي حين ان نظم أداره قواعد البيانات لديها القدرة علي تصحيح هذه المسائل ، فانها لا تستخدم عاده خارج مجالات الاعمال التجارية والمعلوماتية. ومع ذلك ، فان العديد من مختبرات البحوث تولد بالفعل "متوسطه الحجم" ، والسرعة المنخفضة ، والبيانات متعددة الابعاد التي يمكن ان تستفيد كثيرا من تنفيذ أنظمه مماثله. في هذه المقالة ، نقدم نظره عامه مفاهيمية تشرح كيفيه عمل قواعد البيانات والمزايا التي توفرها في تطبيقات هندسه الانسجه. واستخدمت بيانات الخلايا الليفية الهيكلية من الافراد الذين لديهم طفرة في التكييف لتوضيح الامثله في سياق تجريبي محدد. وتشمل الامثله تصور البيانات المتعددة الابعاد ، وربط الجداول في بنيه قاعده بيانات علائقية ، وتعيين خط أنابيب بيانات شبه مؤتمت لتحويل البيانات الاوليه إلى تنسيقات مهيكله ، وشرح بناء الجملة الأساسي للاستعلام. وقد استخدمت النتائج المستمدة من تحليل البيانات لإنشاء قطع من الترتيبات المختلفة والدلالة في تنظيم الخلية في بيئات الانحياز بين السيطرة الايجابيه من هاتشينسون-Gilford progeria ، واعتلال الصفيحة المعروفة ، وجميع المجموعات التجريبية الأخرى. المقارنة مع جداول البيانات ، كانت أساليب قاعده المعطيات فعاله بشكل كبير ، وسهله الاستخدام بمجرد اعدادها ، وسمحت بالوصول الفوري إلى مواقع الملفات الاصليه ، وزيادة صرامة البيانات. واستجابه لتركيز المعاهد الوطنية للصحة علي الصرامة التجريبية ، من المرجح ان العديد من المجالات العلمية ستعتمد في نهاية المطاف قواعد بيانات كممارسه شائعه بسبب قدرتها القوية علي تنظيم البيانات المعقدة بفعالية.

Introduction

وفي عصر يكون فيه التقدم العلمي مدفوعا بالتكنولوجيا ، أصبح التعامل مع كميات كبيره من البيانات جزءا لا يتجزا من البحوث في جميع التخصصات. ويبرز ظهور مجالات جديده مثل البيولوجيا الحسابية وعلم الجينوم مدي اهميه الاستخدام الاستباقي للتكنولوجيا. هذه الاتجاات من المؤكد ان تستمر بسبب قانون مور والتقدم المطرد المكتسبة من التقدم التكنولوجي1,2. بيد ان أحدي النتائج هي الكميات المتزايدة من البيانات المتولدة التي تتجاوز قدرات أساليب التنظيم التي كانت صالحه من قبل. علي الرغم من ان معظم المختبرات الاكاديميه لديها موارد حسابيه كافيه للتعامل مع مجموعات البيانات المعقدة ، فان العديد من المجموعات تفتقر إلى الخبرة الفنية اللازمة لبناء أنظمه مخصصه مناسبه لتطوير الاحتياجات3. ويظل الحصول علي المهارات الضرورية لأداره وتحديث مجموعات البيانات هذه أمرا بالغ الاهميه لكفاءة سير العمل والمخرجات. ومن المهم سد الفجوة بين البيانات والخبرات من أجل المعالجة الفعالة لمجموعه واسعه من البيانات المتعددة الأوجه وأعاده تحديثها وتحليلها.

تعد قابليه التحجيم اعتبارا أساسيا عند معالجه مجموعات البيانات الكبيرة. البيانات الكبيرة ، علي سبيل المثال ، هي منطقه مزدهرة من البحوث التي تنطوي علي الكشف عن رؤى جديده من معالجه البيانات التي تتميز باحجام ضخمه ، وعدم التجانس الكبير ، ومعدلات عاليه من الجيل ، مثل الصوت والفيديو4،5. استخدام الأساليب المؤتمتة للتنظيم والتحليل إلزامي لهذا الحقل لمعالجه السيول من البيانات بشكل مناسب. غير ان العديد من المصطلحات التقنية المستخدمة في البيانات الضخمة ليست محدده بوضوح ، ويمكن ان تكون مربكه ؛ فعلي سبيل المثال ، غالبا ما تقترن بيانات "السرعة العالية" بملايين الإدخالات الجديدة في اليوم الواحد ، في حين ان بيانات "السرعة المنخفضة" قد تكون فقط مئات الإدخالات في اليوم ، كما هو الحال في اعداد المختبر الأكاديمي. علي الرغم من ان هناك العديد من النتائج المثيرة حتى الآن ليتم اكتشافها باستخدام البيانات الكبيرة, معظم المختبرات الاكاديميه لا تتطلب نطاق, قوه, وتعقيد هذه الأساليب لمعالجه الاسئله العلمية الخاصة بهم5. وفي حين انه من المشكوك في ان البيانات العلمية تزداد تعقيدا مع الوقت6، فان العديد من العلماء يواصلون استخدام أساليب التنظيم التي لم تعد تلبي احتياجاتهم من البيانات الاخذه في الاتساع. علي سبيل المثال ، تستخدم برامج جداول البيانات الملائمة بشكل متكرر لتنظيم المعلومات العلمية ، ولكن علي حساب كونها غير قابله للتطوير ، وعرضه للخطا ، والوقت غير فعال في المدى الطويل7،8. وعلي العكس من ذلك ، فان قواعد البيانات هي حل فعال للمشكلة لأنها قابله للتطوير ورخيصه نسبيا وسهله الاستخدام في معالجه مجموعات البيانات المتنوعة للمشاريع الجارية.

المخاوف الفورية التي تنشا عند النظر في مخططات تنظيم البيانات هي التكلفة ، وامكانيه الوصول ، والاستثمار في الوقت للتدريب والاستخدام. كثيرا ما تستخدم في إعدادات الاعمال, برامج قاعده البيانات هي أكثر اقتصادا, كونها اما غير مكلفه نسبيا أو مجانية, من التمويل المطلوب لدعم استخدام نظم البيانات الكبيرة. في الواقع ، توجد مجموعه متنوعة من البرامج المتاحة تجاريا والمفتوحة المصدر لإنشاء قواعد بيانات والحفاظ عليها ، مثل قاعده بيانات Oracle و MySQL و Microsoft (MS) الوصول9. كما سيتم تشجيع العديد من الباحثين لمعرفه ان العديد من الحزم الاكاديميه MS اوفيس تاتي مع MS الوصول وشملت, زيادة التقليل من الاعتبارات التكلفة. وعلاوة علي ذلك ، ما يقرب من جميع المطورين توفير وثائق واسعه علي الإنترنت وهناك عدد كبير من الموارد علي الإنترنت مجانا مثل Codecاديم ، W3Schools ، و SQLBolt لمساعده الباحثين علي فهم واستخدام لغة الاستعلام المهيكلة (SQL)10،11،12. مثل اي لغة برمجه ، تعلم كيفيه استخدام قواعد البيانات والتعليمات البرمجية باستخدام SQL يستغرق وقتا لإتقان ، ولكن مع الموارد وافره المتاحة عمليه واضحة وتستحق الجهد المستثمر.

ويمكن ان تكون قواعد البيانات أدوات قويه لزيادة امكانيه الوصول إلى البيانات وسهوله التجميع ، ولكن من المهم التمييز بين البيانات التي يمكن ان تستفيد أكثر من التحكم الأكبر في التنظيم. تشير الابعاد المتعددة إلى عدد الشروط التي يمكن تجميع القياس ضدها ، وقواعد البيانات هي الأكثر قوه عند أداره العديد من الشروط المختلفة13. وعلي العكس من ذلك ، المعلومات ذات الابعاد المنخفضة هي ابسط للتعامل باستخدام برنامج جداول البيانات; علي سبيل المثال ، تحتوي مجموعه البيانات التي تحتوي علي سنوات وقيمه لكل سنه علي تجميع واحد ممكن فقط (قياسات مقارنه بالسنوات). البيانات عاليه الابعاد مثل من الإعدادات السريرية تتطلب درجه كبيره من التنظيم اليدوي من أجل الحفاظ علي نحو فعال ، عمليه مملة وعرضه للخطا خارج نطاق برامج جداول البيانات13. قواعد بيانات غير علائقية (NoSQL) أيضا الوفاء مجموعه متنوعة من الأدوار ، في المقام الأول في التطبيقات حيث لا تنظم البيانات بشكل جيد في الصفوف والاعمده14. بالاضافه إلى كونها مفتوحة المصدر بشكل متكرر ، تتضمن هذه المخططات التنظيمية الاقترانات الرسوميه أو بيانات السلاسل الزمنيه أو البيانات المستندة. تتفوق NoSQL في قابليه التحجيم أفضل من SQL ولكن لا يمكن إنشاء استعلامات معقده بحيث تكون قواعد البيانات العلائقية أفضل في الحالات التي تتطلب التناسق والتوحيد والتغييرات غير المنتظمة واسعه النطاق15. قواعد البيانات هي الأفضل في تجميع وأعاده تحديث البيانات بشكل فعال في المجموعة الكبيرة من التشكيلات التي غالبا ما تكون مطلوبه في الإعدادات العلمية13,16.

وتشمل التطبيقات المماثلة الأخرى البيانات الجغرافية المكانية لأسره النهر ، والاستبيانات من الدراسات السريرية الطولية ، وظروف النمو الميكروبي في وسائل الاعلام النمو17،18،19. ويسلط هذا العمل الضوء علي الاعتبارات المشتركة وفائدة إنشاء قاعده بيانات مقرونة بخط أنابيب بيانات ضروري لتحويل البيانات الاوليه إلى اشكال منظمه. يتم توفير أساسيات واجات قاعده البيانات والترميز لقواعد البيانات في SQL وتوضيحها مع أمثله للسماح للآخرين للحصول علي المعرفة التي تنطبق علي بناء الأطر الاساسيه. وأخيرا ، فان عينه من مجموعه البيانات التجريبية تبين مدي سهوله وفعالية تصميم قواعد بيانات لتجميع البيانات المتعددة الأوجه بطرق متنوعة. وتوفر هذه المعلومات سياقا وتعليقا ونماذج لمساعده زملائنا العلماء علي الطريق نحو تنفيذ قواعد البيانات لتلبيه احتياجاتهم التجريبية الخاصة.

لأغراض إنشاء قاعده بيانات قابله للتطوير في المختبرات البحثية ، تم جمع البيانات من التجارب التي تستخدم خلايا الورم الليفي البشري علي مدي السنوات الثلاث الماضية. وينصب التركيز الرئيسي لهذا البروتوكول علي الإبلاغ عن تنظيم برامج حاسوبيه لتمكين المستخدم من تجميع البيانات وتحديثها وأدارتها باقصي قدر ممكن من التكلفة والوقت ، ولكن يتم توفير الطرق التجريبية ذات الصلة أيضا سياق.

الاعداد التجريبي
وقد تم وصف البروتوكول التجريبي لاعداد العينات سابقا20،21، وهو معروض بإيجاز هنا. وقد أعدت الثوابت بواسطة الطلاء الزجاجي مستطيله الشكل الشفتين مع خليط 10:1 من polydiميثيل siloxane (PDMS) وعامل العلاج ، ثم تطبيق 0.05 mg/mL fibronectin ، في اما غير المنظم (الانسيابية) أو 20 ميكرومتر خطوط مع 5 μm الفجوة ميكرومنقوشه الترتيبات (خطوط). تم البذر الخلايا الليفية في مرور 7 (أو مرور 16 للضوابط الايجابيه) علي الشفتين في الكثافات المثلي واليسار إلى النمو ل 48 h مع وسائل الاعلام التي يجري تغييرها بعد 24 ساعة. ثم تم إصلاح الخلايا باستخدام 4 ٪ بارافورمالدهيد (PFA) الحل و 0.0005 ٪ غير أيوني السطحي ، تليها الشفتين المناعية لنواه الخلية (4 ' ، 6 '-diaminodino-2-فينيليندولول [dapi]) ، الاكتين (اليكسا فلور 488 phalloidin) ، وفيبرونكتين (الأرنب بوليكلوكال المضادة للإنسان الفيبرونكتين جنيني). وصمه عار الثانوية ل الفيبرونكتين جنيني باستخدام الماعز مكافحه الأرنب الأجسام المضادة الأرانب (اليكسا فلور 750 الماعز المضادة للأرنب) تم تطبيقها وشنت وكيل الحفاظ علي جميع الشفتين لمنع يتلاشى الفلورسنت. واستخدم طلاء الأظافر لختم الشفتين علي الشرائح المجهر ثم غادر لتجف لمده 24 ساعة.

تم الحصول علي الصور الفلورية كما هو موضح سابقا20 باستخدام 40x النفط الغمر الهدف إلى جانب تهمه الرقمية إلى جانب الجهاز (CCD) الكاميرا التي شنت علي المجهر الميكانيكية مقلوب. وكانت عشره مجالات مختاره عشوائيا من العرض لكل كوفيرسليب في التكبير 40x ، المقابلة 6.22 بكسل/ميكرومتر القرار. واستخدمت رموز مكتوبه حسب العرف لقياس المتغيرات المختلفة من الصور التي تصف النوى ، وخيوط الإبطين ، وفيبرونكتين ؛ قيم المناظرة ، بالاضافه إلى معلمات التنظيم والهندسة ، تم حفظها تلقائيا في ملفات البيانات.

خطوط الخلايا
ويمكن الاطلاع علي وثائق أكثر شمولا بشان جميع خطوط خلايا البيانات النموذجية في المنشورات السابقة20. ولوصفها بإيجاز ، تمت الموافقة علي جمع البيانات وتمت الموافقة المستنيرة وفقا لمجلس المراجعة المؤسسية التابع لجامعه اوك ايرفين (2014-1253). تم جمع الخلايا الليفية البشرية من ثلاث عائلات من مختلف الاختلافات في الطفرة الجينية للامين A/C (Lmna): الطفرة الوراثية لموقع اللصق ( c. 357-2a > G)22 (الاسره الف) ؛ الطفرة هراء lmna (c. 736 c > T ، pQ246X) في اكسون 423 (الاسره ب) ؛ والطفرة lmna مغلط (c. 1003c > T, pR335W) في اكسون 624 (الاسره c). كما تم جمع الخلايا الليفية من الافراد الآخرين في كل أسره كعناصر التحكم السلبية المتعلقة بالطفرات ، والمشار اليها باسم "الضوابط" ، وتم شراء الآخرين كضوابط سلبيه غير ذات صله بالطفرات ، يشار اليها باسم "المانحين". كعنصر تحكم إيجابي ، تم شراء الخلايا الليفية من فرد مع هاتشينسون-غليفورد بروجيريا (hgps) ونميت من خزعة الجلد الماخوذه من المريض الإناث البالغ من العمر 8 سنوات مع hgps التي تمتلك الطفرة lmna G608G نقطه25. في المجموع ، تم اختبار الخلايا الليفية من 22 فردا واستخدامها كبيانات في هذا العمل.

أنواع البيانات
هذه المعلمة مساويه للقيمة القصوى لقيمه الطلب المتوسط لكل متجات التوجيه ، ويتم تعريفها بالتفصيل في المنشورات السابقة26،28. يتم تجميع هذه القيم في مجموعه متنوعة من التشكيلات المحتملة ، مثل القيم ضد العمر ، والجنس ، وحاله المرض ، وجود اعراض معينه ، الخ. يمكن العثور علي أمثله حول كيفيه استخدام هذه المتغيرات في قسم النتائج.

أمثله الرموز والملفات
يمكن تحميل رموز المثال والملفات الأخرى المستندة إلى البيانات أعلاه مع هذه الورقة ، ويتم تلخيص أسمائها وأنواعها في الجدول 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

ملاحظه: راجع جدول المواد لإصدارات البرامج المستخدمة في هذا البروتوكول.

1-تقييم ما إذا كانت البيانات ستستفيد من نظام تنظيم قاعده بيانات

  1. قم بتنزيل رموز المثال وقواعد البيانات (راجع ملفات الترميز الاضافيه، والتي يتم تلخيصها في الجدول 1).
  2. استخدم الشكل 1 لتقييم ما إذا كانت مجموعه بيانات الفائدة "متعددة الابعاد".
    ملاحظه: الشكل 1 تمثيل رسوميه لقاعده بيانات متعددة الابعاد المتوفرة لمجموعه البيانات المثال.
  3. إذا كان يمكن تصور البيانات في شكل "متعدد الابعاد" مثل المثال وإذا كانت القدرة علي ربط نتيجة تجريبية محدده إلى اي من الابعاد (اي الظروف) من شانها ان تسمح لمزيد من التبصر العلمي في البيانات المتاحة ، والمضي قدما إلى إنشاء قاعده بيانات علائقية.

2. تنظيم بنيه قاعده البيانات

ملاحظه: قواعد البيانات العلائقية تخزين المعلومات في شكل جداول. يتم تنظيم الجداول في مخطط الصفوف والاعمده ، علي غرار جداول البيانات ، ويمكن استخدامها لربط معلومات التعريف داخل قاعده المعلومات.

  1. تنظيم ملفات البيانات ، لذلك لديهم مدروسه بشكل جيد من أسماء فريدة من نوعها. الممارسة الجيدة مع اصطلاحات تسميه الملفات وهياكل المجلدات الفرعية ، عند القيام بذلك بشكل جيد ، تسمح بتوسيع قاعده البيانات الواسعة دون المساس بقابليه الوصول إلى الملفات يدويا. أضافه ملفات التاريخ بتنسيق متناسق ، مثل "20XX-YY-ZZ" ، واسم المجلدات الفرعية وفقا لبيانات التعريف هو أحد هذه الامثله.
  2. ومع تصميم بنيه قاعده البيانات ، ارسم علاقات بين الحقول في جداول مختلفه. التالي ، تتم معالجه الابعاد المتعددة عن طريق الربط بين الحقول المختلفة (اي الاعمده في الجداول) في الجداول الفردية لبعضها البعض.
  3. إنشاء وثائق الملف التمهيدي الذي يصف قاعده البيانات والعلاقات التي تم إنشاؤها في الخطوة 2.2. بمجرد ربط الإدخال بين الجداول المختلفة ، تكون كافة المعلومات المقترنة مرتبطة بهذا الإدخال ويمكن استخدامها لاستدعاء الاستعلامات المعقدة للتصفية إلى المعلومات المطلوبة.
    ملاحظه: المستندات التمهيدي حل شائع لتوفير معلومات اضافيه ومعلومات هيكليه قاعده بيانات حول مشروع دون أضافه بيانات غير موحده إلى البنية.
  4. وفي أعقاب الخطوات من 2-1 إلى 2-3 ، فان النتيجة النهائية مماثله لهذا المثال حيث ترتبط الخصائص المختلفة للافراد (الشكل 2ا) بالبيانات التجريبية المرتبطة بهؤلاء الافراد (الشكل 2ب). وقد تم القيام بذلك من خلال ربط أعمده أنواع الأنماط (الشكل 2ج) وأنواع البيانات (الشكل 2د) بمطابقه الإدخالات في جدول قيم البيانات الرئيسية لشرح مختلف التدوينات المختزلة (الشكل 2ب).
  5. تحديد جميع نقاط البيانات الاساسيه والمفيدة التي تحتاج إلى تسجيل لجمع البيانات بعيده المدى.
    ملاحظه: ميزه رئيسيه لاستخدام قواعد البيانات عبر برامج جداول البيانات ، كما ذكر سابقا ، هي قابليه التحجيم: يمكن أضافه نقاط بيانات اضافيه بشكل تافه في اي نقطه ويتم تحديث الحسابات ، مثل المتوسطات ، علي الفور لتعكس نقاط البيانات المضافة حديثا.
    1. تحديد المعلومات الضرورية لإنشاء نقاط بيانات مميزه قبل البدء. ترك البيانات الخام لم يمسها ، بدلا من تعديل أو حفظ أكثر من ذلك ، حتى ان أعاده التحليل هو ممكن ويمكن الوصول اليها.
      ملاحظه: بالنسبة لمثال معين (الشكل 2) ، "التسمية" المطابق للفرد ، "نوع النقش" ، "Coverslip #" ، و "نوع متغير" كانت كافة الحقول الحيوية لمميز القيمة المقترنة.
    2. إذا رغبت في ذلك ، قم باضافه معلومات أخرى مفيده وغير حيوية مثل "الإجمالي # للشفاه" للاشاره إلى عدد مرات التكرار التي تم اجراؤها والمساعدة في تحديد ما إذا كانت نقاط البيانات مفقوده في هذا المثال.

3. اعداد وتنظيم خط الأنابيب

  1. تحديد جميع التجارب المختلفة وأساليب تحليل البيانات التي قد تؤدي إلى جمع البيانات مع ممارسات تخزين البيانات العادية لكل نوع من أنواع البيانات. العمل مع برنامج التحكم في الإصدار مفتوح المصدر مثل جيثب لضمان الاتساق الضروري والتحكم في الإصدار مع تقليل عبء المستخدم.
  2. إذا كان ذلك ممكنا ، قم بإنشاء اجراء لتسميه وتخزين البيانات بشكل متناسق للسماح بخط أنابيب مؤتمت.
    ملاحظه: في المثال ، كانت كافة المخرجات المسمية باستمرار ، التالي إنشاء خط أنابيب بيانات التي بحثت عن سمات معينه كانت مباشره بمجرد تحديد الملفات. إذا كانت التسمية متناسقة غير ممكن ، ستحتاج الجداول في قاعده البيانات إلى تعبئة يدويا ، وهو غير مستحسن.
  3. استخدم اي لغة برمجه ملائمة لإنشاء إدخالات بيانات جديده لقاعده البيانات.
    1. إنشاء جداول صغيره "المساعد" (الملفات #8 − #10 في الجدول 1) في ملفات منفصلة التي يمكن توجيه الاختيار الألى للبيانات. هذه الملفات بمثابه قالب من الاحتمالات لخط الأنابيب للعمل تحت وسهله لتحرير.
    2. لإنشاء إدخالات بيانات جديده لخط أنابيب البيانات (الشكل 3D) ، برنامج التعليمات البرمجية (المنشانالمؤشر. m ، #1 الملف في الجدول 1) لاستخدام الجداول المساعد كمدخلات ليتم تحديدها من قبل المستخدم (الملفات #8 − #10 في الجدول 1).
    3. من هنا ، تجميع جدول بيانات جديده من مواقع الملفات عن طريق الجمع بين الإدخالات الجديدة مع الإدخالات السابقة (الشكل 3E). إنشاء تعليمات برمجيه لاتمته هذه الخطوة كما هو موضح في LocationPointerCompile. m (#2 الملفات في الجدول 1).
    4. بعد ذلك ، تحقق من جدول البيانات المدمج هذا للتكرارات ، والتي يجب ازالتها تلقائيا. إنشاء تعليمات برمجيه لاتمته هذه الخطوة كما هو موضح في LocationPointer_Remove_Duplicates (ملف #3 في الجدول 1).
    5. بالاضافه إلى ذلك ، تحقق من جدول البيانات عن الأخطاء ، واعلام المستخدم من السبب والموقع (الشكل 3و). إنشاء تعليمات برمجيه لاتمته هذه الخطوة كما هو موضح في BadPointerCheck. m (ملف #4 في الجدول 1). بدلا من ذلك ، اكتب التعليمات البرمجية التي سيتم التحقق من قاعده البيانات المترجمة وتعريف التكرارات في خطوه واحده كما هو موضح في LocationPointer_Check (ملف #5 في الجدول 1).
    6. إنشاء تعليمات برمجيه للسماح للمستخدم بازاله النقاط السيئة يدويا دون فقدان تكامل قاعده البيانات كما هو موضح في Manual_Pointer_Removal (ملف #6 في الجدول 1).
    7. ثم استخدم مواقع الملفات لإنشاء جدول بيانات قيمه للبيانات (الشكل 3G، #12 الملف في الجدول 1) وكذلك لإنشاء قائمه محدثه من الإدخالات التي يمكن الوصول اليها للتعرف علي مواقع الملفات أو دمجها مع الإدخالات المستقبلية (الشكل 3H). إنشاء تعليمات برمجيه لاتمته هذه الخطوة كما هو موضح في Database_Generate (ملف #7 في الجدول 1).
  4. التحقق المزدوج من ان خط الأنابيب يضيف إلى الصرامة التجريبية عن طريق التحقق من ادراج اصطلاحات التسمية الدقيقة ورموز تجميع الملفات المؤتمتة والتحقق من الأخطاء التلقائية كما هو موضح سابقا.

4. إنشاء قاعده البيانات والاستعلامات

ملاحظه: إذا كانت الجداول تخزن المعلومات في قواعد البيانات ، فان الاستعلامات هي طلبات إلى قاعده البيانات للحصول علي المعلومات المعطية لمعايير معينه. هناك طريقتان لإنشاء قاعده البيانات: بدءا من مستند فارغ أو بدءا من الملفات الموجودة. يظهر الشكل 4 استعلام نموذج باستخدام بناء جمله SQL الذي تم تصميمه للتشغيل باستخدام علاقات قاعده البيانات الموضحة في الشكل 2.

  1. الأسلوب 1: بدءا من البداية في إنشاء قاعده البيانات والاستعلامات
    1. إنشاء مستند قاعده بيانات فارغه.
    2. تحميل الجداول المساعدة (الملفات #8 − #10 في الجدول 1) عن طريق تحديد البيانات الخارجية | استيراد ملف نصي | اختر ملف (ملفات #8 − #10) | محدد | يحتوي الصف الأول علي رؤوس ، فاصله | ترك الافتراضي | اختر المفتاح الأساسي الخاص بي (التسمية لملف خطوط الخلايا #8 ، اسم المتغير لملف أنواع البيانات #9 ، اسم بات لملف نوع النقش #10) | ترك الافتراضي | إنهاء.
    3. تحميل جدول قيمه البيانات (#12 الملفات في الجدول 1) عن طريق تحديد البيانات الخارجية | استيراد ملف نصي | اختر ملف (ملف #12) | محدد | يحتوي الصف الأول علي رؤوس ، فاصله | ترك الافتراضي | السماح للوصول أضافه مفتاح أساسي | استيراد إلى جدول: DataValues | إنهاء.
    4. إنشاء العلاقات عن طريق تحديد أدوات قاعده البيانات | علاقات | اسحب كافة الجداول إلى اللوحة | تحرير العلاقات | إنشاء جديد | تطابق حقول DataValue مع الجداول مساعد تسميات | النوع المشترك 3.
    5. اختر إنشاء | تصميم الاستعلام.
    6. حدد أو اسحب كافة الجداول ذات الصلة إلى الإطار العلوي. في هذا المثال ' خطوط الخلايا ' ، ' قيم البيانات ' ، ' أنواع البيانات ' ، و ' نوع النقش '. يجب ان يتم اعداد العلاقات تلقائيا استنادا إلى تصميم العلاقة السابق.
    7. أملا أعمده الاستعلام للنتائج المرجوة ، علي سبيل المثال:
      1. انقر علي عرض | مجاميع.
      2. أملا العمود الأول (الجدول: DataValues ، الحقل: DataVar ، المجموع: GroupBy ، المعايير: "Act_OOP") ، العمود الثاني (الجدول: DataValues ، الحقل: PatVar ، المجموع: GroupBy ، المعايير: "خطوط") ، والعمود الثالث (الجدول: Cell_Lines GroupBy ، فرز: تصاعدي).
      3. أملا العمود الرابع (الجدول: DataValues ، الحقل: المعلمة ، المجموع: Ave) ، العمود الخامس (الجدول: DataValues ، الحقل: المعلمة ، المجموع: StDev) ، والعمود السادس (الجدول: DataValues ، الحقل: المعلمة ، المجموع: Count).
    8. تشغيل الاستعلام.
  2. بدلا من ذلك ، استخدم قاعده بيانات المثال المتوفر كاساس للحصول علي أمثله. فتح ملف قاعده البيانات Database_Queries. accdb (ملف #13 في الجدول 1) التي تم تحميلها سابقا. استخدمه كقالب عن طريق استبدال الجداول الموجودة ببيانات الفائدة.

5-نقل جداول المخرجات إلى برنامج إحصائي لتحليل الاهميه

  1. بالنسبة لهذه العينة من البيانات التجريبية ، استخدم تحليل الاتجاه الواحد للتباين (ANOVA) باستخدام اختبار Tukey للمقارنة المتوسطة بين الظروف المختلفة.
    ملاحظه: قيم p < 0.05 كانت تعتبر ذات دلاله احصائيه.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

ابعاد متعددة للبيانات
في سياق المثال مجموعه البيانات المعروضة هنا ، المواضيع ، الموصوفة في قسم الأساليب ، يمكن تجميع النتائج من الضوابط والجهات المانحة معا كمجموعه السيطرة السلبية الشاملة (نورث كارولاينا) ، نظرا لافتقارها الجماعي إلى طفرات Lmna . وكان لكل موضوع من خطوط الخلية "حاله الطفرة" المرتبطة به ، استنادا إلى مجموعه حالتهم (الشكل 1 -المحور الأزرق الداكن). لكل تجربه ، تم استزراع الخلايا الليفية من المواد علي ترتيبات اما غير المنظم (ايسوتروبيك) أو ميكرومنقوشه (خطوط) fibronectin ، وخلق حاله من "نمط نوع" (الشكل 1 -المحور البرتقالي). بعد ان تم إصلاح الخلايا ، والمناعية ، والذين تم تصويرهم ، تم نسخ "Coverslip #" ، حيث ان العديد من التجارب (اي التقنيات المتماثلة) ستحدث باستخدام خلايا الفرد نفسه (الشكل 1 – المحور الأخضر الفاتح). رموز matlab مخصصه20,21 واستخدمت بعد ذلك لقياس الجوانب المختلفة من نوى الخلية أو الانسجه المنظمة المتغيرات كما "نوع متغير" (الشكل 1 – المحور الأخضر الأزرق السماوي). وكانت العوامل الثلاثة مرتبطة بالمصدر البشري للخلايا ، التالي فهي مرتبطة ب "الاسره" (الشكل 1 – المحور الوردي الداكن) و "العمر عند الخزعة" (الشكل 1 – المحور الأخضر الغامق) بالاضافه إلى "حاله الطفرة". ومن الابعاد الأخرى غير المدرجة في الشكل 1 "عمر العرض" و "الاعراض" و "التسمية" و "نوع الجنس" للفرد المعني. يؤدي المثال المتوفر هنا إلى ما لا يقل عن عشره ابعاد محتمله لتجميع البيانات. لذلك هذا مثال معطيات مرشح أوليه لتنظيم بقاعده بيانات علائقي.

Figure 1
الشكل 1: تصور للبيانات متعددة الابعاد من مجموعه بيانات تحور lmna . يتم تعريف مكعب واحد بالابعاد الثلاثة "نوع متغير" ، "نوع النقش" و "Coverslip #." يتم عرض ابعاد أخرى كمحاور "حاله الطفرة" ، "عمر الخزعة" (السنوات) ، و "العائلة". تتطابق التسميات الملونة مع المحاور المختلفة المعروضة ، مثل عمر الخزعة (الأرقام الخضراء) لكل مكعب من الافراد. وهنا ، تستخدم سته من الابعاد العشرة الممكنة لتوضيح تعدد الابعاد لنقاط البيانات التجريبية. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.

تنظيم خط الأنابيب
ما يصل إلى 95% من جميع البيانات الرقمية غير مهيكله4، ولكن التنسيقات المنظمة مطلوبه لقواعد بيانات. ومع ذلك ، فان إنشاء طريقه مؤتمتة جيده لخط أنابيب البيانات يعتمد علي السياق بدرجه كبيره.

Figure 2
الشكل 2: علاقات عرض الجدول والتصميم داخل مجموعه بيانات تحور lmna . تحتوي قواعد البيانات العلائقية علي ميزه ربط الحقول في جدول واحد بالمعلومات في جدول آخر ، والذي يسمح بالقابلية الفوري للتجميع. يوضح المثال هنا بصريا كيف يمكن ربط المعلومات المختلفة. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.

علي سبيل المثال ، تم تخزين الصور التي تم جمعها من كل تجربه في مجلدات مسماه حسب التاريخ والاوليه لعضو المعمل المسؤول ، مع المجلدات الفرعية التي تسرد الموضوع وعدد المشاركين. يتم توفير ملفات خطوط الأنابيب في ملفات الترميز الاضافيه، بالاضافه إلى تلخيصها في رسم بياني انسيابي (الشكل 3). وقدتم تحديد مقاييس مختلفه من الظروف التجريبية المختلفة عبر مجموعه متنوعة من المواضيع من هذه الصور الفلورية (الشكل 3ا) باستخدام رموز مخصصه (الشكل 3ب) 20 ،21. علي سبيل المثال ، تم استخراج المعلمة الأمر الاكتين الشرقية21 من الانسجه الملطخة phسبائك (الشكل 3ا) وتستخدم لمقارنه تنظيم الخلايا الليفية من مختلف الافراد. تم حفظ مخرجات التعليمات البرمجية في نفس المجلد مثل الصور المصدر (الشكل 3C).

Figure 3
الشكل 3: مثال علي الاحتياجات المشتركة لخطوط البيانات في سياق معمم. تم إنشاء إدخالات جديده باستخدام مدخلات المستخدم والرموز المؤتمتة ، وتنسيق المعلومات الهامه في تنسيق جدول البيانات. تم دمج هذه الإدخالات مع أحدث مجموعه من إدخالات مواقع الملفات ، وتم التحقق من وجود أخطاء ، ثم تخزينها كجدول بيانات لمواقع الملفات وجدول بيانات للقيم. شريط مقياس = 20 μm. الرجاء النقر هنا لعرض نسخه أكبر من هذا الرقم.

تحديد علاقة جديده في مجموعه بيانات الطفرة في Lmna
عند إعطاء العديد من التشكيلات المحتملة ، يمكن ان يكون من الصعب تحديد حيث توجد علاقات جديده باستخدام أساليب تجميع البيانات اليدوية. في هذا السياق المحدد ، كنا مهتمين بمقارنه تنظيم خيوط الإبط الخلوية عبر العديد من الحالات ، مقيسة باستخدام الرقم27.

Figure 4
الشكل 4: استعلام مثال باستخدام بناء جمله SQL. عبارات SELECT و من المتطلبات لإنشاء استعلام ولكن غالبا ما يتم تضمين الأوامر والمعايير الاضافيه. تقدم GROUP BY توضيحا حول كيفيه قيام البيانات المجمعة ، أو التي تحتوي علي بيانات أو WHERE ، بتقييد المخرجات بالبيانات التي تستوفي معايير محدده ، ويشير ORDER BY إلى الترتيب الذي يجب ترتيب المخرجات من خلاله. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.

صافي هو بناء الرياضية تحديد درجه النظام في بيئات متباينة الخواص ، تطبيع إلى الصفر المقابلة الانسجه الانسيابية تماما واحد المقابلة للانسجه الانحياز تماما. تم تقسيم مجموعه البيانات لأول مره حسب نوع النقش كخطوط (الشكل 5ا) و خواص (الشكل 5ب) الشروط ، والتي كان من المتوقع ان تكون مختلفه إلى حد كبير عفوا منذ الفيبرونكتين جنيني ميكروباتيرنينج يؤثر بشده تنظيم الانسجه. لم تكن هناك اختلافات كبيره بين الظروف عند مقارنه الانسجه الانسيابية (الشكل 5ب). وعلي العكس من ذلك ، كانت الانسجه المنقوشة اقل تنظيما من الناحية الاحصائيه في خط خليه التحكم الإيجابي (HGPS) (الشكل 5ا) ، وقد عقدت هذه العلاقة حتى عندما تم تجميع البيانات في مجموعات مختلفه (الشكل 5ج). الاضافه إلى ذلك تم رسم actin صافيه ضد عمر الافراد في وقت الخزعة (الشكل 5د), مفصوله بحاله الطفرة والاسره, لتوضيح التجميع ضد متغير السريرية. وخلافا للعيوب النووية20، لا يوجد ارتباط بين منظمه الاكتين وعمر الفرد (الشكل 5د). وفي نهاية المطاف ، توضح المؤامرات المبينة في الشكل 5 كيف يمكن تحليل البيانات نفسها في مجموعات مختلفه ومدي سهوله إنجاز المهمة الصعبة عاده المتمثلة في تجميع البيانات التي تندرج ضمن فئات متعددة باستخدام قواعد البيانات.

لهذه المادة ، تمت مقارنه البيانات من الخلايا الليفية من مصادر المريض بين الظروف لتحديد عواقب الطفرة. علي الرغم من ان كلا hgps والأسر الثلاثة في هذه الدراسة لديها الامراض المرتبطة lmnaالتي يحتمل ان تعطل المغلف النووي ، والمرضي تظهر الاعراض المرتبطة في المقام الأول مع ضعف القلب في حين ان الافراد hgps لديها أنظمه الأعضاء المتعددة المتضررة22،23،24. في الواقع ، علي الرغم من خلايا البيئة ميكرومنقوشه التي تنشا من المريض HGPS كان لها قيمه اكتين منخفضه إحصائيا من اي من خطوط الخلايا الأخرى التي تم النظر فيها (الشكل 5ا،ج). هذا ينسجم مع المرضي HGPS كونها الوحيدة في الدراسة مع اي تشوات الجلد الناجمة عن الطفرة. ومن المفيد أيضا عرض نفس البيانات في التشكيلات المختلفة لتوفير مزيد من التبصر والسبل في التحقيق العلمي في مجموعه بيانات متنوعة (الشكل 5).

Figure 5
الشكل 5: مقارنات بين شروط متغير الشبكة الصافية. (ا،ب) التجمعات تتوافق مع الشروط الاساسيه الاربعه: الجهات المانحة غير المرتبطة بالرقابة السلبية ، والضوابط السلبية ذات الصلة ، والطفرة المرضية من ثلاث عائلات ، والسيطرة الايجابيه hgps. (ج) تم الجمع بين جميع الضوابط السلبية (نورث كارولاينا) وفصل المرضي عن الاسره (PA, PB, PC) بدلا من ذلك. (د) الرسم البياني المحتمل لل الاكتين الخواص الانسيابية ضد السن في وقت الخزعة التي تم جمعها لهذه الدراسة ، مفصوله بشرط والاسره. يتم رسم اللوحات A و C و D للانسجه المجهرية المنقوشة بنمط خطوط ، بينما يتم رسم اللوحة B للانسجه الانسيابية. وقد تم العثور علي الاهميه الاحصائيه ل p < 0.05 (*) في الافرقه الف وجيم ودال. لم يتم العثور علي اي اهميه بين اي أزواج في لوحه B. تمثل كافة أشرطه الخطا الانحرافات القياسية المحسوبة داخل قاعده البيانات. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.

ملفات الترميز الاضافيه. الرجاء انقر هنا لعرض هذا الملف (انقر بزر الماوس الأيمن للتحميل).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

المناقشة التقنية للبروتوكول
والخطوة الاولي عند النظر في استخدام قواعد البيانات هي تقييم ما إذا كانت البيانات ستستفيد من هذه المنظمة.

الخطوة الاساسيه التالية هي إنشاء تعليمات برمجيه مؤتمتة ستطلب الحد الأدنى من المدخلات من المستخدم وإنشاء بنيه بيانات الجدول. في المثال ، ادخل المستخدم فئة نوع البيانات (نوى الخلية أو القياسات الهيكلية) ، والتسمية الموضوعة لخطوط الخلايا ، وعدد الملفات التي يتم تحديدها. ثم تم اختيار الملفات ذات الصلة من قبل المستخدم (الجدول 2، العمود 1) ، مع إدخالات الصف التي يتم إنشاؤها تلقائيا وملئها بكافة المتغيرات الموجودة داخل الملف (الجدول 2، العمود 2). وعلاوة علي ذلك ، فمن المهم ان التعليمات البرمجية مرنه بحيث إذا كان إدخال تجريبي آخر يحتاج إلى أضافه ، يمكن للمستخدم تحديد لمتابعه الحلقة; إذا لم يكن كذلك ، يتم حفظ الملفات وتنتهي حلقه. الوظائف الاساسيه لأضافه إدخالات جديده ، والتحقق من وجود أخطاء ، وتجميع جدول البيانات من مواقع الملفات الموصوفة في هذه الخطوة كلها ضرورية لاعداد خط أنابيب البيانات بكفاءة.

من الضروري ملاحظه ان استخدام مواقع الملفات عند إنشاء خط أنابيب البيانات يزيد من الصرامة التجريبية. وعلي وجه التحديد ، يسمح وجود جدول بيانات مطابق يسرد كافة مواقع الملفات لقيم البيانات للمستخدم بالتراجع عن إيه بيانات تشير إلى دفتر ملاحظات الباحث الذي قام بجمع البيانات الاوليه. عند التعامل مع المئات إلى عشرات آلاف من نقاط البيانات ، فان زيادة الشفافية وامكانيه الوصول لا تقدر بثمن علي مدي عمر المشروع. من المستحسن جدا ان المستخدمين النظر في حفظ مواقع الملفات أولا والإصدارات الأحدث ترجمه القيم للبيانات بدلا من فقط تخزين قيم البيانات.

بمجرد إنشاء قاعده البيانات ، ابسط طريقه للبدء هي عن طريق برمجه الاستعلامات من خلال طريقه العرض "تصميم". سيجد المستخدم انه من المفيد تحميل القالب المتوفر (#13 الملف في الجدول 1) كنقطه بداية. بدلا من ذلك ، يمكن برمجه هذه مباشره من خلال لغة SQL (الشكل 4).

المناقشة العلمية
وكان الغرض من هذه المادة هو نشر الأساليب التي تنطوي علي خط أنابيب بيانات وقاعده بيانات توضح قابليه التوسع في مجموعه البيانات وشفافيتها. وهذه الأساليب لا تستخدم علي نطاق واسع خارج المعلوماتية والاعمال التجارية ، ولكنها تنطوي علي إمكانات هائله للعاملين في السياقات البيولوجية. ومع استمرار العلم في الاعتماد علي أجهزه الكمبيوتر بشكل أكثر كثافة ، فان اهميه نظم الاداره الفعالة ترتفع أيضا6،29. وكثيرا ما تستخدم قواعد البيانات لارتفاع حجم و/أو تطبيقات السرعة العالية ويستشهد بها جيدا في الأدبيات ، وخاصه فيما يتعلق باستخدامها للسكان المرضي السريرية8،30،31. وقد شيدت عده بالفعل لمجالات محدده مثل أدوات الجينوم الفئران قاعده البيانات أو redcap للبحوث السريرية والانتقالية32،33. وهكذا ، تم اعتماد استخدام قواعد البيانات في المجال السريري8 أو قواعد البيانات الجينية الكبيرة32، ولكن لم تصبح شائعه في التخصصات العلمية الأخرى مثل هندسه الانسجه.

وقد اعترف منذ فتره طويلة في المجتمع العلمي بالمسائل المتعلقة بمعالجه البيانات المعقدة بشكل متزايد باستخدام برامج جداول البيانات34. وذكرت أحدي الدراسات ان حوالي 20% من أوراق المجلات الجينية ذات الملفات التكميلية لها أسماء جينيه تم تحويلها بشكل خاطئ إلى تواريخ35. وزادت هذه الأخطاء بمعدل 15 في المائة سنويا من 2010 إلى 2015 ، متجاوزه بكثير الزيادة السنوية في ورقات الجينوم بنسبه 4 في المائة في السنه. غالبا ما يكون من المستحيل تقريبا تحديد الأخطاء الفردية ضمن حجم كبير من البيانات ، حيث ان برامج الجداول الطبيعية غير مناسبه للتحقق السهل من النتائج أو حسابات المعادلات. المقالات المنشورة موجودة حتى لتثقيف العلماء علي أفضل الممارسات جداول البيانات في محاولة للحد من تكرار الأخطاء7. واحده من اقوي فوائد قواعد البيانات هو الحد من الخطا من خلال الأساليب اليه والقدرة علي التحقق من صحة البيانات التي يحتمل ان تكون مشكوك فيها (الشكل 3).

ومن النتائج الهامه لهذه المنهجية زيادة صرامة تحليل البيانات. وقد أبرزت اهميه زيادة استنساخ البيانات من قبل المعاهد القومية للصحة وكذلك من قبل العلماء والمؤسسات الأخرى36،37. من خلال وجود جدول بيانات من مواقع الملفات المقابلة لكل قاعده بيانات ، فانه من السهل لتتبع نقطه معطيات مره أخرى إلى دفتر المختبر من التجربة في السؤال (الشكل 3). ويمكن أيضا تحديد نقاط البيانات الفردية بسرعة والعثور عليها الكترونيا باستخدام مواقع الملفات المناظرة ، التي لا تقدر بثمن في بعض الأحيان ، حتى عند اقترانها بالفحص التلقائي للخطا اثناء عمليه أنابيب البيانات. حتى عندما يتم تعديل مجموعه البيانات مع مرور الوقت ، تتضمن أفضل الممارسات الاحتفاظ بكافة الملفات السابقة في حاله حدوث مشكلات أو يجب التحقق من الإصدارات القديمة. يعمل العمل غير المدمر والاحتفاظ بالإصدارات القديمة داخل خط أنابيب البيانات علي إنشاء الأمان من خلال التكرار ويسمح بتحسين استكشاف الأخطاء وإصلاحها.

وهناك عدد لا يحصي من نظم أداره قواعد البيانات العلائقية في تركيبه من لغات الترميز التي يمكن استخدامها لنفس احتياجات خط أنابيب البيانات. وتعتمد الخيارات الأكثر ملاءمة اعتمادا كبيرا علي البيانات والسياق المستخدم ؛ بعض التطبيقات تتفوق أفضل في قابليه التحجيم ، والمرونة ، والموثوقيه ، وغيرها من الأولويات9. علي الرغم من ان قواعد البيانات لا تزال محدوده من الناحية الفنية في الحجم ، فان الوصول إلى حدود الذاكرة لا يزال خارج نطاق معظم المختبرات العلمية. علي سبيل المثال ، تحتوي قاعده بيانات MS Access علي حد حجم ذاكره 2 غيغابايت ، والذي سيكون مجموعه بيانات علي ترتيب مئات آلاف إلى ملايين الإدخالات اعتمادا علي البيانات وعدد الحقول. معظم المختبرات لن يكون لها احتياجات تجريبية من هذا الحجم ، ولكن إذا فعلوا ذلك البرنامج جداول البيانات سيكون ابعد بكثير من حدودها الفعالة علي اي حال. المقارنة ، يمكن لأنظمه أداره قواعد البيانات العلائقية علي مستوي الاعمال معالجه مجموعات البيانات ذات المقادير الأكبر اثناء معالجه ملايين المعاملات في وقت واحد29. جزء من السبب قواعد البيانات ليست شائعه الاستخدام في المختبرات العلمية هو ان التجارب الماضية نادرا ما الاحتياجات الذروة من هذه المقادير البيانات ، لذلك أصبحت سهله الاستخدام للبرمجيات جدول علي نطاق واسع بدلا من ذلك. ومع ذلك ، فان الاستثمار الكبير المطلوب لجعل هذه الأساليب تعمل ، هو الوقت اللازم للتخطيط لخط أنابيب البيانات وتعلم SQL لاستخدام قواعد بيانات (الشكل 3 والشكل 4). علي الرغم من ان تجربه الترميز بشكل كبير يعجل العملية ، معظم سوف تحتاج إلى تعلم SQL من الصفر. ثروة من الوثائق متاحه علي الإنترنت من خلال الوثائق واسعه النطاق من قبل المطورين ، فضلا عن دروس SQL الحرة مثل في Codecاديم ، W3Schools ، و SQLBolt10،11،12. بعض البدائل التي تتطلب الاشتراكات موجودة ، ومع ذلك ، مثل برنامج التدريس الموقع Lynda38؛ يمكن العثور علي مزيد من القراءة حول أساسيات قاعده البيانات علي الإنترنت. في السياق الأكاديمي ، يمكن لنظام الشراء الجيد والانظمه القوية ان يتفوق علي منشئيه ويساعد في تسهيل سنوات عديده من المشاريع عبر عده طلاب. ويمكن تحقيق ذلك من خلال إنشاء المبادئ التوجيهية وخطوات التنفيذ اثناء الاعداد. وفي الواقع ، هناك قيمه عاليه بالنسبة لجميع الباحثين في وجود نظام مشترك لخط أنابيب البيانات وقواعد بيانات يعمل بشكل جيد.

وتشمل الفوائد الأخرى لهذه المنهجية القدرة علي استخدام الأساليب اليه لتحويل البيانات الخام إلى اشكال مهيكله ، وسهوله الاستعمال بمجرد تخزينها داخل قاعده البيانات ، وأعاده التحديث المستمر وأعاده تجميع مجموعات بيانات (الشكل 3). من الممكن أيضا سحب قيمه المتغيرات المتعددة من ملف بيانات واحد وأتمته خط أنابيب البيانات للقيام بذلك عند المطالبة. وفي السياق المبين ، استخدمت البرمجيات المتاحة والمقتصدة عموما لتحقيق نتائج تبين ان حزم البرامجيات المكلفة والمتخصصة ليست إلزاميه في تحقيق قاعده بيانات وظيفية. ونظرا لمحدوديه الوصول إلى معظم الصناديق البحثية في المختبرات ، فان القدرة علي زيادة كفاءه أداره قواعد البيانات هي سلعه لا تقدر بثمن.

وفي الختام ، وبما ان مجموعات البيانات العلمية أصبحت أكثر تعقيدا ، تزداد اهميه قواعد البيانات بالنسبة للأوساط العلمية وتنطوي علي إمكانات كبيره لتكون شائعه كما وأكثر فعاليه من استخدام جداول البيانات الحالية علي نطاق واسع للبيانات تخزين. ستستمر المسائل المتعلقة بشفافية البيانات وامكانيه تكرارها في العلوم في التوسع في المستقبل مع استمرار تزايد حجم وتعقيد مجموعات البيانات ، مما يسلط الضوء علي اهميه اعتماد قواعد بيانات وطرق مؤتمتة لخطوط البيانات احتياجات العلمية العامة الآن وفي المستقبل.

الرقم المرجعي اسم الملف نوع
1 الموقممؤشر. م كود خط الأنابيب
2 الموقعن الترجمة. م كود خط الأنابيب
3 LocationPointer_Remove_Duplicates. م كود خط الأنابيب
4 BadPointerCheck. m كود خط الأنابيب
5 LocationPointer_Check. م كود خط الأنابيب
6 Manual_Pointer_Removal. م كود خط الأنابيب
7 Database_Generate. م كود خط الأنابيب
8 Cell_Lines csv الجدول المساعد
9 Data_Types csv الجدول المساعد
10 Pattern_Types csv الجدول المساعد
11 DataLocation_Comp_2018_6_26_10_01 csv مثال ملف موقع البيانات
12 DataValues_2018_6_26_10_02 csv ملف قيم بيانات المثال
13 Database_Queries. accdb مثال قاعده بيانات

الجدول 1: قائمه بكافة ملفات الامثله التي يمكن تحميلها لتشغيل البروتوكول.

الملف المحدد متغير
موجز. حصيره نسبه النوى المعيبة
متوسط مساحة النوى (μm2)
معدل النوى المعيبة (μm2)
متوسط منطقه النوى العادية (μm2)
متوسط انحراف النوى
النواة المعيبة متوسط الانحراف
متوسط انحراف النوى العادي
جميع النوى MNC متوسط
النواة المعيبة MNC متوسط
النوى العادية MNC متوسط
Act_OOP. اكتيتين أوب
Actin صافي المدير زاوية
Fibro_OOP. فيبرونكتين صافي
[فيبرونكتين] [أوب] مديره زاوية
Nuc_OOP. نواه صافيه
زاوية مدير النواة

الجدول 2: الملفات المحددة المدرجة التي تتوافق مع متغيرات مختلفه اما قياسات نوى الخلية أو البيانات الهيكلية الليفية (صافي).

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

وليس لدي المؤلفين ما يفصحون عنه.

Acknowledgments

ويدعم هذا العمل معهد القلب الوطني ، والرئة ، والدم في المعاهد الوطنية للصحة ، ومنح عدد R01 HL129008. ويشكر المؤلفون بشكل خاص أعضاء عائله الطفرة الجينية لل Lmna علي مشاركتهم في الدراسة. ونود أيضا ان نشكر ليندا مكارثي علي مساعدتها في مجال ثقافة الخلايا والحفاظ علي مساحات المختبرات ، ناسام شكري لمشاركتها في تصوير الخلايا وتحليل البيانات النوى ، ومايكل ا. غروبرغ لنصيحته ذات الصلة مع إنشاء قاعده بيانات Microsoft Access الاوليه ، فضلا عن الاجابه علي الاسئله التقنية الأخرى.

Materials

Name Company Catalog Number Comments
4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
  11. SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
  12. Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Tags

الهندسة الحيوية ، إصدار 153 ، بيانات متوسطه الحجم ، قواعد بيانات ، LMNA ، تنظيم البيانات ، بيانات متعددة الابعاد ، هندسه الانسجه
قواعد البيانات لأداره كفاءه متوسطه الحجم ، والسرعة المنخفضة ، والمعطيات متعددة الابعاد في هندسه الانسجه
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Ochs, A. R., Mehrabi, M., Becker,More

Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter