Summary

رواية النظرية الافتراضية تغيير نقطة حسابي لتحليل الجينوم-اسعة من أنواع البيانات المتنوعة ChIPseq

Published: December 10, 2012
doi:

Summary

تغيير وجهة نظرنا النظرية الافتراضية (BCP) خوارزمية يستند دولة من بين الفن النمذجة التقدم في التغيير عبر نقاط نماذج ماركوف المخفية ويطبقها على لونين مناعي التسلسل (ChIPseq) تحليل البيانات. BCP يؤدي جيدا في كل أنواع البيانات واسعة النطاق والمنقط، ولكن تتفوق في تحديد بدقة قوية والجزر استنساخه من تخصيب هيستون منتشر.

Abstract

ChIPseq هو أسلوب يستخدم على نطاق واسع للتحقيق في البروتين DNA التفاعلات. يتم إنشاء ملفات تعريف الكثافة قراءة باستخدام التسلسل التالي من البروتين DNA محددة وقصيرة محاذاة يقرأ إلى الجينوم مرجعية. وكشف مناطق التخصيب والقمم، والتي تختلف في كثير من الأحيان بشكل كبير في الشكل، اعتمادا على البروتين الهدف 1. على سبيل المثال، غالبا ما تربط عوامل النسخ في موقع وبطريقة تسلسل معين وتميل إلى إنتاج الذروة نقطي، بينما هي تعديلات بسيطة أكثر انتشارا وتتميز الجزر، واسعة الانتشار من تخصيب 2. تحديد هذه المناطق بشكل موثوق كان محور عملنا.

استخدمت خوارزميات لتحليل البيانات ChIPseq منهجيات مختلفة، من الاستدلال 3-5 على نماذج أكثر صرامة الإحصائية، على سبيل المثال نماذج ماركوف المخفية (HMMs) 6-8. سعينا إلى حل تقلل من ضرورة يصعب تحديد والمخصصة المعلمات التي غالبا ماتنازلات القرار ويقلل من قابليتها للاستخدام بديهية من الأداة. فيما يتعلق HMM القائم على الأساليب، ونحن تهدف للحد من إجراءات تقدير المعلمة وبسيطة، والتصنيفات الدولة محدودة التي تستخدم في كثير من الأحيان.

بالإضافة إلى ذلك، تحليل البيانات التقليدية ChIPseq ينطوي التصنيف من المتوقع قراءة ملامح كثافة نقطية أو إما منتشر ثم طلب بعد ذلك الأداة المناسبة. نحن تهدف إلى زيادة الحاجة إلى استبدال هذين النموذجين متميزة مع نموذج واحد أكثر تنوعا، والتي يمكن أن تعالج باقتدار طائفة كاملة من أنواع البيانات.

لتحقيق هذه الأهداف، ونحن لأول مرة بناء إطار إحصائي أن غرار طبيعي ChIPseq هياكل البيانات باستخدام مسبقا في طليعة HMMs والتي تستخدم فقط الصيغ الصريحة، والابتكار حاسما لمزايا أدائها. نماذج الكشف عن مجريات الأمور أكثر تعقيدا بعد ذلك، لدينا تسع دول HMM مخفي لا حصر له من خلالالنظرية الافتراضية النموذج. طبقنا لتحديد نقاط تغيير معقول في كثافة القراءة، التي تحدد مزيد من شرائح تخصيب اليورانيوم. كشف تحليلنا كيف لنا نقطة تغيير النظرية الافتراضية (BCP) خوارزمية كان التعقيد يشهد انخفاض الحسابية من قبل وقت التشغيل مختصرة وأثر الذاكرة. تم تطبيق الخوارزمية بنجاح BCP إلى كل من الذروة ونقطي منتشر تحديد الجزيرة مع دقة قوية ومحدودة المعلمات المعرفة من قبل المستخدم. هذا يتضح كلا من براعة وسهولة الاستخدام. وبناء على ذلك، فإننا نعتقد أنه يمكن تنفيذها بسهولة في مدى واسع من أنواع البيانات والمستخدمين النهائيين على نحو تتم مقارنة بسهولة ويتناقض، مما يجعلها أداة عظيمة لتحليل البيانات ChIPseq التي يمكن أن تساعد في التعاون وتأييد بين المجموعات البحثية. هنا، علينا أن نبرهن تطبيق BCP إلى عامل النسخ الموجودة والبيانات 10،11 اللاجينية 12 إلى توضيح فائدتها.

Protocol

1. إعداد ملفات الإدخال لتحليل BCP محاذاة قصيرة التسلسل يقرأ المنتجة من أشواط (رقاقة والمكتبات المدخلات) إلى الجينوم مرجعية مناسبة باستخدام المحاذاة المفضل قراءة قصيرة البرمجيات. ينبغي تحويل المواقع تعيينها إلى 6 بيانا?…

Representative Results

BCP تتفوق في تحديد مناطق واسعة في تخصيب تعديل البيانات هيستون. كنقطة مرجعية، ونحن في السابق مقارنة نتائجنا لتلك التي SICER 3، أداة القائمة التي أثبتت أداء قويا. لتوضيح مزايا أفضل BCP، ودرسنا على تعديل هيستون التي تم دراستها بشكل جيد لإرساء أساس لتقييم معدلات النجاح. ?…

Discussion

شرعنا في تطوير نموذج لتحليل البيانات التي يمكن أن ChIPseq تحديد كل منقط ومنتشر بشكل جيد على قدم المساواة هياكل البيانات. حتى الآن، كانت مناطق التخصيب، ولا سيما المناطق المنتشر، والتي تعكس حجم التوقع يفترض من جزيرة كبيرة ويصعب التعرف عليها. لمعالجة هذه المشاكل، ونحن است?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

STARR مؤسسة جائزة (MQZ)، NIH منحة ES017166 (MQZ)، NSF منحة DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).
check_url/4273?article_type=t

Play Video

Cite This Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video