Summary

אלגוריתם רומן ייס שינוי נקודות לניתוח הגנום רחב, של סוגי נתוני ChIPseq מגוונים

Published: December 10, 2012
doi:

Summary

נקודת השינוי בייס שלנו (BCP) אלגוריתם בונה על התקדמות מדינה-of-the-art בדוגמנות שינוי נקודות באמצעות מודלי מרקוב נסתרים וחייל אותם על הכרומטין immunoprecipitation ניתוח נתוני רצף (ChIPseq). BCP מבצע היטב בסוגי נתונים רחבים וpunctate, אבל מצטיין בזיהוי איים חזקים, לשעתק של העשרת היסטון מפוזרת באופן מדויק.

Abstract

ChIPseq היא טכניקה המשמשת באופן נרחב לחקר אינטראקציות-DNA חלבון. קראו פרופילי צפיפות נוצרים באמצעות הבא של רצף ה-DNA של חלבון נישא ויישור הקצר קורא לגנום הפניה. אזורים מועשרים מתגלים כפסגות, אשר לעתים קרובות נבדלים באופן דרמטי במצב, תלוי בחלבון המטרה 1. לדוגמה, לעתים קרובות גורמי שעתוק להיקשר באתר ואופן רצף ספציפי ונוטים לייצר פסגות punctate, תוך שינויי היסטון הם נפוצים יותר ומאופיינים באיים רחבים, מפוזרים של העשרה 2. אמין זיהוי אזורים אלה היה המוקד של העבודה שלנו.

אלגוריתמים לניתוח נתוני ChIPseq העסיקו מתודולוגיות שונות, משיטות היוריסטיות 3-5 ליותר מודלים סטטיסטיים קפדניים, מודלי מרקוב נסתרים (למשל הממ) 6-8. אנחנו חפשנו פתרון שהקטין את הצורך לקשה להגדרה, אד הוק פרמטרים שלעתים קרובותהרזולוציה להתפשר ולהפחית את השימושיות אינטואיטיבית של הכלי. עם כל כבוד לשיטות HMM מבוססים, אנו מכוונים לצמצום שיטות אמידות פרמטרים וסיווגים פשוטים, סופיים מדינה שלעתים קרובות מנוצלים.

בנוסף, ניתוח נתוני ChIPseq קונבנציונלי כרוך סיווג צפוי לקרוא פרופילי צפיפות כאחד punctate או מפוזר ואחרי היישום הבא של הכלי המתאים. אנחנו עוד מטרה להחליף את הצורך בשני דגמים שונים אלה עם מודל יחיד, תכליתי יותר, שיכול לטפל בכשרון את כל הספקטרום של סוגי נתונים.

כדי לעמוד ביעדים אלה, אנו נבנינו מסגרת סטטיסטית הראשונים שככבו באופן טבעי מבני ChIPseq נתונים באמצעות מראש חוד חנית ב9 הממ, אשר מנצל מפורשות רק נוסחות-חדשנות חיונית ליתרונות הביצועים שלה. מודלים מתוחכמים יותר אז האוריסטי, HMM להכיל מצבים נסתרים אינסופיים דרךמודל ייס. אנחנו יישמנו אותו לזיהוי נקודתי שינוי סבירות בצפיפות לקרוא, אשר נוסף להגדיר מקטעים של העשרה. הניתוח שלנו גילה כמה ייס שינוי נקודת האלגוריתם שלנו (BCP) הייתה מורכבות חישובית, שמעידות מופחתות זמן ריצה מתומצת וגודל פיזי של זיכרון. אלגוריתם BCP יושם בהצלחה לשניהם שיא punctate והזדהות אי מפוזרת עם דיוק חזק ופרמטרים מוגדרים משתמש מוגבלים-. זה מאויר הן צדדי וקל שימוש שלה. כתוצאה מכך, אנו מאמינים כי ניתן ליישם בקלות בטווח הרחב של סוגי הנתונים ומשתמשי קצה באופן שהוא קל להשוואה וניגוד, מה שהופך אותו לכלי מצוין לניתוח נתוני ChIPseq שיכול לסייע בשיתוף פעולה ואימות בין קבוצות מחקר. הנה, אנחנו מדגימים את היישום של חומר לגורם שעתוק קיים ונתוני 10,11 epigenetic 12 כדי להמחיש את השימושיות שלה.

Protocol

1. הכנת קבצי קלט לBCP ניתוח יישר הקצר קורא מופק מריצות רצף (שבב וספריות קלט) לגנום הייחוס המתאים באמצעות תוכנת יישור המועדפת קצרה לקריאה. המקומות הממופים יש להמיר לפורמט (BED) 13 (דפדפן UCSC הגנום, 6 נתונים להרחבת דפדפן ע?…

Representative Results

BCP מצטיין בזיהוי האזורים של העשרה רחבה בנתוני השינוי היסטון. כנקודת התייחסות, השוו את התוצאות שלנו בעבר לאלה של 3 SICER, כלי קיים אשר הוכיח ביצועים חזקים. הטוב ביותר להמחיש את היתרונות של BCP, בדק שינוי היסטון שנחקר היטב הוא ליצור בסיס להערכת שיעורי הצלחה. עם זה בחשבו?…

Discussion

אנחנו יצאנו לפתח מודל לניתוח נתוני ChIPseq שיכולים לזהות את שני מבני נתוני punctate ומפוזרים היטב באותה מידה. עד עכשיו, אזורים של העשרה, אזורים מפוזרים במיוחד, המשקפים את ציפיות גודל נחת האי גדול, שהיו קשים לזיהוי. כדי לטפל בבעיות אלה, אנו נצלנו את החידושים האחרונים בטכנולוגי…

Divulgations

The authors have nothing to disclose.

Acknowledgements

פרס סטאר יסוד (MQZ), מענק NIH ES017166 (MQZ), NSF מענק DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).
check_url/fr/4273?article_type=t

Play Video

Citer Cet Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video