Summary

מדריך מעשי לphylogenetics לNonexperts

Published: February 05, 2014
doi:

Summary

כאן אנו מתארים צינור צעד אחר צעד ליצירת phylogenies אמין ממערכי נתוני רצף נוקליאוטידים או חומצות אמינו. מדריך זה נועד לשרת את חוקרים או סטודנטים חדשים לניתוח פילוגנטי.

Abstract

חוקרים רבים, על פני מוקדים מגוונים להפליא, מתראיין phylogenetics לשאלת המחקר שלהם (S). עם זאת, חוקרים רבים חדשים לנושא זה וכך הוא מציג בעיות הטמונות. כאן אנו לקמפל הקדמה מעשית לphylogenetics לnonexperts. אנו מתארים באופן צעד אחר צעד, צינור להפקת phylogenies אמין ממערכי נתוני רצף גן. אנחנו מתחילים עם מדריך למשתמש עבור כלי חיפוש דמיון באמצעות ממשקי האינטרנט, כמו גם הרצה מקומית. בשלב בא, אנו לחקור תוכניות ליצירת מערכי רצף מרובים ואחרי פרוטוקולים לשימוש בתוכנה כדי לקבוע דגמים מיטבית של אבולוציה. לאחר מכן, אנו מתארים פרוטוקולים לשיקום יחסים פילוגנטי באמצעות סבירות המרבית וקריטריונים בייס ולבסוף מתארים את הכלים המאפשרים הדמית עצי פילוגנטי. אמנם זה לא בכל אמצעי תיאור ממצה של גישות פילוגנטי, הוא מספק את הקורא עם informat מתחיל מעשייון ביישומי תוכנת מפתח מנוצלים בדרך כלל על ידי phylogeneticists. החזון למאמר זה יהיה כי זה יכול לשמש ככלי הכשרה מעשי לחוקרים שיצאו ללימודי פילוגנטי וגם לשמש כמשאב חינוכי שיכול להיות משולב בתוך כיתה או במעבדת הוראה.

Introduction

על מנת להבין כיצד שני (או יותר) מינים התפתחו, יש צורך קודם כל להשיג רצף או נתונים מורפולוגיים מכל מדגם, נתונים אלה מייצגים כמויות שאנחנו יכולים להשתמש בו כדי למדוד את מערכת היחסים שלהם בחלל אבולוציוני. בדיוק כמו כאשר מדידת מרחק לינארי, שיש יותר נתונים זמינים (למשל קילומטרים, סנטימטרים, מיקרון) יהיו שווים ל מדידה מדויקת יותר. Ergo, הדיוק שבה חוקר יכול להסיק מרחק האבולוציוני מושפע מאוד את נפח הנתונים אינפורמטיבי זמינים למדוד מערכות יחסים. יתר על כן, מכיוון שמדגמים שונים להתפתח בקצב שונה ועל ידי מנגנונים שונים, השיטה שאנו משתמשים כדי למדוד את היחסים בין שני מינים גם משפיעה ישירות על הדיוק של מדידות אבולוציוני. לכן, בגלל יחסים האבולוציוניים אינם ישירות שנצפו אך במקום זאת הם להסיק מרצף או נתונים מורפולוגיים, הבעיה של הסקה אבולוציוניתמערכות יחסים הופכים לאחד מהנתונים סטטיסטיים. Phylogenetics הוא הענף של ביולוגיה העוסקת ביישום מודלים סטטיסטיים לדפוסים של אבולוציה כדי לשחזר את ההיסטוריה האבולוציונית בין מינים בצורה אופטימלית. שחזור זה בין המינים המכונה תולדות הגזע של קטגוריות המיון.

כדי לסייע לגשר על הפער במומחיות בין ביולוגים מולקולריים וביולוגים אבולוציוניים שאנו מתארים כאן צעד אחר צעד צינור כדי להסיק מסקנה, phylogenies מסט של רצפים. ראשית, אנחנו פירוט השלבים הכרוכים בחקירת מסד נתונים באמצעות מקומי יישור כלי חיפוש הבסיסי (תפציץ 1) אלגוריתם באמצעות הממשק מבוסס האינטרנט וגם באמצעות הרצה מקומית, זה הוא לעתים קרובות הצעד הראשון בהשגת רשימה של רצפים דומים למזוהה שאילתה, למרות שחלקם חוקרים עשויים להתעניין גם באיסוף נתונים עבור קבוצה אחת באמצעות ממשקי אינטרנט כגון Phylota (http://www.phylota.net/). פיצוץ הוא אלגוריתם לגomparing חומצת אמינו עיקרי או נתונים רצף נוקליאוטידים מול מסד נתונים של רצפים כדי לחפש את "להיטים" המזכירים את רצף השאילתה. התכנית תפציץ תוכננה על ידי סטיבן אלטשול et al. במכון הלאומי לבריאות (NIH) 1. השרת תפציץ מורכב ממספר התוכניות שונות, והנה רשימה של חלק מתוכניות תפציץ הנפוצות ביותר:

i) תפציץ נוקלאוטיד נוקלאוטיד (blastn): תכנית זו דורשת קלט רצף ה-DNA ומחזירה את רצפי ה-DNA הדומה ביותר ממאגר ה-DNA שמציין המשתמש (לדוגמה לאורגניזם ספציפי).

ii) פיצוץ חלבונים (blastp): כאן משתמש תשומות רצף חלבון והתכנית מחזירה את רצפי חלבונים דומים ביותר ממאגר החלבון שהמשתמש מציין.

iii) תפציץ תפקיד ספציפי איטרטיבי (PSI-BLAST) (blastpgp): הקלט מהמשתמש הוא הגנה של מחזורברצף שמחזיר קבוצה של חלבונים הקשורים באופן הדוק, וממערך נתונים זה נשמר בפרופיל שנוצר. הבא שאילתה חדשה שנוצרה רק באמצעות אלה "מוטיבים" נשמרים בו נעשה שימוש כדי לחקור את מסד הנתונים של חלבון וזה מחזיר את קבוצה גדולה יותר של חלבונים שממנה הסט חדש של "מוטיבים" שימור מחולץ ולאחר מכן נעשה שימוש כדי לחקור את מסד הנתונים של חלבון עד קבוצה גדולה עוד יותר של חלבונים retuned ופרופיל אחר מופק והתהליך חוזר ונשנה. על ידי כולל חלבונים הקשורים לשאילתא בכל שלב בתכנית זו מאפשרת למשתמש לזהות רצפים שהם מסתעף יותר.

iv) נוקלאוטיד תרגום חלבון 6-מסגרת (blastx): כאן המשתמש מספק קלט רצף נוקליאוטידים אשר מומר מוצרי שש מסגרת מושגית תרגום (כלומר שני גדילים) מול מסד נתוני רצף חלבון..

v) נוקלאוטיד תרגום נוקלאוטיד 6 מסגרתתרגום 6 מסגרת (tblastx): תכנית זו לוקחת קלט רצף נוקליאוטידים DNA ומתרגמת את הקלט לכל מוצרי התרגום הרעיוניים של שש המסגרת שבה משווה מול תרגומי שש מסגרת של מסד הנתונים רצף נוקליאוטידים.

vi) תרגום חלבון נוקלאוטיד 6 מסגרת (tblastn): תכנית זו משתמשת קלט רצף חלבון להשוואה מול כל שש מסגרות הקריאה של מסד הנתונים רצף נוקליאוטידים.

בשלב בא, אנו מתארים תוכניות נפוצות ליצירת רצף יישור מרובה (MSA) מבסיס נתוני רצף, וזה מלווה במדריך למשתמש לתוכניות שקובעות את הדגמים הטובים ביותר בכושר של אבולוציה לבסיס נתוני רצף. שחזור פילוגנטי הוא בעיה סטטיסטית, ובגלל זה, שיטות פילוגנטי צריכים לשלב מסגרת סטטיסטית. מסגרת סטטיסטית זה הופכת להיות מודל האבולוציוני שמשלב שינוי רצף בתוך בסיס הנתונים. מו האבולוציוני הזהדל מורכב מסט של הנחות לגבי התהליך של החלפות נוקלאוטיד או חומצה אמינית, והמודל הכי המתאים למערך נתונים מסוימים ניתן לבחור באמצעות בדיקה סטטיסטית. נכון לנתונים של דגמים שונים ניתן להשוות באמצעות בדיקות יחס סבירות (LRTs) או קריטריוני מידע כדי לבחור את המודל הטוב ביותר להתאמה בתוך קבוצה של אפשריים אלה. שני קריטריוני מידע משותפים הם קריטריון Akaike המידע (AIC) 2 והקריטריון בייס המידע (BIC) 3. ברגע יישור אופטימלי שנוצר, יש שיטות רבות ושונות ליצירת תולדות הגזע מהנתונים המיושרים. ישנן שיטות רבות של הסקת יחסים האבולוציוניים; רחב, הם יכולים להיות מחולקים לשתי קטגוריות: שיטות המבוסס על מרחק ושיטות המבוסס על רצף. שיטות המבוסס על מרחק לחשב מרחקי pairwise מרצפים, ולאחר מכן להשתמש במרחקים אלה כדי להשיג את העץ. שיטות המבוסס על רצף להשתמש ביישור הרצף באופן ישיר, ובדרך כלל לחפש tחלל רי באמצעות קריטריון אופטימלי. אנו מתארים שתי שיטות המבוסס על רצף לשיקום יחסים פילוגנטי: אלה הם 4 PhyML אשר מיישמת את מסגרת הסבירות המרבית, וMrBayes 5 אשר עושה שימוש בהיקש בייס שרשרת מרקוב מונטה קרלו. סבירות ושיטות בייס לספק מסגרת סטטיסטית לשחזור פילוגנטי. על ידי מתן מידע משתמש בכלים עץ בנייה נפוץ, אנחנו מציגים בפני הקורא את הנתונים הדרושים כדי להסיק יחסי פילוגנטי.

Protocol

1. מקומי יישור כלי חיפוש בסיסי (תפציץ): באינטרנט ממשק לחץ על קישור זה לבקר בשרת האינטרנט תפציץ 1 במרכז הארצי למידע ביוטכנולוגיה (צמח השדה). – Http://blast.ncbi.nlm.nih.gov/Blast.cgi (איור 1). <li …

Representative Results

מציאת קווי דמיון לשאילתא מאפשרת לחוקרים מייחסים את זהות פוטנציאלית לרצפים חדשים וגם להסיק קשרים בין רצפים. סוג קלט קובץ ליפציץ 1 הוא רצף FASTA מעוצב טקסט או מספר הצטרפות GenBank. רצף FASTA מעוצב מתחיל בשורת תיאור מצויינים על ידי סימן ">" (איור 2). התיאור חיי…

Discussion

התקווה שלנו למאמר זה היא שזה ישמש כנקודת התחלה כדי להנחות את החוקרים או סטודנטים כי הם חדשים phylogenetics. פרויקטים לקביעת רצף הגנום הפכו פחות יקרות בשנים האחרונות, וכתוצאה מכך הביקוש למשתמש עבור טכנולוגיה זו הולך וגדל, ועכשיו הייצור של מערכי נתונים רצף גדולים הוא דבר שבש?…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

אנו מודים לחברים במעבדה או 'האלורן להערות על כתב היד. אנו מודים לג'ורג' וושינגטון אוניברסיטת המחלקה למדעי ביולוגיה וקולומביאני המכללה לאמנויות ומדעים למימון לד 'האלורן.

Referenzen

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/de/50975?article_type=t

Play Video

Diesen Artikel zitieren
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video