Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

כרייה היוריסטית של גנוטיפים היררכיים וגושים של גנום עזר באוכלוסיות חיידקים

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

פלטפורמה חישובית אנליטית זו מספקת הדרכה מעשית למיקרוביולוגים, אקולוגים ואפידמיולוגים המתעניינים בגנומיקה של אוכלוסיית החיידקים. באופן ספציפי, העבודה שהוצגה כאן הדגימה כיצד לבצע: א) מיפוי מונחה פילוגניה של גנוטיפים היררכיים; 2) ניתוח מבוסס תדרים של גנוטיפים; 3) ניתוחי קרבה וקלונליות; 4) זיהוי של שושלת המבדילה בין לוקים לאביזר.

Abstract

שימוש שגרתי ושיטתי בריצוף גנום שלם של חיידקים (WGS) משפר את הדיוק והרזולוציה של חקירות אפידמיולוגיות המבוצעות על ידי מעבדות לבריאות הציבור וסוכנויות רגולטוריות. ניתן להשתמש בכמויות גדולות של נתוני WGS הזמינים לציבור כדי לחקור אוכלוסיות פתוגניות בקנה מידה גדול. לאחרונה פורסמה פלטפורמה חישובית זמינה באופן חופשי בשם ProkEvo כדי לאפשר ניתוחים גנומיים של אוכלוסיות מבוססות היררכיה הניתנות לשחזור, אוטומטיות ומדרגיות באמצעות נתוני WGS של חיידקים. יישום זה של ProkEvo הדגים את החשיבות של שילוב מיפוי גנוטיפי סטנדרטי של אוכלוסיות עם כרייה של תוכן גנומי עזר להסקה אקולוגית. בפרט, העבודה המודגשת כאן השתמשה בתפוקות הנגזרות מ- ProkEvo עבור ניתוחים היררכיים בקנה מידה של אוכלוסייה באמצעות שפת התכנות R. המטרה העיקרית הייתה לספק מדריך מעשי למיקרוביולוגים, אקולוגים ואפידמיולוגים על ידי כך שיראו כיצד: 1) להשתמש במיפוי מונחה פילוגנזה של גנוטיפים היררכיים; 2) להעריך התפלגויות תדרים של גנוטיפים כמייצג לכושר אקולוגי; 3) לקבוע יחסי קרבה ומגוון גנטי באמצעות סיווגים גנוטיפיים ספציפיים; ו-4) שושלת מפה המבדילה בין מוקדי אביזר. כדי לשפר את יכולת השכפול והניידות, נעשה שימוש בקבצי R markdown כדי להדגים את כל הגישה האנליטית. מערך הנתונים לדוגמה הכיל נתונים גנומיים מ-2,365 מבודדים של הפתוגן הזואונוטי סלמונלה ניופורט. מיפוי מעוגן פילוגנזה של גנוטיפים היררכיים (Serovar -> BAPS1 -> ST -> cgMLST) חשף את המבנה הגנטי של האוכלוסייה, והדגיש את סוגי הרצפים (STs) כגנוטיפ המבדיל את אבן המפתח. בשלוש השושלות הדומיננטיות ביותר, ST5 ו-ST118 חלקו אב קדמון משותף לאחרונה יותר מאשר עם הפילוטיפ ST45 הקלוני ביותר. הבדלים מבוססי ST הודגשו עוד יותר על ידי התפלגות מוקדי ההתנגדות האנטי-מיקרוביאלית (AMR) של האביזרים. לבסוף, הדמיה מעוגנת פילוגנית שימשה לשילוב גנוטיפים היררכיים ותכולת AMR כדי לחשוף את מבנה הקרבה ואת החתימות הגנומיות הספציפיות לשושלת. בשילוב, גישה אנליטית זו מספקת כמה קווים מנחים לביצוע ניתוחים גנומיים של אוכלוסיית חיידקים היוריסטיים תוך שימוש במידע פאן-גנומי.

Introduction

השימוש הגובר בריצוף גנום שלם של חיידקים (WGS) כבסיס למעקב שגרתי ולחקירה אפידמיולוגית על ידי מעבדות לבריאות הציבור וסוכנויות רגולטוריות שיפר באופן משמעותי את חקירותההתפרצות של פתוגנים 1,2,3,4. כתוצאה מכך, כמויות גדולות של נתוני WGS שלא זוהו זמינות כעת לציבור וניתן להשתמש בהן כדי לחקור היבטים של ביולוגיה של אוכלוסייה של מינים פתוגניים בקנה מידה חסר תקדים, כולל מחקרים המבוססים על: מבני אוכלוסייה, תדרי גנוטיפ ותדירויות גנים/אללים על פני מאגרים מרובים, אזורים גיאוגרפיים וסוגי סביבות5 . החקירות האפידמיולוגיות הנפוצות ביותר בהנחיית WGS מבוססות על ניתוחים המשתמשים רק בתוכן הליבה-גנומי המשותף, כאשר התוכן המשותף (המשומר) לבדו משמש לסיווג גנוטיפי (למשל, קריאת וריאנטים), וגרסאות אלה הופכות לבסיס לניתוח אפידמיולוגי ולמעקב אחר 1,2,6,7 . בדרך כלל, גנוטיפ מבוסס ליבה-גנום חיידקי מתבצע עם גישות הקלדת רצף רב-לוקוס (MLST) באמצעות שבעה עד כמה אלפי לוקוסים 8,9,10. אסטרטגיות מבוססות MLST אלה כוללות מיפוי של רצפים גנומיים שהורכבו מראש או הורכבו על גבי מסדי נתונים שנאספו במיוחד, ובכך משלבות מידע אלילי ליחידות גנוטיפיות הניתנות לשחזור לצורך ניתוח אפידמיולוגי ואקולוגי11,12. לדוגמה, סיווג מבוסס MLST זה יכול להפיק מידע גנוטיפי בשתי רמות של רזולוציה: סוגי רצף ברמה נמוכה יותר (STs) או ST שושלות (7 loci), וגרסאות גנום ליבה MLST (cgMLST) ברמה גבוהה יותר (~ 300-3,000 loci)10.

הסיווג הגנוטיפי מבוסס MLST הוא נייד מבחינה חישובית וניתן לשחזור רב בין מעבדות, מה שהופך אותו למקובל כגישת תת-הקלדה מדויקת מתחת לרמה של מיני החיידקיםברמה 13,14. עם זאת, אוכלוסיות חיידקים בנויות עם דרגות שונות ספציפיות למין של קלונליות (כלומר, הומוגניות גנוטיפית), דפוסים מורכבים של קרבה היררכית בין גנוטיפים 15,16,17, ומגוון רחב של וריאציות בהתפלגות התוכן הגנומי האביזרי18,19 . לפיכך, גישה הוליסטית יותר חורגת מעבר לסיווגים בדידים לגנוטיפים של MLST ומשלבת את היחסים ההיררכיים של גנוטיפים בקני מידה שונים של רזולוציה, יחד עם מיפוי של תוכן גנומי עזר לסיווגים גנוטיפיים, מה שמאפשר הסקה מבוססת אוכלוסייה 18,20,21 . יתר על כן, ניתוחים יכולים גם להתמקד בדפוסים משותפים של תורשה של לוקוסים גנומיים של אביזרים בין אפילו גנוטיפים הקשורים רחוק21,22. באופן כללי, הגישה המשולבת מאפשרת חקירה אגנוסטית של הקשרים בין מבנה האוכלוסייה לבין התפלגות הרכבים גנומיים ספציפיים (למשל, לוקוסים) בין גרדיאנטים גיאו-מרחביים או סביבתיים. גישה כזו יכולה להניב מידע בסיסי ומעשי כאחד על המאפיינים האקולוגיים של אוכלוסיות ספציפיות שעשויות, בתורן, להסביר את הטרופיזם ודפוסי הפיזור שלהן על פני מאגרים, כגון חיות מזון או בני אדם.

גישה היררכית מבוססת מערכות זו, המוכוונת אוכלוסייה, דורשת כמויות גדולות של נתוני WGS כדי לספק עוצמה סטטיסטית מספקת כדי לחזות חתימות גנומיות הניתנות לחיזוי. כתוצאה מכך, הגישה דורשת פלטפורמה חישובית המסוגלת לעבד אלפים רבים של גנומים חיידקיים בבת אחת. לאחרונה, ProkEvo פותחה והיא פלטפורמת ביואינפורמטיקה זמינה באופן חופשי, אוטומטית, ניידת ומדרגית המאפשרת ניתוחים אינטגרטיביים של אוכלוסיית חיידקים מבוססי היררכיה, כולל מיפוי פאן-גנומי20. ProkEvo מאפשרת לחקור מערכי נתונים חיידקיים בקנה מידה בינוני עד גדול תוך מתן מסגרת ליצירת השערות אפידמיולוגיות ואקולוגיות הניתנות לבדיקה ולהסקה ותחזיות פנוטיפיות שניתן להתאים אישית על ידי המשתמש. עבודה זו משלימה את הצינור הזה במתן מדריך כיצד להשתמש בקבצי פלט שמקורם ב- ProkEvo כקלט לניתוח ופרשנות של סיווגי אוכלוסייה היררכיים וכרייה גנומית אביזרים. מקרה הבוחן שהוצג כאן השתמש באוכלוסיית שושלת סלמונלה אנטריקה I זואונוטית סרובר S. ניופורט כדוגמה ונועדה במיוחד לספק קווים מנחים מעשיים למיקרוביולוגים, אקולוגים ואפידמיולוגים כיצד: 1) להשתמש בגישה אוטומטית התלויה בפילוגנזה כדי למפות גנוטיפים היררכיים; 2) להעריך את התפלגות התדירות של הגנוטיפים כמייצג להערכת כושר אקולוגי; 3) לקבוע דרגות ספציפיות לשושלת של קלונליות באמצעות גישות סטטיסטיות בלתי תלויות; ו-4) למפות מוקדי AMR מבדילי שושלת כדוגמה לאופן שבו ניתן לכרות תוכן גנומי של אביזרים בהקשר של מבנה האוכלוסייה. באופן רחב יותר, גישה אנליטית זו מספקת מסגרת הניתנת להכללה לביצוע ניתוח גנומי מבוסס אוכלוסייה בקנה מידה שניתן להשתמש בו כדי להסיק דפוסים אבולוציוניים ואקולוגיים ללא קשר למין הממוקד.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. הכנת קבצי קלט

הערה: הפרוטוקול זמין כאן - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. הפרוטוקול מניח שהחוקר השתמש באופן ספציפי ב- ProkEvo (או בצינור דומה) כדי לקבל את הפלטים הדרושים הזמינים במאגר Figshare זה (https://figshare.com/account/projects/116625/articles/15097503 - נדרשים אישורי כניסה - על המשתמש ליצור חשבון חופשי כדי לקבל גישה לקבצים!). יש לציין כי ProkEvo מוריד באופן אוטומטי רצפים גנומיים ממאגר NCBI-SRA ודורש רק קובץ .txt המכיל רשימה של זיהויי גנום כקלט20, וזה המשמש לעבודה זו על S. מבודדי ניופורט ארה"ב מסופקים כאן (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  מידע מפורט על אופן ההתקנה והשימוש בפלטפורמה זו של גנומיקה חיידקית זמין כאן (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. צור פילוגנזה של גנום הליבה באמצעות FastTree23 כפי שתואר קודם לכן20, שאינו חלק מפלטפורמת הביואינפורמטיקה20. FastTree דורש את יישור הליבה-גנום Roary24 כקובץ קלט. קובץ הפילוגניה נקרא newport_phylogeny.עץ (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. צור פלט SISTR25 המכיל את המידע לגבי סיווגי serovars עבור סלמונלה ונתוני שיחות cgMLST (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. צור קובץ BAPS על ידי fastbaps26,27 המכיל את רמות BAPS 1-6 סיווג של גנומים לתת-קבוצות או להפלוטיפים (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. צור סיווג מבוסס MLST של גנומים ל- STs באמצעות תוכנית MLST (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. צור פלט ABRicate (https://github.com/tseemann/abricate)29 כקובץ .csv המכיל מוקדי AMR הממופים לכל גנום (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    הערה: המשתמש יכול לכבות חלקים ספציפיים של צינור הביואינפורמטיקה של ProkEvo (בדוק כאן לקבלת מידע נוסף - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). הגישה האנליטית המוצגת כאן מספקת קווים מנחים כיצד לבצע ניתוח מבוסס אוכלוסייה לאחר הפעלת צינור הביואינפורמטיקה.

2. הורד והתקן את התוכנה הסטטיסטית ואת יישום סביבת הפיתוח המשולבת (IDE)

  1. הורד את הגרסה העדכנית ביותר הזמינה באופן חופשי של תוכנת R עבור לינוקס, Mac או PC30. בצע את שלבי ההתקנה המוגדרים כברירת מחדל.
  2. הורד את הגרסה העדכנית ביותר הזמינה באופן חופשי של IDE שולחן העבודה RStudio כאן31. בצע את שלבי ברירת המחדל להתקנה.
    הערה: השלבים הבאים כלולים בסקריפט הזמין, כולל מידע מפורט על ניצול קוד, ויש להפעילם ברצף כדי ליצור את הפלטים והנתונים המוצגים בעבודה זו (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). המשתמש עשוי להחליט להשתמש בשפת תכנות אחרת כדי לבצע ניתוח אנליטי/סטטיסטי זה כגון Python. במקרה כזה, השתמש בשלבים בסקריפטים כמסגרת לביצוע הניתוח.

3. התקנה והפעלה של ספריות מדעי הנתונים

  1. התקן את כל ספריות מדעי הנתונים בבת אחת כצעד ראשון בניתוח. הימנע מהתקנת הספריות בכל פעם שיש צורך להפעיל מחדש את קובץ ה- Script. השתמש בפונקציה install.packages() להתקנת ספריה. לחלופין, המשתמש יכול ללחוץ על הכרטיסייה חבילות בתוך ה- IDE ולהתקין את החבילות באופן אוטומטי. הקוד המשמש להתקנת כל הספריות הדרושות מוצג כאן:
    # התקן את Tidyverse
    install.packages("tidyverse")
    # התקן את הסקימר

    install.packages("skimr")
    # התקן טבעוני
    install.packages("טבעוני")
    # התקן פורקאטים
    install.packages("forcats")
    # התקן את נאניאר
    install.packages("naniar")
    # התקן ggpubr
    install.packages("ggpubr")
    # התקן ggrepel
    install.packages("ggrepel")
    # התקן עיצוב מחדש2
    install.packages("reshape2")
    # התקן את RColorBrewer
    install.packages("RColorBrewer")
    # התקן ggtree
    אם (!דרושNamespace("BiocManager", בשקט = TRUE))
    install.packages("BiocManager")
    BiocManager::install("ggtree")
    # התקנה של ggtree תבקש שאלה לגבי התקנה - התשובה היא "a" להתקנה/עדכון של כל יחסי התלות
  2. הפעל את כל הספריות או החבילות באמצעות פונקציית הספריה() בתחילת קובץ ה- Script, מיד לאחר ההתקנה. הנה הדגמה כיצד להפעיל את כל החבילות הדרושות:
    # הפעל את הספריות והחבילות
    ספרייה(מסודרת)
    library(skimr)
    ספרייה (טבעונית)
    ספריה(forcats)
    library(naniar)
    library(ggtree)
    library(ggpubr)
    library(ggrepel)
    ספריה(עיצוב מחדש2)
    library(RColorBrewer)
  3. בטל פלט של הקוד המשמש להתקנה והפעלה של ספרייה וחבילה באמצעות {r, include = FALSE} בקוד chuck, באופן הבא:
    ''' {r, include = FALSE}
    # התקן את Tidyverse

    install.packages("tidyverse")
    ```

    הערה: שלב זה הוא אופציונלי, אך נמנע מהצגת נתחי קוד מיותרים בדוח ה-HTML, המסמך או ה-PDF הסופי.
  4. לקבלת תיאור קצר של הפונקציות הספציפיות של כל הספריות יחד עם כמה קישורים שימושיים לאיסוף מידע נוסף, עיין בשלבים 3.4.1-3.4.11.
    1. Tidyverse - השתמש באוסף זה של חבילות המשמשות למדעי הנתונים, כולל הזנת נתונים, ויזואליזציה, ניתוח וצבירה, ומידול סטטיסטי. בדרך כלל, ggplot2 (תצוגה חזותית של נתונים) ו- dplyr (היאבקות נתונים ומידול) הן חבילות מעשיות הקיימות בספריה זו32.
    2. skimr - השתמש בחבילה זו ליצירת נתונים סטטיסטיים מסכמים של מסגרות נתונים, כולל זיהוי ערכים חסרים33.
    3. טבעוני - השתמש בחבילה זו לניתוחים סטטיסטיים של אקולוגיה קהילתית, כגון חישוב נתונים סטטיסטיים מבוססי גיוון (למשל, אלפא ובטא-גיוון)34.
    4. forcats - השתמש בחבילה זו כדי לעבוד עם משתנים קטגוריאליים כגון סדר מחדש של סיווגים. חבילה זו היא חלק מספריית Tidyverse32.
    5. naniar - השתמש בחבילה זו כדי להמחיש באופן חזותי את התפלגות הערכים החסרים על פני משתנים במסגרת נתונים, באמצעות הפונקציה viss_miss()35.
    6. ggtree - השתמש בחבילה זו להדמיה של עצים פילוגנטיים36.
    7. ggpubr - השתמש בחבילה זו כדי לשפר את האיכות של הדמיות מבוססות ggplot237.
    8. ggrepel - השתמש בחבילה זו לתיוג טקסט בתוך גרפים38.
    9. עיצוב מחדש2 - השתמש בפונקציה melt() מחבילה זו להמרה של מסגרות נתונים מתבנית רחבה לארוכה39.
    10. RColorBrewer - השתמש בחבילה זו כדי לנהל צבעים בהדמיות מבוססות ggplot240.
    11. השתמש בפונקציות הבסיסיות הבאות לניתוח נתונים גישוש: head() כדי לבדוק את התצפיות הראשונות במסגרת נתונים, tail() כדי לבדוק את התצפיות האחרונות של מסגרת נתונים, is.na() כדי לספור את מספר השורות עם ערכים חסרים על פני מסגרת נתונים, dim() כדי לבדוק את מספר השורות והעמודות במערך נתונים, טבלה() כדי לספור תצפיות על פני משתנה, וסכום() כדי לספור את המספר הכולל של תצפיות או מופעים.

4. הזנת נתונים וניתוחם

הערה: מידע מפורט על כל שלב בניתוח זה ניתן למצוא בסקריפט הזמין (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). עם זאת, הנה כמה נקודות חשובות שיש לקחת בחשבון:

  1. בצע את כל הזנת הנתונים הגנומיים, כולל כל הסיווגים הגנוטיפיים (serovar, BAPS, ST ו- cgMLST) באמצעות הפונקציה read_csv() באמצעות הפונקציה read_csv().
  2. שנה שם, צור משתנים חדשים ובחר עמודות מעניינות מכל ערכת נתונים לפני צבירה מרובת ערכות נתונים.
  3. אל תסיר ערכים חסרים מכל מערך נתונים עצמאי. המתן עד שכל מערכי הנתונים יצטברו כדי לשנות או לא לכלול ערכים חסרים. אם משתנים חדשים נוצרים עבור כל ערכת נתונים, ערכים חסרים מסווגים כברירת מחדל לאחד הסיווגים החדשים שנוצרו.
  4. בדוק אם קיימים תווים שגויים כגון מקפים או סימני חקירה והחלף אותם ב- NA (לא רלוונטי). בצע את אותו הדבר עבור ערכים חסרים.
  5. נתונים מצטברים המבוססים על הסדר ההיררכי של הגנוטיפים (serovar -> BAPS1 -> ST -> cgMLST), ועל ידי קיבוץ המבוסס על זיהויי הגנום הבודדים.
  6. בדוק אם קיימים ערכים חסרים באמצעות אסטרטגיות מרובות והתמודד עם חוסר עקביות כזה במפורש. הסר גנום או בודד מהנתונים רק אם הסיווג אינו אמין. אחרת, שקול את הניתוח שנעשה והסר NAs על בסיס כל מקרה לגופו.
    הערה: מומלץ מאוד לקבוע אסטרטגיה להתמודדות עם ערכים כאלה מראש. הימנע מהסרת כל הגנומים או המבודדים עם ערכים חסרים על פני משתנים כלשהם. לדוגמה, גנום עשוי להיות בעל סיווג ST ללא מספר וריאנט cgMLST. במקרה כזה, הגנום עדיין יכול לשמש לניתוח מבוסס ST.
  7. לאחר שכל מערכי הנתונים נצברים, הקצה אותם לשם מסגרת נתונים או לאובייקט שניתן להשתמש בהם במיקומים מרובים בניתוח המעקב, כדי להימנע מהצורך ליצור את אותו קובץ מטה-נתונים עבור כל איור במאמר.

5. לערוך ניתוחים וליצור הדמיות

הערה: תיאור מפורט של כל שלב הדרוש להפקת כל הניתוחים וההדמיות ניתן למצוא בקובץ הסימון עבור מאמר זה (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). הקוד לכל דמות מופרד בגושים ויש להריץ את התסריט כולו ברצף. בנוסף, הקוד עבור כל דמות ראשית ומשלימה מסופק כקובץ נפרד (ראה קובץ משלים 1 וקובץ משלים 2). הנה כמה נקודות חיוניות (עם קטעי קוד) שיש לקחת בחשבון תוך יצירת כל דמויות עיקריות ומשלימות.

  1. השתמשו ב-ggtree כדי לשרטט עץ פילוגנטי יחד עם מידע גנוטיפי (איור 1).
    1. מטב את גודל הדמות של ggtree, כולל קוטר ורוחב של טבעות, על ידי שינוי הערכים המספריים בתוך הפונקציות xlim() ו- gheatmap(width = ), בהתאמה (ראה קוד לדוגמה להלן).
      tree_plot <- ggtree(עץ, פריסה = "עגול") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
      הערה: להשוואה מפורטת יותר של תוכניות שניתן להשתמש בהן לשרטוט פילוגנטי, בדוק עבודה זו20. העבודה הדגישה ניסיון שנעשה לזהות אסטרטגיות לשיפור תצוגות חזותיות מבוססות ggtree כגון הקטנת גודל מערך הנתונים, אך אורכי הענפים וטופולוגיית העצים לא היו מפלים באופן ברור בהשוואה לפננגו41.
    2. צבר את כל המטא-נתונים לקטגוריות מעטות ככל האפשר כדי להקל על בחירת לוח הצביעה בעת התוויית שכבות מרובות של נתונים עם העץ הפילוגנטי (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). נהל את צבירת הנתונים על סמך שאלת העניין והידע בתחום.
  2. השתמש בעלילת סרגל כדי להעריך תדרים יחסיים (איור 2).
    1. צבר נתונים הן עבור שושלות ST והן עבור גרסאות cgMLST כדי להקל על תצוגות חזותיות. בחר סף אמפירי או סטטיסטי המשמש לצבירת נתונים, תוך התחשבות בשאלה הנשאלת.
    2. לקבלת קוד לדוגמה שניתן להשתמש בו כדי לבדוק את התפלגות התדרים של שושלות ST כדי לקבוע את הניתוק ראה להלן:
      st_dist <- d2 %>% group_by(ST) %>% קבוצה לפי העמודה ST
      count() %>% # לספור את מספר התצפיות
      סידור(desc(n)) # סידור הספירות בסדר יורד
    3. לדוגמה, קוד המציג כיצד ניתן לצבור STs מינוריים (בתדר נמוך) עיין להלן. כפי שמודגם להלן, STs שאינם ממוספרים כ- 5, 31, 45, 46, 118, 132 או 350, מקובצים יחד כ-"STs אחרים ". השתמש בקוד דומה עבור גרסאות cgMLST (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$st <- ifelse(d2$ST == 5, "ST5", # צור עמודת ST חדשה שעבורה מצטברים S Ts משניים כאחרים
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Other STs")))))))))
  3. השתמש בגישה מקוננת כדי לחשב את היחסיות של כל שושלת ST בתוך כל תת-קבוצה של BAPS1 כדי לזהות STs הקשורים באופן קדום (שייכים לאותה תת-קבוצה BAPS1) (איור 3). הקוד שלהלן מדגים כיצד ניתן לחשב את הפרופורציה מבוססת ST על פני תת-קבוצות BAPS1 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovars
    בחר(baps_1, ST) %>% # בחר עמודות baps_1 ועמודות ST
    mutate(ST = as.numeric(ST)) %>% # שנה את עמודת ST למספרית
    drop_na(baps_1, ST) %>% ירידה NAs
    group_by(baps_1, ST) %>% # קבוצה לפי baps_1 ו- ST
    summarise(n = n()) %>% # תצפיות ספירה
    mutate(prop = n/sum(n)*100) # חישוב פרופורציות
  4. שרטטו את ההתפלגות של מוקדי AMR על פני שושלות ST באמצעות תוצאות ביאור הגנים המבוססות על Resfinder (איור 4).
    הערה: Resfinder נמצא בשימוש נרחב במחקרים אקולוגיים ואפידמיולוגיים42. ביאור של גנים המקודדים חלבונים יכול להשתנות בהתאם לתדירות שבה מסדי נתונים נאספים ומתעדכנים. אם משתמשים בצנרת הביואינפורמטיקה המוצעת, החוקר יכול להשוות בין סיווגי לוקוסים מבוססי AMR על פני מסדי נתונים שונים20. הקפד לבדוק אילו מסדי נתונים מתעדכנים כל הזמן. אין להשתמש במסדי נתונים לא מעודכנים או לא מסודרים, כדי למנוע טעויות.
    1. השתמש בסף אמפירי או סטטיסטי כדי לסנן את מוקדי ה- AMR החשובים ביותר כדי להקל על תצוגות חזותיות. ספק קובץ .csv גולמי המכיל את הפרופורציות המחושבות של כל מוקדי AMR בכל שושלות ST, כגון המוצג כאן (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. חשב את פרופורציית ה- AMR עבור כל ST באמצעות הקוד (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd) הבא:
      # חישובים עבור ST45
      d2c <- data6 %>% filter(st == "ST45") # מסנן נתוני ST45 תחילה
      # עבור ST45, חשב את היחס בין מוקדי AMR ושמור רק על פרופורציה גדולה מ-10%

      d3c <- d2c %>% בחר(id, גן) %>% # בחר עמודות
      group_by(id, גן) %>% # קבוצה לפי מזהה וגן
      סיכום(ספירה = n()) %>% # תצפיות ספירה
      mutate(count = replace(count, count == 2, 1)) %>% # להחליף ספירות שוות ל-2 עם 1 כדי לשקול רק עותק אחד של כל גן (כפילויות עשויות להיות לא אמינות), אך החוקר יכול להחליט להחריג או לשמור אותן. אם החוקר רוצה להחריג אותם, השתמש בפונקציית המסנן (ספירה != 2) או השאר כפי שהוא
      filter(count <= 1) # מסנן נחשב מתחת או שווה ל- 1
      d4c <- d3c %>% group_by(גן) %>% # קבוצה לפי גן
      סיכום(ערך = n()) %>% # תצפיות ספירה
      mutate(total = table(data1$st)[6]) %>% # לקבל את הספירות הכוללות של st mutate(prop = (value/total)*100) # לחשב פרופורציות
      d5c <- d4c %>% מוטציה(st = "ST45") # צור עמודה st והוסף מידע ST
    3. לאחר ביצוע החישובים עבור כל ה- STs, שלב ערכות נתונים כמסגרת נתונים אחת, באמצעות הקוד הבא:
      # שלב מערכי נתונים
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # row bind datasets
    4. כדי לייצא את קובץ .csv המכיל את הפרופורציות המחושבות, השתמש בקוד:
      # ייצוא טבלת נתונים המכילה מידע על מוקדי ST ו- AMR
      abx_newport_st <- d6 לכתוב.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. לפני התוויית ההתפלגות מבוססת AMR על פני שושלות ST, סנן את הנתונים בהתבסס על סף כדי להקל על תצוגות חזותיות, כפי שמוצג להלן:
      # מסנן מוקדי AMR עם פרופורציה גבוהה מ- או שווה ל- 10%
      d7 <- d6 %>% מסנן (prop >= 10) # לקבוע את הסף באופן אמפירי או סטטיסטי
  5. שרטטו את הפילוגנזה של גנום הליבה יחד עם הסיווגים הגנוטיפיים ההיררכיים ונתוני ה-AMR בחלקה אחת באמצעות ggtree (איור 5).
    1. מטב את גודל הדמות בתוך ggtree באמצעות הפרמטרים שהוזכרו לעיל (ראה שלב 5.1.1.1.).
    2. מטב את ההדמיות על ידי צבירת משתנים, או באמצעות סיווג בינארי כגון נוכחות גנים או היעדרות. ככל שמתווספות יותר תכונות לעלילה, כך תהליך בחירת הצביעה הופך להיות קשה יותר (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      הערה: נתונים משלימים - תיאור מפורט של הקוד כולו ניתן למצוא כאן (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. השתמש בחלקת פיזור ב- ggplot2, ללא צבירת נתונים, כדי להציג את התפלגות שושלות ST או גרסאות cgMLST תוך הדגשת הגנוטיפים הנפוצים ביותר (איור משלים 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. ערכו ניתוח מקונן כדי להעריך את הרכב השושלות של ST דרך שיעור הווריאנטים של cgMLST כדי לקבל הצצה למגוון הגנטי מבוסס ST, תוך זיהוי הווריאנטים השכיחים ביותר והיחסים הגנטיים שלהם (כלומר, וריאנטים של cgMLST השייכים לאותו ST חלקו אב קדמון לאחרונה יותר מאשר אלה השייכים ל-STs שונים) (איור משלים 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. השתמש במדד האקולוגיה הקהילתית, כלומר מדד המגוון D של סימפסון, כדי למדוד את מידת הקלונליות או המגוון הגנוטיפי של כל אחת משושלות ST העיקריות43 (איור משלים 3).
    1. חשב את מדד הגיוון בין שושלות ST ברמות שונות של רזולוציה גנוטיפית, כולל BAPS רמה 1 עד 6 ו- cgMLST. להלן דוגמת הקוד כיצד לבצע חישוב זה ברמת BAPS 1 (BAPS1) של רזולוציה גנוטיפית:
      # BAPS רמה 1 (BAPS1)
      # שחרר את ה- STs וה- BAPS1 עם NAs, קיבוץ לפי ST ו- BAPS1 ולאחר מכן חישב את המדד של סימפסון
      baps1 <- data6 %>%
      select(st, BAPS1) %>% # בחר עמודות
      drop_na(st, BAPS1) %>% # ירידה NAs
      group_by(st, BAPS1) %>% קבוצה לפי עמודות
      summarise(n = n()) %>% # תצפיות ספירה
      mutate(simpson = diversity(n, "simpson")) %>% # לחשב גיוון
      group_by(st) %>% # קבוצה לפי עמודה
      summarise(simpson = mean(simpson)) %>% # לחשב את הממוצע של המדד
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="value") %>% # סמוי לפורמט ארוך
      mutate(strat = "BAPS1") # צור עמודת שכבה
      הערה: לאוכלוסייה מגוונת יותר מבחינה גנטית (כלומר, יותר וריאנטים בשכבות שונות של רזולוציה גנוטיפית) יש אינדקס גבוה יותר ברמת cgMLST ומייצרת ערכים מבוססי אינדקס הולכים וגדלים מרמה BAPS 2 ל-6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
  9. בחנו את מידת המגוון הגנוטיפי של שושלות ST על ידי התוויית התדירות היחסית של תת-קבוצות BAPS בכל רמות הרזולוציה (BAPS1-6) (איור משלים 4). ככל שהאוכלוסייה מגוונת יותר, כך התפלגותן של תת-קבוצות BAPS (הפלוטיפים) הופכת דלילה יותר מ-BAPS1 (רמת רזולוציה נמוכה יותר) ל-BAPS6 (רמת רזולוציה גבוהה יותר) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

על ידי שימוש בפלטפורמה החישובית ProkEvo לניתוח גנומיקה של אוכלוסיות, הצעד הראשון בכריית נתוני WGS של חיידקים מורכב מבדיקת מבנה האוכלוסייה ההיררכי בהקשר של פילוגנזה של גנום ליבה (איור 1). במקרה של ס'. שושלת אנטריקה I, כפי שהודגם על ידי S. מערך הנתונים של ניופורט, האוכלוסייה בנויה באופן היררכי באופן הבא: serovar (הרמה הנמוכה ביותר של רזולוציה), תת-קבוצות BAPS1 או haplotypes, שושלות ST, ווריאנטים של cgMLST (רמת הרזולוציה הגבוהה ביותר)20. ניתוח מונחה פילוגנטי זה של מבנה האוכלוסייה ההיררכי מאפשר באופן ספציפי לבחון את הנקודות הבאות: 1) התפלגות פילוגנטית של גנומים מסווגים מבוססי SISTR לסרוברים אחרים במקרה של סלמונלה; 2) מבנה גנטי או קרבה של האוכלוסייה; 3) דפוס של גיוון ברמות שונות של רזולוציה גנוטיפית; 4) זיהוי של יחידות גנוטיפיות עיקריות העומדות בבסיס דפוסים אבולוציוניים, אקולוגיים או אפידמיולוגיים; v) יחסים קדומים בין שושלות ST באמצעות תת-קבוצות BAPS1 או הרכב הפלוטיפ, ועל פני גרסאות cgMLST בתוך שושלות ST; ו-6) מבט חלקי על מידת ההומוגניות הגנוטיפית של שושלת ST על ידי הרכב וריאנט cgMLST.

Figure 1
איור 1: מיפוי מונחה פילוגנזה של גנוטיפים היררכיים עבור ה-S. אוכלוסיית ניופורט. פילוגנזה של גנום ליבה (עיגול ממורכז שחור) שימשה למיפוי גנוטיפים היררכיים, כולל סרובר (רמת הרזולוציה הנמוכה ביותר - המעגל הצבעוני ביותר), תת-קבוצות BAPS רמה 1 (BAPS1) תת-קבוצות או הפלוטיפים, שושלות ST וגרסאות cgMLST (רמת הרזולוציה הגבוהה ביותר - העיגול הצבעוני החיצוני ביותר). הסרוברים קובצו לניופורט (S. Newport) או "סרוברים אחרים" המבוססים על הסיווג האלגוריתמי SISTR של גנומים, שהשתמשו במידע של גנום הליבה MLST, ורצו כחלק מהפלטפורמה החישובית ProkEvo. BAPS1 מפריד באופן אגנוסטי את האוכלוסייה לתת-קבוצות או לאשכולות של הפלוטיפים קשורים באמצעות נתוני ליבה-גנומיים בתוך ProkEvo. BAPS1 ממוקם באופן היררכי בין שושלות serovar ו- ST מכיוון שהוא לכד במדויק את היחסים הקדומים בין STs. שושלות ST נוצרות על סמך ניתוח MLST קנוני באמצעות שבעה לוקוסים מפוזרים בגנום. רק STs עיקריים או שכיחים ביותר (שיעור >1%) תוארו בגרף. לבסוף, רק גרסאות ה-cgMLST השכיחות ביותר (שיעור >3.5%) שימשו להצגת כל המבנה ההיררכי של ה-S. אוכלוסיית ניופורט (n = 2,365 ארה"ב מבודדת בלבד). הקטגוריה "STs אחרים" או "cgMLSTs אחרים" מורכבת משושלות או וריאנטים משניים או בתדר נמוך, בהתאמה, כאשר הסף נעשה באופן שרירותי שיש להגדירו באופן אמפירי או סטטיסטי בהתבסס על מערך הנתונים. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

התדרים היחסיים של כל הגנוטיפים ההיררכיים שימשו אז להערכת ההתפלגות הכוללת והסיווגים הנצפים ביותר (כלומר, גנוטיפים) (איור 2). באיור 2C-D, שושלות ST פחות שכיחות (מינוריות) או גרסאות cgMLST נצברו כ"STs אחרים" או "cgMLSTs אחרים", בהתאמה, כדי להקל על הדמיית נתונים (הפחתת ממדיות). אם הדגימה מתבצעת באופן שיטתי בסביבות ו/או במארחים ומופעלת באופן סטטיסטי הולם, התפלגות התדרים יכולה להפוך לפרוקסי לכושר אקולוגי. כלומר, לאחר מכן ניתן היה לחזות את השושלות או הווריאנטים השכיחים ביותר כבעלי כושר גבוה יותר, ובעקבות זאת חקירה נוספת כדי לקבוע את הגורמים הגנטיים הסיבתיים העומדים בבסיס תכונה כמותית כזו 6,30.

Figure 2
איור 2: שיעור ה-S. גנוטיפים היררכיים של ניופורט ברמות שונות של רזולוציה. (A) סרוברים הם פנוטיפים של ה-S. שושלת enterica I אוכלוסייה שניתן לחזות אך ורק מנתונים ליבה-גנומיים בשל אי-שיווי משקל הקישור הגבוה הניתן לירושה בין הליבה-לוקוסים לבין O ו-H המקודדים באופן אנטיגני (חלבוני פני השטח). בעת שימוש ב- ProkEvo, גנומים של סלמונלה מסווגים באופן אוטומטי לסרוברים באמצעות תוכנית SISTR. למרות שרק S. הגנומים של ניופורט (ניופורט) מ-NCBI הורדו באופן פוטטיבי, חלקם סווגו כ"סרוברים אחרים" בתוך ProkEvo. כ-2% (48 מתוך 2,365) מכלל הגנומים סווגו כלא אחרים מלבד S. ניופורט סרובר. (B) שיעור תת-הקבוצות או ההפלוטיפים של BAPS ברמה 1 (BAPS1). BAPS1 מוכנס בין שושלות serovar ו-ST בסכימה ההיררכית מכיוון שהוא תפס באופן מדויק ואגנוסטי את היחסים הקדומים בין STs. (C) שיעור השושלות העיקריות של ST תיאר רק STs שהיו > 1% בתדירות יחסית. STs מינוריים קובצו כ"STs אחרים ". (ד) שיעור הגרסאות העיקריות של cgMLST הראה רק ארבעה cgMLSTs דומיננטיים שהיו >3% בתדירות היחסית. שאר ה-cgMLSTs קובצו כ-"cgMLSTs אחרים". (ב-ד) גנומים שסווגו על ידי SISTR כ"סרוברים אחרים" (2.03%) סוננו מתוך הנתונים לפני שהתוו את התדרים היחסיים של BAPS1, ST ו-cgMLST. (ג-ד) ערכי הסף ששימשו להתוויית נתוני ST ו-cgMLST הוגדרו באופן שרירותי ויש לקבועם באופן אמפירי על בסיס כל מקרה לגופו. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

לחלופין, ניתן להשתמש בחלקת פיזור כדי להעריך את ההתפלגות והיחס של שושלות ST או של גרסאות cgMLST, ללא כל צבירת נתונים (איור משלים 1). שימוש זה בעלילת פיזור שימושי במיוחד עבור שושלות ST וריאנטים של cgMLST בגלל המופע הטיפוסי של סיווגים של מאיות, אם לא אלפים, עבור שני הגנוטיפים. התפלגות דלילה זו בדרך כלל אינה מתרחשת עבור רמות הרזולוציה של serovar ו-BAPS1, מכיוון שהן נמצאות ברמה נמוכה יותר של רזולוציה עם רצפים שמתמוטטים בירושה לכמה תת-קבוצות או קטגוריות.

לאחר מכן, היחסים הקדומים בין STs נבחנו באמצעות גישה מקוננת הכוללת הערכת התדירות היחסית של שושלות ST על ידי תת-קבוצות BAPS1 או הפלוטיפים (איור 3). שושלות ST שהשתייכו לאותה תת-קבוצה של BAPS1 היו בסבירות גבוהה יותר לחלוק אב קדמון משותף לאחרונה יותר מאשר עם STs אחרים (כלומר, ST5 ו-ST118 לעומת ST45). באופן דומה, על ידי בחינת ההתפלגות של וריאנטים של cgMLST בתוך שושלות ST, ניתן ללכוד את מידת ההטרוגניות הגנוטיפית על פני STs, תוך הערכת ההרכב הגנטי שלהם וחשיפת הקשר הקדמון בין cgMLSTs (כלומר, וריאנטים קרובים של cgMLST שייכים לאותה שושלת ST או קומפלקס קלוני) (איור משלים 2).

Figure 3
איור 3: התפלגות שושלות ST המקוננות בתוך תת-קבוצות BAPS1 עבור ה-S. אוכלוסיית ניופורט. תרשים זה מתאר את התפלגות שושלת ST בתוך כל תת-קבוצה או הפלוטיפ ברמה 1 של BAPS, למעט גנומים המסווגים כ"סרוברים אחרים" (2.03% מכלל הנתונים). STs עיקריים (שיעור >1%) עבור כל תת-קבוצה BAPS1 מסומנים בכל גרף. ככל שקוטר המעגל גדול יותר, כך היחס לשושלת ST המסוימת גבוה יותר. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

בהתחשב בכך שהתבנית של S. נראה כי גיוון אוכלוסיית ניופורט מונע בעיקר על ידי הרכב ST (איור 1), שתי גישות סטטיסטיות שימשו להערכת מידת הקלונליות המבוססת על ST (כלומר, הומוגניות גנטית), כולל מדד המגוון D של סימפסון (איור משלים 3), והתפלגות תת-קבוצות BAPS או הפלוטיפים באמצעות רמות BAPS 1-6 (איור משלים 4) ). הערכת מידת הקלונליות של אוכלוסייה יכולה להבהיר את ההיבטים הבאים: 1) הבנה טובה יותר של המגוון הגנטי ומבנה האוכלוסייה; 2) ניתוח כוונון עדין של דפוסי גיוון בין יחידות גנוטיפיות עיקריות כגון שושלות ST; ו-3) להיות אינדיקציה לצורך להשתמש בכריית גנום אביזרים כדי למצוא יחידות גנוטיפיות קריפטיות שעשויות לחשוף תת-אשכולות חדשים הנמצאים באוכלוסייה. ככל שאוכלוסייה קלונלית יותר היא ברמת הליבה-גנום, כך קשה יותר להבחין בין וריאנטים, וסביר יותר שתכולת הגנום האביזרי תהיה אינפורמטיבית כדי להפוך את האוכלוסייה ליחידות גנוטיפיות משמעותיות הקשורות להתפלגויות אקולוגיות ייחודיות 18,19,21.

התדירות היחסית של שושלת ST המבדילה בין מוקדי AMR הוערכה כדי לזהות חתימות גנומיות ייחודיות הקשורות ל-S. מבנה האוכלוסייה של ניופורט (איור 4). שלב זה של הניתוח התמקד בהתפלגות AMR מכיוון שמדובר בתכונה הקשורה לבריאות הציבור, אך ניתן ליישם את אותה גישה באופן מפוקח (ממוקד) או אגנוסטי כדי לבחון מרכיבים אחרים של הגנום האביזרי, כולל מסלולים מטבוליים, גורמי אלימות וכו '. באופן ניכר, נראה כי mdf(A)_1 ו-aac(6')-Iaa_1 לוקוסים נרכשים על ידי ה-S. אוכלוסיית ניופורט; ואילו ST45 צפוי להיות עמיד לתרופות מרובות. באופן מדהים, נתונים אלה מצביעים גם על כך ששושלות ST הגדולות האחרות, ST5 ו-ST118, נוטות יותר להיות רגישות לתרופות מרובות בהשוואה ל-ST45. נקודות אלה צריכות להישקל בקפידה בגלל ההטיות הקיימות במערך הנתונים; עם זאת, זה מייצג הסקה אפידמיולוגית פוטנציאלית שניתן להפיק מאוספי נתונים חזקים יותר של WGS.

באופן כללי, הנה כמה נקודות שיש לקחת בחשבון בעת ביצוע מיפוי גנום אביזרי לגנוטיפים היררכיים: 1) לשקול את התפלגות התדרים כתכונה כמותית אך להיות מודעים לכך שההרכב האלילי של לוקוס יכול לשנות את שונות התכונות. יתר על כן, נוכחותם של לוקוס או לוקוס צריכה להעיד על תפקוד אך לא סיבתית, מכיוון שהפנוטיפ עשוי להיות פוליגני, או להשתנות בהתאם להרכב האלילי עבור הלוקוס הסיבתי (למשל, מוטציה שאינה מילה נרדפת באתר הפעיל של חלבון נוטה יותר להשפיע על תפקוד); ii) התפלגות לוקוסים יכולה להדגים גנים המקובעים באוכלוסייה (למשל, נמצאים בתדירות גבוהה בכל שושלות ST) או שנרכשו לאחרונה על ידי שושלות ST ספציפיות וגרסאות cgMLST, ועשויים לשקף את התבנית האקולוגית או האפידמיולוגית; 3) ניתן לחזות עמידות לתרופות מרובות מנתונים גנומיים. ואם ההתפלגות של מוקדי AMR, או מסלולים אחרים, קשורה קשר חזק או עוברת בירושה בדרך כלל על ידי שושלות ספציפיות, אז ניתן לחזות פנוטיפים על ידי הסקה מגנוטיפים היררכיים, כמו במקרה של שושלות ST45,46; ו-4) מדידת פנוטיפים במעבדה היא עדיין דטרמיניסטית כדי לאמת תחזיות חישוביות.

Figure 4
איור 4: התפלגות מוקדי AMR על פני שושלות ST עיקריות של ה-S. אוכלוסיית ניופורט. התפלגות מבוססת תדירות יחסית של מספר נבחר של מוקדי AMR על פני שושלות ST גדולות (>1% מהאוכלוסייה). STs מינוריים קובצו כ"STs אחרים ". רק גנומים המסווגים כ-S. ניופורט על ידי אלגוריתם SISTR נשמרו בניתוח. מוקדי AMR עם תדר יחסי גדול או שווה ל-10% נבחרו לצורך תצוגה חזותית של נתונים. זהו סף שרירותי שיש לקבוע עבור כל מערך נתונים. הפרופורציות חושבו באמצעות מטריצה בינארית המורכבת מנוכחות גנים או היעדרם. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

לבסוף, הדמיה מעוגנת פילוגנית שימשה לשילוב שיטתי של נתוני מבנה האוכלוסייה ההיררכיים יחד עם שושלת ST המבדילה את התפלגות מוקדי AMR בהתבסס על התרחשות גנים (איור 5). על ידי שילוב מבנה האוכלוסייה יחד עם ההרכב הגנומי של האביזרים, ניתן להתייחס לסדרת השאלות הבאה בכל מערך נתונים נתון: 1) כיצד בנויה האוכלוסייה? כיצד STs מתייחסים זה לזה ולאבות אבותיהם באמצעות תת-קבוצות BAPS1? עד כמה משתנה הרכב ה- cgMLST על פני STs? 2) מהי תבנית ההסתעפות הפילוגנטית וטופולוגיית העץ הכוללת? ו-3) כיצד מופץ הגנום האביזרי? האם ההרכב הגנומי של האביזר הוא ככל הנראה ככל הנראה קדום-נרכש-אבות או נגזר לאחרונה? מהי השושלת או התבנית הספציפית לווריאנט? מהי החיזוי הפנוטיפי וההסקה האקולוגית? האם יש גנים מתעלים על נישה לעומת גנים המציינים נישה? כיצד הדפוס הנצפה מתייחס או מודיע על האפידמיולוגיה במקרה של פתוגנים? האם שושלות או וריאנטים יכולים להיות מקובצים באופן אינפורמטיבי כתת-אשכולות על סמך תוכן גנומי של אביזרים?

Figure 5
איור 5: מיפוי מונחה פילוגנזה של גנוטיפים היררכיים ולוקוסים AMR נלווים המבדילים בין שושלות ST מרכזיות בתוך ה-S. אוכלוסיית ניופורט. פילוגניה של גנום ליבה (עיגול ממורכז שחור) שימשה למיפוי גנוטיפים היררכיים, כולל סרובר (רמת הרזולוציה הנמוכה ביותר - העיגול הצבעוני ביותר), תת-קבוצות BAPS רמה 1 (BAPS1) או הפלוטיפים, שושלות ST וגרסאות cgMLST (הרמה הגבוהה ביותר של רזולוציה - עיגול בצבע החיצוני ביותר), יחד עם מוקדי AMR הצבועים בכחול כהה אם קיימים או אפורים אם נעדרים. הסרוברים קובצו לניופורט (S. Newport) או "סרוברים אחרים" המבוססים על הסיווג האלגוריתמי SISTR. BAPS1 ממוקם באופן היררכי בין שושלות serovar ו-ST מכיוון שהוא תפס באופן מדויק ואגנוסטי את היחסים הקדומים בין STs. שושלות ST נוצרות על סמך ניתוח MLST קנוני באמצעות שבעה לוקוסים המפוזרים בגנום. רק STs עיקריים או שכיחים ביותר (שיעור >1%) תוארו בגרף. כמו כן, רק גרסאות ה-cgMLST הדומיננטיות ביותר (שיעור >3.5%) שימשו להצגת כל המבנה ההיררכי של ה-S. אוכלוסיית ניופורט (n = 2,365 ארה"ב מבודדת בלבד). הקטגוריה "STs אחרים" או "cgMLSTs אחרים" המורכבת משושלות או וריאנטים משניים או בתדר נמוך, בהתאמה, והסף נעשה באופן שרירותי ויש להגדירו על סמך מערך הנתונים. מוקדי AMR עם תדר יחסי גדול או שווה ל-10% נבחרו לצורך תצוגה חזותית של נתונים. גרף ספציפי זה מציג התפלגות ייחודית של מוקדי AMR המופיעה בעיקר בשושלות ST31, ST45 ו-ST132. אנא לחץ כאן כדי להציג גרסה גדולה יותר של נתון זה.

איור משלים 1: התפלגות דלילה של שושלות ST וגרסאות cgMLST עבור ה-S. אוכלוסיית ניופורט. (A) שיעור שושלות ST ללא צבירת STs בתדר נמוך. STs עם פרופורציה >1% מודגשים בחלקה. (B) שיעור גרסאות ה-cgMLST ללא צבירת cgMLSTs בתדר נמוך. cgMLSTs עם פרופורציה > 3% מודגשים בעלילה. (א-ב) ערכי הסף ששימשו להתוויית נתוני ST ו-cgMLST הוגדרו באופן שרירותי ויש לקבוע אותם על סמך מערך הנתונים. גנומים שסווגו על ידי SISTR כ"סרוברים אחרים" (2.03%) סוננו מתוך הנתונים לפני שהתוו את התדרים היחסיים של ST ו-cgMLST. ככל שקוטר המעגל גדול יותר, כך היחס גבוה יותר עבור שושלת ST או גרסת cgMLST. אנא לחץ כאן כדי להוריד קובץ זה.

איור משלים 2: התפלגות גרסאות cgMLST המקוננות בתוך שושלות ST עבור ה-S. אוכלוסיית ניופורט. תרשים זה מתאר את התפלגות וריאנט cgMLST על פני שושלות ST, למעט גנומים המסווגים כ"סרוברים אחרים" (2.03% מכלל הנתונים). cgMLSTs עיקריים (שיעור >15%) עבור כל שושלת ST מסומנים בכל גרף. ככל שקוטר המעגל גדול יותר, כך היחס עבור גרסת cgMSLT הספציפית גבוה יותר. STs בתדר נמוך קובצו כ-"STs אחרים". אנא לחץ כאן כדי להוריד קובץ זה.

איור משלים 3: מידת המגוון הגנטי מבוססת D של סימפסון על פני שושלות ST תוך שימוש ברמות BAPS 1-6 haplotypes או גנוטיפים של cgMLST כנתוני קלט עבור S. אוכלוסיית ניופורט. מידת הקלונליות או המגוון הגנטי של כל שושלת ST חושבה על פני שכבות גנוטיפיות שונות של רזולוציה, כולל רמות BAPS 1 (רמת הרזולוציה הנמוכה ביותר) עד 6 (הרמה הגבוהה ביותר של רזולוציה) תת-קבוצות או הפלוטיפים, ובנוסף באמצעות התפלגות מבוססת cgMLST של וריאנטים. ככל שערך המדד גבוה יותר, כך רמת המגוון הגנטי גבוהה יותר. לשושלות ST מגוונות מאוד יש ערכי מדד גבוהים יותר החל מ-BAPS1 ל-BAPS6 (כלומר, בדרך כלל המדד עולה ובסופו של דבר עולה כאשר עוברים מ-BAPS1 ל-BAPS6). רק גנומים המסווגים כ-S. ניופורט על ידי תוכנית SISTR נשמרו בניתוח. STs בתדר נמוך קובצו כ-"STs אחרים". אנא לחץ כאן כדי להוריד קובץ זה.

איור משלים 4: התפלגות רמות BAPS 1-6 תת-קבוצות או הפלוטיפים על פני שושלות ST עיקריות של אוכלוסיית ס. ניופורט. התפלגות מבוססת תדרים יחסית של תת-קבוצות BAPS או הפלוטיפים, על פני שושלות ST עיקריות, מהנמוכה ביותר (BAPS1) לרמה הגבוהה ביותר של רזולוציה (BAPS6). STs גדולים נבחרו על סמך שיעור >1%. רק גנומים המסווגים כ-S. ניופורט על ידי תוכנית SISTR נשמרו בניתוח. ככל שמידת הקלונליות גבוהה יותר, כך התפלגות תת-הקבוצות או ההפלוטיפים של BAPS הופכת פחות דלילה או מתפשטת כאשר עוברים מ-BAPS1 ל-BAPS6. במילים אחרות, לשושלת ST מגוונת יותר מבחינה גנטית יש מגוון רחב יותר של תת-קבוצות BAPS ברמת BAPS 6 (הרמה הגבוהה ביותר של רזולוציה). STs בתדר נמוך קובצו כ-"STs אחרים". אנא לחץ כאן כדי להוריד קובץ זה.

קובץ משלים 1: קישורים לרשימת חומרים ורשימת גנומים אנא לחץ כאן כדי להוריד קובץ זה.

קובץ משלים 2: ניתוח גנומיקה של אוכלוסיית חיידקים מבוססת היררכיה באמצעות R אנא לחץ כאן כדי להוריד קובץ זה.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

השימוש בניתוח מבנה אוכלוסייה היוריסטי והיררכי מבוסס מערכות מספק מסגרת לזיהוי חתימות גנומיות חדשניות במערכי נתונים חיידקיים שיש להם פוטנציאל להסביר דפוסים אקולוגיים ואפידמיולוגיים ייחודיים20. בנוסף, ניתן להשתמש במיפוי נתוני הגנום האביזרי על מבנה האוכלוסייה כדי להסיק תכונות שנרכשו על ידי אבות ו/או נגזרו לאחרונה, המאפשרות את התפשטותן של שושלות ST או גרסאות cgMLST על פני מאגרים 6,20,21,45,46. באופן רחב יותר, הערכה גלובלית של התפלגות התוכן הפאן-גנומי באוכלוסיות חיידקים יכולה לחשוף דפוסים של גיוון שבבסיסם הטרופיזמים האקולוגיים או צווארי הבקבוק הגיאו-מרחביים/טמפורליים שאוכלוסייה מסוימת אולי עמדה בהם לאחרונה18,21. במקרה של מינים פתוגניים, על ידי כריית מבנה האוכלוסייה של מבודדים קליניים לעומת סביבתיים, ניתן לזהות דטרמיננטים גנטיים הקשורים לאירועים זואונוטיים ולהשתמש בהם כדי לשפר את האבחון והמעקב33,34. ניתן ליישם את אותה גישה על מינים שאינם פתוגניים כדי לזהות גנוטיפים בעלי תכונות רצויות של השתלת נישה ספציפית, כמו במקרה של זנים פרוביוטיים במערכת העיכול המשמשים לשיפור בריאות האדם 49,50,51. עם זאת, השימוש בנתוני WGS חיידקיים לפניות מבוססות אוכלוסייה מחייב שימוש בפלטפורמות חישוביות ניתנות לשחזור, אוטומטיות ומדרגיות כמו ProkEvo20. כל גישה חישובית מגיעה עם האזהרות והניואנסים שלה, אך באופן כללי, פלטפורמות זמינות באופן חופשי, מתועדות היטב, ניידות וידידותיות למשתמש כגון ProkEvo יכולות להקל על עבודתם של מיקרוביולוגים, אקולוגים ואפידמיולוגים העוסקים בגנומיקה היוריסטית המבוססת על אוכלוסיית חיידקים.

בעבודה הנוכחית, הוכח כיצד להשתמש בתפוקות נגזרות ProkEvo כדי לבצע ניתוח מבנה אוכלוסייה היררכי שניתן להשתמש בו כדי למפות ולעקוב אחר גנוטיפים בעלי עניין ברמות שונות של רזולוציה, יחד עם חיזוי תכונות שימושיות מנתוני WGS. פרוטוקול חישובי זה נכתב באמצעות שפת התכנות R, אך המסגרת או הגישה המושגית ניתנות להכללה לשפות אחרות כגון Python באמצעות שימוש בספריית Pandas, למשל. נתוני הקלט נוצרים על ידי ProkEvo20, מה שמונע כמה מכשולים להתמודד עם במונחים של סטנדרטיזציה של יציאות ופורמטי נתונים לניתוח הבא. למעט פילוגניות, כל מערכי נתוני הקלט האחרים מגיעים בפורמט טבלאי שניתן בקלות לשלוט באיכות, לצבור, לנתח ולשלב כדי ליצור דוחות שימושיים לפענוח נתונים. עם זאת, חשוב להדגיש כמה צעדים קריטיים כדי לשפר את יכולת השכפול בעת השימוש בפרוטוקול זה: i) לוודא שגרסאות התוכנה מתעדכנות תמיד ונמצאות במעקב; 2) לעקוב אחר הגרסאות של ספריות מדעי הנתונים הנמצאות בשימוש, ועדיף לעדכן אותן לאורך זמן; iii) בקרת איכות של הנתונים באמצעות מומחיות ידע בתחום כדי להבין את התפוקות שנוצרו על ידי ProkEvo, או צינור דומה, לאור מה שמובן לאוכלוסיית החיידקים הממוקדת; 4) לערוך ניתוח נתוני גישוש לפני השימוש בגישת מידול כלשהי; 5) לצבור את הנתונים על בסיס ידע אמפירי ו/או הערכות סטטיסטיות; 6) להגדיר אסטרטגיה להתמודדות עם ערכים חסרים מראש ולהיות עקביים ושקופים לחלוטין לגביהם; vii) אם אתה משתמש ב- R, נסה להשתמש בכל החבילות המסופקות על ידי Tidyverse, מכיוון שאוסף זה מאפשר תכנות פונקציונלי, ניידות, אופטימיזציה, והוא זמין באופן חופשי; ו- viii) להיות מודעים לכך שגישות ויזואליזציה יכולות להיות קשות מכיוון שנדרש ניסוי וטעייה כדי לקבל את הסוג הנכון של העלילה ואת ערכת הצביעה המתאימה ביותר לשאלה הנשאלת ולנתונים המוצגים.

יש לציין כי פרוטוקול זה מגיע עם כמה מגבלות שניתן לשפר עוד יותר. לדוגמה, ל-ProkEvo יש גבול פנימי למספר הגנומים שניתן להשתמש בהם לניתוח פאן-גנומי, אם שלב יישור הליבה-גנום נוצר במקביל, תוך שימוש בתוכנית Roary (~ 2,000-3,000 גנומים)24. זהו צוואר בקבוק ספציפי מאוד בצנרת שישפיע על מספר הגנומים שניתן לסווג להפלוטיפים של BAPS מכיוון שהוא תלוי ביישור הליבה-גנום (כלומר, צעד תובעני מאוד מבחינה חישובית). עם זאת, יישור הליבה-גנום יכול להיעשות עם תוכניות אחרות52, ואלגוריתמים כאלה, בתיאוריה, יכולים להיות משולבים בקלות ב- ProkEvo. אחרת, ניתן לפצל את מערכי הנתונים באופן אסטרטגי לתת-קבוצות אקראיות, או בבסיס אחר כגון על ידי התחשבות במבנה האוכלוסייה של האורגניזם המדובר. לחלופין, ניתן להריץ את ProkEvo עם גנום יחיד כדי לקבל ביאור מבוסס ST, עמידות לאנטיביוטיקה והרכב גנים של virulence, ומיפוי של פלסמידים, אך הצינור תוכנן עבור גנומיקה מבוססת אוכלוסייה. ראוי לציין, אם אין צורך בסיווגים BAPS1-6, אזי ניתן לכבות את אפשרות יישור הליבה-גנום של Roary, ובמקרה זה, ניתן להשתמש ב- ProkEvo עם מאות רבות של אלפי גנומים - הוא מוגבל רק בהתבסס על מספר ליבות המחשב הזמינות. דוגמה כיצד ליישם תוכנית חדשה או כיצד לכבות את אפשרות יישור הליבה-גנום ב- Roary בתוך ProkEvo ניתן למצוא בקישורי GitHub הבאים (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) ו- (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo), בהתאמה. במקרה של כרייה גנומית אביזרית, ניתוח אגנוסטי תלוי בניצול הפאן-גנומי . קובץ Rtab שנוצר על ידי Roary24, אשר לא היה בשימוש ספציפי כאן, אבל במקום זאת, הוא הודגם אסטרטגית כיצד למפות מוקדי AMR עם ABRicate באמצעות מסד הנתונים Resfinder (https://github.com/tseemann/abricate). עם זאת, קיימת אפשרות להרחיב את היקף המיפוי הגנומי של האביזר על ידי שימוש בקובץ פאן-גנומי במקום זאת, אשר ניתן לראות בו למעשה הרחבה של הגישה הנוכחית (למשל, יותר מוקדים הכלולים במערך הנתונים הטבלאי כעמודות חדשות). חשוב להזכיר כי המיפוי הפאן-גנומי שנעשה על ידי ProkEvo סיפק רק מידע בינארי במונחים של הרכב לוקוסים, וכיום, לא ניתן להשתמש בו לזיהוי פולימורפיזמים נוקלאוטידים בודדים על פני גנים.

מגבלה נוספת של פרוטוקול זה היא הדמיה של העץ הפילוגנטי. נכון לעכשיו, ggtree היא התוכנית המועדפת, אבל זה בא על חשבון חוסר היכולת לבדוק במדויק את אורכי הענף והופך להיות מסורבל כאשר שכבות רבות של נתונים צריך להוסיף על פילוגנזה. לחלופין, phandango41 הוא ממשק משתמש (GUI) (https://jameshadfield.github.io/phandango/#/)41 בפורמט דף אינטרנט ידידותי למשתמש וניתן להרחבה שניתן להשתמש בו בקלות כדי להשיג את אותה מטרה, ומידע מפורט נוסף על אופן השימוש בו עם יציאות ProkEvo פורסם לאחרונה20. כלים אחרים כמו iTOL יכולים לשמש גם להדמיה תלוית פילוגנזה של נתונים53, אך הם דורשים שימוש בממשק משתמש גרפי ולא ניתן לשלב אותם בסקריפטים אוטומטיים. כמו כן, פילוגניות מדויקות של הליבה-גנום יכולות להיות קשות להערכה בשל ההשפעה הסמויה התלויה במערך הנתונים של העברת גנים אופקית. ניתן להשתמש בתוכנות כגון Gubbins54 למטרה זו, אך הן מגיעות גם עם מגבלות מסוימות כגון הצורך להשתמש ביישור גנום שלם ובמערכי נתונים ספציפיים לשושלת ST להערכה נכונה של פילוגניות. במקום זאת, ניתן לפרוס גישות אחרות שאינן תלויות בפילוגנזה, אשר בסופו של דבר דורשות סוגים אחרים של הדמיות כדי לשלב מטא-נתונים או מידע גנומי עזר, כמו במקרה של ניתוח רב-ממדי55,56. לבסוף, נעשה שימוש בגישה אמפירית ושרירותית כדי לצבור שושלות ST קלות וגרסאות cgMLST, בנוסף לסינון מוקדי ה-AMR החשובים ביותר שיש לכמתם. סוג זה של צבירת נתונים יכול להיעשות באופן אמפירי באמצעות מומחיות ידע בתחום, אך ניתן להשיגו גם באופן סטטיסטי על ידי הגדרת קריטריון א-פריורי של שיעור ההתפלגות שיש להציג, או על ידי שימוש במדדים הקשורים להתפלגות כגון טווח בין-קווי, סטיית תקן או הטיה, כדי להגדיר בסופו של דבר סף. חשוב לציין שההגדרה לגנוטיפים מינוריים מושפעת ישירות מאופי הנתונים מאז גודל המדגם, והטיה בסוגי הדגימות הסביבתיות יכולה להשפיע ישירות על ההרכב הגנוטיפי. כך או כך, השיקול העיקרי הוא שמיפוי תכולת הגנום האביזרי על מבנה האוכלוסייה מאפשר לזהות גורמים גנטיים פוטנציאליים של גיוון אקולוגי, כגון גנים מתעלים בנישה או מצייני נישה 57,58,59.

למרות שסקריפטי R הזמינים תוכננו לאוטומציה של העבודה הנוכחית, כל הסקריפטים המסופקים יצטרכו להיות מפותחים עוד יותר כדי להפוך לספריית מדעי נתונים מופשטת וניתנת לפריסה, שיכולה למשל להיות חלק בלתי נפרד מצינור ProkEvo. עם זאת, ישנם כמה יתרונות ספציפיים של שימוש בגישה זו כגון השימוש ב- BAPS רמה 1 genotyping או ערכת אשכולות. המיקום של תת-קבוצות BAPS ברמה 1 או הפלוטיפים בין שושלות סרובר ו-ST הוגדר באופן אמפירי על סמך המבנה הגנטי של אוכלוסיית הסלמונלה, אך נראה שהוא ישים למינים אחרים כגון Campylobacter jejuni ו-Staphylococcus aureus20. יתר על כן, BAPS1 לוכד במדויק את הקשר הקדום בין שושלות ST ומספק גישה מדרגית לניתוח אבולוציוני, במיוחד כאשר יישומים פילוגנטיים מוגבליםל -20. יתר על כן, השימוש בגישה מקוננת לבחינת יחסים היררכיים ודפוסי גיוון מקל על זיהוי מוצא בין שושלות ST באמצעות תת-קבוצות BAPS1, ועל פני גרסאות cgMLST המשתמשות בשושלות ST, ועובר ברצף מרזולוציה גנוטיפית נמוכה יותר לגבוהה יותר בהערכת מבנה האוכלוסייה. חשוב לחזור ולהדגיש כי התפלגות התדרים של שושלות ST וגרסאות cgMLST, אם היא נשאבת ממדגם שנאסף באופן שיטתי ומופעל סטטיסטית, יכולה להפוך לפרוקסי לכושר אקולוגי 1,6,43. כתוצאה מכך, שושלות ST דומיננטיות וגרסאות cgMLST עשויות להכיל תכונות גנומיות ייחודיות שעשויות להיות הבסיס למנגנון הביולוגי לדומיננטיות שלהן באוכלוסייה באותה סביבה או פונדקאי מסוים.

כאן, שני מדדים סטטיסטיים בלתי תלויים שימשו להערכת מידת הקלונליות של האוכלוסייה, המאפשרת הבנה עזרית של המגוון הגנטי של האוכלוסייה, אשר עשויה להצביע על התרחשות בעבר של הטיית מדגם, צווארי בקבוק באוכלוסייה או אפקט המייסד. בפרט, ההערכה האגנוסטית של תת-קבוצות BAPS ברמות 1-6 על פני שושלות ST יכולה לחדד את ההבנה של המגוון הגנטי שבדרך כלל לא ניתן לפתור על ידי הסתכלות פשוטה על רמת הווריאנט של סלמונלה cgMLST שנוצרה על ידי SISTR. כאמור, ניתן למפות תכונות אחרות של הפאן-גנום על מבנה האוכלוסייה וקבצים המכילים הרכב גנים של פלסמידים ווירולנס, בנוסף לשימוש במסדי נתונים אחרים של AMR יחד עם מערך נתונים אגנוסטי של פאן-גנום, נוצרים באופן אוטומטי על ידי ProkEvo20. יש לציין כי ProkEvo אינו מאפשר כיום הבחנה בין מוקדי AMR הקיימים בכרומוזום החיידקי לעומת פלסמידים. ניתן גם לשלב בקלות מטא-נתונים אקולוגיים ואפידמיולוגיים בגישה אנליטית זו על ידי שילוב משתנים אחרים בקובץ .csv המכיל את כל המידע הגנומי. בפרט, העבודה המוצגת כאן משלימה באופן ספציפי את השימוש בפלטפורמה החישובית המדרגית והניידת ProkEvo, אשר תוכננה לשמש חוקרים המתמקדים בניתוחים גנומיים של אוכלוסייה היוריסטית המאפשרים כריית נתונים והתאמה אישית על ידי המשתמש. פלטפורמות אחרות יכולות לשמש לגנוטיפ, ניתוח מבנה אוכלוסייה ו/או מיפוי של גנומים של אביזרים כגון Enterobase5, PATRIC60 ו-BacWGSTdb61. אלה האחרונים הם משאבים מצוינים המאפשרים כריית נתונים גנומיים עבור חוקרים שאינם מבקשים להתאים אישית ולהשתמש במחשוב אשכולות לניתוח מדרגי ומורכב. הגישה האנליטית המוצגת כאן מותאמת במיוחד לחוקרים שרוצים שתהיה להם הגמישות לבצע ניתוח גנומי של אוכלוסייה באמצעות סקריפטים הניתנים לשחזור במכונה המקומית שלהם או באמצעות פלטפורמה חישובית בעלת ביצועים גבוהים בענן או בביצועים גבוהים.

לסיכום, הפלטפורמה האנליטית מבוססת R שהוצגה בעבודה זו נועדה לספק מדריך מעשי למיקרוביולוגים, אקולוגים ואפידמיולוגים כיצד: 1) להשתמש בגישות תלויות פילוגנזה כדי למפות גנוטיפים היררכיים; 2) להעריך את התפלגות התדירות של הגנוטיפים כמייצג להערכת כושר אקולוגי; 3) לקבוע דרגות ספציפיות לשושלת של קלונליות באמצעות גישות סטטיסטיות בלתי תלויות; ו-4) למפות מוקדי AMR מבדילי שושלת כדוגמה לאופן שבו ניתן לכרות תוכן גנומי של אביזרים בהקשר של מבנה האוכלוסייה. ניתן להשתמש בסקריפטים המסופקים כאן במכונה מקומית או בפלטפורמה חישובית בעלת ביצועים גבוהים. עבור מיקרוביולוגים ניסיוניים וסביבתיים, גישה זו מאפשרת מחקרים של מערכי נתונים שמטרתם לזהות תכונות ייחודיות ומסלולים מועמדים למחקרים מכניסטיים נוספים שבסופו של דבר ניתן להקשרם ברמת האוכלוסייה. אקולוגים יכולים להפיק תועלת מגישה זו על ידי היכולת לנתח מערכי נתונים בינוניים עד גדולים, שבתיאוריה, מגדילים את הכוח הסטטיסטי הדרוש כדי למצוא חתימות של סלקציה באוכלוסייה תוך התחשבות ביחסי קרבה ובדפוסי גיוון. לבסוף, אפידמיולוגים יכולים לרתום מידע מעשי ייחודי לאבחון ומעקב על ידי הגדרת יחידות עניין גנוטיפיות וחיזוי תכונות הקשורות לבריאות הציבור כגון AMR. באופן רחב יותר, הנחיה אנליטית זו מספקת מסגרת הניתנת להכללה לשימוש ב- ProkEvo לביצוע ניתוח גנומי מבוסס אוכלוסייה שניתן להשתמש בו כדי להסיק דפוסים אבולוציוניים ואקולוגיים עבור מינים פתוגניים ולא פתוגניים מכיוון שהגישה ניתנת להכללה למיני חיידקים אחרים.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

המחברים הצהירו כי לא קיימים אינטרסים מתחרים.

Acknowledgments

עבודה זו נתמכה על ידי מימון שסופק על ידי חטיבת המחקר החקלאי של UNL-IANR והמכון הלאומי למחקר וחינוך נגד עמידות מיקרוביאלית ועל ידי מרכז המזון לבריאות של נברסקה במחלקת המדע והטכנולוגיה של המזון (UNL). ניתן היה להשלים מחקר זה רק על ידי שימוש במרכז המחשוב של הולנד (HCC) ב- UNL, המקבל תמיכה מיוזמת המחקר של נברסקה. אנו מודים גם על כך שיש לנו גישה, באמצעות HCC, למשאבים המסופקים על ידי רשת המדע הפתוחה (OSG), הנתמכת על ידי הקרן הלאומית למדע ומשרד המדע של משרד האנרגיה האמריקאי. עבודה זו השתמשה בתוכנת ניהול זרימת העבודה של פגסוס הממומנת על ידי הקרן הלאומית למדע (מענק #1664162).

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

גנטיקה גיליון 178
כרייה היוריסטית של גנוטיפים היררכיים וגושים של גנום עזר באוכלוסיות חיידקים
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter