Waiting
로그인 처리 중...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

בחירה בסיוע של סמנים ביולוגיים לפי גודל אפקט ניתוח מפלה ליניארי (LEfSe) בנתוני מיקרוביום

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (גודל אפקט LDA) הוא כלי לכריית סמנים ביולוגיים בממדים גבוהים לזיהוי תכונות גנומיות (כגון גנים, מסלולים וטקסונומיות) המאפיינות באופן משמעותי שתי קבוצות או יותר בנתוני מיקרוביום.

Abstract

יש תשומת לב הולכת וגוברת לגנומים ביולוגיים סגורים בסביבה ובבריאות. כדי לחקור ולחשוף את ההבדלים הבין-קבוצתיים בין דגימות או סביבות שונות, חשוב לגלות סמנים ביולוגיים עם הבדלים סטטיסטיים בין קבוצות. היישום של ניתוח מפלה ליניארי גודל אפקט (LEfSe) יכול לעזור למצוא סמנים ביולוגיים טובים. בהתבסס על נתוני הגנום המקוריים, מתבצעים בקרת איכות וכימות של רצפים שונים המבוססים על מסה או גנים. ראשית, מבחן הדירוג Kruskal-Wallis שימש כדי להבחין בין הבדלים ספציפיים בין קבוצות סטטיסטיות וביולוגיות. לאחר מכן, מבחן הדירוג של וילקוקסון בוצע בין שתי הקבוצות שהושגו בשלב הקודם כדי להעריך אם ההבדלים היו עקביים. לבסוף, ניתוח מפלה ליניארי (LDA) נערך כדי להעריך את ההשפעה של סמנים ביולוגיים על קבוצות שונות באופן משמעותי בהתבסס על ציוני LDA. לסיכום, LEfSe סיפק את הנוחות לזיהוי סמנים ביולוגיים גנומיים המאפיינים הבדלים סטטיסטיים בין קבוצות ביולוגיות.

Introduction

סמנים ביולוגיים הם מאפיינים ביולוגיים שניתן למדוד ויכולים להצביע על כמה תופעות כגון זיהום, מחלה או סביבה. ביניהם, סמנים ביולוגיים פונקציונליים עשויים להיות פונקציות ביולוגיות ספציפיות של מינים בודדים או משותף למינים מסוימים, כגון גן, חלבון, מטבוליט ומסלולים. חוץ מזה, סמנים ביולוגיים טקסונומיים מצביעים על מין יוצא דופן, קבוצה של אורגניזמים (ממלכה, פילום, מעמד, סדר, משפחה, סוג, מינים), משתנה רצף האמפליקונים (ASV)1, או היחידה הטקסונומית המבצעית (OTU)2. על מנת למצוא סמנים ביולוגיים במהירות ובדייקנות רבה יותר, יש צורך בכלי לניתוח הנתונים הביולוגיים. ההבדלים בין שיעורים יכולים להיות מוסברים על ידי LEfSe בשילוב עם בדיקות סטנדרטיות למשמעות סטטיסטית ובדיקות נוספות המקודדות עקביות ביולוגית ורלוונטיות השפעה3. LEfSe זמין כמודול גלקסיה, נוסחת קונדה, תמונת docker, ונכלל בביובקרי (VM וענן)4. בדרך כלל, ניתוח המגוון המיקרוביאלי משתמש לעתים קרובות בבדיקה לא פרמטרית להפצה לא בטוחה של קהילת מדגם. בדיקת סכום הדירוג היא שיטת בדיקה לא פרמטרית, המשתמשת בדירוג הדגימות כדי להחליף את ערך הדגימות. על פי ההבדל של קבוצות מדגם, זה יכול להיות מחולק לשתי דגימות עם מבחן סכום הדירוג וילקוקסון לתוך דגימות מרובות עם מבחן Kruskal-Wallis 5,6. ראוי לציין, כאשר ישנם הבדלים משמעותיים בין קבוצות מרובות של דגימות, יש לבצע בדיקת סכום דרגה של השוואה זוגית של דגימות מרובות. LDA (אשר מייצג ניתוח מפלה ליניארי) שהומצא על ידי רונלד פישר בשנת 1936, הוא סוג של למידה מפוקחת, הידוע גם בשם מפלה ליניארי של פישר7. זהו אלגוריתם קלאסי ופופולרי בתחום הנוכחי של כריית נתונים למידת מכונה.

כאן, בדיקת LEfSe עברה אופטימיזציה על ידי שרתי קונדה וגלקסי. שלוש קבוצות של רצפי גנים rRNA 16S מנותחות כדי להדגים את ההבדלים המשמעותיים בין קבוצות שונות עם עשרות LDA של קהילות מיקרוביות ותוצאות הדמיה.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

הערה: הפרוטוקול היה מקור ושונה מהמחקר של Segata et al.3. השיטה מסופקת https://bitbucket.org/biobakery/biobakery/wiki/lefse.

1. הכנת קובץ קלט לניתוח

  1. הכן את קובץ הקלט (טבלה 1) של LEfSe, אשר יכול להיווצר בקלות על ידי זרימות עבודה רבות8 או פרוטוקולים קודמים9 עם הקבצים המקוריים (קובץ מדגם וקובץ ביאור מינים מתאים).

2. ניתוח מקורי של LEfSe (מוגבל לשרת לינוקס)

  1. התקנת LEfSe
    הערה: מומלץ להתקין את צינור LEfSe עם Conda10.
    1. הפעל את הפקודות הבאות כדי לא לכלול את האפשרות של התנגשות יחסי תלות. צור סביבת קונדה עבור LEfSe (שלב זה מומלץ אך אינו נדרש).). -n מייצג את שם הסביבה.
      $ conda create -n LEfSe-env
    2. כדי להפעיל את סביבת LEfSe שנוצרה, הפעל את:
      $ source activate LEfSe-env
    3. כדי להתקין את LEfSe עם bioBakery ערוץ שבו -c מייצג את שם הערוץ, הפעל:
      $ conda install -c biobakery lefse
  2. עיצוב נתונים עבור LEfSe
    1. הפעל את הפקודה הבאה כדי לעצב את הקובץ המקורי לתבנית הפנימית עבור LEfSe. טבלה.txt קובץ הקלט Table-reformat.in הוא קובץ הפלט. -c משמש להגדרת התכונה, המשמשת כמחלקה (ברירת מחדל 1) ו- -o משמש להגדרת ערך הנורמליזציה (ברירת המחדל -1.0 כלומר ללא נורמליזציה).
      $ שולחן format_input.py.txt Table-reformat.in -c 1 -o 10000000
  3. חישוב גודל אפקט ניתוח מפלה ליניארי (LDA)
    1. הפעל את הפקודה הבאה. מטרת שלב זה היא לבצע LDA של התוצאה הקודמת וליצור את קובץ התוצאה עבור visualization. Table-reformat.in נוצרת באמצעות השלב הקודם ומשמשת כקובץ הקלט בשלב זה. Table-reformat.res הוא קובץ התוצאה.
      $ run_lefse.py Table-reformat.in Table-reformat.res
  4. פריט חזותי לפי התוויות
    1. התווה את תוצאות LEfSe. כדי להתוות את גודל האפקט של סמנים ביולוגיים בקובץ PDF,. Table-reformat.res נוצר באמצעות השלב הקודם ו- LDA.pdf הוא קובץ ההתוויה. –format משמש להגדרת תבנית קובץ הפלט.
      $ plot_res.py Table-reformat.res LDA.pdf --format pdf
    2. תכנן את הקלדוגרמה. לצייר את עץ המינים ולהציג את סמנים ביולוגיים בקלדוגרמה. קלדוגרמה.pdf הוא קובץ הפלט.
      $ plot_cladogram.py Table-reformat.res cladogram.pdf --format pdf
    3. התוויית תכונה אחת (אופציונלי) כדי להתוות את ההבדלים של סמן ביולוגי יחיד בין קבוצות שונות. -f משמש להגדרת תכונות העלילה. אם הוגדר אחד מהם, יש לתת את ה- -feature_name.
      $ plot_features.py -f אחד --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. התווה את התכונות הדיפרנציאליות (אופציונלי) כדי לצייר את כל התכונות, אך יש יותר מדי מה לעשות בזהירות. --הארכיון משמש כדי לבחור אם לדחוס את התוצאות. ./ פירושו נתיב התוצאות.
      $ plot_features.py -f diff --archive none --format pdf Table-reformat.in Table-reformat.res ./

3. ניתוח מקוון של LEfSe (גלקסיה)

  1. עבור אל שרת הגלקסיה huttenhower11: http://huttenhower.sph.harvard.edu/galaxy.
  2. העלה את הקבצים. לחץ על לחצן החץ למעלה בחלונית הימנית והעלה את הקובץ. לחץ על בחר קובץ מקומי כדי לבחור את קובץ הקלט ולבחור את הטבלאי של העיצוב ולאחר מכן לחץ על לחצן התחל .
    הערה: בהתייחסו לדף האינטרנט (https://bitbucket.org/biobakery/biobakery/wiki/lefse), השתמש בקובץ ה- Script (taxonomy_summary. R) כדי ליצור את קובץ הקלט של LEfSe, והתבנית (כל עמודה עם שם קבוצה, כל שורה עם רמת ביאור שונה המופרדת על-ידי "|") נדרשת כפי שמוצג בטבלה 1. מבט כולל סכמטי על תהליך ההעלאה מוצג באיור 1.
  3. עצב את הנתונים עבור LEfSe. לחץ על | LEfSe עצב נתונים עבור LEfSe בקישור בחלונית הימנית ובחר את השורות הספציפיות למחלקה בקובץ ולחץ על לחצן הפעל . מבט כולל סכמטי על התהליך התפעולי ועל הפרמטרים שבהם נעשה שימוש מוצג באיור 2.
  4. חשב את גודל אפקט ה- LDA. לחץ על | LEfSe הקישור גודל אפקט LDA (LEfSe) בחלונית הימנית ובחר ערכי פרמטרים בהתאם לדרישות הניתוח. לחץ על בצע. מבט כולל סכמטי על התהליך התפעולי ועל הפרמטרים שבהם נעשה שימוש מוצג באיור 3.
  5. התווה את תוצאות LEfSe. לחץ על | LEfSe התווה את הקישור תוצאות LEfSe בחלונית הימנית ולחץ על לחצן הפעל . מבט כולל סכמטי על התהליך התפעולי ועל הפרמטרים שבהם נעשה שימוש מוצג באיור 4.
  6. תכנן את הקלדוגרמה. לחץ על קלאודוגרמה של התווה בחלונית הימנית ולחץ על לחצן בצע לאחר בחירת ערכי הפרמטרים. מבט כולל סכמטי על התהליך התפעולי ועל הפרמטרים שבהם נעשה שימוש מוצגים באיור 5.
  7. התווה תכונה אחת על-ידי לחיצה על התכונה 'התווה תכונה אחת' בחלונית הימנית ולחיצה על לחצן בצע לאחר בחירת ערכי פרמטרים. מבט כולל סכמטי על התהליך התפעולי והפרמטרים שבהם נעשה שימוש מוצגים באיור 6.
  8. התווה תכונות דיפרנציאליות על-ידי לחיצה על התוויית תכונות דיפרנציאליות בחלונית הימנית והיצמדות ללחצן בצע לאחר בחירת ערכי פרמטרים. מבט כולל סכמטי על התהליך התפעולי והפרמטרים שבהם נעשה שימוש מוצגים באיור 7.
    הערה: ניתן להציג באופן חזותי איורים שנוצרו ולהוריד אותם מול הפלט שנוצר בחלונית השמאלית.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

LDA עשרות קהילות מיקרוביות עם הבדלים משמעותיים בכל קבוצה על ידי ניתוח רצפי הגנים rRNA 16S של שלוש דגימות מוצג באיור 8. צבע ההיסטוגרמה מייצג קבוצות שונות, בעוד האורך מייצג את ציון LDA, שהוא ההשפעה של המין עם הבדלים משמעותיים בין קבוצות שונות. ההיסטוגרמה מציגה את המינים עם הבדלים משמעותיים שציון ה- LDA שלהם גדול מהערך המוגדר מראש. הערך המוגדר המוגדר מראש המוגדר כברירת מחדל הוא 2.0, כך שרק ערכים מוחלטים של ניקוד LDA (abscissa) הגדולים מ- 2.0 מוצגים בתרשים.

סמנים ביולוגיים עם הבדל משמעותי ועץ מינים בין רמות סיווג שונות מוצגים באיור 9. העיגולים המקרינים מבפנים אל החוץ מייצגים את רמות הסיווג מפילום לסוג (העיגול הצהוב הפנימי ביותר הוא הממלכה). הקוטר של כל עיגול קטן ברמות הסיווג השונות מייצג את גודל השפע היחסי. המינים ללא הבדל משמעותי צבועים באופן אחיד בצהוב, וסמנים ביולוגיים של מינים שונים באופן משמעותי צבועים בקבוצות המתאימות. המחלקות A, B ו- C הן שמות הקבוצות של דגימות מיקרוביות שנאספו. צמתים אדומים מייצגים את הקבוצות המיקרוביות הממלאות תפקיד חשוב בקבוצה האדומה (A); צמתים ירוקים מייצגים את קבוצות המיקרואורגניזמים הממלאות תפקיד חשוב בקבוצה הירוקה (B); וצמתים כחולים מייצגים את הקבוצות המיקרוביות הממלאות תפקיד חשוב בקבוצה הכחולה (C). שם המינים המקבילים של סמנים ביולוגיים שאינם מוצגים בעלילה מוצגים בצד ימין, ומספרי האותיות תואמים את זה בעלילה (רק מראה מינים דיפרנציאליים מהפילום למשפחה כברירת מחדל למטרות אסתטיות).

השפע של סמן ביולוגי אחד שיש לו הבדלים בין קבוצות שונות על פי תוצאות LEfSe מוצג באיור 10. בבארפלו השפע היחסי, הקו המוצק מייצג את השפע היחסי הממוצע, הקו המקווקו מייצג את השפע היחסי החציוני, וכל עמודה מייצגת את השפע היחסי של כל מדגם בקבוצות שונות.

טבלה 1: הקובץ לדוגמה עבור ניתוח LEfSe באופן מקוון. אנא לחץ כאן כדי להוריד טבלה זו.

Figure 1
איור 1: סקירה סכמטית של תהליך ההעלאה. לחץ על המספרים האדומים בסדר רציף על הדמות. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 2
איור 2: מבט כולל סכמטי על התהליך התפעולי לשינוי תבנית נתונים. לחץ על המספרים האדומים בסדר רציף על הדמות. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 3
איור 3: סקירה סכמטית של התהליך התפעולי לחישוב גודל אפקט LDA. לחץ על המספרים האדומים בסדר רציף על הדמות. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 4
איור 4: סקירה סכמטית של התהליך התפעולי להתוויית תוצאות LEfSe. לחץ על המספרים האדומים בסדר רציף על הדמות. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 5
איור 5: סקירה סכמטית של התהליך התפעולי להתוויית קלאודוגרמה. לחץ על המספרים האדומים בסדר רציף על הדמות. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 6
איור 6: מבט כולל סכמטי על התהליך התפעולי להתוויית תכונה אחת. לחץ על המספרים האדומים בסדר רציף על הדמות. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 7
איור 7: סקירה סכמטית של התהליך התפעולי להתוויית תכונות דיפרנציאליות. לחץ על המספרים האדומים בסדר רציף על הדמות. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 8
איור 8: היסטוגרמה של התפלגות ערכי LDA. עשרות LDA של קהילות מיקרוביות עם הבדלים משמעותיים בכל קבוצה נותחו על ידי גודל אפקט LDA על פי ההשפעות והמתאם שלהם. אנא לחץ כאן כדי להוריד נתון זה.

Figure 9
איור 9: קלדוגרם. העלילה הטיפוסית של הקלדוגרמה המתקבלת על ידי הפרוטוקול, המאפשרת ייצוג של ההבדל בין רמות סיווג שונות של שלוש קבוצות. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 10
איור 10: עלילת תכונה אחת. ברפלוט השפע של סמן ביולוגי אחד שיש לו הבדלים בין קבוצות שונות על פי LEfSe results.is המוצגים. לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

כאן מתואר הפרוטוקול לזיהוי ואפיון של סמנים ביולוגיים בקבוצות שונות. פרוטוקול זה יכול להיות מותאם בקלות עבור סוגי מדגם אחרים, כגון OTUs של מיקרואורגניזמים. השיטה הסטטיסטית של LEfSe יכולה למצוא את המיקרואורגניזמים האופייניים בכל קבוצה (ברירת המחדל היא LDA >2), כלומר, המיקרואורגניזמים הנפוצים יותר בקבוצה זו ביחס לאחרים12. LEfSe זמין הן בגרסאות לינוקס מקוריות והן בגרסאות לינוקס באינטרנט שבהן משתמשים יכולים גם לבצע ניתוח LEfSe בדפי אינטרנט. LEfSe מבוסס על אלגוריתם LDA וזקוק לרמת מין כדי לצייר עץ מין. על ידי יישום הכלי, ניתן להשוות את השפע היחסי בין הקבוצות. כל סמנים ביולוגיים דיפרנציאליים יכולים להיות משורטטים בגרף אחד. כמו כן, סמן ביולוגי יחיד או כל סמנים ביולוגיים ניתן לשרטט בקבוצות.

בין אם LEfSe מבוצע דרך השרת המקורי או אתר מקוון, יש הרבה פרמטרים טונה לצייר את התמונות הנדרשות. בשל המבנה המורכב של קבצי קלט והצורך להמיר אותם לפורמטי נתונים מועדפים לניתוחים נוספים של LEfSe, פותחו גם כמה שירותים חד פעמיים. לכן, אופטימיזציה של פעולות קלות יותר יכולה להיות מאתגרת. מצד שני, יש כמה מגבלות בעת ניתוח נתונים מורכבים באמצעות LEfSe. LDA מקרין תכונה שהיא ממד אחד קטן מהקטגוריה, ואם יש צורך בתכונות נוספות, מוצגות שיטות אחרות. הווריאנטים של LDA עשויים לפתור כמה קשיים. לדוגמה, Kernel LDA הוא פתרון אם לא ניתן להפריד את הנתונים המקוריים הרבה לאחר ההקרנה. מכיוון שכמות החישוב של LDA קשורה לממד הנתונים, 2DLDA יכול להפחית מאוד את כמות החישוב של LDA. הן LDA והן PCA משמשים בדרך כלל טכניקות הפחתת ממדיות. הפחתת ממדיות PCA (ניתוח רכיבים עיקריים) קשורה ישירות לממד הנתונים, ומערכת הקואורדינטות המוקרנת היא אורתוגונלית. עם זאת, LDA מתמקד ביכולת הסיווג על פי תיוג של קטגוריות, ולכן מערכת הקואורדינטות הצפויה אינה בדרך כלל לא אורתוגונלית.

LEfSe מספק סיוע בבחירת סמנים ביולוגיים. עם יתרונות רבים (למשל, פרמטרים מתכווננים, התוצאות המפורטות של חלקים שונים, יישום בין שתי קבוצות או יותר), זה כברבשימוש נרחב 13. עם הביקוש הגובר לניתוח נתונים ממדיים גבוהים, היישום של שיטה זו יהפוך נרחב יותר ויותר לחקור את סמנים ביולוגיים של התכונות (אורגניזמים, עטיפות, יחידות טקסונומיות תפעוליות, גנים או פונקציות) המשפיעים על בריאות האדם ומחלות.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

למחברים אין מה לחשוף.

Acknowledgments

עבודה זו נתמכה על ידי מענק מקרנות מחקר בסיסיות עבור מכוני המחקר המרכזיים לרווחת הציבור (TKS17020205) והקרן לפיתוח המדע והטכנולוגיה, ומכון המחקר טיאנג'ין להנדסת תחבורה מים (TIWTE), M.O.T. (KJFZJJ17020201).

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

גנטיקה גיליון 183 LEfSe סמן ביולוגי גנום מגוון ביולוגי הבדל סטטיסטי מתאם ביולוגי
בחירה בסיוע של סמנים ביולוגיים לפי גודל אפקט ניתוח מפלה ליניארי (LEfSe) בנתוני מיקרוביום
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter