Waiting
Processando Login

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Immunology and Infection

ניתוח תמלול תפוקה גבוהה לחקירת אינטראקציות בין מארח לפתוגן

Published: March 5, 2022 doi: 10.3791/62324

Summary

הפרוטוקול המוצג כאן מתאר צינור שלם לניתוח נתוני תמלול ריצוף RNA מקריאות גולמיות לניתוח פונקציונלי, כולל בקרת איכות וצעדי עיבוד מראש לגישות אנליטיות סטטיסטיות מתקדמות.

Abstract

פתוגנים יכולים לגרום למגוון רחב של מחלות זיהומיות. התהליכים הביולוגיים הנגרמים על ידי המארח בתגובה לזיהום קובעים את חומרת המחלה. כדי לחקור תהליכים כאלה, חוקרים יכולים להשתמש בטכניקות ריצוף תפוקה גבוהה (RNA-seq) המודדות את השינויים הדינמיים של התמלול המארח בשלבים שונים של זיהום, תוצאות קליניות או חומרת המחלה. חקירה זו יכולה להוביל להבנה טובה יותר של המחלות, כמו גם לחשוף מטרות וטיפולים תרופתיים פוטנציאליים. הפרוטוקול המוצג כאן מתאר צינור שלם לניתוח נתוני ריצוף RNA מקריאות גולמיות לניתוח פונקציונלי. הצינור מחולק לחמישה שלבים: (1) בקרת איכות של הנתונים; (2) מיפוי וביאור של גנים; (3) ניתוח סטטיסטי לזיהוי גנים מבוטאים באופן דיפרנציאלי וגנים משותפים; (4) קביעת המידה המולקולרית של ההסתבכויות של דגימות; וניתוח פונקציונלי (5). שלב 1 מסיר ממצאים טכניים שעשויים להשפיע על איכות הניתוחים במורד הזרם. בשלב 2, גנים ממופים ומביאים ביאורים בהתאם לפרוטוקולי הספרייה הסטנדרטיים. הניתוח הסטטיסטי בשלב 3 מזהה גנים המתבטאים באופן דיפרנציאלי או באים לידי ביטוי בדגימות נגועות, בהשוואה לגנים שאינם נגועים. שונות מדגם ונוכחות של חריגים ביולוגיים פוטנציאליים מאומתים באמצעות מידת הגישה המולקולרית של perturbation בשלב 4. לבסוף, הניתוח התפקודי בשלב 5 חושף את המסלולים הקשורים פנוטיפ המחלה. הצינור המוצג נועד לתמוך לחוקרים באמצעות ניתוח נתוני RNA-seq ממחקרי אינטראקציה בין מארח לפתוגן ולהניע ניסויים עתידיים במבחנה או ב- vivo , החיוניים להבנת המנגנון המולקולרי של זיהומים.

Introduction

Arboviruses, כגון דנגי, קדחת צהובה, chikungunya, וזיקה, היו קשורים באופן נרחב עם מספר התפרצויות אנדמיות התגלו כאחד הפתוגנים העיקריים האחראים להדביק בני אדם בעשורים האחרונים1,2. אנשים נגועים בנגיף chikungunya (CHIKV) לעתים קרובות יש חום, כאב ראש, פריחה, polyarthralgia, דלקת פרקים3,4,5. וירוסים יכולים לחתור תחת ביטוי הגנים של התא ולהשפיע על מסלולי איתות מארח שונים. לאחרונה, מחקרי תמלול דם השתמשו RNA-seq כדי לזהות את הגנים המובעים דיפרנציאלי (DEGs) הקשורים זיהום CHIKV חריף בהשוואה הבראה6 או פקדים בריאים7. לילדים נגועים CHIKV היו גנים מוסדרים המעורבים בחסינות מולדת, כגון אלה הקשורים לחיישנים סלולריים עבור RNA ויראלי, איתות JAK / STAT, ומסלולי איתות קולטן דמוי אגרה6. מבוגרים שנדבקו באופן חריף ב- CHIKV הראו גם אינדוקציה של גנים הקשורים לחסינות מולדת, כגון אלה הקשורים למונוציטים והפעלת תאים דנדריטיים, ולתגובות אנטי ויראליות7. מסלולי האיתות המועשרים בגנים מווסתים כלפי מטה כללו את אלה הקשורים לחסינות אדפטיבית, כגון הפעלת תאי T ובידול והעשרה בתאי T ו- B7.

ניתן להשתמש במספר שיטות לניתוח נתוני שעתוק של גנים מארחים ופתוגנים. לעתים קרובות, הכנת ספריית RNA-seq מתחילה בהעשרה של תמלילי פולי-A בוגרים. שלב זה מסיר את רוב הרנ"א ריבוזומלי (rRNA) ובחלק מהמקרים RNAs ויראלי/חיידקי. עם זאת, כאשר השאלה הביולוגית כוללת את זיהוי תעתיק הפתוגן ו- RNA רצפים ללא תלות בבחירה הקודמת, ניתן היה לזהות תמלילים רבים ושונים אחרים על ידי רצף. לדוגמה, mRNAs תת-גנומי הוכחו כגורם חשוב כדי לאמת את חומרת המחלות8. בנוסף, עבור וירוסים מסוימים כגון CHIKV ו SARS-CoV-2, אפילו ספריות מועשרות poly-A ליצור קריאות ויראליות שניתן להשתמש בהם ניתוחים במורד הזרם9,10. כאשר מתמקדים בניתוח התמלול המארח, חוקרים יכולים לחקור את ההסתבות הביולוגית על פני דגימות, לזהות גנים מבוטאים באופן דיפרנציאלי ומסלולים מועשרים, וליצור מודולי ביטוי משותף7,11,12. פרוטוקול זה מדגיש ניתוחי תמלול של חולים נגועים ב-CHIKV ואנשים בריאים המשתמשים בגישות ביו-אינפורמטיות שונות (איור 1A). נתונים ממחקר שפורסם בעבר7 המורכב מ -20 אנשים בריאים ו -39 נדבקים בחריפות שימשו כדי להפיק את התוצאות הייצוגיות.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

הדגימות המשמשות בפרוטוקול זה אושרו על ידי ועדות האתיקה הן מהמחלקה למיקרוביולוגיה של המכון למדעי הביו-רפואה באוניברסיטת סאו פאולו והן מהאוניברסיטה הפדרלית של סרג'יפה (פרוטוקולים: 54937216.5.0000.5467 ו- 54835916.2.0000.5546, בהתאמה).

1. התקנת שולחן עבודה של Docker

הערה: השלבים להכנת סביבת Docker שונים בין מערכות ההפעלה (OSs). לכן, משתמשי Mac חייבים לבצע את השלבים המפורטים כ- 1.1, משתמשי Linux חייבים לבצע את השלבים המפורטים כ- 1.2, ומשתמשי Windows חייבים לבצע את השלבים המפורטים כ- 1.3.

  1. התקן ב-MacOS.
    1. גש לאתר האינטרנט של Get Docker (טבלת חומרים), לחץ על שולחן העבודה של Docker עבור Mac ולאחר מכן לחץ על הקישור הורד מ- Docker Hub .
    2. הורד את קובץ ההתקנה על-ידי לחיצה על לחצן קבל Docker .
    3. הפעל את הקובץ .dmg Docker כדי לפתוח את תוכנית ההתקנה ולאחר מכן גרור את הסמל לתיקיה יישומים . לוקליזציה וביצוע של Docker.app בתיקיה יישומים כדי להפעיל את התוכנית.
      הערה: התפריט הספציפי לתוכנה בשורת המצב העליונה מציין שהתוכנה פועלת ושה היא נגישה ממסוף.
  2. התקן את תוכנית הגורם המכיל ב- Linux OS.
    1. גש לאתר האינטרנט Get Docker Linux (טבלת חומרים) ובצע את ההוראות להתקנה באמצעות מקטע המאגר הזמין בקישור מאגר לינוקס Docker .
    2. עדכן את כל חבילות Linux באמצעות שורת הפקודה:
      sudo apt-get update
    3. התקן את החבילות הנדרשות ב- Docker:
      sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release
    4. צור קובץ יצירת מפתחות של ארכיון תוכנה:
      תלתל -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
    5. הוסף מידע אודות מד דב של Docker בקובץ המקור.list:
      הד "deb [arch=amd64 חתום על ידי=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) יציב" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    6. עדכן שוב את כל החבילות, כולל החבילות שנוספו לאחרונה:
      sudo apt-get update
    7. התקן את גירסת שולחן העבודה:
      sudo apt-get install docker-ce docker-ce-cli containerd.io
    8. בחר את האזור הגיאוגרפי ואת אזור הזמן כדי לסיים את תהליך ההתקנה.
  3. התקן את תוכנית הגורמים המכילים ב- Windows OS.
    1. גש לאתר האינטרנט של Get Docker (טבלת חומרים) ולחץ על תחילת העבודה. חפש את תוכנית ההתקנה עבור שולחן העבודה של Docker עבור Windows. הורד את הקבצים והתקן אותם באופן מקומי במחשב.
    2. לאחר ההורדה, הפעל את קובץ ההתקנה (.exe) ושמור על פרמטרי ברירת המחדל. ודא ששתי האפשרויות התקן רכיבי Windows נדרשים עבור WSL 2 והוספת קיצור דרך לשולחן העבודה מסומנות.
      הערה: במקרים מסוימים, כאשר תוכנה זו מנסה להפעיל את השירות, היא מציגה שגיאה: התקנת WSL אינה שלמה. כדי להבין שגיאה זו, גש לאתר האינטרנט WSL2-Kernel (טבלת חומרים).
    3. הורד והתקן את ליבת לינוקס WSL2 העדכנית ביותר.
    4. גש למסוף PowerShell כמנהל ובצע את הפקודה:
      dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
    5. ודא שהתוכנה Docker Desktop מותקנת בהצלחה.
  4. הורד את התמונה ממאגר CSBL ברכזת Docker (טבלת חומרים).
    1. פתח את שולחן העבודה של Docker וודא שהמצב "פועל" בפינה הימנית התחתונה של סרגל הכלים.
    2. עבור לשורת הפקודה מסוף PowerShell של Windows. הורד את תמונת הגורם המכיל של Linux עבור פרוטוקול זה ממאגר CSBL ברכזת Docker. בצע את הפקודה הבאה כדי להוריד את התמונה:
      עגינה למשוך csblusp/transcriptome
      הערה: לאחר הורדת התמונה, ניתן לראות את הקובץ בשולחן העבודה של Docker. כדי ליצור את הגורם המכיל, משתמשי Windows חייבים לבצע את שלב 1.5, בעוד שמשתמשי Linux חייבים לבצע את שלב 1.6.
  5. אתחל את הגורם המכיל של השרת ב- Windows OS.
    1. הצג את קובץ התמונה Docker במנהל היישומים של שולחן העבודה מסרגל הכלים וגש לדף התמונות.
      הערה: אם תמונת הצינור הורדה בהצלחה, תהיה תמונת csblusp/transcriptome זמינה.
    2. הפעל את הגורם המכיל מתמונת csblusp/transcriptome על-ידי לחיצה על לחצן הפעלה . הרחב את ההגדרות האופציונליות כדי לקבוע את תצורת הגורם המכיל.
    3. הגדר את שם הגורם המכיל (למשל, שרת).
    4. שייך תיקיה במחשב המקומי לתיקיה בתוך המזח. כדי לעשות זאת, קבע את נתיב המחשב המארח. הגדר תיקיה במחשב המקומי כדי לאחסן את הנתונים המעובדים שיורדו בסוף. הגדר את נתיב הגורם המכיל. הגדר וקשר את תיקיית הגורם המכיל csblusp/transcriptome לנתיב המחשב המקומי (השתמש בשם "/opt/transferdata" עבור נתיב הגורם המכיל).
    5. לאחר מכן, לחץ על הפעל כדי ליצור את הגורם המכיל csblusp / transcriptome.
    6. כדי לגשת למסוף לינוקס מהגורם המכיל csblusp/ transcriptome, לחץ על לחצן CLI.
    7. הקלד במסוף bash כדי ליהנות מחוויה טובה יותר. עבור זאת, בצע את הפקודה:
      bash
    8. לאחר ביצוע הפקודה bash, ודא שהמסוף מציג (root@<היכוננותID>:/#):
      root@ac12c583b731:/ #
  6. אתחל את הגורם המכיל של השרת עבור Linux OS.
    1. בצע פקודה זו כדי ליצור את הגורם המכיל Docker בהתבסס על התמונה:
      docker run -d -it --rm --name server -v <הנתיב ההואסט>:/opt/transferdata csblusp/transcriptome
      הערה: <נתיב הכי טוב>: הגדר נתיב של מחשב התיקיות המקומי.
    2. בצע פקודה זו כדי לגשת למסוף הפקודה של הגורם המכיל Docker:
      docker exec -it server bash
    3. ודא זמינות של מסוף Linux לביצוע תוכניות/סקריפטים באמצעות שורת הפקודה.
    4. לאחר ביצוע הפקודה bash, ודא שהמסוף מציג (root@<היכוננותID>:/#):
      root@ac12c583b731:/ #
      הערה: סיסמת הבסיס היא "transcriptome" כברירת מחדל. אם תרצה, ניתן לשנות את סיסמת הבסיס על-ידי ביצוע הפקודה:
      פס-וואד
    5. תחילה, בצע את פקודת המקור כדי addpath.sh כדי להבטיח שכל הכלים יהיו זמינים. בצע את הפקודה:
      מקור /opt/addpath.sh
  7. בדוק את המבנה של תיקיית ריצוף ה- RNA.
    1. גש לתיקיה קבצי Script של צינור תמלול וודא שכל הנתונים מרצף RNA מאוחסנים בתוך התיקיה: /home/transcriptome-pipeline/data.
    2. ודא שכל התוצאות המתקבלות מהניתוח מאוחסנות בתוך התיקיה של הנתיב /home/transcriptome-pipeline/results.
    3. ודא שקבצי הפניה לגנום וביאור מאוחסנים בתוך התיקיה של הנתיב /home/transcriptome-pipeline/datasets. קבצים אלה יסייעו לתמוך בכל הניתוחים.
    4. ודא שכל קבצי ה- Script מאוחסנים בתיקיה של הנתיב /home/transcriptome-pipeline/Scripts ומופרדים על-ידי כל שלב כמתואר להלן.
  8. הורד את הביאורים ואת הגנום האנושי.
    1. גש לתיקיית קבצי ה- Script:
      cd /home/transcriptome-pipeline/Scripts
    2. בצע פקודה זו כדי להוריד את הגנום האנושי הייחוס:
      downloadGenome.sh
    3. כדי להוריד את הביאר, בצע את הפקודה:
      downloadAnnotation.sh
  9. שנה את הביאר או את גירסת גנום הייחוס.
    1. פתח downloadAnnotation.sh downloadGenome.sh כדי לשנות את כתובת ה- URL של כל קובץ.
    2. העתק את קבצי downloadAnnotation.sh וקבצי downloadGenome.sh לאזור ההעברה וערוך במערכת ההפעלה המקומית.
      cd /home/transcriptome-pipeline/Scripts
      cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
    3. פתח את התיקיה נתיב מארח , שנבחרה כדי לקשר בין מחשב מארח לגורם מכיל של Docker בשלב 1.5.4.
    4. ערוך את הקבצים באמצעות תוכנת העורך המועדפת ושמור. לבסוף, הכנס את הקבצים שהשתנו לתיקיית ה- Script. בצע את הפקודה:
      cd /opt/transferdata
      cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/Scripts

      הערה: ניתן לערוך קבצים אלה ישירות באמצעות עורך Vim או nano Linux.
  10. לאחר מכן, קבע את תצורת הכלי fastq-dump באמצעות שורת הפקודה:
    vdb-config --אינטראקטיבי
    הערה: פעולה זו מאפשרת להוריד קבצי רצף מהנתונים לדוגמה.
    1. נווט בדף כלים באמצעות מקש הכרטיסיה ובחר באפשרות התיקיה הנוכחית. נווט לאפשרות שמור ולחץ על אישור. לאחר מכן, צא מכלי ההשלכה המהירה.
  11. הפעל את ההורדה של הקריאות מהנייר שפורסם בעבר7. נדרש מספר הגישה של SRA של כל דגימה. קבל את מספרי SRA מאתר האינטרנט של SRA NCBI (טבלת החומרים).
    הערה: כדי לנתח נתוני RNA-Seq הזמינים במסדי נתונים ציבוריים, בצע את שלב 1.12. כדי לנתח נתוני RNA-seq פרטיים, בצע את שלב 1.13.
  12. נתח נתונים ציבוריים ספציפיים.
    1. גש לאתר המרכז הלאומי למידע ביוטכנולוגיה (NCBI) וחפש מילות מפתח לנושא מסוים.
    2. לחץ על הקישור תוצאה עבור BioProject בסעיף הגנום .
    3. בחר ולחץ על מחקר מסוים. לחץ על ניסויי SRA. דף חדש נפתח, המציג את כל הדגימות הזמינות למחקר זה.
    4. לחץ על "שלח אל:" מעל מספר הגישה. באפשרות "בחר יעד" בחר באפשרות קובץ ועיצוב, בחר RunInfo. לחץ על "צור קובץ" כדי לייצא את כל פרטי הספריה.
    5. שמור את הקובץ .csv SraRunInfo בנתיב המארח המוגדר בשלב 1.5.4 ובצע את קובץ ה- Script להורדה:
      cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
      cd /home/transcriptome-pipeline/Scripts
      downloadAllLibraries.sh
  13. נתח נתוני רצף פרטיים ולא פורסמו.
    1. ארגן את נתוני הרצף בתיקיה בשם Reads.
      הערה: בתוך התיקיה Reads , צור תיקיה אחת עבור כל דוגמה. לתיקיות אלה חייב להיות שם זהה עבור כל דוגמה. הוסף נתונים של כל דוגמה בתוך הספריה שלה. במקרה שמדובר ב- RNA-Seq משויך, כל ספריה לדוגמה צריכה להכיל שני קבצי FASTQ, אשר חייבים להציג שמות המסתיימים בהתאם לתבניות {sample}_1.fastq.gz ו- {sample}_2.fastq.gz, רצפים קדימה ואחורה, בהתאמה. לדוגמה, לדוגמה בשם "Healthy_control" חייבת להיות ספריה עם אותו שם וקבצי FASTQ בשם Healthy_control_1.fastq.gz ו- Healthy_control_2.fastq.gz. עם זאת, אם רצף הספריה הוא אסטרטגיה חד-קצהית, יש לשמור קובץ קריאה אחד בלבד לניתוח במורד הזרם. לדוגמה, אותה מדגם, "שליטה בריאה", חייבת לקובץ FASTQ ייחודי בשם Healthy_control.fastq.gz.
    2. יצירת קובץ פנוטיפי המכיל את כל השמות לדוגמה: תן שם לעמודה הראשונה כ'דוגמה' ולעמודה השניה כ'מחלקה'. מלא את העמודה דוגמה בשמות לדוגמה, שחייבים להיות באותו שם עבור הספריות לדוגמה ולמלא את העמודה מחלקה בקבוצה הפנוטיפית של כל דגימה (לדוגמה, בקרה או נגוע). לבסוף, שמור קובץ בשם "metadata.tsv" ושלח אותו לספריה /home/transcriptome-pipeline/data/data. בדוק את metadata.tsv הקיים כדי להבין את התבנית של הקובץ פנוטיפיק.
      cp /opt/transferdata/metadata.tsv
      /home/transcriptome-pipeline/data/metadata.tsv
    3. גש לספריה Path Host המוגדרת בשלב 1.5.4 והעתק את דוגמאות הספריות המובנות החדשות. לבסוף, העבר את הדוגמאות מ- /opt/transferdata לספריית נתוני הצינור.
      cp -rf /opt/transferdata/reads/*
      /home/צנרת תמלול/נתונים/קריאות/
  14. שים לב כי כל הקריאות מאוחסנות בתיקיה /בית/צנרת תמלול/נתונים/קריאות.

2. בקרת איכות של הנתונים

הערה: הערך, באופן גרפי, את ההסתברות לשגיאות ברצף קורא. הסר את כל הרצפים הטכניים, למשל, מתאמים.

  1. גש לאיכות הרצף של ספריות באמצעות הכלי FastQC.
    1. כדי ליצור את גרפי האיכות, הפעל את תוכנית fastqc. בצע את הפקודה:
      FastQC.sh
      הערה: התוצאות יישמרו בתיקיה /home/transcriptome-pipeline/results/FastQC. מאחרמתמת רצף משמשת להכנת ספריה ולרצף, במקרים מסוימים שברי רצף המתאמים עלולים להפריע לתהליך המיפוי.
  2. הסר את רצף המתאם ואת הקריאות באיכות נמוכה. גש לתיקיה Scripts והבצע את הפקודה עבור הכלי Trimmomatic:
    cd /home/transcriptome-pipeline/Scripts
    trimmomatic.sh bash

    הערה: הפרמטרים המשמשים לרצף מסנן הם: הסר איכות נמוכה מובילה או 3 בסיסים (מתחת לאיכות 3) (מוביל:3); הסר נגרר באיכות נמוכה או 3 בסיסים (מתחת לאיכות 3) (נגרר:3); סרוק את הקריאה עם חלון הזזה רחב של 4 בסיסים, חיתוך כאשר האיכות הממוצעת לבסיס יורדת מתחת ל-20 (SLIDINGWINDOW:4:20); וירידה קוראת מתחת 36 בסיסים ארוכים (MINLEN:36). ניתן לשנות פרמטרים אלה על-ידי עריכת קובץ ה- Script של Trimmomatic.
    1. ודא שהתוצאות נשמרות בתיקיה הבאה: /home/transcriptome-pipeline/results/trimreads. בצע את הפקודה:
      ls /home/transcriptome-pipeline/results/trimreads

3. מיפוי וביאור של דגימות

הערה: לאחר קבלת קריאות באיכות טובה, אלה צריכים להיות ממופים לגנום הייחוס. עבור שלב זה, ממפה STAR שימש למיפוי הדוגמאות לדוגמה. הכלי ממפה STAR דורש זיכרון RAM של 32 GB כדי לטעון ולבצע את הקריאות ומיפוי הגנום. עבור משתמשים שאין להם זיכרון RAM של 32 GB, ניתן להשתמש בקריאות שכבר מופו. במקרים כאלה לקפוץ לשלב 3.3 או להשתמש בממפה Bowtie2. מקטע זה כולל סקריפטים עבור STAR (תוצאות המוצגות בכל הנתונים) ו- Bowtie2 (ממפה נדרש עם זיכרון נמוך).

  1. ראשית, אינדקס גנום הייחוס עבור תהליך המיפוי:
    1. גש לתיקיה Scripts באמצעות שורת הפקודה:
      cd /home/transcriptome-pipeline/Scripts
    2. עבור ממפה STAR, בצע:
      indexGenome.sh
    3. עבור ממפה Bowtie, בצע:
      indexGenomeBowtie2.sh bash
  2. בצע את הפקודה הבאה כדי למפות קריאות מסוננות (המתקבלות בשלב 2) לגנום הייחוס (גירסת GRCh38). הן ממפה STAR והן ממפה Bowtie2 מבוצעים באמצעות פרמטרי ברירת מחדל.
    1. עבור ממפה STAR, בצע:
      mapSTAR.sh
    2. עבור ממפה Bowtie2, בצע:
      mapBowtie2.sh באש
      הערה: התוצאות הסופיות הן קבצי מפת יישור בינארית (BAM) לכל מדגם המאוחסן ב- /home/transcriptome-pipeline/results/mapreads.
  3. ביאור קריאות ממופות באמצעות הכלי FeatureCounts כדי להשיג ספירות גולמיות עבור כל גן. הפעל את קבצי ה- Script המביאים ביאור לקריאות.
    הערה: הכלי FeatureCounts אחראי להקצאת קריאות רצף ממופות לתכונות הגנומיות. ההיבטים החשובים ביותר של ביאור הגנום שניתן לשנות בעקבות השאלה הביולוגית כוללים, זיהוי של isoforms, קריאות ממופות מרובות וצמתים אקסון-אקסון, המתאימים לפרמטרים, GTF.attrType = "gene_name" עבור הגן או לא לציין את הפרמטרים עבור רמת מטא-תכונה, allowMultiOverlap = TRUE, ו juncCounts = TRUE, בהתאמה.
    1. גש לתיקיית קבצי ה- Script באמצעות שורת פקודה:
      cd /home/transcriptome-pipeline/Scripts
    2. כדי לבאר את הקריאות הממופות כדי להשיג ספירות גולמיות לכל גן, בצע את שורת הפקודה:
      ביאור כתב. R
      הערה: הפרמטרים המשמשים עבור תהליך הביאורים היו: החזרת שם קצר של גן (GTF.attrType = "gene_name"); לאפשר חפיפות מרובות (allowMultiOverlap = TRUE); וציין שהספריה משויכת לסוף (isPairedEnd=TRUE). עבור אסטרטגיה חד-קצהית, השתמש בפרמטר isPairedEnd=FALSE. התוצאות יישמרו בתיקיה /home/transcriptome-pipeline/countreads.
  4. לנרמל ביטוי גנים.
    הערה: נרמול ביטוי גנים חיוני כדי להשוות תוצאות בין תוצאות (למשל, דגימות בריאות ונגועות). נורמליזציה נדרשת גם כדי לבצע את הביטוי המשותף ואת המידה המולקולרית של ניתוחי perturbation.
    1. גש לתיקיה Scripts באמצעות שורת הפקודה:
      cd /home/transcriptome-pipeline/Scripts
    2. לנרמל את ביטוי הגן. עבור זאת, בצע את שורת הפקודה:
      Rscript מנרמל את הדגמים. R
      הערה: ביטוי ספירת הגולם, בניסוי זה, נוטרמל בשיטות חיתוך ממוצע של ערכי M (TMM) וספירה למיליון (עלות לאלף חשיפות). שלב זה נועד להסיר הבדלים בביטוי הגנים בשל ההשפעה הטכנית, על ידי ביצוע נורמליזציה גודל הספרייה. התוצאות יישמרו בתיקיה /home/transcriptome-pipeline/countreads.

4. גנים מבוטאים באופן דיפרנציאלי וגנים משותפים

  1. זהה גנים מבוטאים באופן דיפרנציאלי באמצעות חבילת EdgeR בקוד פתוח. זה כרוך במציאת גנים שהביטוי שלהם גבוה או נמוך יותר בהשוואה לשליטה.
    1. גש לתיקיה Scripts באמצעות שורת הפקודה:
      cd /home/transcriptome-pipeline/Scripts
    2. כדי לזהות את הגן המבוטא באופן דיפרנציאלי, בצע את קובץ ה- Script DEG_edgeR R באמצעות שורת הפקודה:
      DEG_edgeR Rscript
      הערה: התוצאות המכילות את הגנים המבוטאים באופן דיפרנציאלי יישמרו בתיקיה /home/transcriptome-pipeline/results/degs. ניתן להעביר נתונים למחשב אישי.
  2. הורד נתונים מהגורם המכיל csblusp/transcriptome.
    1. העבר נתונים מעובדים מצינור /home/transcriptome לתיקיה /opt/transferdata (מחשב מקומי).
    2. העתק את כל הקבצים למחשב המקומי על-ידי ביצוע שורת הפקודה:
      cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
      cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline

      הערה: כעת, עבור אל המחשב המקומי כדי להבטיח שכל התוצאות, ערכות הנתונים והנתונים יהיו זמינים להורדה בנתיב המארח.
  3. זהה מודולי ביטוי משותף.
    1. גישה לאתר האינטרנט של כלי זיהוי מודולי ביטוי משותף (CEMiTool) (טבלה של
      חומרים
      ). כלי זה מזהה מודולי ביטוי משותף מערכות נתונים של ביטוי המסופקות על-ידי המשתמשים. בדף הראשי, לחץ על הפעל בקצה השמאלי העליון. פעולה זו תפתח דף חדש להעלאת קובץ הביטוי.
    2. לחץ על בחר קובץ מתחת למקטע קובץ ביטוי והעלה את מטריצת ביטוי הגנים מנורמל 'tmm_expression.tsv' מנתיב המחשב המארח.
      הערה: שלב 4.4. אינו חובה.
  4. גלה את המשמעות הביולוגית של מודולי ביטוי משותף.
    1. לחץ על בחר קובץ בסעיף Phenotypes לדוגמה ולהעלות את הקובץ עם phenotypes לדוגמה metadata_cemitool.tsv מן שלב הורדת נתונים 4.2.2. כדי לבצע ניתוח העשרה של ערכת גנים (GSEA).
    2. לחץ על בחר קובץ במקטע אינטראקציות גנים כדי להעלות קובץ עם אינטראקציות גנים (cemitool-interactions.tsv). ניתן להשתמש בקובץ של אינטראקציות גנים המסופקים כדוגמה על ידי webCEMiTool. האינטראקציות יכולות להיות אינטראקציות חלבון-חלבון, גורמי שעתוק והגנים המתומללים שלהם, או מסלולים מטבוליים. שלב זה יוצר רשת אינטראקציה עבור כל מודול ביטוי משותף.
    3. לחץ על המקטע בחירת קובץ בערכות גנים כדי להעלות רשימה של גנים הקשורים פונקציונלית בקובץ תבנית של מטריצת גנים (GMT). קובץ ערכת הגנים מאפשר לכלי לבצע ניתוח העשרה עבור כל מודול ביטוי משותף, כלומר ניתוח ייצוג יתר (ORA).
      הערה: רשימה זו של גנים יכולה לכלול מסלולים, מונחי GO או גנים המיועדים ל- miRNA. החוקר יכול להשתמש במודולים לתמלול דם (BTM) כקבוצות גנים לניתוח זה. קובץ ה- BTM (BTM_for_GSEA.gmt).
  5. הגדר פרמטרים לביצוע ניתוחי ביטוי משותף וקבל את תוצאותיו.
    1. הבא להרחיב את המקטע פרמטר , על ידי לחיצה על סימן החיבור כדי להציג את הפרמטרים ברירת המחדל. במידת הצורך, לשנות אותם. סמן את התיבה החל VST .
    2. כתוב את הדואר האלקטרוני במקטע דואר אלקטרוני כדי לקבל תוצאות כהודעת דואר אלקטרוני. שלב זה הוא אופציונלי.
    3. לחץ על לחצן הפעל CEMiTool .
    4. הורד את דוח הניתוח המלא על ידי לחיצה על הורד דוח מלא בצד למעלה. הוא יוריד קובץ דחוס cemitool_results.zip.
    5. לחלץ את התוכן של cemitool_results.zip עם WinRAR.
      הערה: התיקיה עם התוכן שחולץ מקיפה מספר קבצים עם כל תוצאות הניתוח והפרמטרים שנקבעו.

5. קביעת מידת ההסתה המולקולרית של דגימות

  1. דרגה מולקולרית של Perturbation (MDP) גרסת אינטרנט.
    1. כדי להפעיל את MDP, גש לאתר האינטרנט של MDP (טבלת החומרים). MDP מחשב את המרחק המולקולרי של כל דגימה מההפניה. לחץ על לחצן הפעלה .
    2. בקישור בחירת קובץ , העלה את קובץ הביטוי tmm_expression.tsv. לאחר מכן, העלה את הקובץ פנוטיפיק נתונים metadata.tsv מהשלב הורד נתונים 4.2.2. ניתן גם להגיש קובץ ביאור מסלול בתבנית GMT כדי לחשב את ציון ההסתה של המסלולים הקשורים למחלה.
    3. לאחר העלאת הנתונים, הגדר את העמודה מחלקה המכילה את המידע הפנוטיפי המשמש את ה- MDP. לאחר מכן, הגדר את מחלקת הפקד על-ידי בחירת התווית המתאימה למחלקת הבקרה.
      הערה: ישנם כמה פרמטרים אופציונליים שישפיעו על אופן החישוב של הציונים לדוגמה. במידת הצורך, המשתמש מסוגל לשנות את שיטת ממוצע הסטטיסטיקה, סטיית התקן והאחוז העליון של הגנים המופרכים.
    4. לאחר מכן, לחץ על לחצן הפעל MDP ותוצאות MDP יוצגו. המשתמש יכול להוריד את המספרים על ידי לחיצה על התוויית ההורדה בכל חלקה, כמו גם את ציון ה- MDP בלחצן הורד קובץ ניקוד MDP .
      הערה: במקרה של שאלות על אופן שליחת הקבצים או אופן הפעולה של MDP, פשוט עבור על דפי האינטרנט של ערכת לימוד ו- אודות.

6. ניתוח העשרה פונקציונלי

  1. צור רשימה אחת של DEGs מוסדר למטה ועוד של DEGs מוסדר. שמות גנים חייבים להיות לפי סמלי הגן של אנטרז. כל גן ברשימה חייב להיות ממוקם בשורה אחת.
  2. שמור את רשימות הגנים בתבנית txt או tsv.
  3. גש לאתר האינטרנט של Enrichr (טבלת חומרים) כדי לבצע את הניתוח הפונקציונלי.
  4. בחר את רשימת הגנים על-ידי לחיצה על בחר קובץ. בחר אחת מהרשימה גשגים ולחץ על לחצן שלח .
  5. לחץ על מסלולים בחלק העליון של דף האינטרנט כדי לבצע ניתוח העשרה פונקציונלי עם גישת ORA.
  6. בחר מסד נתונים של נתיב. מסד הנתונים של מסלול Reactome 2016 משמש באופן נרחב כדי לקבל את המשמעות הביולוגית של נתונים אנושיים.
  7. לחץ שוב על שם מסד הנתונים של הנתיב. בחר תרשים עמודות ובדוק אם הוא ממוין לפי דירוג ערך p. אם לא, לחץ על גרף העמודות עד שהוא ממוין לפי ערך p. גרף עמודות זה כולל את 10 המסלולים המובילים בהתאם לערכי p.
  8. לחץ על לחצן התצורה ובחר את הצבע האדום לניתוח הגנים המוסדר או הצבע הכחול לניתוח הגנים המוסדר כלפי מטה. שמור את גרף העמודות במספר פורמטים על-ידי לחיצה על svg, png ו - jpg.
  9. בחר טבלה ולחץ על ייצוא ערכים לטבלה בפינה הימנית התחתונה של גרף העמודות כדי להשיג את תוצאות ניתוח ההעשרה הפונקציונליות בקובץ txt.
    הערה: קובץ תוצאות העשרה פונקציונלי זה מקיף בכל שורה את שמו של מסלול אחד, את מספר הגנים החופפים בין רשימת ה- DEG שנשלחה לבין המסלול, את ערך ה- p, ערך p מותאם, יחס סיכויים, ציון משולב ואת סמל הגנים של גנים הנמצאים ברשימת DEG המשתתפים במסלול.
  10. חזור על אותם שלבים עם רשימת DEGs האחרת.
    הערה: הניתוח עם DEGs מוסדר למטה מספק מסלולים מועשרים עבור גנים מוסדר למטה ואת הניתוח עם גנים מוסדר מספק מסלולים מועשרים עבור גנים מוסדר.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

סביבת המחשוב עבור ניתוחי תמלול נוצרה ומוגדרת בפלטפורמת Docker. גישה זו מאפשרת למשתמשי לינוקס מתחילים להשתמש במערכות מסופים של לינוקס ללא ידע ניהולי קודם. פלטפורמת Docker משתמשת במשאבים של מערכת ההפעלה המארחת כדי ליצור גורם מכיל של שירות הכולל כלים של משתמשים ספציפיים (איור 1B). מכולה המבוססת על הפצת לינוקס OS Ubuntu 20.04 נוצרה והיא הוגדרה במלואה עבור ניתוחי תמלול, הנגישים באמצעות מסוף שורת הפקודה. בגורם מכיל זה, קיים מבנה תיקיות מוגדר מראש עבור ערכות נתונים וקבצי Script הנחוצים עבור כל ניתוחי הצינור (איור 1C). מחקר שפורסם על ידי קבוצת המחקר שלנו7 שימשה לבדיקות, והוא כלל 20 דגימות מאנשים בריאים ו-39 דגימות מאנשים נגועים בחריפות CHIKV (איור 1D).

התהליך של רצף RNA כולל יכול ליצור שגיאות קריאה, אשר עשוי להיגרם על ידי אשכול עם שני תמלילים או יותר או דלדול של ריאגנטים. פלטפורמות הרצף מחזירות ערכה של קבצי "FASTQ" המכילים את הרצף (קריאה) ואת האיכות המשויכת לכל בסיס נוקלאוטיד (איור 2A). סולם האיכות Phred מציין את ההסתברות לקריאה שגויה של כל בסיס (איור 2B). קריאות באיכות נמוכה יכולות ליצור הטיה או ביטוי גנים לא תקין, מה שמעורר שגיאות עוקבות לנתחים במורד הזרם. כלים כגון Trimmomatic פותחו כדי לזהות ולהסיר קריאות באיכות נמוכה מדגימות ולהגדיל את ההסתברות למיפוי קריאות (איור 2C, D).

מודול המיפוי הוגדר מראש עם קשת היישור STAR והמארח האנושי GRCh38 כגנום הייחוס. בשלב זה, הקריאות האיכותיות שנמצאו בשלב הקודם משמשות כקלט כדי ליישר קו מול גנום הייחוס האנושי (איור 3A). קשת היישור STAR מפיקה פלט של קריאות ממופות לגנום הפניה בקובץ תבנית BAM. בהתבסס על יישור זה, הכלי FeatureCounts מבצע ביאור של תכונות (גנים) של קריאות מיושרות אלה באמצעות ביאור הייחוס של המארח האנושי בתבנית קובץ GTF (איור 3B). לבסוף, מטריצת הביטוי עם כל שם גן כשורה אחת, וכל דגימה כעמודה אחת נוצרת (איור 3C). יש לספק קובץ מטה-נתונים נוסף המכיל את השמות לדוגמה וקבוצות לדוגמה המתאימות לניתוח נוסף במורד הזרם. מטריצת ביטוי הגנים מייצגת את מספר הספירה הממופה לכל גן בין דגימות, אשר יכול לשמש קלט EdgeR לזיהוי DEGs. בנוסף, מטריצת ביטוי גנים זו נרמלה באמצעות TMM ו- CPM על מנת להסיר את השונות הטכנית ולתקן את מדידת ה- RNA-seq על ידי בחינת שיעור הגנים המבוטאים בגודל הספרייה הכולל בין דגימות. מטריצה זו שימשה עוד יותר כקלט עבור ביטוי משותף ניתוחי MDP.

CEMiTool מזהה ומנתח את מודולי הביטוי המשותף12. גנים הנמצאים באותו מודול באים לידי ביטוי משותף, מה שאומר שהם מפגינים דפוסי ביטוי דומים על פני הדגימות של ערכת הנתונים. כלי זה מאפשר גם לחקור את המשמעות הביולוגית של כל מודול מזוהה. עבור זה, הוא מספק שלושה ניתוחים אופציונליים - ניתוח העשרה פונקציונלית על ידי GSEA, ניתוח העשרה פונקציונלית על ידי ניתוח ייצוג יתר (ORA), וניתוח רשת. ניתוח העשרה פונקציונלי על ידי GSEA מספק מידע על ביטוי הגנים של כל מודול בכל פנוטיפ (איור 4A). על פי זה, זה מאפשר זיהוי של המודולים המודחקים או המושרה בכל פנוטיפ. ניתוח ORA מציג את עשרת הפונקציות הביולוגיות המועשרות ביותר של כל מודול ממוין לפי ערכי p מותאמים. ניתן לשלב את תוצאות GSEA ו- ORA כדי לזהות תהליכים ביולוגיים לקויים ואם הם מודחקים או מושרים על ידי פנוטיפ של עניין. ניתוחי רשת מספקים אינטראקציה של כל מודול (איור 4A). זה מאפשר הדמיה של האופן שבו גנים של כל מודול אינטראקציה. מלבד זאת, ניתוח רשת מספק מידע על הגנים המחוברים ביותר, הרכזות, אשר מזוהים על ידי שמותיהם ברשת. גודל הצמתים מייצג את מידת הקישוריות.

כדי לזהות DEGs, פותח קובץ Script פנימי כדי להפעיל ניתוח דיפרנציאלי מקצה לקצה בשורת פקודה חד-כיוונית ותמציתית. קובץ ה- Script מבצע את כל השלבים הדרושים לביצוע ניתוח DEG, תוך השוואת קבוצות לדוגמה שונות שסופקו על-ידי המשתמש בקובץ מטה-נתונים. בנוסף, תוצאות DEG מאוחסנות ברשימות נפרדות של גנים מווסתים כלפי מטה ומוסדרים, ולאחר מכן הידור באיור מוכן לפרסום (איור 4B) באמצעות חבילת משופרתVolcano R מ Bioconductor.

הניתוח של המידה המולקולרית של perturbation המבוצע על ידי כלי MDP מאפשר לנו לזהות דגימות מוטרדות מאנשים בריאים ונגועים11. ציון ההתייחסות מחושב בהתחשב בכל הגנים המבוטאים עבור כל דגימה נגועה ב-CHIKV ובהתחשב בדגימות הבריאות כקבוצת הייחוס (איור 5A). MDP מבצע גם את הניתוח באמצעות 25% העליונים של הגנים המופרזים ביותר מדגימות אלה (איור 5B). דגימות יכולות להציג שונות רבה בהתחשב ברקע הגנטי, גיל, מין, או מחלות קודמות אחרות. גורמים אלה יכולים לשנות את פרופיל שעתוק. בהתבסס על כך, MDP מציע אילו דגימות הן חריגות ביולוגיות פוטנציאליות כדי להסיר אותן ולשפר את התוצאות במורד הזרם (איור 5A,B).

ניתוח העשרה פונקציונלי על ידי ORA יכול להתבצע באמצעות Enrichr על מנת לזהות את המשמעות הביולוגית של DEGs. התוצאות שסופקו בהתבסס על רשימת הגנים המווסתים מטה מצביעות על התהליכים הביולוגיים המודחקים בפנוטיפ הנחקר, בעוד התוצאות המסופקות על בסיס רשימת הגנים המוסדרים מציגות את התהליכים הביולוגיים המושרים בפנוטיפ של עניין. התהליכים הביולוגיים המוצגים בגרף העמודות שנוצר על-ידי Enrichr הם עשר ערכות הגנים המועשרות המובילות המבוססות על דירוג ערך ה-p (איור 6).

Figure 1
איור 1: עוקר סביבה ומחקר לדוגמה. (A) פלטפורמת Docker משתמשת במשאבי מארח מערכת ההפעלה כדי ליצור "מכולות" עבור מערכת לינוקס המכילה כלים עבור ניתוחי transcriptome. (B) מיכל Docker מדמה מערכת לינוקס לביצוע סקריפטים של צינור. (ג) מבנה התיקיות של צינור התמלול נוצר ואורגן לאחסון ערכות נתונים וסקריפטים לניתוח. (ד) המחקר מהקבוצה שלנו שימש כדוגמה של ניתוחי תמלול. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 2
איור 2: בקרת איכות של ריצוף. (A) קובץ תבנית FASTQ משמש לייצוג רצף ואיכות בסיס נוקלאוטידים. (B) משוואת ניקוד Phred, שבה כל 10 מגדיל בסיס קריאה שגויה של הסתברות יומן רישום. (C) ו-(D) Boxplot מייצג התפלגות איכות של כל בסיס נוקלאוטיד לפני ואחרי ביצוע טרימומטי, בהתאמה. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 3
איור 3: תהליך מיפוי וביאור מרצף לביטוי ספירת גנים. (A) מיפוי מורכב מיישור הרצף מהתעתיק והרצף מהגנום כדי לזהות את לוקליזציה הגנומית. (ב) קריאות ממופות לגנום הייחוס מובאות על סמך הלוקליזציה הגנומית שלהן לחפיפה. (ג) בהתבסס על כלי קבצי המיפוי כגון featureCounts, ביטוי הגן מסוכם. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 4
איור 4: רשת גנים משותפת וניתוח סטטיסטי של DEGs. (A) מודולים של ביטוי משותף המבוססים על ביטוי גנים ורשת אינטראקציות חלבונים-חלבון מגני מודול. (ב) ניתוח סטטיסטי של אנשים נגועים ובריאים של CHIKV, וביטוי גנים דיפרנציאלי באדום (קריטריוני p-value ו- log2FC), סגול (רק ערך p), ירוק (רק log2FC) ואפור (ללא משמעות). אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 5
איור 5: דרגה מולקולרית של התפשטות (MDP) של אנשים נגועים ובריאים של CHIKV. (A) ציון MDP עבור כל דגימה באמצעות כל הגנים המבוטאים מהתעתיק. (B) ציון MDP עבור כל דגימה באמצעות 25% העליונים של הגנים המנוולים ביותר. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Figure 6
איור 6: ניתוח פונקציונלי עבור DEGs. (A) גנים מוסדרים ו-(B) מווסתים כלפי מטה הוגשו לכלי אתר מעשיר להערכת מסלולים ביולוגיים או ערכות גנים מייצגות. ערכי P חושבו עבור כל מסלול ורק הבדלים משמעותיים הוצגו בגרפיקה. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

הכנת ספריות הרצף היא צעד מכריע לקראת מענה על שאלות ביולוגיות בצורה הטובה ביותר. סוג התמלילים שמעניינים את המחקר ינחה איזה סוג של ספריית רצף ייבחר ויניע ניתוחים ביואינפורמטיים. לדוגמה, מתוך רצף של פתוגן ואינטראקציה מארח, על פי סוג הרצף, ניתן לזהות רצפים משניהם או רק מן התמלילים המארח.

ציוד הרצף של הדור הבא, למשל, פלטפורמת Illumina, מודד את ציוני איכות הרצף, מה שמייצג את ההסתברות שבסיס נקרא באופן שגוי. הניתוחים במורד הזרם רגישים מאוד לרצפים באיכות נמוכה ומובילים לביטוי גנים שלא נקרא כהלכה או לא נקרא כהלכה. משוכה נוספת בביצוע ניתוחים ופרשנות נכונים הם רצפי מתאמים. רצפי מתאמים מסייעים בהכנת הספריה וברצף, וברוב המקרים, גם מתאמים רצפים. מחקרים אחרונים זיהו כי ההשפעה של כלי המיפוי על התוצאות הסופיות היא מינימלית13. עם זאת, במחקרים פתוגן מארח, תהליך המיפוי יכול ליצור תוצאות קצת יותר טוב בעת בדיקת סף שונים כדי למזער את הבעיה רצפי לוקוס ממופים מרובים.

יש לפרש את תוצאות ביטוי הגנים הדיפרנציאלי בזהירות מסוימת, במיוחד כאשר מספר הדגימות לכל קבוצה קטן מאוד ודגימות הגיעו מבדים שונים ומפריעים על ידי אפקטי אצווה התוצאה DEGs. תוצאות אלה רגישות למספר גורמים: (i) סינון הנתונים שהוחל, כגון הסרת גנים בעלי ביטוי נמוך ומספר הדגימות שיש לשמור; (ii) תכנון המחקר, להשוות רק בין קבוצות מדגם או כל חולה נגוע לעומת כל חולי בקרה, כפי שמודגם במחקר CHIKV7; וכן (iii) שיטה סטטיסטית המשמשת לזיהוי DEGs. כאן, אנו ממחישים דוגמה בסיסית עם EdgeR כדי לזהות DEGs בהנחה סף p-ערך של 0.05. זה ידוע גם בספרות כי, בהשוואה לשיטות אמת מידה אחרות, EdgeR יכול להיות מגוון גדול של שונות בזיהוי DEGs14. אפשר לשקול את הטרייד-אוף בין שיטות שונות כאלה ולקחת בחשבון את מספר המשכפלים הזמינים ואת המורכבות של העיצוב הניסיוני14.

CEMiTool מבצעת ניתוחים של מודול ביטוי משותף12. כלי זה זמין באמצעות חבילת R במאגר Bioconductor והוא זמין גם בגרסה ידידותית למשתמש באמצעות webCEMiTool; האחרונה היא הגירסה המשמשת בפרוטוקול הנוכחי. זוהי תוכנה חלופית ביחס WGCNA15 המציגה מספר יתרונות לעומת האחרון16, כולל העובדה כי הוא ידידותי יותר למשתמש17. יתר על כן, כלי זה יש שיטה אוטומטית לסנן גנים, ואילו ב WGCNA המשתמש חייב לסנן את הגנים לפני השימוש WGCNA. בנוסף, כלי זה יש פרמטרי ברירת מחדל שנקבעו, בעוד ב WGCNA המשתמש חייב לבחור באופן ידני את ניתוחי הפרמטרים. בחירת פרמטרים ידנית פוגעת ביכולת הרבייה; לכן, בחירת הפרמטרים האוטומטיים מבטיחה יכולת רבייה משופרת.

במקרים מסוימים, CEMiTool אינו מסוגל למצוא סף רך מתאים, המכונה גם ערך β. במקרה זה, על המשתמש לבדוק אם נתוני ה- RNA-seq מציגים תלות חזקה בין שונות ממוצעת. אם הממוצע מציג קשר ליניארי חזק עם השונות (בהתחשב בכל הגנים), המשתמש חייב להפעיל מחדש את הניתוחים בדיקת הפרמטר "החל VST" כדי להסיר את התלות הממוצעת-שונות של הנתונים transcriptomic. זה תמיד קריטי כדי לבדוק אם יש תלות ממוצעת חזקה בנתונים ולהסיר אותו כאשר הוא קיים.

CEMiTool שימש באופן נרחב כדי לזהות ולחקור את המשמעות הביולוגית של מודולי ביטוי משותף. מחקר זיהום חריף CHIKV הראה מודול עם פעילות גבוהה יותר בחולים לאחר 2 עד 4 ימים של הופעת הסימפטומים7. העשרה פונקציונלית של מודול זה על ידי ORA הציגה עלייה מונוציטים ונויטרופילים7. מחקר חיסון נגד שפעת באמצעות תמלול דם מקו הבסיס ליום 7 לאחר החיסון הציג מודולי ביטוי משותף מועשרים תפקודית לתהליכים ביולוגיים הקשורים לתאי רוצח T, B ותאי רוצח טבעיים, מונוציטים, נויטרופילים, תגובות אינטרפרון והפעלת טסיות דם18.

בהתחשב בשונות של ערכות נתונים תמלוליות, לזהות ולכומת את הטרוגניות הנתונים יכול להיות אתגר שכן משתנים רבים יכולים להשפיע על פרופיל ביטוי הגנים7,11. MDP מספק דרך לזהות ולכומת דגימות מוטרדות מנושאים בריאים ונגועים על ידי ביצוע שלבים אלה: (1) לחשב שיטת מרכזיות (חציון או ממוצע) וסטיית תקן של דגימות בקרה; (ii) להשתמש בערכים המתקבלים לחשב את ציון z של כל הגנים; (iii) להגדיר סף z-ציון מוחלט גדול מ-2, המציין חריגות מייצגות מדגימות בקרה; ותבח (4) את ממוצע ערכי הגנים באמצעות הציונים שסוננו עבור כל דגימה. למרות שיש כמה מגבלות לניתוח scRNA-seq, כלי זה היה פונקציונלי בקביעת ציון perturbation ממיקרו-array ו- RNA-seq data11. בנוסף, מחקר קודם השתמש בכלי זה כדי להדגים את מידת ההסתה המולקולרית של השחפת המוגברת בתמלול הדם בחולי שחפת וסוכרת19. בעבודה זו, ההסתבפויות של שליטה ודגימות נגועות בחריפות CHIKV באמצעות אנשים בריאים כפי שהוכחו קבוצת הייחוס.

ניתוח העשרה פונקציונלי המבוצע על ידי Enrichr הוא ORA20,21. ORA הוא סוג אחד של ניתוח העשרה פונקציונלי שבו המשתמש חייב לספק את רשימת DEGs לכלי. רשימת DEGs מופרדת בדרך כלל ברשימת DEG מוסדר למטה וברשימת DEG מוסדר. ישנם כלים אחרים לביצוע ORA, ביניהם, gProfiler, אשר זמין בגרסת אינטרנט ידידותית למשתמש22 ואת goseq23 כי הוא זמין כחבילת R על Bioconductor. סוג נוסף של ניתוח העשרה פונקציונלית הוא GSEA. כדי לבצע GSEA, על המשתמש לספק את כל הגנים ברשימה מדורגת. רשימה זו מדורגת בדרך כלל על פי ביטוי הגן בשינוי קיפול.

Enrichr מספק תמיד את עשר ערכות הגנים המובילות מועשרות בהתבסס על ערכי ה- p שלהם בתוצאת גרף העמודות. לכן, המשתמש חייב להיות ערני בעת פרשנות התוצאות, אם יש פחות מ -10 ערכות גנים מועשרות, גרף העמוד יציג גם תהליכים ביולוגיים שאינם מועשרים. כדי למנוע שגיאה זו, על המשתמש ליצור ניתוק עבור ערך ה- p ולבחון את ערכי ה- p של המסלולים לפני ההנחה שכל ערכות הגנים של גרף העמוד מועשרות. יתר על כן, המשתמש חייב להיות מודע לכך שהסדר של 10 ערכות הגנים המוצגות בגרף העמודות הוא בהתאם לערכי ה- p, ולא לערכי ה- p המותאמים. במקרה שהמשתמש רוצה להציג את כל המסלולים המועשרים בגרף עמודות או אפילו לסדר מחדש בהתאם לערכי ה- p המותאמים, מומלץ למשתמש ליצור גרף עמודות משלו באמצעות הטבלה שהורדה. המשתמש יכול ליצור גרף עמודות חדש באמצעות Excel או אפילו תוכנת R.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

למחברים אין מה לחשוף.

Acknowledgments

HN ממומן על ידי FAPESP (מספרי מענקים: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5, ו-2013/08216-2) ו-CNPq (313662/2017-7).

אנו מודים במיוחד על המענקים הבאים לעמיתים: ANAG (תהליך FAPESP 2019/13880-5), VEM (תהליך FAPESP 2019/16418-0), IMSC (תהליך FAPESP 2020/05284-0), APV (תהליך FAPESP 2019/27146-1) ו- RLTO (תהליך CNPq 134204/2019-0).

Materials

Name Company Catalog Number Comments
CEMiTool Computational Systems Biology Laboratory 1.12.2 Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) 3.30.3 Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) 1.6.0 Publication-ready volcano plots with enhanced colouring and labeling
FastQC Babraham Bioinformatics 0.11.9 Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.0.0 Assign mapped sequencing reads to specified genomic features
MDP Computational Systems Biology Laboratory 1.8.0 Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R R Core Group 4.0.3 Programming language and free software environment for statistical computing and graphics
STAR Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research 2.7.6a Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2 Johns Hopkins University 2.4.2 Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic THE USADEL LAB 0.39 Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker Docker 20.10.2 Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel Windows NA https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux Docker NA https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository Docker NA https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website Computational Systems Biology Laboratory NA https://mdp.sysbio.tools
Enrichr Website MaayanLab NA https://maayanlab.cloud/Enrichr/
webCEMiTool Computational Systems Biology Laboratory NA https://cemitool.sysbio.tools/
gProfiler Bioinformatics, Algorithmics and Data Mining Group NA https://biit.cs.ut.ee/gprofiler/gost
goseq Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) NA http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study NCBI NA https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Tags

אימונולוגיה וזיהום גיליון 181 רצף תפוקה גבוהה רנ"א-seq אינטראקציה בין מארח-פתוגן גנים מבוטאים באופן דיפרנציאלי גנים מבוטאים במשותף ניתוח פונקציונלי דרגה מולקולרית של התמדה של דגימות
ניתוח תמלול תפוקה גבוהה לחקירת אינטראקציות בין מארח לפתוגן
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Aquime Gonçalves, A. N.,More

Aquime Gonçalves, A. N., Escolano Maso, V., Maia Santos de Castro, Í., Pereira Vasconcelos, A., Tomio Ogava, R. L., I Nakaya, H. High-Throughput Transcriptome Analysis for Investigating Host-Pathogen Interactions. J. Vis. Exp. (181), e62324, doi:10.3791/62324 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter