Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

التعدين الإرشادي للأنماط الجينية الهرمية ومواقع الجينوم الملحقة في المجموعات البكتيرية

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

توفر هذه المنصة الحسابية التحليلية إرشادات عملية لعلماء الأحياء الدقيقة وعلماء البيئة وعلماء الأوبئة المهتمين بعلم جينوم السكان البكتيري. وعلى وجه التحديد، أظهر العمل المعروض هنا كيفية القيام بما يلي: (أ) رسم الخرائط الموجهة بالسلالات للأنماط الجينية الهرمية؛ و (ب) رسم الخرائط الوراثية الهرمية الموجهة بالسلالات الوراثية؛ و (ج) رسم الخرائط الموجهة بالسلالات للأنماط الجينية الهرمية؛ و (ج) رسم الخرائط الوراثية الموجهة بالسلالات للأنماط ب) التحليل القائم على التردد للأنماط الوراثية؛ ج) تحليلات القرابة والنسلية؛ iv) تحديد النسب الذي يميز مواقع الملحقات.

Abstract

يعمل الاستخدام الروتيني والمنهجي لتسلسل الجينوم الكامل البكتيري (WGS) على تعزيز دقة وحل التحقيقات الوبائية التي تجريها مختبرات الصحة العامة والوكالات التنظيمية. يمكن استخدام كميات كبيرة من بيانات WGS المتاحة للجمهور لدراسة المجموعات المسببة للأمراض على نطاق واسع. في الآونة الأخيرة ، تم نشر منصة حسابية متاحة مجانا تسمى ProkEvo لتمكين التحليلات الجينومية السكانية القائمة على التسلسل الهرمي القابلة للتكرار والمؤتمتة والقابلة للتطوير باستخدام بيانات WGS البكتيرية. أظهر هذا التنفيذ ل ProkEvo أهمية الجمع بين رسم الخرائط الجينية القياسية للسكان مع تعدين المحتوى الجيني الملحق للاستدلال البيئي. على وجه الخصوص ، استخدم العمل الذي تم تسليط الضوء عليه هنا مخرجات مشتقة من ProkEvo للتحليلات الهرمية ذات النطاق السكاني باستخدام لغة البرمجة R. وكان الهدف الرئيسي هو توفير دليل عملي لعلماء الأحياء الدقيقة وعلماء البيئة وعلماء الأوبئة من خلال إظهار كيفية: (أ) استخدام رسم خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ب) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ب) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ب) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ب) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ج) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ج) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ج) ب) تقييم التوزيعات الترددية للأنماط الجينية كبديل للياقة البيئية ؛ تحديد علاقات القرابة والتنوع الجيني باستخدام تصنيفات جينية محددة؛ و iv) خريطة النسب التي تميز مواقع الملحقات. لتعزيز قابلية التكرار وقابلية النقل ، تم استخدام ملفات تخفيض علامات R لإظهار النهج التحليلي بأكمله. احتوت مجموعة البيانات النموذجية على بيانات جينومية من 2,365 عزلة من مسببات الأمراض الحيوانية المنشأ المنقولة بالأغذية السالمونيلا نيوبورت. كشفت الخرائط المثبتة على الفيلوجيني للأنماط الجينية الهرمية (Serovar -> BAPS1 -> ST -> cgMLST) عن البنية الجينية للسكان ، مع تسليط الضوء على أنواع التسلسل (STs) باعتبارها حجر الزاوية الذي يميز النمط الوراثي. عبر السلالات الثلاثة الأكثر هيمنة ، تشترك ST5 و ST118 في سلف مشترك في الآونة الأخيرة أكثر من النمط التكاثري ST45 عالي النسيلة. كما تم تسليط الضوء على الاختلافات القائمة على ST من خلال توزيع مواقع مقاومة مضادات الميكروبات الملحقة. وأخيرا، استخدم تصور يرتكز على علم الوراثة للجمع بين الأنماط الجينية الهرمية ومحتوى مقاومة مضادات الميكروبات للكشف عن بنية القرابة والبصمات الجينومية الخاصة بالنسب. يوفر هذا النهج التحليلي مجتمعا بعض المبادئ التوجيهية لإجراء التحليلات الجينومية البكتيرية الإرشادية باستخدام المعلومات الجينومية الشاملة.

Introduction

أدى الاستخدام المتزايد لتسلسل الجينوم الكامل البكتيري (WGS) كأساس للترصد الروتيني والتحقيق الوبائي من قبل مختبرات الصحة العمومية والوكالات التنظيمية إلى تعزيز كبير في تحقيقات فاشيات مسببات الأمراض1،2،3،4. ونتيجة لذلك، أصبحت الآن كميات كبيرة من بيانات WGS غير المحددة متاحة للجمهور ويمكن استخدامها لدراسة جوانب البيولوجيا السكانية للأنواع المسببة للأمراض على نطاق غير مسبوق، بما في ذلك الدراسات القائمة على: الهياكل السكانية، وترددات النمط الجيني، وترددات الجينات/الأليل عبر مكامن متعددة، ومناطق جغرافية، وأنواع البيئات5 . تستند الاستفسارات الوبائية الأكثر استخداما الموجهة من WGS إلى تحليلات تستخدم فقط المحتوى الجينومي الأساسي المشترك ، حيث يتم استخدام المحتوى المشترك (المحفوظ) وحده لتصنيف النمط الجيني (على سبيل المثال ، استدعاء المتغيرات) ، وتصبح هذه المتغيرات أساسا للتحليل الوبائي وتتبع1،2،6،7 . عادة ، يتم إجراء التنميط الجيني البكتيري القائم على الجينوم الأساسي باستخدام نهج كتابة التسلسل متعدد المواقع (MLST) باستخدام سبعة إلى بضعة آلاف من المواقع8،9،10. وتشمل هذه الاستراتيجيات القائمة على MLST رسم خرائط للتسلسلات الجينومية المجمعة مسبقا أو المجمعة في قواعد بيانات منسقة للغاية ، وبالتالي الجمع بين المعلومات الأليلية في وحدات النمط الجيني القابلة للتكرار للتحليل الوبائي والبيئي11,12. على سبيل المثال ، يمكن لهذا التصنيف القائم على MLST توليد معلومات النمط الجيني على مستويين من الدقة: أنواع التسلسل الأدنى مستوى (STs) أو سلالات ST (7 مواقع) ، ومتغيرات MLST الأساسية ذات المستوى الأعلى (cgMLST) (~ 300-3000 موقع)10.

تصنيف النمط الجيني القائم على MLST محمول حسابيا وقابل للتكرار بشكل كبير بين المختبرات ، مما يجعله مقبولا على نطاق واسع كنهج تصنيف فرعي دقيق تحت مستوى الأنواع البكتيرية13,14. ومع ذلك ، يتم تنظيم المجموعات البكتيرية بدرجات متفاوتة من النسيلة الخاصة بالأنواع (أي التجانس الوراثي) ، والأنماط المعقدة من القرابة الهرمية بين الأنماط الوراثية15،16،17 ، ومجموعة واسعة من التباين في توزيع المحتوى الجينومي التبعي18،19 . وبالتالي ، فإن النهج الأكثر شمولية يتجاوز التصنيفات المنفصلة إلى الأنماط الجينية MLST ويتضمن العلاقات الهرمية للأنماط الجينية على نطاقات مختلفة من الدقة ، إلى جانب رسم خرائط للمحتوى الجينومي التبعي على تصنيفات النمط الجيني ، مما يسهل الاستدلال القائم على السكان18،20،21 . علاوة على ذلك، يمكن أن تركز التحليلات أيضا على الأنماط المشتركة لوراثة المواقع الجينومية الملحقة بين الأنماط الجينية ذات الصلة البعيدة21,22. وعموما، يتيح النهج المشترك الاستجواب اللاأدري للعلاقات بين التركيب السكاني وتوزيع التراكيب الجينومية المحددة (على سبيل المثال، الموقع) بين التدرجات الجغرافية المكانية أو البيئية. ويمكن لمثل هذا النهج أن يسفر عن معلومات أساسية وعملية عن الخصائص الإيكولوجية لمجموعات سكانية محددة قد تفسر بدورها أنماط استداريتها وتشتتها عبر الخزانات، مثل الغذاء أو البشر.

يتطلب هذا النهج الهرمي القائم على النظم والموجه نحو السكان كميات كبيرة من بيانات WGS للحصول على قوة إحصائية كافية للتنبؤ بالتوقيعات الجينومية المميزة. وبالتالي ، يتطلب النهج منصة حسابية قادرة على معالجة عدة آلاف من الجينومات البكتيرية في وقت واحد. في الآونة الأخيرة ، تم تطوير ProkEvo وهو عبارة عن منصة معلوماتية حيوية متاحة مجانا ومؤتمتة ومحمولة وقابلة للتطوير تسمح بتحليلات سكانية بكتيرية تكاملية قائمة على التسلسل الهرمي ، بما في ذلك رسم الخرائط الجينوميةالشاملة 20. يسمح ProkEvo بدراسة مجموعات البيانات البكتيرية متوسطة إلى كبيرة الحجم مع توفير إطار عمل لتوليد فرضيات وبائية وبيئية قابلة للاختبار والاستدلال وتنبؤات مظهرية يمكن تخصيصها من قبل المستخدم. ويكمل هذا العمل خط الأنابيب هذا في توفير دليل حول كيفية استخدام ملفات المخرجات المشتقة من بروكإيفو كمدخلات لتحليل وتفسير تصنيفات السكان الهرمية والتعدين الجينومي الملحق. استخدمت دراسة الحالة المقدمة هنا سكان سلالة السالمونيلا المعوية I serovar S. نيوبورت كمثال وكان يهدف على وجه التحديد إلى توفير مبادئ توجيهية عملية لعلماء الأحياء الدقيقة وعلماء البيئة وعلماء الأوبئة حول كيفية: أ) استخدام نهج آلي يعتمد على علم الوراثة لرسم خرائط الأنماط الجينية الهرمية. ب) تقييم التوزيع الترددي للأنماط الجينية كبديل لتقييم اللياقة البيئية ؛ ج) تحديد درجات النسب الخاصة بالنسب باستخدام مناهج إحصائية مستقلة؛ ورابعا) رسم خريطة لمواقع مقاومة مضادات الميكروبات التي تميز النسب كمثال على كيفية استخراج المحتوى الجينومي التبعي في سياق التركيب السكاني. وعلى نطاق أوسع، يوفر هذا النهج التحليلي إطارا قابلا للتعميم لإجراء تحليل جينومي قائم على السكان على نطاق يمكن استخدامه لاستنتاج الأنماط التطورية والإيكولوجية بغض النظر عن الأنواع المستهدفة.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. إعداد ملفات الإدخال

ملاحظة: البروتوكول متاح هنا - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. يفترض البروتوكول أن الباحث قد استخدم ProkEvo على وجه التحديد (أو خط أنابيب مماثل) للحصول على المخرجات الضرورية المتاحة في مستودع Figshare هذا (https://figshare.com/account/projects/116625/articles/15097503 - بيانات اعتماد تسجيل الدخول مطلوبة - يجب على المستخدم إنشاء حساب مجاني للوصول إلى الملف!). تجدر الإشارة إلى أن ProkEvo يقوم تلقائيا بتنزيل التسلسلات الجينومية من مستودع NCBI-SRA ولا يتطلب سوى ملف .txt يحتوي على قائمة بتعريفات الجينوم كمدخلات20 ، والملف المستخدم لهذا العمل على S. يتم توفير عزلات نيوبورت الولايات المتحدة الأمريكية هنا (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  تتوفر معلومات مفصلة حول كيفية تثبيت واستخدام منصة الجينوم البكتيرية هذه هنا (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. قم بإنشاء علم سلالات الجينوم الأساسي باستخدام FastTree23 كما هو موضح سابقا 20 ، وهو ليس جزءا من منصة المعلوماتية الحيوية20. يتطلب FastTree محاذاة الجينوم الأساسي Roary24 كملف إدخال. يسمى ملف phylogeny newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. قم بإنشاء مخرجات SISTR25 التي تحتوي على المعلومات المتعلقة بتصنيفات السيروفارات لبيانات استدعاء متغير السالمونيلا و cgMLST (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. قم بإنشاء ملف BAPS بواسطة fastbaps26,27 الذي يحتوي على تصنيف BAPS للمستويات 1-6 للجينومات إلى مجموعات فرعية أو أنماط فردية (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. إنشاء تصنيف قائم على MLST للجينومات إلى STs باستخدام برنامج MLST (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. إنشاء مخرجات ABRicate (https://github.com/tseemann/abricate)29 كملف .csv يحتوي على مواقع مقاومة مضادات الميكروبات التي تم تعيينها لكل جينوم (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    ملاحظة: يمكن للمستخدم إيقاف تشغيل أجزاء معينة من خط أنابيب المعلوماتية الحيوية ProkEvo (تحقق هنا لمزيد من المعلومات - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). يوفر النهج التحليلي المعروض هنا مبادئ توجيهية لكيفية إجراء تحليل قائم على السكان بعد تشغيل خط أنابيب المعلوماتية الحيوية.

2. تحميل وتثبيت البرنامج الإحصائي وتطبيق بيئة التنمية المتكاملة (IDE)

  1. قم بتنزيل أحدث إصدار متاح مجانا من برنامج R لنظام التشغيل Linux أو Mac أو الكمبيوتر الشخصي30. اتبع خطوات التثبيت الافتراضية.
  2. قم بتنزيل أحدث إصدار متاح مجانا من RStudio desktop IDE هنا31. اتبع الخطوات الافتراضية للتثبيت.
    ملاحظة: يتم تضمين الخطوات التالية في البرنامج النصي المتاح، بما في ذلك معلومات مفصلة عن استخدام التعليمات البرمجية، ويجب تشغيلها بالتتابع لإنشاء المخرجات والأرقام المعروضة في هذا العمل (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). قد يقرر المستخدم استخدام لغة برمجة أخرى لإجراء هذا التحليل التحليلي / الإحصائي مثل بايثون. في هذه الحالة ، استخدم الخطوات الموجودة في البرامج النصية كإطار لإجراء التحليل.

3. تثبيت وتفعيل مكتبات علوم البيانات

  1. قم بتثبيت جميع مكتبات علوم البيانات في وقت واحد كخطوة أولى في التحليل. تجنب تثبيت المكتبات في كل مرة يحتاج فيها البرنامج النصي إلى إعادة تشغيله. استخدم الدالة install.packages() لتثبيت المكتبة. بدلا من ذلك ، يمكن للمستخدم النقر فوق علامة التبويب الحزم داخل IDE وتثبيت الحزم تلقائيا. يتم عرض الرمز المستخدم لتثبيت جميع المكتبات المطلوبة هنا:
    # تثبيت Tidyverse
    install.packages ("tidyverse")
    # تثبيت skimr

    install.packages ("skimr")
    # تثبيت نباتي
    install.packages ("نباتي")
    # تثبيت forcats
    install.packages ("forcats")
    # تثبيت نانيار
    install.packages("naniar")
    # تثبيت ggpubr
    install.packages("ggpubr")
    # تثبيت ggrepel
    install.packages ("ggrepel")
    # تثبيت إعادة تشكيل2
    install.packages("reshape2")
    # تثبيت RColorBrewer
    install.packages("RColorBrewer")
    # تثبيت ggtree
    إذا (!تتطلب مساحة الاسم ("BiocManager" ، بهدوء = TRUE))
    install.packages ("BiocManager")
    BiocManager::install("ggtree")
    # سيؤدي تثبيت ggtree إلى طرح سؤال حول التثبيت - الإجابة هي "a" لتثبيت / تحديث جميع التبعيات
  2. قم بتنشيط كافة المكتبات أو الحزم باستخدام وظيفة library() في بداية البرنامج النصي، مباشرة بعد التثبيت. فيما يلي عرض توضيحي حول كيفية تفعيل جميع الحزم الضرورية:
    # تفعيل المكتبات والباقات
    المكتبة (مرتبة)
    المكتبة (skimr)
    مكتبة (نباتي)
    المكتبة (المعاونات)
    مكتبة (نانيار)
    المكتبة (ggtree)
    المكتبة (ggpubr)
    المكتبة (الغريبة)
    المكتبة(إعادة تشكيل2)
    المكتبة (RColorBrewer)
  3. منع إخراج التعليمات البرمجية المستخدمة لتثبيت المكتبة والحزمة وتنشيطها باستخدام {r, include = FALSE} في ظرف التعليمات البرمجية، كما يلي:
    ''' {r, include = FALSE}
    # تثبيت Tidyverse

    install.packages ("tidyverse")
    ```

    ملاحظة: هذه الخطوة اختيارية ولكنها تتجنب عرض أجزاء من التعليمات البرمجية غير الضرورية في تقرير html أو doc أو pdf النهائي.
  4. للحصول على وصف موجز للوظائف المحددة لجميع المكتبات إلى جانب بعض الروابط المفيدة لجمع مزيد من المعلومات، راجع الخطوات 3.4.1-3.4.11.
    1. Tidyverse - استخدم هذه المجموعة من الحزم المستخدمة في علوم البيانات ، بما في ذلك إدخال البيانات والتصور والتحليل والتجميع والنمذجة الإحصائية. عادة ما تكون ggplot2 (تصور البيانات) و dplyr (مشاحنات البيانات والنمذجة) حزمتين عمليتين موجودتين في هذه المكتبة32.
    2. skimr - استخدم هذه الحزمة لإنشاء إحصاءات موجزة لإطارات البيانات، بما في ذلك تحديد القيم المفقودة33.
    3. نباتي - استخدم هذه الحزمة للتحليلات الإحصائية للبيئة المجتمعية ، مثل حساب الإحصاءات القائمة على التنوع (على سبيل المثال ، ألفا وبيتا التنوع)34.
    4. forcats - استخدم هذه الحزمة للعمل مع المتغيرات الفئوية مثل إعادة ترتيب التصنيفات. هذه الحزمة هي جزء من مكتبة Tidyverse32.
    5. naniar - استخدم هذه الحزمة لتصور توزيع القيم المفقودة عبر المتغيرات في إطار بيانات، باستخدام الدالة viss_miss()35.
    6. ggtree - استخدم هذه الحزمة لتصور الأشجار الجينية36.
    7. ggpubr - استخدم هذه الحزمة لتحسين جودة التصورات المستندة إلى ggplot237.
    8. ggrepel - استخدم هذه الحزمة لوضع العلامات النصية داخل الرسوم البيانية38.
    9. reshape2 - استخدم الدالة melt() من هذه الحزمة لتحويل إطارات البيانات من تنسيق واسع إلى تنسيق طويل39.
    10. RColorBrewer - استخدم هذه الحزمة لإدارة الألوان في المرئيات المستندة إلى ggplot240.
    11. استخدم الوظائف الأساسية التالية لتحليل البيانات الاستكشافية: head() للتحقق من الملاحظات الأولى في إطار بيانات ، tail() للتحقق من الملاحظات الأخيرة لإطار بيانات ، is.na() لحساب عدد الصفوف ذات القيم المفقودة عبر إطار بيانات ، dim() للتحقق من عدد الصفوف والأعمدة في مجموعة بيانات ، الجدول () لحساب الملاحظات عبر متغير ، و sum() لحساب العدد الإجمالي للملاحظات أو المثيلات.

4. إدخال البيانات وتحليلها

ملاحظة: يمكن العثور على معلومات مفصلة حول كل خطوة من خطوات هذا التحليل في البرنامج النصي المتاح (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). ومع ذلك ، إليك بعض النقاط المهمة التي يجب مراعاتها:

  1. قم بإدخال جميع البيانات الجينومية ، بما في ذلك جميع تصنيفات النمط الجيني (serovar و BAPS و ST و cgMLST) باستخدام وظيفة read_csv ().
  2. إعادة تسمية وإنشاء متغيرات جديدة وتحديد أعمدة ذات أهمية من كل مجموعة بيانات قبل تجميع مجموعات البيانات المتعددة.
  3. لا تقم بإزالة القيم المفقودة من أي مجموعة بيانات مستقلة. انتظر حتى يتم تجميع جميع مجموعات البيانات لتعديل القيم المفقودة أو استبعادها. إذا تم إنشاء متغيرات جديدة لكل مجموعة بيانات، تصنيف القيم المفقودة افتراضيا في أحد التصنيفات التي تم إنشاؤها حديثا.
  4. تحقق من وجود أحرف خاطئة مثل الواصلات أو علامات الاستجواب واستبدلها ب NA (غير قابل للتطبيق). افعل الشيء نفسه بالنسبة للقيم المفقودة.
  5. تجميع البيانات استنادا إلى الترتيب الهرمي للأنماط الجينية (serovar -> BAPS1 -> ST -> cgMLST) ، وعن طريق التجميع بناء على تعريفات الجينوم الفردية.
  6. تحقق من وجود قيم مفقودة باستخدام استراتيجيات متعددة وتعامل مع هذه التناقضات صراحة. قم بإزالة الجينوم أو اعزل البيانات فقط إذا كان التصنيف غير موثوق. خلاف ذلك ، فكر في التحليل الجاري وإزالة NAs على أساس كل حالة على حدة.
    ملاحظة: يوصى بشدة بوضع استراتيجية للتعامل مع هذه القيم بداهة. تجنب إزالة جميع الجينومات أو العزلات ذات القيم المفقودة عبر أي متغيرات. على سبيل المثال ، قد يكون للجينوم تصنيف ST دون وجود رقم متغير cgMLST. في هذه الحالة ، لا يزال من الممكن استخدام الجينوم للتحليل القائم على ST.
  7. بمجرد تجميع جميع مجموعات البيانات، قم بتعيينها إلى اسم إطار بيانات أو كائن يمكن استخدامه في مواقع متعددة في تحليل المتابعة، لتجنب الاضطرار إلى إنشاء نفس ملف البيانات الوصفية لكل شكل في الورقة.

5. إجراء التحليلات وتوليد التصورات

ملاحظة: يمكن العثور على وصف مفصل لكل خطوة مطلوبة لإنتاج جميع التحليلات والتصورات في ملف تخفيض الأسعار لهذه الورقة (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). يتم فصل التعليمات البرمجية لكل شكل إلى أجزاء ويجب تشغيل البرنامج النصي بأكمله بالتتابع. بالإضافة إلى ذلك، يتم توفير الرمز الخاص بكل رقم رئيسي وتكميلي كملف منفصل (انظر الملف التكميلي 1 والملف التكميلي 2). فيما يلي بعض النقاط الأساسية (مع مقتطفات من التعليمات البرمجية) التي يجب مراعاتها أثناء إنشاء كل الأرقام الرئيسية والتكميلية.

  1. استخدم ggtree لرسم شجرة التكاثر جنبا إلى جنب مع معلومات النمط الوراثي (الشكل 1).
    1. قم بتحسين حجم شكل ggtree ، بما في ذلك قطر وعرض الحلقات ، عن طريق تغيير القيم العددية داخل الدالتين xlim() و gheatmap (width = ) ، على التوالي (انظر مثال التعليمات البرمجية أدناه).
      tree_plot <- ggtree (شجرة ، تخطيط = "دائري") + xlim (-250 ، NA)
      figure_1 <- gheatmap(tree_plot، d4، إزاحة =.0، عرض = 20، colnames = FALSE)
      ملاحظة: للحصول على مقارنة أكثر تفصيلا للبرامج التي يمكن استخدامها للتخطيط الجيني ، تحقق من هذا العمل20. وسلط العمل الضوء على محاولة بذلت لتحديد استراتيجيات لتحسين التصورات القائمة على شجرة الشجرة مثل تقليل حجم مجموعة البيانات، ولكن أطوال الفروع وطوبولوجيا الأشجار لم تكن تمييزية بشكل واضح مقارنة بفاندانغو41.
    2. قم بتجميع جميع البيانات الوصفية في أقل عدد ممكن من الفئات لتسهيل اختيار لوحة التلوين عند رسم طبقات متعددة من البيانات باستخدام شجرة التكاثر (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). إجراء تجميع البيانات بناء على مسألة الاهتمام ومعرفة المجال.
  2. استخدم مخططا شريطيا لتقييم الترددات النسبية (الشكل 2).
    1. تجميع البيانات لكل من سلالات ST ومتغيرات cgMLST لتسهيل التصورات. اختر عتبة تجريبية أو إحصائية تستخدم لتجميع البيانات، مع مراعاة السؤال المطروح.
    2. للحصول على مثال على التعليمات البرمجية التي يمكن استخدامها لفحص التوزيع الترددي لسلالات ST لتحديد الحد الأدنى ، انظر أدناه:
      st_dist <- d2 ٪>٪ group_by(ST) ٪>٪ # المجموعة حسب عمود ST
      count() ٪>٪ # عد عدد الملاحظات
      ترتيب (desc(n)) # ترتيب الأعداد بترتيب متناقص
    3. للحصول على مثال على التعليمات البرمجية التي توضح كيف يمكن تجميع STs الثانوية (منخفضة التردد) ، راجع أدناه. وكما هو مبين أدناه، فإن الطوائف المنبوذة التي لا يبلغ عددها 5 أو 31 أو 45 أو 46 أو 118 أو 132 أو 350 تجمع معا بوصفها "STs أخرى". استخدم تعليمة برمجية مشابهة لمتغيرات cgMLST (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$st <- ifelse(d2$ST == 5, "ST5", # إنشاء عمود ST جديد يتم تجميع S Ts الثانوية له كغيره
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "STs أخرى"))))))))
  3. استخدم نهجا متداخلا لحساب نسبة كل سلالة ST داخل كل مجموعة فرعية BAPS1 لتحديد STs المرتبطة بالأسلاف (تنتمي إلى نفس المجموعة الفرعية BAPS1) (الشكل 3). يوضح الرمز أدناه كيفية حساب النسبة المستندة إلى ST عبر المجموعات الفرعية BAPS1 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b ٪>٪ filter(serovar == "Newport") ٪>٪ # filter Newport serovars
    حدد (baps_1، ST) ٪>٪ # حدد أعمدة baps_1 وST
    mutate(ST = as.numeric(ST)) ٪>٪ # تغيير عمود ST إلى رقمي
    drop_na (baps_1 ، ST) ٪>٪ # انخفاض NAs
    group_by (baps_1 ، ST) ٪ > ٪ # المجموعة حسب baps_1 و ST
    تلخيص (n = n()) ٪>٪ # ملاحظات العد
    تحور (دعامة = ن / مجموع (ن) * 100) # حساب النسب
  4. ارسم توزيع مواقع مقاومة مضادات الميكروبات عبر سلالات ST باستخدام نتائج التعليقات التوضيحية الجينية المستندة إلى Resfinder (الشكل 4).
    ملاحظة: تم استخدام Resfinder على نطاق واسع في الدراسات البيئية والوبائية42. يمكن أن يختلف التعليق التوضيحي لجينات ترميز البروتين اعتمادا على عدد المرات التي يتم فيها تنظيم قواعد البيانات وتحديثها. إذا كان الباحث يستخدم خط أنابيب المعلوماتية الحيوية المقترح ، فيمكنه مقارنة تصنيفات المواقع القائمة على AMR عبر قواعد بيانات مختلفة20. تأكد من التحقق من قواعد البيانات التي يتم تحديثها باستمرار. لا تستخدم قواعد بيانات قديمة أو سيئة التنسيق، لتجنب المكالمات الخاطئة.
    1. استخدم عتبة تجريبية أو إحصائية لتصفية أهم مواقع مقاومة مضادات الميكروبات لتسهيل التصور. قم بتوفير ملف .csv أولي يحتوي على النسب المحسوبة لجميع مواقع AMR عبر جميع سلالات ST ، كما هو موضح هنا (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. حساب نسبة AMR لكل ST باستخدام التعليمة البرمجية التالية (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # حسابات ST45
      d2c <- data6 ٪>٪ filter(st == "ST45") # تصفية بيانات ST45 أولا
      # بالنسبة للمعيار ST45، احسب نسبة مواقع مقاومة مضادات الميكروبات واحتفظ فقط بنسبة أكبر من 10٪

      d3c <- d2c ٪>٪ select(id, gene) ٪>٪ # حدد الأعمدة
      group_by (معرف ، جين) ٪ > ٪ # مجموعة حسب الهوية والجين
      تلخيص (عد = n()) ٪>٪ # ملاحظات العد
      mutate (count = replace(count, count == 2, 1)) ٪>٪ # استبدال الأعداد التي تساوي 2 مع 1 للنظر في نسخة واحدة فقط من كل جين (قد لا تكون الازدواجية موثوقة)، ولكن يمكن للباحث أن يقرر استبعادها أو الاحتفاظ بها. إذا أراد الباحث استبعادها ، فاستخدم وظيفة المرشح (العد != 2) أو اتركها كما هي
      filter (عدد < = 1) # عدد الفلاتر أقل أو يساوي 1
      d4c <- d3c ٪>٪ group_by(جين) ٪>٪ # مجموعة حسب الجين
      تلخيص (القيمة = n()) ٪>٪ # ملاحظات العد
      mutate (total = table(data1$st)[6]) ٪>٪ # احصل على إجمالي عدد المتحورات (الدعامة = (القيمة/الإجمالي)*100) # حساب النسب
      d5c <- d4c ٪>٪ متحور (st = "ST45") # إنشاء عمود st وإضافة معلومات ST
    3. بعد إجراء العمليات الحسابية لجميع STs ، قم بدمج مجموعات البيانات كإطار بيانات واحد ، باستخدام التعليمة البرمجية التالية:
      # الجمع بين مجموعات البيانات
      d6 <- rbind (d5a ، d5b ، d5c ، d5d ، d5e ، d5f ، d5g ، d5h) # صف ربط مجموعات البيانات
    4. لتصدير ملف .csv الذي يحتوي على النسب المحسوبة، استخدم التعليمة البرمجية:
      # جدول بيانات التصدير الذي يحتوي على معلومات مواقع ST و AMR
      abx_newport_st <- d6 الكتابة.csv(abx_newport_st، "abx_newport_st.csv"، row.names = FALSE)
    5. قبل رسم التوزيع القائم على مقاومة مضادات الميكروبات عبر سلالات ST ، قم بتصفية البيانات بناء على عتبة لتسهيل التصورات ، كما هو موضح أدناه:
      # تصفية AMR المواقع مع نسبة أعلى من أو تساوي 10٪
      d7 <- d6 ٪>٪ مرشح (الدعامة >= 10) # تحديد العتبة تجريبيا أو إحصائيا
  5. ارسم علم الوراثة الجينوم الأساسي جنبا إلى جنب مع تصنيفات النمط الوراثي الهرمي وبيانات مقاومة مضادات الميكروبات في مخطط واحد باستخدام ggtree (الشكل 5).
    1. قم بتحسين حجم الشكل داخل ggtree باستخدام المعلمات المذكورة أعلاه (انظر الخطوة 5.1.1).
    2. تحسين التصورات عن طريق تجميع المتغيرات، أو استخدام التصنيف الثنائي مثل وجود الجينات أو غيابها. كلما تمت إضافة المزيد من الميزات إلى المؤامرة ، كلما أصبحت عملية اختيار التلوين أصعب (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      ملاحظة: أرقام تكميلية - يمكن العثور على وصف مفصل للرمز بأكمله هنا (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. استخدم مخططا مبعثرا في ggplot2 ، دون تجميع البيانات ، لعرض توزيع سلالات ST أو متغيرات cgMLST مع تسليط الضوء على الأنماط الجينية الأكثر شيوعا (الشكل التكميلي 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. قم بإجراء تحليل متداخل لتقييم تكوين سلالات ST من خلال نسبة متغيرات cgMLST من أجل الحصول على لمحة عن التنوع الجيني القائم على ST ، مع تحديد المتغيرات الأكثر شيوعا وعلاقاتها الجينية (أي متغيرات cgMLST التي تنتمي إلى نفس ST تشترك في سلف في الآونة الأخيرة أكثر من تلك التي تنتمي إلى STs متميزة) (الشكل التكميلي 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. استخدم مقياس البيئة المجتمعية ، أي مؤشر سيمبسون D للتنوع ، لقياس درجة النسيلة أو التنوع الجيني لكل من سلالات ST الرئيسية43 (الشكل التكميلي 3).
    1. حساب مؤشر التنوع عبر سلالات ST على مستويات مختلفة من دقة النمط الجيني بما في ذلك BAPS المستوى 1 إلى 6 و cgMLST. فيما يلي مثال التعليمات البرمجية حول كيفية إجراء هذا الحساب في المستوى 1 من BAPS (BAPS1) من دقة النمط الوراثي:
      # BAPS المستوى 1 (BAPS1)
      # إسقاط STs و BAPS1 مع NAs ، مجموعة حسب ST و BAPS1 ثم حساب مؤشر سيمبسون
      baps1 <- بيانات6 ٪>٪
      حدد (st, BAPS1) ٪>٪ # حدد الأعمدة
      drop_na (ش ، BAPS1) ٪ > ٪ # انخفاض NAs
      group_by(st, BAPS1) ٪>٪ # المجموعة حسب الأعمدة
      تلخيص (n = n()) ٪>٪ # ملاحظات العد
      mutate(simpson = diversity(n, "simpson")) ٪>٪ # حساب التنوع
      group_by(st) ٪>٪ # المجموعة حسب العمود
      تلخيص (سيمبسون = الوسط (سيمبسون)) ٪>٪ # حساب متوسط المؤشر
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="value") ٪>٪ # سرية في شكل طويل
      mutate(strat = "BAPS1") # إنشاء عمود طبقة
      ملاحظة: لدى السكان الأكثر تنوعا وراثيا (أي المزيد من المتغيرات في طبقات مختلفة من دقة النمط الوراثي) مؤشر أعلى على مستوى cgMLST وينتج قيما متزايدة قائمة على المؤشر تنتقل من مستوى BAPS 2 إلى 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
  9. دراسة درجة التنوع الجيني لسلالات ST عن طريق رسم التردد النسبي للمجموعات الفرعية BAPS على جميع مستويات الاستبانة (BAPS1-6) (الشكل التكميلي 4). كلما كان السكان أكثر تنوعا ، كلما أصبح توزيع المجموعات الفرعية BAPS (الأنماط الفردية) أكثر انخفاضا من BAPS1 (مستوى أقل من الدقة) إلى BAPS6 (مستوى أعلى من الدقة) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

من خلال استخدام المنصة الحسابية ProkEvo لتحليلات الجينوم السكاني ، تتكون الخطوة الأولى في استخراج بيانات WGS البكتيرية من فحص بنية السكان الهرمية في سياق علم الوراثة الجينوم الأساسي (الشكل 1). في حالة S. سلالة enterica I ، كما يتضح من S. مجموعة بيانات نيوبورت ، يتم تنظيم السكان بشكل هرمي على النحو التالي: serovar (أدنى مستوى من الدقة) ، والمجموعات الفرعية BAPS1 أو الأنماط الفردية ، وسلالات ST ، ومتغيرات cgMLST (أعلى مستوى من الدقة)20. ويسمح هذا التحليل الموجه بالسلالات للهيكل السكاني الهرمي على وجه التحديد بدراسة النقاط التالية: (أ) التوزيع الجيني للجينومات المصنفة بشكل خاطئ القائمة على أساس SISTR إلى سيروفات أخرى في حالة السالمونيلا؛ و (ب) التوزيع الجيني للجينومات المصنفة بشكل خاطئ القائمة على SISTR إلى سيروفات أخرى في حالة السالمونيلا؛ و (ب) التوزيع الجيني للجينومات المصنفة بشكل خاطئ القائمة على SISTR إلى سيروفات أخرى في حالة السالمونيلا؛ و (ب) التوزيع الجيني للجينومات المصنفة بشكل خاطئ القائمة على SISTR إلى سيروفات أخرى في حالة السالمونيلا؛ و (ب) التوزيع الجيني للجينومات المصنفة بشكل خاطئ القائمة على ب) التركيب الوراثي أو القرابة للسكان ؛ ج) نمط التنويع على مستويات مختلفة من حل النمط الوراثي ؛ تحديد وحدة (وحدات) النمط الوراثي الرئيسية التي تقوم عليها أنماط تطورية أو إيكولوجية أو وبائية؛ v) علاقات الأجداد بين سلالات ST من خلال المجموعات الفرعية BAPS1 أو تكوين النمط الفرداني ، وعبر متغيرات cgMLST داخل سلالات ST ؛ و vi) عرض جزئي لدرجة التجانس الوراثي لسلالة ST بواسطة تكوين متغير cgMLST.

Figure 1
الشكل 1: رسم الخرائط الموجهة بالفيلوجيني للأنماط الجينية الهرمية ل S. سكان نيوبورت. تم استخدام علم الوراثة الجينوم الأساسي (دائرة سوداء المركز) لرسم خريطة للأنماط الجينية الهرمية ، بما في ذلك serovar (أدنى مستوى من الدقة - الدائرة الملونة الأعمق) ، والمجموعات الفرعية أو الأنماط الفردية من المستوى 1 (BAPS1) ، وسلالات ST ، ومتغيرات cgMLST (أعلى مستوى من الدقة - الدائرة الملونة الخارجية). تم تجميع السيروفار في نيوبورت (S. Newport) أو "السيروفار الأخرى" استنادا إلى التصنيف الخوارزمي SISTR للجينومات ، والذي استخدم معلومات MLST الأساسية للجينوم ، وتم تشغيله كجزء من النظام الأساسي الحسابي ProkEvo. يقوم BAPS1 بتقسيم السكان إلى مجموعات فرعية أو مجموعات من الأنماط الفردية ذات الصلة باستخدام البيانات الجينومية الأساسية داخل ProkEvo. يتم وضع BAPS1 بشكل هرمي بين سلالات serovar و ST لأنه يلتقط بدقة علاقات الأجداد بين STs. يتم تشكيل سلالات ST بناء على تحليل MLST القانوني باستخدام سبعة مواقع مبعثرة في الجينوم. ولم يصور الرسم البياني سوى المنتمين إلى STs الرئيسية أو الأكثر شيوعا (نسبة >1 في المائة). وأخيرا ، تم استخدام متغيرات cgMLST الأكثر شيوعا فقط (نسبة >3.5٪) لإظهار الهيكل الهرمي الكامل ل S. عدد سكان نيوبورت (n = 2,365 الولايات المتحدة الأمريكية معزولة فقط). وتتألف فئة "STs الأخرى" أو "cgMLSTs الأخرى" من سلالات أو متغيرات ثانوية أو منخفضة التردد، على التوالي، مع إجراء العتبة بشكل تعسفي ينبغي تحديدها تجريبيا أو إحصائيا استنادا إلى مجموعة البيانات. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

ثم استخدمت الترددات النسبية لجميع الأنماط الجينية الهرمية لتقييم التوزيع العام والتصنيفات الأكثر شيوعا (أي الأنماط الوراثية) (الشكل 2). وفي الشكل 2 جيم - دال، تم تجميع سلالات ST الأقل تواترا (الطفيفة) أو متغيرات cgMLST على أنها "STs أخرى" أو "cgMLSTs أخرى"، على التوالي، من أجل تسهيل تصور البيانات (تقليل الأبعاد). إذا تم أخذ العينات بشكل منهجي عبر البيئات و / أو المضيفين وتم تشغيله إحصائيا بشكل مناسب ، يمكن أن يصبح توزيع التردد بديلا عن اللياقة البيئية. أي أنه يمكن بعد ذلك التنبؤ بأن السلالات أو المتغيرات الأكثر شيوعا تتمتع بلياقة بدنية أعلى ، مما يترتب على ذلك مزيد من التحقيق لتحديد المحددات الجينية المسببة الكامنة وراء هذه السمة الكمية 6,30.

Figure 2
الشكل 2: نسبة S. الأنماط الجينية الهرمية نيوبورت على مستويات مختلفة من الدقة. (أ) السيروفار هي أنماط ظاهرية من S. السلالة المعوية I السكان التي يمكن التنبؤ بها فقط من البيانات الجينومية الأساسية بسبب عدم توازن الارتباط العالي الموروث بين المواقع الأساسية و O و H مواقع ترميز المستضدات (البروتينات السطحية). عند استخدام ProkEvo ، يتم تصنيف جينومات السالمونيلا تلقائيا إلى serovars باستخدام برنامج SISTR. على الرغم من أن S. فقط تم تنزيل جينومات نيوبورت (نيوبورت) من NCBI ، وتم تصنيف بعضها على أنها "سيروفار أخرى" داخل ProkEvo. تم تصنيف ما يقرب من 2٪ (48 من أصل 2,365) من جميع الجينومات على أنها غير S. نيوبورت سيروفار. (ب) نسبة المجموعات الفرعية أو الأنماط الفردية من المستوى 1 (BAPS1). يتم إدراج BAPS1 بين سلالات serovar و ST في المخطط الهرمي لأنه التقط بدقة وبشكل لا أدري علاقات الأجداد بين STs. (C) نسبة سلالات ST الرئيسية تصور فقط STs التي كانت > 1٪ في التردد النسبي. وصنفت القبائل المنبوذة القاصرة على أنها "بلدان منقوشة أخرى". (د) أظهرت نسبة المتغيرات الرئيسية cgMLST أربعة فقط cgMLSTs السائدة التي كانت >3٪ في التردد النسبي. أما بقية ال cgMLSTs فقد تم تجميعها على أنها "cgMLSTs أخرى". (ب-د) تمت تصفية الجينومات المصنفة من قبل SISTR على أنها "مصل آخر" (2.03٪) من البيانات قبل رسم الترددات النسبية BAPS1 و ST و cgMLST. (C-D) وتم تحديد العتبات المستخدمة لرسم كل من بيانات ST و cgMLST بشكل تعسفي وينبغي تحديدها تجريبيا على أساس كل حالة على حدة. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

وبدلا من ذلك، يمكن استخدام مخطط مبعثر لتقييم توزيع ونسبة كل من سلالات ST أو متغيرات cgMLST، دون أي تجميع للبيانات (الشكل التكميلي 1). هذا الاستخدام لمخطط مبعثر مفيد بشكل خاص لسلالات ST ومتغيرات cgMLST بسبب الحدوث النموذجي لمئات ، إن لم يكن الآلاف ، من التصنيفات لكلا النمطين الوراثيين. لا يحدث هذا التوزيع المتناثر عادة لمستويات دقة السيروف و BAPS1 ، لأنها على مستوى أقل من الدقة مع تسلسلات تنهار وراثيا إلى عدد قليل من المجموعات الفرعية أو الفئات.

بعد ذلك ، تم فحص علاقات الأجداد بين STs باستخدام نهج متداخل يشمل تقييم التردد النسبي لسلالات ST بواسطة المجموعات الفرعية BAPS1 أو الأنماط الفردية (الشكل 3). ومن المرجح أن تكون سلالات ST التي تنتمي إلى نفس المجموعة الفرعية BAPS1 قد تشاركت في سلف مشترك في الآونة الأخيرة أكثر من غيرها من STs (أي ST5 و ST118 مقابل ST45). وبالمثل، من خلال دراسة توزيع متغيرات cgMLST داخل سلالات ST، يمكن التقاط درجة عدم التجانس الجيني عبر STs، مع تقييم تركيبها الجيني والكشف عن علاقة الأجداد بين cgMLSTs (أي أن متغيرات cgMLST ذات الصلة الوثيقة تنتمي إلى نفس سلالة ST أو المجمع النسيلي) (الشكل التكميلي 2).

Figure 3
الشكل 3: توزيع سلالات ST المتداخلة داخل المجموعات الفرعية BAPS1 ل S. سكان نيوبورت. تصور هذه المؤامرة توزيع سلالة ST داخل كل مجموعة فرعية من المستوى 1 من BAPS أو النمط الفرداني ، باستثناء الجينومات المصنفة على أنها "مصل آخر" (2.03٪ من البيانات بأكملها). يتم تمييز STs الرئيسية (نسبة >1٪) لكل مجموعة فرعية BAPS1 في كل رسم بياني. كلما زاد قطر الدائرة ، زادت نسبة سلالة ST المحددة. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

بالنظر إلى أن نمط S. ويبدو أن تنويع سكان نيوبورت مدفوع في الغالب بتكوين ST (الشكل 1)، واستخدم نهجان إحصائيان لتقييم درجة النسيلية القائمة على ST (أي التجانس الجيني)، بما في ذلك مؤشر التنوع D لسيمبسون (الشكل التكميلي 3)، وتوزيع المجموعات الفرعية أو الأنماط الفردية ل BAPS باستخدام مستويات BAPS 1-6 (الشكل التكميلي 4). ). ويمكن أن يوضح تقييم درجة نسلية السكان الجوانب التالية: (أ) فهم أفضل للتنوع الجيني والتركيب السكاني؛ و (ب) تحسين فهم التنوع الجيني والهيكل السكاني؛ و (ج) تحسين نوعية التنوع الجيني والهيكل السكاني؛ و (ج) تحسين نوعية التنوع الجيني والهيكل السكاني؛ و (ج) تحسين نوعية التنوع الجيني والتركيب السكاني؛ و (ج) تحسين نوعية التنوع الجيني والتركيب السكاني؛ و ب) تحليل دقيق لأنماط التنويع عبر وحدات النمط الوراثي الرئيسية مثل سلالات ST ؛ و iii) أن يكون مؤشرا على ضرورة استخدام تعدين الجينوم التبعي للعثور على وحدات النمط الجيني الخفي التي قد تكشف عن مجموعات فرعية جديدة موجودة في السكان. كلما كانت المجموعة أكثر استنساخا على مستوى الجينوم الأساسي ، كلما أصبح من الصعب التمييز بين المتغيرات ، وكلما زاد احتمال أن يكون محتوى الجينوم الملحق مفيدا لتقسيم السكان إلى طبقات إلى وحدات وراثية ذات مغزى مرتبطة بالتوزيعات البيئية الفريدة18،19،21.

وتم تقييم التواتر النسبي لسلالة ST التي تميز مواقع مقاومة مضادات الميكروبات لتحديد التوقيعات الجينومية الملحقة الفريدة المرتبطة ب S. الهيكل السكاني لنيوبورت (الشكل 4). ركزت هذه الخطوة من التحليل على توزيع مقاومة مضادات الميكروبات لأنها سمة مرتبطة بالصحة العامة ، ولكن يمكن تطبيق نفس النهج بطريقة خاضعة للإشراف (مستهدفة) أو لاأدرية لفحص المكونات الأخرى للجينوم الملحق ، بما في ذلك المسارات الأيضية ، وعوامل الضراوة ، وما إلى ذلك. ومن الملاحظ أن مواقع mdf(A)_1 و aac(6')-Iaa_1 يبدو أنها اكتسبت من قبل S. سكان نيوبورت; في حين أنه من المتوقع أن يكون ST45 مقاوما للأدوية المتعددة. ومن اللافت للنظر أن هذه البيانات تشير أيضا إلى أن سلالات ST الرئيسية الأخرى ، ST5 و ST118 ، من المرجح أن تكون أكثر عرضة للأدوية المتعددة عند مقارنتها ب ST45. ويجب النظر بعناية في هذه النقاط بسبب التحيزات الموجودة في مجموعة البيانات؛ ومع ذلك ، فإن هذا يمثل استدلالا وبائيا محتملا يمكن استخلاصه من مجموعات بيانات WGS الأكثر قوة.

بشكل عام ، فيما يلي بعض النقاط التي يجب مراعاتها عند إجراء رسم خرائط الجينوم التبعي على الأنماط الجينية الهرمية: i) النظر في توزيع التردد كسمة كمية ولكن كن على دراية بأن التركيب الأليلي للموضع يمكن أن يغير تباين السمة. وعلاوة على ذلك، ينبغي أن يكون وجود موضع أو موضع مؤشرا على الوظيفة ولكنه ليس سببيا، لأن النمط الظاهري قد يكون متعدد الجينات، أو يختلف وفقا للتكوين الأليلي للموضع المسبب (على سبيل المثال، من المرجح أن تؤثر طفرة غير مترادفة في الموقع النشط للبروتين على الوظيفة)؛ ب) يمكن أن يظهر توزيع المواقع الجينات الثابتة في السكان (على سبيل المثال ، الموجودة بتردد عال عبر جميع سلالات ST) أو التي تم الحصول عليها مؤخرا من قبل سلالات ST محددة ومتغيرات cgMLST ، وقد تعكس النمط الإيكولوجي أو الوبائي ؛ ج) يمكن التنبؤ بمقاومة الأدوية المتعددة من بيانات علم الجينوم. وإذا كان توزيع مواقع مقاومة مضادات الميكروبات، أو غيرها من المسارات، مرتبطا ارتباطا وثيقا أو موروثا بشكل شائع من قبل سلالات محددة، فعندئذ يمكن التنبؤ بالأنماط الظاهرية عن طريق الاستدلال من الأنماط الجينية الهرمية، كما هو الحال في سلالات ST45,46؛ و iv) قياس الأنماط الظاهرية في المختبر لا يزال حتميا للتحقق من صحة التنبؤات الحسابية.

Figure 4
الشكل 4: توزيع مواقع مقاومة مضادات الميكروبات عبر سلالات ST الرئيسية في S. سكان نيوبورت. التوزيع القائم على التردد النسبي لعدد مختار من مواقع مقاومة مضادات الميكروبات عبر سلالات ST الرئيسية (>1٪ من السكان). وصنفت القبائل المنبوذة القاصرة على أنها "بلدان منقوشة أخرى". فقط الجينومات المصنفة على أنها S. تم الاحتفاظ نيوبورت بواسطة خوارزمية SISTR في التحليل. تم اختيار مواقع AMR ذات التردد النسبي أكبر من أو تساوي 10٪ لتصور البيانات. هذه عتبة تعسفية يجب تحديدها لكل مجموعة بيانات. تم حساب النسب باستخدام مصفوفة ثنائية تتكون من وجود الجينات أو غيابها. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

وأخيرا، استخدم تصور قائم على السلالات لدمج بيانات الهيكل السكاني الهرمي بشكل منهجي إلى جانب نسب ST الذي يميز توزيع مواقع مقاومة مضادات الميكروبات استنادا إلى حدوث الجينات (الشكل 5). من خلال الجمع بين التركيب السكاني جنبا إلى جنب مع التركيب الجينومي التبعي ، يمكن معالجة المجموعة التالية من الأسئلة في أي مجموعة بيانات معينة: 1) كيف يتم تنظيم السكان؟ كيف ترتبط STs ببعضها البعض وبالأسلاف من خلال المجموعات الفرعية BAPS1؟ ما مدى تغير تكوين cgMLST عبر STs؟ 2) ما هو نمط التفرع الوراثي وطوبولوجيا الأشجار بشكل عام؟ 3) كيف يتم توزيع الجينوم الملحق؟ هل من المرجح أن يكون التركيب الجينومي الملحق مكتسبا من الأجداد أو مشتقا مؤخرا؟ ما هو النمط الخاص بالنسب أو المتغير؟ ما هو التنبؤ الظاهري والاستدلال البيئي؟ هل هناك جينات تتجاوز مكانة مقابل جينات تحدد المكانة؟ كيف يرتبط النمط المرصود أو يبلغ علم الأوبئة في حالة مسببات الأمراض؟ هل يمكن تجميع الأنساب أو المتغيرات بشكل فرعي بالمعلومات استنادا إلى المحتوى الجينومي الملحق؟

Figure 5
الشكل 5: رسم الخرائط الموجهة بالفيلوجيني للأنماط الجينية الهرمية ومواقع مقاومة مضادات الميكروبات الملحقة التي تميز بين سلالات ST الرئيسية داخل S. سكان نيوبورت. تم استخدام علم سلالات الجينوم الأساسي (دائرة سوداء المركز) لرسم خريطة للأنماط الجينية الهرمية ، بما في ذلك serovar (أدنى مستوى من الدقة - الدائرة الملونة الأعمق) ، والمجموعات الفرعية أو الأنماط الفردية من المستوى 1 (BAPS1) ، وسلالات ST ، ومتغيرات cgMLST (أعلى مستوى من الدقة - الدائرة الملونة الخارجية) ، إلى جانب مواقع AMR الملونة باللون الأزرق الداكن إذا كانت موجودة أو رمادية إذا كانت غائبة. تم تجميع السيروفار في نيوبورت (S. Newport) أو "المصل الآخر" استنادا إلى التصنيف الخوارزمي SISTR. يتم وضع BAPS1 بشكل هرمي بين سلالات serovar و ST لأنه التقط بدقة وبشكل لا أدري علاقات الأجداد بين STs. يتم تشكيل سلالات ST بناء على تحليل MLST القانوني باستخدام سبعة مواقع متناثرة في الجينوم. ولم يصور الرسم البياني سوى المنتمين إلى STs الرئيسية أو الأكثر شيوعا (نسبة >1 في المائة). أيضا ، تم استخدام متغيرات cgMLST الأكثر هيمنة فقط (نسبة >3.5٪) لإظهار الهيكل الهرمي بأكمله ل S. عدد سكان نيوبورت (n = 2,365 الولايات المتحدة الأمريكية معزولة فقط). وتتألف فئة "STs الأخرى" أو "cgMLSTs الأخرى" من سلالات أو متغيرات طفيفة أو منخفضة التردد، على التوالي، ويتم وضع العتبة بشكل تعسفي وينبغي تعيينها استنادا إلى مجموعة البيانات. تم اختيار مواقع AMR ذات التردد النسبي أكبر من أو تساوي 10٪ لتصور البيانات. يوضح هذا الرسم البياني المحدد توزيعا فريدا لمواقع مقاومة مضادات الميكروبات يحدث في الغالب في سلالات ST31 و ST45 و ST132. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

الشكل التكميلي 1: التوزيع المتناثر لسلالات ST ومتغيرات cgMLST ل S. سكان نيوبورت. (أ) نسبة سلالات ST دون تجميع STs منخفضة التردد STs. يتم تسليط الضوء على STs بنسبة >1٪ في المخطط. (ب) نسبة متغيرات cgMLST دون تجميع cgMLSTs منخفضة التردد. يتم تسليط الضوء على cgMLSTs بنسبة > 3٪ في المؤامرة. (أ-ب) وتم تحديد العتبات المستخدمة لرسم كل من بيانات ST و cgMLST بشكل تعسفي وينبغي تحديدها استنادا إلى مجموعة البيانات. تمت تصفية الجينومات المصنفة من قبل SISTR على أنها "مصلية أخرى" (2.03٪) من البيانات قبل رسم كل من الترددات النسبية ST و cgMLST. كلما زاد قطر الدائرة ، زادت النسبة إما لسلالة ST أو متغير cgMLST. يرجى النقر هنا لتنزيل هذا الملف.

الشكل التكميلي 2: توزيع متغيرات cgMLST المتداخلة داخل سلالات ST ل S. سكان نيوبورت. تصور هذه المؤامرة توزيع متغير cgMLST عبر سلالات ST ، باستثناء الجينومات المصنفة على أنها "مصل آخر" (2.03٪ من البيانات بأكملها). يتم تمييز cgMLSTs الرئيسية (نسبة >15٪) لكل سلالة ST في كل رسم بياني. كلما زاد قطر الدائرة ، زادت نسبة متغير cgMSLT المحدد. وصنفت STs منخفضة التردد على أنها "STs أخرى". يرجى النقر هنا لتنزيل هذا الملف.

الشكل التكميلي 3: درجة التنوع الجيني القائمة على D لسيمبسون عبر سلالات ST باستخدام الأنماط الفردية من مستويات BAPS 1-6 أو الأنماط الجينية cgMLST كبيانات مدخلات ل S. سكان نيوبورت. تم حساب درجة النسيلة أو التنوع الجيني لكل سلالة ST عبر طبقات مختلفة من الاستبانة الجينية ، بما في ذلك مستويات BAPS 1 (أدنى مستوى من الاستبانة) إلى 6 (أعلى مستوى من الاستبانة) المجموعات الفرعية أو الأنماط الفردية ، وباستخدام توزيع المتغيرات القائم على cgMLST. وكلما ارتفعت قيمة المؤشر، ارتفعت درجة التنوع الجيني. تحتوي سلالات ST شديدة التنوع على قيم مؤشر أعلى تنتقل من BAPS1 إلى BAPS6 (أي عادة ما يزداد المؤشر ويهضب في النهاية عند الانتقال من BAPS1 إلى BAPS6). فقط الجينومات المصنفة على أنها S. تم الاحتفاظ نيوبورت من قبل برنامج SISTR في التحليل. وصنفت STs منخفضة التردد على أنها "STs أخرى". يرجى النقر هنا لتنزيل هذا الملف.

الشكل التكميلي 4: توزيع المجموعات الفرعية أو الأنماط الفردية لمستويات BAPS 1-6 عبر سلالات ST الرئيسية لسكان S. Newport. التوزيع النسبي القائم على التردد للمجموعات الفرعية أو الأنماط الفردية BAPS ، عبر سلالات ST الرئيسية ، من الأدنى (BAPS1) إلى أعلى مستوى من الدقة (BAPS6). تم اختيار STs الرئيسية على أساس وجود نسبة >1٪. فقط الجينومات المصنفة على أنها S. تم الاحتفاظ نيوبورت من قبل برنامج SISTR في التحليل. كلما ارتفعت درجة النسيلة ، كلما كان توزيع المجموعات الفرعية أو الأنماط الفردية BAPS أقل تناثرا أو انتشارا عند الانتقال من BAPS1 إلى BAPS6. وبعبارة أخرى، فإن سلالة ST الأكثر تنوعا وراثيا لديها مجموعة أوسع من المجموعات الفرعية BAPS في المستوى 6 من BAPS (أعلى درجة من الدقة). وصنفت STs منخفضة التردد على أنها "STs أخرى". يرجى النقر هنا لتنزيل هذا الملف.

الملف التكميلي 1: روابط إلى قائمة المواد وقائمة الجينوم يرجى النقر هنا لتنزيل هذا الملف.

الملف التكميلي 2: تحليل الجينوم البكتيري القائم على التسلسل الهرمي باستخدام R يرجى النقر هنا لتنزيل هذا الملف.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

يوفر استخدام تحليل التركيب السكاني الإرشادي والهرمي القائم على النظم إطارا لتحديد التوقيعات الجينومية الجديدة في مجموعات البيانات البكتيرية التي لديها القدرة على شرح الأنماط الإيكولوجية والوبائية الفريدة20. بالإضافة إلى ذلك ، يمكن استخدام رسم خرائط بيانات الجينوم الملحقة على الهيكل السكاني لاستنتاج السمات المكتسبة من الأجداد و / أو المشتقة حديثا والتي تسهل انتشار سلالات ST أو متغيرات cgMLST عبر الخزانات6،20،21،45،46. وعلى نطاق أوسع، يمكن أن يكشف التقييم العالمي لتوزيع المحتوى الجيني الشامل في المجموعات البكتيرية عن أنماط التنويع التي تكمن وراء المداريات البيئية أو الاختناقات الجغرافية المكانية / الزمنية التي ربما تكون مجموعة سكانية قد صمدت مؤخرا أمام18,21. في حالة الأنواع المسببة للأمراض، من خلال تعدين التركيبة السكانية للعزلات السريرية مقابل البيئية، يمكن تحديد المحددات الجينية المرتبطة بالأحداث الحيوانية المنشأ واستخدامها لتحسين التشخيص والترصد33,34. يمكن تطبيق نفس النهج على الأنواع غير المسببة للأمراض لتحديد الأنماط الجينية ذات خصائص التجميع المرغوبة الخاصة بالمتخصصة ، كما هو الحال في سلالات البروبيوتيك المعدية المعوية المستخدمة لتحسين صحة الإنسان 49,50,51. ومع ذلك ، فإن استخدام بيانات WGS البكتيرية للاستفسارات القائمة على السكان يتطلب استخدام منصات حسابية قابلة للتكرار ومؤتمتة وقابلة للتطوير مثل ProkEvo20. يأتي أي نهج حسابي مع محاذيره وفروقه الدقيقة ، ولكن بشكل عام ، يمكن للمنصات المتاحة بحرية والوثيقة جيدا والمحمولة وسهلة الاستخدام مثل ProkEvo تسهيل عمل علماء الأحياء الدقيقة وعلماء البيئة وعلماء الأوبئة الذين يقومون بعلم الجينوم البكتيري القائم على السكان.

في هذا العمل ، تم توضيح كيفية استخدام المخرجات المشتقة من ProkEvo لإجراء تحليل هرمي للبنية السكانية يمكن استخدامه لرسم خرائط وتتبع الأنماط الجينية ذات الأهمية على مستويات مختلفة من الدقة ، إلى جانب التنبؤ بالسمات المفيدة من بيانات WGS. تمت كتابة هذا البروتوكول الحسابي باستخدام لغة البرمجة R ، ولكن الإطار أو النهج المفاهيمي قابل للتعميم على لغات أخرى مثل بايثون من خلال استخدام مكتبة الباندا ، على سبيل المثال. يتم إنشاء بيانات الإدخال بواسطة ProkEvo20 ، مما يمنع بعض العقبات التي يجب مواجهتها من حيث توحيد المخرجات وتنسيقات البيانات للتحليل اللاحق. باستثناء علم الوراثة ، تأتي جميع مجموعات بيانات الإدخال الأخرى في شكل جدول يمكن بسهولة التحكم في الجودة وتجميعها وتحليلها ودمجها لإنشاء تقارير مفيدة لتفسير البيانات. ومع ذلك ، من المهم تسليط الضوء على بعض الخطوات الحاسمة لتعزيز قابلية التكرار أثناء استخدام هذا البروتوكول: أ) التأكد من تحديث إصدارات البرامج وتتبعها دائما. ب) تتبع إصدارات مكتبات علوم البيانات المستخدمة، ويفضل تحديثها بمرور الوقت؛ iii) مراقبة جودة البيانات باستخدام الخبرة المعرفية في المجال لفهم المخرجات الناتجة عن ProkEvo ، أو خط أنابيب مماثل ، في ضوء ما هو مفهوم لمجموعة البكتيريا المستهدفة ؛ إجراء تحليل استكشافي للبيانات قبل استخدام أي نهج للنمذجة ؛ تجميع البيانات استنادا إلى المعرفة التجريبية و / أو التقييمات الإحصائية ؛ تحديد استراتيجية للتعامل مع القيم المفقودة مسبقا وتكون متسقة وشفافة تماما بشأنها ؛ vii) إذا كنت تستخدم R ، فحاول استخدام جميع الحزم التي توفرها Tidyverse ، لأن هذه المجموعة تسهل البرمجة الوظيفية ، وقابلية النقل ، والتحسين ، وهي متاحة مجانا ؛ و viii) كن على دراية بأن أساليب التصور يمكن أن تكون صعبة لأن الأمر يتطلب بعض التجربة والخطأ للحصول على النوع الصحيح من مخطط الحبكة والتلوين الذي ينطبق بشكل أنسب على السؤال المطروح والبيانات التي يتم تصويرها.

تجدر الإشارة إلى أن هذا البروتوكول يأتي مع بعض القيود التي يمكن تحسينها بشكل أكبر. على سبيل المثال، لدى ProkEvo حد جوهري لعدد الجينومات التي يمكن استخدامها للتحليل الجينومي الشامل، إذا تم إنشاء خطوة محاذاة الجينوم الأساسي بشكل متزامن، مع استخدام برنامج Roary (~ 2000-3000 جينوم)24. هذا هو عنق الزجاجة المحدد للغاية في خط الأنابيب الذي سيؤثر على عدد الجينومات التي يمكن تصنيفها في الأنماط الفردية BAPS لأنها تعتمد على محاذاة الجينوم الأساسي (أي خطوة تتطلب حسابيا للغاية). ومع ذلك ، يمكن إجراء محاذاة الجينوم الأساسي مع برامج أخرى52 ، ويمكن دمج هذه الخوارزميات ، من الناحية النظرية ، بسهولة في ProkEvo. خلاف ذلك ، يمكن تقسيم مجموعات البيانات استراتيجيا إلى مجموعات فرعية عشوائية ، أو في أساس آخر مثل النظر في التركيب السكاني للكائن الحي المعني. بدلا من ذلك ، يمكن تشغيل ProkEvo باستخدام جينوم واحد للحصول على تعليق توضيحي قائم على ST ، ومقاومة المضادات الحيوية وتكوين الجينات الضراوة ، ورسم خرائط للبلازميدات ، ولكن تم تصميم خط الأنابيب لعلم الجينوم القائم على السكان. تجدر الإشارة إلى أنه إذا لم تكن هناك حاجة إلى تصنيفات BAPS1-6 ، فيمكن إيقاف تشغيل خيار محاذاة الجينوم الأساسي ل Roary ، وفي هذه الحالة ، يمكن استخدام ProkEvo مع عدة مئات من الآلاف من الجينوم - فهو محدود فقط بناء على عدد نوى الكمبيوتر المتاحة. يمكن العثور على مثال على كيفية تنفيذ برنامج جديد أو كيفية إيقاف تشغيل خيار محاذاة الجينوم الأساسي في Roary داخل ProkEvo في روابط GitHub التالية (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) و (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo) ، على التوالي. في حالة التعدين الجينومي التبعي ، يعتمد التحليل اللاأدري على استخدام الجينوم الشامل . ملف Rtab الذي تم إنشاؤه بواسطة Roary24 ، والذي لم يتم استخدامه على وجه التحديد هنا ، ولكن بدلا من ذلك ، تم توضيحه بشكل استراتيجي كيفية تعيين موقع AMR باستخدام ABRicate باستخدام قاعدة بيانات Resfinder (https://github.com/tseemann/abricate). ومع ذلك، هناك خيار لتوسيع نطاق رسم الخرائط الجينومية الملحقة باستخدام ملف الجينوم الشامل بدلا من ذلك، والذي يمكن اعتباره عمليا توسيعا للنهج الحالي (على سبيل المثال، المزيد من المواقع المدرجة في مجموعة البيانات الجدولية كأعمدة جديدة). من المهم أن نذكر أن رسم الخرائط الجينومية الشاملة الذي قام به ProkEvo لم يوفر سوى معلومات ثنائية من حيث تكوين الموقع ، وفي الوقت الحالي ، لا يمكن استخدامه لتحديد تعدد أشكال النيوكليوتيدات المفردة عبر الجينات.

هناك قيد آخر لهذا البروتوكول وهو تصور شجرة التكاثر. حاليا ، ggtree هو البرنامج المفضل ، ولكن هذا يأتي على حساب عدم القدرة على فحص أطوال الفروع بدقة ويصبح مرهقا عندما تحتاج العديد من طبقات البيانات إلى إضافتها إلى علم الأنساب. بدلا من ذلك ، phandango41 هو واجهة مستخدم رسومية (https://jameshadfield.github.io/phandango/#/) 41 سهلة الاستخدام وقابلة للتطوير بتنسيق صفحة الويب يمكن استخدامها بسهولة لتحقيق نفس الهدف ، وتم نشر المزيد من المعلومات التفصيلية حول كيفية استخدامه مع مخرجات ProkEvo مؤخرا20. يمكن أيضا استخدام أدوات أخرى مثل iTOL للتصور المعتمد على علم الوراثة للبيانات53 ، ولكنها تتطلب استخدام واجهة المستخدم الرسومية ولا يمكن دمجها في البرامج النصية الآلية. أيضا ، قد يكون من الصعب تقدير السلالات الدقيقة للجينوم الأساسي بسبب التأثير الخفي المعتمد على مجموعة البيانات لنقل الجينات الأفقي. يمكن استخدام برامج مثل Gubbins54 لهذا الغرض ، ولكنها تأتي أيضا مع قيود معينة مثل الحاجة إلى استخدام محاذاة الجينوم الكامل ومجموعات البيانات الخاصة بسلالة ST للتقدير الصحيح للسلالات. بدلا من ذلك ، يمكن نشر مناهج أخرى مستقلة عن علم الوراثة ، والتي ينتهي بها الأمر إلى طلب أنواع أخرى من التصورات لدمج البيانات الوصفية أو المعلومات الجينومية الملحقة ، كما هو الحال في التحليل متعدد الأبعاد55,56. وأخيرا، استخدم نهج تجريبي وتعسفي لتجميع سلالات ST الثانوية ومتغيرات cgMLST، بالإضافة إلى تصفية أهم مواقع مقاومة مضادات الميكروبات التي يتعين تحديدها كميا. يمكن إجراء هذا النوع من تجميع البيانات تجريبيا باستخدام الخبرة المعرفية في المجال ، ولكن يمكن تحقيقه أيضا إحصائيا من خلال تحديد معيار مسبق لنسبة التوزيع الذي يجب عرضه ، أو باستخدام مقاييس متعلقة بالتوزيع مثل النطاق الربيعي أو الانحراف المعياري أو الانحراف ، لتحديد عتبة في نهاية المطاف. الأهم من ذلك ، أن تعريف الأنماط الجينية الثانوية يتأثر بشكل مباشر بطبيعة البيانات لأن حجم العينة ، والتحيز في أنواع العينات البيئية يمكن أن يؤثر بشكل مباشر على تكوين النمط الجيني. وبغض النظر عن ذلك، فإن الاعتبار الرئيسي هو أن رسم خرائط محتوى الجينوم التبعي على الهيكل السكاني يسمح بتحديد المحددات الجينية المحتملة للتنويع الإيكولوجي، مثل الجينات التي تتجاوز المكانة أو تحدد المكانالمناسب 57،58،59.

وعلى الرغم من أن نصوص R المتاحة مصممة لأتمتة العمل الحالي، إلا أن جميع النصوص المقدمة ستحتاج إلى مزيد من التطوير لتصبح مكتبة علوم بيانات مجردة وقابلة للنشر، والتي يمكن أن تكون على سبيل المثال جزءا لا يتجزأ من خط أنابيب ProkEvo. ومع ذلك ، هناك بعض المزايا المحددة لاستخدام هذا النهج مثل استخدام مخطط التنميط الجيني أو التجميع من المستوى 1 من BAPS. تم تعريف وضع المجموعات الفرعية BAPS المستوى 1 أو الأنماط الفردية بين سلالات serovar و ST تجريبيا بناء على البنية الوراثية لسكان السالمونيلا ، ولكن يبدو أنه ينطبق على الأنواع الأخرى مثل Campylobacter jejuni و Staphylococcus aureus20. علاوة على ذلك ، يلتقط BAPS1 بدقة علاقة الأجداد بين سلالات ST ويوفر نهجا قابلا للتطوير للتحليل التطوري ، خاصة عندما تكون التطبيقات الجينية محدودة20. وعلاوة على ذلك، فإن استخدام نهج متداخل لدراسة العلاقات الهرمية وأنماط التنويع يسهل تحديد النسب بين سلالات ST باستخدام المجموعات الفرعية BAPS1، وعبر متغيرات cgMLST باستخدام سلالات ST، والانتقال على التوالي من دقة النمط الجيني الأدنى إلى الأعلى في تقييم الهيكل السكاني. من المهم التأكيد مجددا على أن التوزيع الترددي لسلالات ST ومتغيرات cgMLST ، إذا تم استخلاصها من عينة تم جمعها بشكل منهجي ومدعومة إحصائيا ، يمكن أن تصبح بديلا عن اللياقة البيئية1،6،43. ونتيجة لذلك، من المرجح أن تحتوي سلالات ST السائدة ومتغيرات cgMLST على سمات جينومية فريدة قد تكون أساس الآلية البيولوجية لهيمنتها على السكان في تلك البيئة أو المضيف المحدد.

هنا ، تم استخدام مقياسين إحصائيين مستقلين لتقييم درجة نسلية السكان ، مما يسمح بفهم إضافي للتنوع الجيني للسكان ، مما قد يشير إلى حدوث تحيز العينة في الماضي ، أو اختناقات السكان ، أو تأثير المؤسس. على وجه الخصوص ، يمكن للتقييم اللاأدري للمجموعات الفرعية من مستويات BAPS 1-6 عبر سلالات ST تحسين فهم التنوع الجيني الذي لا يمكن حله عادة بمجرد النظر إلى مستوى متغير السالمونيلا cgMLST الناتج عن SISTR. وكما ذكر سابقا، يمكن رسم خرائط لميزات أخرى للجينوم الشامل على الهيكل السكاني ويتم إنشاء الملفات التي تحتوي على تكوين جين البلازميد والضراوة، بالإضافة إلى استخدام قواعد بيانات AMR الأخرى جنبا إلى جنب مع مجموعة بيانات الجينوم الشامل اللاأدري، تلقائيا بواسطة ProkEvo20. تجدر الإشارة إلى أن ProkEvo لا يسمح حاليا بالتفريق بين مواقع AMR الموجودة في الكروموسومات البكتيرية مقابل البلازميدات. ويمكن أيضا دمج البيانات الوصفية الإيكولوجية والوبائية بسهولة في هذا النهج التحليلي عن طريق دمج متغيرات أخرى في ملف .csv يحتوي على جميع المعلومات الجينومية. على وجه الخصوص ، يكمل العمل المعروض هنا على وجه التحديد استخدام المنصة الحسابية القابلة للتطوير والمحمولة ProkEvo ، والتي تم تصميمها لاستخدامها من قبل الباحثين الذين يركزون على تحليلات الجينوم السكانية الإرشادية التي تسهل استخراج البيانات وتخصيصها من قبل المستخدم. يمكن استخدام منصات أخرى للتنميط الجيني وتحليل بنية السكان و / أو رسم خرائط للجينومات الملحقة مثل Enterobase5 و PATRIC60 و BacWGSTdb61. هذه الأخيرة هي موارد ممتازة تسهل استخراج بيانات الجينوم للباحثين الذين لا يسعون إلى تخصيص واستخدام الحوسبة العنقودية للتحليل القابل للتطوير والمعقد. تم تصميم النهج التحليلي المعروض هنا خصيصا للباحثين الذين يرغبون في الحصول على المرونة اللازمة لإجراء تحليل الجينوم السكاني باستخدام نصوص قابلة للتكرار على أجهزتهم المحلية أو باستخدام منصة حسابية سحابية أو عالية الأداء.

وفي الختام، استهدفت المنصة التحليلية القائمة على R المقدمة في هذا العمل توفير دليل عملي لعلماء الأحياء الدقيقة وعلماء البيئة وعلماء الأوبئة بشأن كيفية: (أ) استخدام النهج المعتمدة على علم الوراثة لرسم خرائط للأنماط الجينية الهرمية؛ و (ب) استخدام النهج القائمة على علم الوراثة في مجال علم الأحياء الدقيقة؛ و (ج) استخدام النهج القائمة على علم الوراثة في مجال علم السلالات لرسم خرائط الأنماط الجينية الهرمية؛ و (ب) استخدام النهج القائمة على علم الوراثة في مجال علم الوراثة الهرمية؛ و (ج) استخدام النهج القائمة على علم الوراثة في مجال علم الوراثة الهرمية؛ و (ج) استخدام النهج القائمة على علم الوراثة في مجال علم السلالات لرسم خرائط الأنماط الجينية الهرمية؛ و (ج) استخدام النهج المعتمدة على علم الوراثة ب) تقييم التوزيع الترددي للأنماط الجينية كبديل لتقييم اللياقة البيئية ؛ ج) تحديد درجات النسب الخاصة بالنسب باستخدام مناهج إحصائية مستقلة؛ ورابعا) رسم خريطة لمواقع مقاومة مضادات الميكروبات التي تميز النسب كمثال على كيفية استخراج المحتوى الجينومي التبعي في سياق التركيب السكاني. يمكن استخدام البرامج النصية المقدمة هنا إما على جهاز محلي أو منصة حسابية عالية الأداء. بالنسبة لعلماء الأحياء الدقيقة التجريبية والبيئية ، يسهل هذا النهج دراسات مجموعات البيانات التي تهدف إلى تحديد السمات الفريدة والمسارات المرشحة لمزيد من الدراسات الميكانيكية التي يمكن في النهاية وضعها في سياقها على مستوى السكان. يمكن لعلماء البيئة الاستفادة من هذا النهج من خلال القدرة على تحليل مجموعات البيانات المتوسطة إلى الكبيرة ، والتي من الناحية النظرية ، تزيد من القوة الإحصائية اللازمة للعثور على توقيعات الاختيار في السكان مع النظر في علاقات القرابة وأنماط التنويع. وأخيرا، يمكن لعلماء الأوبئة تسخير معلومات عملية فريدة من نوعها للتشخيص والترصد من خلال تحديد وحدات النمط الوراثي ذات الأهمية والتنبؤ بالسمات المرتبطة بالصحة العمومية مثل مقاومة مضادات الميكروبات. وعلى نطاق أوسع، توفر هذه الإرشادات التحليلية إطارا قابلا للتعميم لاستخدام بروكيفو لإجراء تحليل جينومي قائم على السكان يمكن استخدامه لاستنتاج الأنماط التطورية والإيكولوجية للأنواع المسببة للأمراض وغير المسببة للأمراض لأن النهج قابل للتعميم على الأنواع البكتيرية الأخرى.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

وقد أعلن صاحبا البلاغ أنه لا توجد مصالح متنافسة.

Acknowledgments

وقد تم دعم هذا العمل من خلال التمويل المقدم من شعبة البحوث الزراعية UNL-IANR والمعهد الوطني لبحوث مقاومة مضادات الميكروبات والتعليم ومن مركز نبراسكا للأغذية من أجل الصحة في إدارة علوم وتكنولوجيا الأغذية (UNL). لا يمكن إكمال هذا البحث إلا من خلال استخدام مركز هولندا للحوسبة (HCC) في UNL ، والذي يتلقى الدعم من مبادرة نبراسكا للأبحاث. نحن ممتنون أيضا لتمكننا من الوصول ، من خلال HCC ، إلى الموارد التي توفرها شبكة العلوم المفتوحة (OSG) ، والتي تدعمها المؤسسة الوطنية للعلوم ومكتب العلوم التابع لوزارة الطاقة الأمريكية. استخدم هذا العمل برنامج Pegasus لإدارة سير العمل الذي تموله المؤسسة الوطنية للعلوم (منحة #1664162).

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

علم الوراثة ، العدد 178 ،
التعدين الإرشادي للأنماط الجينية الهرمية ومواقع الجينوم الملحقة في المجموعات البكتيرية
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter