בניגוד DNA רצף נתונים, נתונים epigenomic לא ברצון נתון את החיפושים מבוססי טקסט. להלן מוצגות ההליכים להשתמש גרסה משודרגת של GeNemo, כלי מבוסס-אינטרנט ביואינפורמטיקה, לערוך חיפושים המבוססת על תבניות עבור קווי דמיון בין נתונים epigenomic השוואת זמין למאגרי מידע מקוונים כולל האנציקלופדיה של ה-DNA אלמנטים עם הנתונים של המשתמש.
לעומת כלי החיפוש מבוססי טקסט חזקים עבור גנומית או RNA רצף נתונים, מתודולוגיות הנוכחי לחיפושים המבוססת על תבניות של epigenomic ונתונים גנומית פונקציונליים אחרים מוגבלים מאוד. GeNemo הוא כלי חיפוש מקוון הראשון המבצעת את המטרה הזו. משתמשים קלט הנתונים גנומית הפונקציונלית שלהם הדפדפן להרחבה נתונים (מיטה), פסגות ותבניות אישיות חשובה, אולי לחפש נתונים בכל אחת מהתבניות. משתמשים עשוי לציין אילו סוגי נתונים (datasets) כדי לחפש נגד, בחירה מתוך מגוון רחב של datasets באינטרנט, עם האנציקלופדיה של ה-DNA אלמנטים (קידוד) המייצג סימני epigenomic שונים, גנים ברמת השעתוק גורם מחייב אתרי כרומטין hypersensitivities או accessibilities סוגי תאים ספציפיים, ו בשלבים התפתחותיים או מינים (עכבר או האדם). GeNemo מחזירה רשימה של אזורים גנומית עם התאמת דפוסי נתוני הקלט, אשר עשוי להיות המוצגת בדפדפן כמו גם הורדת בתבנית הקובץ של המיטה. GeNemo משודרג השתפרה תצוגה גרפית, יש ממשק עמידים יותר, הוא כבר לא מועדת לשגיאות עקב שינויים ב אוניברסיטת קליפורניה, סנטה קרוז (UCSC) הגנום דפדפן. שלבים לפתרון בעיות עבור בעיות נפוצות נידונות. ככל שכמות הנתונים גנומית פונקציונלי מרחיבה באופן אקספוננציאלי, יש צורך קריטי ושתומכות bioinformatic כלים חדשים כגון GeNemo נתונים ניתוח ופרשנות.
ההתקדמות הטכנולוגית האחרונות איפשרו עבור ההתרחבות המהירה של epigenomic או depositories נתונים גנומית פונקציונלי, אשר יש outpaced הפיתוח של כלים אנליטיים הרלוונטיים כדי לחלץ תובנות ביולוגי. דרך חשובה אחת כדי לנתח נתונים epigenomic היא חיפוש נתונים שנוצרו על-ידי המשתמש נגד נתונים depositories, במיוחד אלה של הפרויקטים1 האנציקלופדיה של ה-DNA אלמנטים (קידוד) עבור התאמת דפוסי שיכול להוביל לידע חדש. למשל, זיהוי דמיון בתבניות של שני סימני epigenomic שונים-לוקוסים מוגדר ברחבי הגנום עשוי להצביע על פעולה מתואמת על ידי שחקנים שונים מולקולרית כרומטין קונפורמציה, תעתיק בתקנה2 ,3,4.
מנועי חיפוש מבוססי טקסט רגיל אינם יעילים בהקשר זה כי, בניגוד רצף ה-DNA, epigenomic נתונים בעיקר קיים בתבנית של עוצמות או אזורים גנומית פונקציונלי. GeNemo, עומד כבר נמו ג’ין (כמו מוצאים את נמו), פותחה כדי לטפל זה צורך באמצעות חיפושים דפוס מבוססי5. אלגוריתם שלה מנצל תהליך למיקסום מרקוב מונטה קרלו שרשרת5. משתמשים את הנתונים שברשותם או dataset שהורדו מ- depositories וחיפוש מערך נתוני epigenomic מקוון כדי לזהות קווי דמיון בין דפוסים.
הגירסה הנוכחית של GeNemo של התצוגה מעודכן, ממשקים יותר robustly עם אוניברסיטת קליפורניה, סנטה קרוז (UCSC) הגנום דפדפן6, ונמצא פחות רגישים בעיות שנגרמות על ידי שינויים בחודש האחרון. בפרט, בעוד דף תוצאות של GeNemo להשתמש כדי להתבסס על ממשק הדפדפן UCSC הגנום, הגירסה הנוכחית של GeNemo תומכת משלו עמוד התוצאות, כתוצאה מכך הוא כבר לא מושפעת משערי שינויים מבניים לדפדפן הגנום UCSC. GeNemo ניתן להשתמש כל אות גנומית, כולל מחייב חלבון, שינוי היסטון, נגישות כרומטין, תחומים טופולוגי, וכן הלאה, כשאילתה למצוא קטעים colocalized/דומה בין ערכות נתונים ידועים קונסורציומים גדולים. לכן, זה כלי חשוב ללמוד את הקשר בין נתונים שונים epigenomic עניין נתונים ידועים שנוצר פרויקטים בקנה מידה גדול גנומית.
הבנה מעמיקה epigenome נדרש כדי להשיג את מלוא הפוטנציאל של רצף הגנום האנושי במתן תובנות ביולוגי חדש8. כיום ישנם רק דרכי החיפוש באינטרנט epigenomic datasets באמצעות תיאור הנתונים שלהם כותרת (קרי, מטה-נתונים)1. זה קשות מגביל את סוגי חיפוש אחד יכול לעשות עם הנתונים epigenomic. כלי חיפוש מבוסס תבנית עבור epigenomic נתונים חיוניים עבור חקר את הקשר בין סימוני epigenomic שונים, דבר שעלול להוביל תובנות חדשות ביולוגיות. GeNemo, אשר החיפושים לפי התוכן של נתונים, לא מטא-נתונים, הוא השירות הראשון מסוגו כדי להשוות בין דפוסים epigenomic נתונים שפורסמו depositories כגון קידוד מסד הנתונים עם הנוצרים על-ידי המשתמש או הורדת הנתונים (dataset)5. זה מסמן את תחילת הזמינות של כלי חיפוש epigenomic שנגיש נרחב חוקרים ברחבי העולם בדיוק כמו כלי חיפוש מבוססי טקסט רצף הפך לנפוץ בשנות ה-90. כיום, ישנם אין חלופות עבור כלי מבוסס תבנית חיפוש מקוון עבור epigenomic נתונים שאינם GeNemo.
דוגמה אחת פוטנציאליים של שימוש GeNemo היא לחפש את השינויים היסטון הופעה משותפת וסימוני epigenetic נוספים עם הגורם תעתיק E2F6 תאי גזע עובריים (קובץ אות איגוד דוגמה E2F6 זמין על קידוד הנתונים בפורטל או https://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.bed). באמצעות קובץ זה כמו שאילתת חיפוש נגד כל datasets קידוד ב- H1-hESC, GeNemo יראה כי האות איגוד E2F6 בכבדות מועשר H3K4me1, H3K4me2, H3K4me3 ו H3K27me3, אשר מסכים עם קיימים מחקרים המראים כי E2F6 מסדיר כמה גנים דרך מתילציה של H3K279. מצד שני, נראה שיש colocalization של אתרי קישור E2F6 ו CtBP2, אשר ידוע לקיים אינטראקציה עם גורם באותו המשפחה, E2F710. אלה תוצאות הגנום כולו כנגד מספר רב של סימני epigenetic, גנים ברמת השעתוק גורם מחייב אותות אותות אחרים הכלולים קדד ניתן להשיג די בקלות עם GeNemo, אשר יכול לספק כל מטרות פוטנציאליות לצורך ניתוח נוסף.
מאז הראשון פרסום5 של GeNemo ככלי חיפוש נתונים מבוססי-אינטרנט epigenomic, המקטע תוצאות של GeNemo עודכן כדי לקבל מראה תואם עם עמוד השער של GeNemo. החלק הישן של תוצאות באופן הדוק שיקוף המקטע תוצאות UCSC דפדפן הגנום, היה תלויה בעיקר השרת המרוחק UCSC לתצוגה. עם הממשק החדש, GeNemo הוא ידידותי יותר, כבר לא תלוי בשרת הגנום UCSC (למרות הנתונים עדיין הובאו מרחוק). פעולה זו הופכת GeNemo יותר חזקים ופחות פגיעים לבעיות עקב שינויים בקוד בשרת UCSC. יתר על כן, ממשק חדש, מהיר פולימר של GeNemo נותן למשתמש יותר כלים כדי להמחיש ולנתח דפוסים בנתונים.
שלבים קריטיים כוללים מתן קובץ הקלט המתאים, בחירת מסלולים הנתונים לחיפוש נגד. מומלץ להתנסות שונים משתמשים במסלול פונקציות בחירה כדי להכיר תהליך הבחירה והפקודות כמה שונה יכול להיות משולב על מנת להשיג את התוצאה המיועד. בפרט, שימו לב כי הפונקציה ‘הוסף’ דרוש כדי להוסיף רצועות הרצוי נבחר לשאילתה, בעוד “לסנן” או “אל תכלול” יכול לשמש ההיגיון שער פקודות “AND” ו “או”, בהתאמה. הפונקציה “עדכון” נדרשת כדי להשפיע על כל הבחירות לפני ביצוע החיפוש. כאשר לא מוחזרות תוצאות, משתמש עשוי לבדוק את קובץ נתוני הקלט, חפש מסלולים נוספים או להגדיל את טווח החיפוש. בכל פעם שיש שגיאה, יהיה חלון צצים מגדיר מהו בדיוק השגיאה. יש כמה טעויות רב-משמעי, למרות זאת. לדוגמה, כאשר החלון אומר כי ‘אין קובץ הועלה’, או אין קובץ הועלה, או הקובץ שהועלה לא היה של תבנית מקובלת, כתוצאה מכך, התוכנית לא היתה אפשרות לקרוא את זה בצורה נכונה. תבניות קובץ מקובל עבור העלאת קובץ כוללים מיטה ושל פסגות קובץ תבנית עבור שיטות להעלות הן אישיות חשובה להעלאה קישור מקוון בלבד. גרסאות מכווצות תבניות קבצים אלה מקובלים גם.
מגבלות הנוכחי של גישה זו כוללים את האלגוריתמים עדיין ללהיות-אופטימיזציה פונקציות המועסקים ב- GeNemo. GeNemo עדיין אינו יכול לספק כל הנחיות על הפירוש. של כל datasets חזר. משימה זו הוא המשתמשים, מה שדורש ידע משמעותי ומומחיות בביולוגיה של הגנום של epigenome. בנוסף, עוד מגבלה הנוכחי הוא למשתמשים אפשרות לשנות את רגישות ורמת הרעש של החיפושים. אנו מצפים להמשיך לשפר ולהרחיב את GeNemo על דפוס שלו חיפוש יכולות ואיסוף נתונים (dataset) בעתיד.
The authors have nothing to disclose.
עבודה זו נתמכה על ידי NIH מעניקה כולל DP1HD087990 מ NICHD, R01HG008135 מן NHGRI. אנו מודים חברי המעבדה Zhong למשוב יקרי ערך.
תרומות מחבר:
X.C., A.T.Z. מתעדכנת GeNemo על-ידי קידוד ממשק חדש ותכונות; A.T.Z. הפיק את הווידאו שבאתר מדגם; A.T.Z., X.C, ש ז כתב העיתון.