Biology

Iboende Dynamics Visualizer, et interaktivt program for evaluering og visualisering av utdata fra en datasamlebånd for genregulatoriske nettverk

Published: December 7, 2021 doi: 10.3791/63084

Robert C. Moseley¹, Sophia Campione¹, Bree Cummins², Francis Motta³, Steven B. Haase¹

¹Department of Biology, Duke University, ²Department of Mathematical Sciences, Montana State University, ³Department of Mathematical Sciences, Florida Atlantic University

Summary

Inherent Dynamics Visualizer er en interaktiv visualiseringspakke som kobles til et genregulatoriske nettverksinnledningsverktøy for forbedret, strømlinjeformet generering av funksjonelle nettverksmodeller. Visualisatoren kan brukes til å ta mer informerte beslutninger for å parameterisere inferensverktøyet, og dermed øke tilliten til de resulterende modellene.

Abstract

Utvikling av genregulatoriske nettverksmodeller er en stor utfordring i systembiologi. Flere beregningsverktøy og rørledninger er utviklet for å takle denne utfordringen, inkludert den nyutviklede Inherent Dynamics Pipeline. Inherent Dynamics Pipeline består av flere tidligere publiserte verktøy som fungerer synergistisk og er koblet sammen på en lineær måte, der utdataene for ett verktøy deretter brukes som inndata for følgende verktøy. På samme måte som med de fleste beregningsteknikker, krever hvert trinn i Inherent Dynamics Pipeline at brukeren tar valg om parametere som ikke har en nøyaktig biologisk definisjon. Disse valgene kan ha stor innvirkning på genregulatoriske nettverksmodeller produsert av analysen. Av denne grunn kan evnen til å visualisere og utforske konsekvensene av ulike parametervalg på hvert trinn bidra til å øke tilliten til valgene og resultatene. Inherent Dynamics Visualizer er en omfattende visualiseringspakke som effektiviserer prosessen med å evaluere parametervalg gjennom et interaktivt grensesnitt i en nettleser. Brukeren kan undersøke utdataene for hvert trinn i datasamlebåndet separat, gjøre intuitive endringer basert på visuell informasjon og dra nytte av automatisk produksjon av nødvendige inndatafiler for Inherent Dynamics Pipeline. Inherent Dynamics Visualizer gir et enestående tilgangsnivå til et svært intrikat verktøy for oppdagelsen av genregulatoriske nettverk fra tidsserietranskrimiske data.

Introduction

Mange viktige biologiske prosesser, som celledifferensiering og miljørespons, styres av sett med gener som samhandler med hverandre i et genregulatorisk nettverk (GRN). Disse GRN-ene produserer transkripsjonsdynamikken som trengs for å aktivere og vedlikeholde fenotypen de kontrollerer, så identifisering av komponentene og topologisk struktur av GRN er nøkkelen til å forstå mange biologiske prosesser og funksjoner. Et GRN kan modelleres som et sett med interagerende gener og/eller genprodukter beskrevet av et nettverk hvis noder er genene, og hvis kanter beskriver retningen og formen for interaksjon (f.eks. aktivering/undertrykkelse av transkripsjon, postoversettelsesendring osv.) ¹. Interaksjoner kan deretter uttrykkes som parameteriserte matematiske modeller som beskriver hvilken innvirkning et regulerende gen har på produksjonen av målet (e) ^2,3,4. Slutning av en GRN-modell krever både en slutning av strukturen i samhandlingsnettverket og estimering av de underliggende samhandlingsparametrene. Det er utviklet en rekke beregningsmetoder for inferens som inntar tidsserier med genuttrykksdata og utdata fra GRN-modeller5. Nylig ble det utviklet en ny GRN-inferensmetode, kalt Inherent Dynamics Pipeline (IDP), som bruker genuttrykksdata for tidsserier til å produsere GRN-modeller med merkede regulatoriske målinteraksjoner som er i stand til å produsere dynamikk som samsvarer med den observerte dynamikken i genuttrykksdataene6. IDP er en pakke med verktøy koblet lineært inn i en rørledning og kan deles inn i tre trinn: et Node Finding-trinn som rangerer gener basert på genuttrykkskarakteristikker kjent eller mistenkt for å være relatert til funksjonen til ^GRN7,8, et Edge Finding-trinn som rangerer parvis regulatoriske ^relasjoner8^,⁹, og et trinn for nettverksfunn som produserer GRN-modeller som er i stand til å produsere den observerte dynamikken10,11,12,13,14,15.

På samme måte som de fleste beregningsmetoder krever IDP et sett med brukerangitte argumenter som dikterer hvordan inndata analyseres, og forskjellige sett med argumenter kan gi forskjellige resultater på de samme dataene. Flere metoder, inkludert IDP, inneholder for eksempel argumenter som bruker en viss terskel på dataene, og hvis du øker/reduserer denne terskelen mellom etterfølgende kjøringer av den bestemte metoden, kan det føre til ulike resultater mellom kjøringer (se Supplement Note 10: Network inference methods ^of5). Å forstå hvordan hvert argument kan påvirke analysen og påfølgende resultater er viktig for å oppnå høy tillit til resultatene. I motsetning til de fleste GRN-slutningsmetoder består IDP av flere beregningsverktøy, som hver har sitt eget sett med argumenter som en bruker må angi, og som hver har sine egne resultater. Mens IDP gir omfattende dokumentasjon om hvordan man parameteriserer hvert verktøy, gjør gjensidig avhengighet av hvert verktøy på utgangen av forrige trinn parameterisering av hele rørledningen uten mellomliggende analyser utfordrende. For eksempel vil argumenter i Edge- og Network Finding-trinnene sannsynligvis bli informert av tidligere biologisk kunnskap, og det vil også avhenge av datasettet og / eller organismen. For å forhøre mellomliggende resultater, ville det være nødvendig med en grunnleggende forståelse av programmering, samt en dyp forståelse av alle resultatfilene og innholdet fra IDP.

Idv (Inherent Dynamics Visualizer) er en interaktiv visualiseringspakke som kjører i en brukers nettleservindu, og som gjør det mulig for brukere av IDP å vurdere virkningen av argumentvalgene på resultater fra et hvilket som helst trinn i IDP. IDV navigerer i en komplisert katalogstruktur produsert av IDP og samler de nødvendige dataene for hvert trinn og presenterer dataene i intuitive og interaktive figurer og tabeller som brukeren kan utforske. Etter å ha utforsket disse interaktive skjermene, kan brukeren produsere nye data fra et IDP-trinn som kan baseres på mer informerte beslutninger. Disse nye dataene kan deretter umiddelbart brukes i neste respektive trinn i IDP. I tillegg kan utforskning av dataene bidra til å avgjøre om et IDP-trinn skal kjøres på nytt med justerte parametere. IDV kan forbedre bruken av IDP, samt gjøre bruken av IDP mer intuitiv og tilgjengelig, som demonstrert ved å undersøke kjerneoscillatoren GRN i gjærcellesyklusen. Følgende protokoll inkluderer IDP-resultater fra en fullstendig parameterisert IDP-kjøring kontra en tilnærming som inkorporerer IDV etter kjøringer av hvert IDP-trinn, det vil si Node, Edge og Network Finding.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Installer IDP og IDV

MERK: Denne delen forutsetter at docker, conda, pip og git allerede er installert (Tabell over materialer).

I en terminal skriver du inn kommandoen: git klone https://gitlab.com/biochron/inherent_dynamics_pipeline.git.
Følg installasjonsinstruksjonene i IDP-viktig-filen.
I en terminal skriver du inn kommandoen: git klone https://gitlab.com/bertfordley/inherent_dynamics_visualizer.git.
MERK: Kloning av IDV skal skje utenfor IDP's toppnivåkatalog.
Følg installasjonsinstruksjonene i VIKTIG-filen for IDV.

2. Nodefunn

Opprett en ny IDP-konfigurasjonsfil som parametrizes Node Finding trinnet.
MERK: Alle anførselstegn i følgende trinn bør ikke skrives ut. Anførselstegnene brukes bare her som skilletegn mellom protokollteksten og det som skal skrives ut.
1. Legg til hovedargumentene for IDP i konfigurasjonsfilen.
2. Åpne en ny tekstfil i et tekstredigeringsprogram, og skriv inn "data_file =", "annotation_file =", "output_dir =", "num_proc =" og "IDVconnection = True" på enkeltlinjer.
3. For "data_file", etter likhetstegnet, skriver du inn banen til og navnet på den respektive tidsseriefilen og skriver inn et komma etter navnet. Skill hver data med et komma hvis mer enn ett datasett for tidsserier brukes. Se Tilleggsfil 1 og Tilleggsfil 2 for et eksempel på tidsserie genuttrykksfiler.
4. Skriv inn banen til og navnet på merknadsfilen for "annotation_file", etter likhetstegnet. Se Tilleggsfil 3 hvis du vil se et eksempel på en merknadsfil.
5. For "output_file", etter likhetstegnet, skriver du inn banen til og navnet på mappen der resultatene skal lagres.
6. Etter likhetstegnet, for "num_proc", skriver du inn antall prosesser IDP skal bruke.
7. Legg til nodefinningsargumenter i konfigurasjonsfilen.
8. I samme tekstfil som i trinn 2.1.1 skriver du inn rekkefølgen som vises "[dlxjtk_arguments]", "punktum =" og "dlxjtk_cutoff =" på enkeltlinjer. Plasser disse etter hovedargumentene.
9. Hvis datasettet for engangsserier brukes for punktum etter likhetstegnet, skriver du inn hver periodelengde atskilt med komma. Hvis du vil ha mer enn ett datasett for tidsserier, skriver du inn hvert sett med periodelengder som før, men plasserer hakeparenteser rundt hvert sett og plasserer et komma mellom settene.
10. Etter likhetstegnet, for "dlxjtk_cutoff", skriver du inn et heltall som angir maksimalt antall gener som skal beholdes i gene_list_file utgang av de Lichtenberg ved JTK_CYCLE (DLxJTK) (tabell 1).
  MERK: Det anbefales på det sterkeste å gjennomgå de dlxjtk_arguments seksjonene i IDP README for å få en bedre forståelse av hvert argument. Se Tilleggsfil 4 hvis du vil se et eksempel på en konfigurasjonsfil med de angitte nodefinningsargumentene.
Flytt inn i IDP-katalogen, kalt inherent_dynamics_pipeline, i terminalen.
I terminalen skriver du inn kommandoen: conda activate dat2net
Kjør IDP ved hjelp av konfigurasjonsfilen som ble opprettet i trinn 2.1, ved å kjøre denne kommandoen i terminalen, der er navnet på filen: python src/dat2net.py
I terminalen flytter du til katalogen med navnet inherent_dynamics_visualizer og skriver inn kommandoen: . /viz_results.sh
MERK: vil peke på katalogen som brukes som utdatakatalog for IDP.
Skriv inn http://localhost:8050/ som URL-adresse i en nettleser.
Når IDV nå er åpen i nettleseren, klikker du på kategorien Nodesøk og velger nodesøkemappen av interesse fra rullegardinmenyen.
Kurater manuelt en ny genliste fra genlistetabellen i IDV som skal brukes til påfølgende IDP-trinn.
1. Hvis du vil utvide eller forkorte genlistetabellen, klikker du på pil opp eller pil ned eller skriver inn manuelt i et heltall mellom 1 og 50 i boksen ved siden av Genuttrykk for DLxJTK-rangerte gener. Øverst:.
2. I genlistetabellen klikker du på boksen ved siden av et gen for å se genuttrykksprofilen i en linjegraf. Flere gener kan tilsettes.
3. Du kan eventuelt angi antall beholdere med lik størrelse for å beregne og bestille gener etter tidsintervallet som inneholder topputtrykket, ved å skrive inn et heltall i inndataboksen over genlistetabellen kalt Inndata heltall for å dele den første syklusen inn i hyller:.
  MERK: Dette alternativet er spesifikt for oscillatorisk dynamikk og gjelder kanskje ikke for andre typer dynamikk.
4. Velg en innstilling for varmekartvisning ved å klikke på et alternativ under Bestill gener etter: First Cycle Max Expression (tabell 1) som bestiller gener basert på tidspunktet for genuttrykkstoppen i den første syklusen.
  MERK: DLxJTK Rank bestiller gener basert på periodicitetsrangeringen fra DLxJTK-algoritmen til IDP.
5. Klikk på Last ned Gene List-knappen for å laste ned genlisten til filformatet som trengs for Edge Finding-trinnet. Se Tilleggsfil 5 for et eksempel på en genlistefil.
I tabellen Redigerbar genmerknad merker du et gen som et mål, en regulator eller begge deler i merknadsfilen for Edge Finding-trinnet i et nytt Edge Finding-løp. Hvis et gen er en regulator, merker du genet som en aktivator, undertrykker eller begge deler.
1. Hvis du vil merke et gen som en aktivator, klikker du cellen i kolonnen tf_act og endrer verdien til 1. Hvis du vil merke et gen som en repressor, endrer du verdien i kolonnen tf_rep til 1. Et gen vil få lov til å fungere som både en aktivator og en undertrykker i Edge Finding-trinnet ved å sette verdiene i både tf_act og tf_rep kolonnene til 1.
2. Hvis du vil merke et gen som et mål, klikker du cellen i målkolonnen og endrer verdien til 1.
Klikk på Last ned Annot. File-knappen for å laste ned merknadsfilen til filformatet som trengs for Edge Finding-trinnet.

3. Kantfunn

Opprett en ny IDP-konfigurasjonsfil som parametrizes Edge Finding trinnet.
1. Legg til hovedargumentene for IDP i konfigurasjonsfilen. Åpne en ny tekstfil i et tekstredigeringsprogram, og gjenta trinn 2.1.1.
2. Legg til Edge Finding-argumenter i konfigurasjonsfilen.
3. I samme tekstfil som i trinn 3.1.1 skriver du inn rekkefølgen som vises "[lempy_arguments]", "gene_list_file =", "[netgen_arguments]", "edge_score_column =", "edge_score_thresho =", "num_edges_for_list =", "seed_threshold =" og "num_edges_for_seed =" på enkeltlinjer. Disse bør gå under hovedargumentene.
4. For "gene_list_file", etter likhetstegnet, skriver du inn banen til og navnet på genlistefilen som ble generert i trinn 2.8.5.
5. For "edge_score_column", etter likhetstegnet, skriver du inn enten "pld" eller "norm_loss" for å angi hvilken datarammekolonne fra lempy-utdataene som brukes til å filtrere kantene.
6. Velg enten "edge_score_threshold" eller "num_edges_for_list", og slett den andre. Hvis "edge_score_threshold" ble valgt, skriver du inn et tall mellom 0 og 1. Dette tallet brukes til å filtrere kanter basert på kolonnen som er angitt i trinn 3.1.5.
  1. Hvis "num_edges_for_list" ble valgt, angir du en verdi som er lik eller mindre enn antall mulige kanter. Dette tallet brukes til å filtrere kantene basert på hvordan de rangeres i kolonnen som er angitt i trinn 3.1.5. Kantene som er igjen, brukes til å bygge nettverk i Nettverks søk.
7. Velg enten "seed_threshold" eller "num_edges_for_seed" og slett den andre. Hvis "seed_threshold" ble valgt, skriver du inn et tall mellom 0 og 1. Dette tallet brukes til å filtrere kanter basert på kolonnen som er angitt i trinn 3.1.5.
  1. Hvis "num_edges_for_seed" ble valgt, angir du en verdi som er lik eller mindre enn antall mulige kanter. Dette tallet brukes til å filtrere kantene basert på hvordan de rangeres i kolonnen som er angitt i trinn 3.1.5. Kantene som er igjen, brukes til å bygge frønettverket (tabell 1) som brukes i Nettverksfunn.
    MERK: Det anbefales på det sterkeste å gjennomgå lempy_arguments og netgen_arguments seksjonene i IDP README for å få en bedre forståelse av hvert argument. Se Tilleggsfil 7 hvis du vil se et eksempel på en konfigurasjonsfil der edge-søkeargumentene er angitt.
Gjenta trinn 2.2 og 2.3.
Kjør IDP ved hjelp av konfigurasjonsfilen som ble opprettet i trinn 3.1, ved å kjøre denne kommandoen i terminalen, der er navnet på filen: python src/dat2net.py
Hvis IDV fortsatt kjører, stopper du den ved å trykke på Kontroll C i terminalvinduet for å stoppe programmet. Gjenta trinn 2.5 og 2.6.
Når IDV-en er åpen i nettleseren, klikker du på Edge Finding-fanen og velger den kantsøkende mappen av interesse fra rullegardinmenyen.
MERK: Hvis flere datasett brukes i Edge Finding, må du sørge for å velge det siste datasettet som ble brukt i LEM-analysen (Local Edge Machine) (tabell 1). Det er viktig når du velger kanter for frønettverket eller kantlisten basert på LEM-resultater for å se på siste gang seriedata som er oppført i konfigurasjonsfilen, da disse utdataene inneholder alle tidligere datafiler i sin slutning av regulatoriske relasjoner mellom noder.
Hvis du vil utvide eller forkorte kanttabellen, skriver du inn et heltall manuelt i inndataboksen under Antall kanter:.
Du kan eventuelt filtrere kanter på LEM ODE-parameterne. Klikk og dra for å flytte enten venstre eller høyre side av skyvekontrollen for hver parameter for å fjerne kanter fra kanttabellen som har parametere utenfor de nye tillatte parametergrensene.
Du kan eventuelt opprette et nytt frønettverk hvis et annet frønettverk er ønsket enn det som foreslås av IDP. Se Tilleggsfil 8 hvis du vil se et eksempel på en frønettverksfil.
1. Velg enten Fra frø for å velge frønettverket eller Fra utvalg på rullegardinmenyen under Nettverk:.
2. Fjern merket for/velg kanter fra kanttabellen ved å klikke de tilsvarende avmerkingsboksene ved siden av hver kant for å fjerne/legge til kanter fra frønettverket.
Klikk på Last ned DSGRN NetSpec-knappen for å laste ned frønettverket i DSGRN-formatet (Dynamic Signatures Generated by Regulatory Networks) (tabell 1).
Velg flere noder og kanter som skal brukes i trinnet Nettverksfunn.
1. Velg kanter fra kanttabellen ved å klikke de tilsvarende avmerkingsboksene som skal inkluderes i kantlistefilen som brukes i Nettverks søk.
2. Klikk på Last ned node- og kantlister for å laste ned nodelisten og kantlistefilene i formatet som kreves for deres bruk i Network Finding. Se Tilleggsfil 9 og Tilleggsfil 10 for eksempler på henholdsvis kant- og nodelistefiler.
  MERK: Nodelisten må inneholde alle nodene i kantlistefilen, slik at IDV automatisk oppretter nodelistefilen basert på de valgte kantene. To alternativer er tilgjengelige for visning av kantene i Edge Finding. Alternativet Sammendragstabell for LEM presenterer kantene som en rangert liste over de 25 øverste kantene. Topplinjet LEM-tabell presenterer kantene i en sammenslått liste over de tre øverste rangerte kantene for hver mulige regulator. Antall kanter som vises for hvert alternativ, kan justeres av brukeren ved å endre tallet i boksen Antall kanter inndata .

4. Nettverksfunn

Opprett en ny IDP-konfigurasjonsfil som parametrizes nettverksfunnet trinn.
1. Legg til hovedargumentene for IDP i konfigurasjonsfilen. Åpne en ny tekstfil i et tekstredigeringsprogram, og gjenta trinn 2.1.1.
2. Legg til nettverksfunnargumenter i konfigurasjonsfilen.
3. I samme tekstfil som i trinn 4.1.1, skriv inn "[netper_arguments]", "edge_list_file =", "node_list_file =", "seed_net_file =", "range_operations =", "numneighbors =", "maxparams =", "[[sannsynligheter]]", "addNode =", "addEdge =", "removeNode =", og "removeEdge =" på enkeltlinjer, under hovedargumentene.
4. For "seed_net_file", "edge_list_file" og "node_list_file", etter likhetstegnet, skriver du inn banen til og navnet på frønettverksfilen og kant- og nodelistefilene som genereres i trinn 3.9 og 3.10.2.
5. Etter likhetstegnet skriver du inn to tall atskilt med komma for "range_operations". Det første og andre tallet er minimums- og maksimumstallet for tillegging eller fjerning av henholdsvis noder eller kanter per nettverk.
6. For "numneighbors", etter likhetstegnet, skriver du inn et tall som representerer hvor mange nettverk som skal finnes i Nettverkssøk.
7. For "maxparams", etter likhetstegnet, skriver du inn et tall som representerer maksimalt antall DSGRN-parametere som skal tillates for et nettverk.
8. Angi verdier mellom 0 og 1 for hvert av disse argumentene: "addNode", "addEdge", "removeNode" og "removeEdge", etter likhetstegnet. Tallene må summere til 1.
  MERK: Det anbefales på det sterkeste å gjennomgå netper_arguments og netquery_arguments seksjonene i IDP README for å få en bedre forståelse av hvert argument. Se Tilleggsfil 11 og Tilleggsfil 12 hvis du vil se eksempler på en konfigurasjonsfil med argumentene Nettverksfunn angitt.
Gjenta trinn 2.2 og 2.3.
Kjør IDP ved hjelp av konfigurasjonsfilen som ble opprettet i trinn 4.1, ved å kjøre denne kommandoen i terminalen, der er navnet på filen: python src/dat2net.py
Hvis IDV fortsatt kjører, stopper du den ved å trykke på Kontroll C i terminalvinduet for å stoppe programmet. Gjenta trinn 2.5 og 2.6.
Når IDV-en er åpen i nettleseren, klikker du på fanen Nettverkssøking og velger nettverkssøkemappen av interesse.
Velg et nettverk eller sett med nettverk for å generere en tabell over kantprevalens (tabell 1) og vise nettverkene sammen med de respektive spørringsresultatene.
1. To alternativer er tilgjengelige for valg av nettverk: Alternativ 1 - Inndata nedre og øvre grense for spørringsresultater ved å legge inn minimums- og maksimumsverdier i inndataboksene som tilsvarer x-aksen og y-aksen for plottet. Alternativ 2 – Klikk og dra over scatterploten for å tegne en boks rundt nettverkene som skal inkluderes. Når du har angitt valg- eller inndatagrenser, trykker du på knappen Hent kantprevalens fra valgte nettverk .
  MERK: Hvis mer enn én DSGRN-spørring ble angitt, bruker du alternativknappene merket med spørringstypen til å bytte mellom resultatene av hver spørring. Det samme gjelder hvis mer enn én epsilon (støynivå) ble angitt.
Klikk pilene under kantprevalenstabellen for å gå til neste side i tabellen. Trykk Last ned tabell for å laste ned tabellen over kantprevalens.
Skriv inn et heltall i boksen Inndata for nettverksindeks for å vise ett enkelt nettverk fra valget som ble gjort i trinn 4.6. Klikk på Last ned DSGRN NetSpec for å laste ned det viste nettverket i DSGRN-nettverksspesifikasjonsformatet.
Søk i nettverk etter likhet med et spesifisert motiv eller nettverk av interesse.
1. Bruk avmerkingsboksene som tilsvarer hver kant, til å velge kanter som skal inkluderes i nettverket eller motivet som brukes til likhetsanalysen. Klikk på Send for å lage likhetsspredningen for det valgte motivet eller nettverket.
  MERK: Bruk pilene i kantlisten til å sortere alfabetisk og pilene under tabellen for å gå til neste side i tabellen.
2. Klikk og dra over scatterploten for å tegne en boks rundt nettverkene som skal inkluderes, for å velge et nettverk eller et sett med nettverk for å generere en kantprevalenstabell og vise nettverkene sammen med de respektive spørringsresultatene.
  MERK: Hvis mer enn én DSGRN-spørring ble angitt, bruker du alternativknappene merket med spørringstypen til å bytte mellom resultatene av hver spørring. Det samme gjelder hvis mer enn én epsilon (støynivå) ble angitt.
3. Gjenta trinn 4.7 og 4.8 for å laste ned henholdsvis edge prevalence-tabellen og det viste nettverket for likhetsanalysen.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Trinnene beskrevet tekstlig over og grafisk i figur 1 ble brukt på kjernen oscillerende GRN av gjærcellesyklusen for å se om det er mulig å oppdage funksjonelle GRN-modeller som er i stand til å produsere dynamikken observert i tidsserie genuttrykksdata samlet inn i en gjærcellesyklusstudie16. For å illustrere hvordan IDV kan avklare og forbedre IDP-produksjonen, ble resultatene, etter å ha utført denne analysen på to måter, sammenlignet: 1) som kjører alle trinnene i IDP i ett pass uten IDV og 2) som går gjennom IDP ved hjelp av IDV, noe som gjør det mulig å justere mellomliggende resultater både ved å innlemme tidligere biologisk kunnskap og ved å gjøre raffinerte valg basert på IDP-utganger. Den godt studerte gjærcellesyklusen GRN brukt som eksempel har mange av sine regulatoriske forhold eksperimentelt verifisert. Hvis en annen og/eller mindre kommentert organisme eller biologisk prosess studeres, kan valgene for hvordan mellomliggende resultater eller parametere justeres være forskjellige. For å illustrere en type spørring som kan brukes til å vurdere nettverk, ble robustheten til hvert nettverk målt for å støtte stabile svingninger og matche den observerte transkripsjonsdynamikken til nodene på tvers av modellparametere.

Genuttrykk tidsseriedata av to replikeringsserier ble hentet fra Orlando ²⁰⁰⁸¹⁶ og forhåndsbehandlet for å fjerne ethvert genuttrykk knyttet til cellesyklussynkroniseringsmetoden som ble brukt i det opprinnelige eksperimentet (Supplemental File 1 og Supplemental File 2). En merknadsfil ble opprettet som inneholder alle genene i tidsseriedataene som støttes av både DNA-binding og uttrykksbevis som finnes i ^Yeastract17 og dermed kan fungere som regulator i et GRN. TOS4, PLM2 og NRM1 ble også inkludert som regulatorer, selv om de ikke ble funnet i Yeastract å ha begge typer bevis, fordi de antas å være viktige for gjærkjernen GRN basert på bevis i ^{litteraturen18,19} (Supplemental File 3). Alle regulatorer ble merket som både en aktivator og undertrykker samt mål.

IDP ble først parameterisert for å kjøre gjennom alle trinnene i IDP, det vil være Node, Edge og Network Finding. Et sett med argumenter ble valgt som virket passende basert på den nåværende forståelsen av gjærcellesyklusen GRN, et lite sett med gener som deltok i et sterkt tilkoblet nettverk (Supplemental File 4). Denne forståelsen påvirket for det meste node- og kantfinningsvalgene. Sannsynlighetsparametrene i Network Finding var basert på antagelsen om at bare sanne gener og regulatoriske interaksjoner ville bli overført til Network Finding. Denne fullstendig parameteriserte kjøringen av IDP ga resultater for Node- og Edge Finding (figur 2B,C), men i Nettverk det ble ikke oppdaget noen modell-tillatte nettverk (figur 2A,D). Modelltilgjengelighet er forklart i kodedokumentasjonen til pythonmodulen dsgrn_net_gen ¹⁴, en avhengighet av IDP. Kort sagt, nettverk som inneholder selvundertrykkende kanter eller har for mange innganger eller utganger på en enkelt node, kan ikke spørres av DSGRN-programvaren (tabell 1). IDP gir mange grunner til at modelladmissible nettverk kanskje ikke blir funnet, og beskriver feilsøkingstrinn for å løse problemet(e). I hovedsak innebærer dette å endre parametere og / eller inndatafiler og kjøre det respektive IDP-trinnet på nytt, og undersøke resultatene. IDV ble brukt til å gjøre denne prosessen mindre kjedelig og tidkrevende.

Nodesøkingsresultatene ble lastet inn i IDV for å undersøke genene som ble sendt til Edge Finding-trinnet i IDP. Nodene gitt av IDP er de øverste N-genene som er rangert av DLxJTK (tabell 1), N som spesifiseres av brukeren, men denne genlisten passer kanskje ikke for målet med analysen. Uten tidligere biologisk kunnskap returnerte automatisk valg av noder som bare brukte DLxJTK-skår et gen med begrenset bevis på en rolle i gjærcellesyklusen (RME1), mens noen få kjente cellesyklustranskripsjonsregulatorer ikke var høyt rangert (figur 2B). Yeastract eksperimentelle bevis ble brukt til å velge mellom de høyest rangerte genene av DLxJTK de med cellesyklusmerknad. Disse genene er SWI4, YOX1, YHP1, HCM1, FKH2, NDD1 og SWI5. Deres kjente regulatoriske forhold kan ses i figur 3. FKH2 vises ikke i de ti beste genene (dlxjtk_cutoff ble satt til ti i Supplemental File 4) rangert av DLxJTK, så genlisten ble utvidet ved hjelp av IDV til FKH2 ble funnet (figur 4). Flere av de ekstra genene i den utvidede genlisten er kjente kjernegener og ville blitt savnet uten å undersøke nodefunnresultatene. Mens mer kjente kjernegener har blitt funnet ved å utvide genlisten nedover DLxJTK-rangerte listen, ble fokuset holdt på genene av interesse. Derfor ble noen høytstående gener valgt bort, noe som resulterte i en genliste (Supplemental File 5) som inneholder syv gener (figur 4). En ny merknadsfil ble opprettet (Supplemental File 6) basert på disse syv genene, hvert gen ble merket som et mål, og regulatortypen ble spesifisert ved hjelp av Yeastract. Den nye genlisten og merknadsfilen ble lastet ned for senere bruk i neste IDP-trinn, Edge Finding. Uten IDV ville prosedyren for å legge til og fjerne gener fra genlisten og merknadsfilen kreve beskjedne kodingsferdigheter.

En ny IDP-konfigurasjonsfil ble parameterisert for bare Edge Finding-trinnet (Supplemental File 7), med den nye genlisten og merknadsfilen. Etter at IDP er fullført med den nye konfigurasjonsfilen, ble resultatene lastet inn i IDV (figur 5A). Etter hvert som trinnet Nettverkssøk søker stokastisk rundt nettverksplassen til frønettverket som leveres til det, kan det være viktig å tilby et godt frønettverk. Et godt frønettverk kan betraktes som et som inneholder sanne kanter. Med IDV og bruk av online databaser som Yeastract og Saccharomyces Genome Database (SGD)²⁰, kan frønettverket ses og justeres ved hjelp av regulatoriske relasjoner fra LEM (tabell 1) som har eksperimentelle bevis. Som et eksempel ble kanten YHP1 = tf_act(HCM1) deaktivert fordi det ikke er dokumentert bevis for dette forholdet (figur 5B) i Yeastract. Kanten SWI5 = tf_act(FKH2) ble lagt til da det er dokumentert bevis på dette ^forholdet21. Når frønettverket (tabell 1) var tilfredsstillende, ble DSGRN-nettverksspesifikasjonsfilen for nettverket lastet ned (tilleggsfil 8).

Uten IDV er det større sjanse for kanter som det ikke brukes eksperimentelle bevis for å konstruere frønettverket. Som det fremgår av figur 2C, inneholder frønettverket generert i Edge Finding-trinnet fra å kjøre IDP nonstop gjennom hvert trinn en kant, SWI4 = tf_rep(NDD1), som ikke støttes av eksperimentelle bevis i Yeastract, sannsynligvis fordi NDD1 er kjent for å være en transkripsjonsaktivator22. Denne informasjonen ble ikke kodet i merknadsfilen i non-stop-kjøringen, noe som gjorde det mulig for alle regulatorer å være både aktivatorer og undertrykkere.

Ved hjelp av IDV ble et frønettverk manuelt kuratert som er et delnettverk av figur 3, og de resterende fire kantene ble plassert i kantlisten som brukes til prøvetaking av nettverksplass (YHP1 = tf_act(SWI4), YOX1 = tf_act(SWI4), SWI4 = tf_rep(YOX1), SWI5 = tf_act(NDD1)). Valg av kanter basert på tidligere biologisk kunnskap kan også brukes til å bygge kantlisten; I dette tilfellet ble imidlertid de 20 øverste kantene fra visningen Sammendragstabell for LEM valgt (Tilleggsfil 9). Nodelistefilen opprettes automatisk fra de valgte kantene (Tilleggsfil 10). ODE-parametrene fra LEM kan også brukes til å filtrere kanter hvis man mener at de utledede parametrene i ODE-modellen ikke er biologisk realistiske, men denne informasjonen ble ikke brukt her.

Deretter ble en ny IDP-konfigurasjonsfil parameterisert for trinnet Nettverksfunn ved hjelp av de tre nye filene. Ettersom frønettverket ble opprettet med kanter godt støttet av eksperimentelle bevis, var inkluderingen av disse kantene i alle nettverk ønsket. Dermed ble nettverksfunnssannsynlighetene satt til å tillate tillegg, men ikke fjerning av noder og kanter (Tilleggsfil 11). Parameteren Network Finding numneighbors ble satt til å søke etter 2000 nettverk. Etter å ha kjørt IDP, ble det funnet 37 modelladmissible nettverk i trinnet Nettverksfunn, i motsetning til non-stop-kjøringen som hadde null. Ved å laste inn nettverksfunnresultatene i IDV hadde 64 % (24) av disse 37 nettverkene kapasitet til å svinge stabilt (figur 6A). Av disse 24 nettverkene var de beste utøverne to nettverk som matchet dataene ved 50% av deres stabilt oscillerende modellparametere (figur 6B).

Edge Prevalence Table (tabell 1) tabulerer antall ganger en kant forekommer i en valgt samling nettverk, noe som gir en indikasjon på utbredelsen i nettverk med høy ytelse. Hvis du undersøker edgeprevalenstabellen som produseres ved å velge de to foregående nettverkene i scatter-plottet, vises det at alle frønettverkskantene finnes i hvert av de to nettverkene, som forventet, sammen med to ikke-frønettverkskanter (figur 6B), SWI4 = tf_act(SWI5) og HCM1 = tf_rep(YHP1). Ingen av disse to kantene hadde bevis som støttet dem i Yeastract. Som så liten mengde nettverksplass ble utforsket, så det er vanskelig å vurdere viktigheten av kanter og noder i å produsere den observerte dynamikken.

Bare 37 modelladmissible nettverk ble funnet i Network Finding selv om parameteren numneighbors ble satt til 2000, noe som tyder på at nettverkssøket kan ha vært utilbørlig begrenset. Som beskrevet i dokumentasjonen for dsgrn_net_gen pythonmodulen i IDP, kan problemet være relatert til frønettverket, kantlisten, nodelisten, parametervalgene for Nettverksfunn eller en kombinasjon av disse. For å undersøke, ble det samme frønettverket, kantlisten og nodelisten som før brukt, men parameterne for nettverkssøk ble endret ved å legge til muligheten til å fjerne kanter under nettverksgenerering (Tilleggsfil 12). Lasting av de nye nettverksfunnresultatene i IDV viser at 612 nettverk ble funnet i dette trinnet, med 67% (411) av disse nettverkene som hadde kapasitet til å stabilt svinge (figur 7A). Interessant nok var 13% (82) av nettverkene som var i stand til stabil oscillatorisk dynamikk, ikke i stand til å produsere dynamikk som ligner de som er sett i dataene (figur 7B). Av de 411 nettverkene viste 30 % (124) robuste treff på data (dvs. mer enn 50 % av de stabilt oscillerende modellparametrene viste et datatreff) (figur 7C).

Kantprevalenstallene som genereres av andre runde av Network Finding er nå basert på et mye større utvalg av nettverk og kan brukes mer trygt til å vurdere viktigheten av et regulatorisk forhold i et GRN. For eksempel er HCM1 = tf_rep(YHP1) fortsatt representert høyt i nettverk som produserer robust dynamikk, noe som tyder på at dette forholdet kan være verdt å undersøke eksperimentelt (figur 7C). Videre undersøkelse av Edge Prevalence Table (basert på de 124 nettverkene nevnt ovenfor) avslørte at kantene SWI4 = tf_rep (YOX1) og YOX1 = tf_act(SWI4) ikke er høyt rangert, men kantene SWI4 = tf_rep(YHP1) og YHP1 = tf_act(SWI4) er høyt rangert (figur 7C). Negativ tilbakemelding er viktig for å produsere oscillatorisk ^dynamikk23 , og begge disse settene med regulatoriske relasjoner gir denne funksjonen i GRN i figur 3. Å finne ut om det finnes et nettverk som inneholder alle disse fire kantene, kan gi litt innsikt i hvorfor disse ikke ofte eksisterer sammen i samlingen av GRN-modeller; Det ville imidlertid være kjedelig å klikke seg gjennom individuelle nettverk. I stedet ble delen Likhetsanalyse på siden Nettverkssøk brukt til å søke etter nettverk som kan inneholde alle fire kantene (figur 7D). Hvis du undersøker spredningsplottet som viser hvor like de 612 nettverkene er, til et motiv på disse fire kantene i forhold til prosentandelen av modellparameterområdet som samsvarer med den observerte dynamikken, viser at bare 0,65 % (4) av de 612 nettverkene inneholder alle disse fire kantene (figur 7D). Dette antyder en testbar hypotese om at bare en av de to negative tilbakemeldingsløkkene er nødvendig for et nettverk av denne størrelsen for å produsere den observerte dynamikken. Denne hypotesen kan undersøkes nærmere ved å omparametere IDP-trinn og et mer uttømmende søk etter nettverksplass eller eksperimentelt, for eksempel genutslag. Alle resultater fra denne analysen finner du i Supplemental File 13.

Figur 1: Oversikt over IDP- og IDV-arbeidsflyt. Den nederste raden viser de tre hovedtrinnene i IDP: Node, Edge og Network Finding. Den øverste raden viser hovedtrinnene i IDV og beskriver ulike måter en bruker kan samhandle med resultatene på. De mørkegrå pilene mellom de to skildrer hvordan IDV og IDP kan fungere synergistisk for å tillate brukere å ta informerte beslutninger for hvert trinn i IDP, med individuelle IDP-trinn som gir resultater for visualiseringene i IDV, individuelle IDV-trinn som tillater inntasting av nye eller justerte parametere og justerte resultater og innganger for det påfølgende IDP-trinnet. Klikk her for å se en større versjon av denne figuren.

Figur 2: Eksempel på resultater fra å kjøre hvert trinn i IDP fortløpende uten å bruke IDV mellom trinn. (A) Et skjermbilde av terminalutgangen fra å kjøre hvert IDP-trinn fortløpende. IDP ble fullført, men det ble funnet null nettverk under trinnet Nettverksfunn. (B) Node Finne resultatkatalog node_finding_20210705183301 (Tilleggsfil 13) lastet inn i IDV. Alle genene i genlistetabellen ble valgt (rød pil) for å vise sine respektive uttrykksprofiler i linjediagrammet og generere en merknadstabell. Merknadstabellen ble fylt ut for å gjenspeile hvordan genene er merket i den opprinnelige merknadsfilen (grønn pil). (C) Edge Finding resultater katalog edge_finding_20210705183301 (Supplemental File 13) lastet inn i IDV. (D) Resultatkatalog for nettverksfunn network_finding_20210705183301 (tilleggsfil 13) lastet inn i IDEN. Siden Nettverkssøk viser ingen resultater, noe som tyder på at du enten kan skrive inn trinnet Nettverkssøk på nytt eller evaluere trinnet Node eller Kantsøking på nytt. IDP-dokumentasjonen inneholder feilsøkingstrinn for å hjelpe brukeren med å finne ut hva de kan prøve videre. Klikk her for å se en større versjon av denne figuren.

Figur 3: En GRN-modell for gjærcellesyklus. Et sett med kjente gjærcellesyklusregulatorer ble valgt fra SGD og kjente regulatoriske forhold mellom gener ble hentet fra Yeastract. Klikk her for å se en større versjon av denne figuren.

Figur 4: Eksempel på IDP-nodefinning resulterer i IDV. Lastet inn i IDV er resultatkatalogen node søker node_finding_20210705183301 (tilleggsfil 13). De justerte resultatene etter inspeksjon av kuraterte online gjærdatabaser. Genlistetabellen ble utvidet (gul pil) for å finne det gjenværende genet i GRN-modellen av figur 3 , og gener ble valgt bort for å fjerne gener som ikke finnes i samme GRN-modell (rød pil). Merknadstabellen ble fylt ut basert på bevis på regulering for hvert gen som finnes på Yeastract (grønn pil). Den nye genlisten og merknadsfilen ble lastet ned ved å velge sine respektive nedlastingsknapper (blå piler). Klikk her for å se en større versjon av denne figuren.

Figur 5: Eksempel på IDP Edge Finding resulterer i IDV. Lastet inn i IDV er Edge Finding resultatkatalogen edge_finding_20210701100152 (Supplemental File 13). (A) Det første resultatet som produseres av IDP. Rullegardinlisten Nettverk Fra frø ble valgt (rød pil) for å vise frønettverket produsert av IDP basert på argumentene i konfigurasjonsfilen som brukes (Tilleggsfil 7). De valgte genene i kanttabellen er kantene som brukes i frønettverket. (B) De justerte resultatene etter inspeksjon av frønettverket for kanter som ikke inneholder eksperimentelle bevis. Rullegardinlisten Nettverk Fra merket område ble valgt (rød pil). Kanter ble valgt/deaktivert fra kanttabellen (grønn pil). Frønettverket, kantlisten og nodelistefilene ble lastet ned ved å klikke på de respektive knappene (gule piler). Kanttabellen som vises, er for siste gang seriedata som er oppført i konfigurasjonsfilen two_wts_EdgeFinding_config.txt (Tilleggsfil 7). Det er viktig når du velger kanter for frønettverket eller kantlisten basert på LEM-resultater for å se på siste gang seriedata som er oppført i konfigurasjonsfilen, da disse utdataene inneholder alle tidligere datafiler i sin slutning av regulatoriske relasjoner mellom noder. Klikk her for å se en større versjon av denne figuren.

Figur 6: Eksempel på IDP-nettverkssøk resulterer i at IV bruker IDP-konfigurasjonsfilen two_wts_NetFind_rd1_config.txt (Tilleggsfil 11). (A) Spørringen Stabil full syklus ble valgt (rød pil) for å vise de respektive dataene på y-aksen i punktplottet. Blå prikker i punkttegningen representerer merkede punkt ved hjelp av Box Select-funksjonen for punkttegningen. Den prikkete merkeboksen ble illustrert for å vise hvordan boksvalget ser ut. (B) Minimums- og maksimums heltallene for y-aksen og x-aksen ble manuelt lagt inn i valgte nettverk innenfor disse grensene (grønn pil). Etter hvert valg ble knappen Hent kantprevalens fra valgte nettverk (gule piler) klikket, og områdene Edge Prevalence Table og Selected DSGRN Predicted Networks ble generert. I nettverksindeksen kan du klikke pil opp og pil ned for å bla gjennom de valgte nettverkene (blå piler). Klikk her for å se en større versjon av denne figuren.

Figur 7: Eksempel på IDP-nettverksfunn resulterer i at IDV bruker IDP-konfigurasjonsfilen two_wts_NetFind_rd2_config.txt (tilleggsfil 12). (A-C) Valg av nettverk ble utført ved å skrive inn verdier i minimums- og maksimumsinndataboksene (røde piler). Knappen Hent kantprevalens fra valgte nettverk ble klikket for å generere områdene Edge Prevalence Table og Selected DSGRN Predicted Networks. (D) Kanter av interesse ble valgt i edge_list tabell (gul pil) og Send-knappen (grønn pil) ble klikket for å beregne likhetspoeng som skal tegnes inn i punkttegningen mot spørringen som er valgt (blå pil). Box Select-funksjonen ble brukt til å velge et sett med nettverk (lilla pil) for å generere områdene Edge Prevalence Table og Selected DSGRN Predicted Networks. Nettverksindeksen ble økt til 2 (oransje pil) for å vise det andre nettverket i det merkede området. Klikk her for å se en større versjon av denne figuren.

Vilkår	Trinn for rørledning	Definisjon
de Lichtenburg fra JTK-CYCLE (DLxJTK)	Søk etter noder	Et enkelt kvantitativt mål på både periodicitet og reguleringsstyrke som brukes til å rangere gener. Kombinerer tidligere publiserte periodicitetsmålinger de Lichtenberg (DL) og JTK-CYCLE (JTK).
Maksimalt uttrykk for første syklus	Søk etter noder	Det maksimale genuttrykket i løpet av den første syklusen av periodisk genuttrykk. Gener bestilt av First Cycle Max Expression vil bli bestilt basert på tidspunktet fra den første syklusen der de når sitt maksimale genuttrykk.
Den lokale kantmaskinen (LEM)	Kantfinning	En bayesiansk nettverks inferensmetode som rangerer potensielle modeller for geninteraksjoner for å identifisere de mest sannsynlige regulatorene og reguleringsmåtene (aktivering eller undertrykkelse) av et gitt målgen ved hjelp av tidsseriegenuttrykksdata.
Frø Nettverk	Søk etter nettverk	En første gjetning på et plausibelt nettverk av globale interaksjoner ved å velge de topprangerte LEM-kantene. Frøet lokaliserer et område med nettverksplass som er svært oscillatorisk med stor sannsynlighet for å vise konsistens med de angitte tidsseriedataene.
Dynamiske signaturer generert av forskriftsmessige nettverk (DSGRN)	Søk etter nettverk	En programvarepakke for omfattende databehandling av de forskjellige langsiktige dynamiske atferdene som et nettverk kan vise frem.
Utbredelse av kant	Søk etter nettverk	Prosentandelen av nettverk med topp poengsum fra nettverksvurderingstrinnet som inkluderer den aktuelle kanten. Poengsummen tillater en rangering av kanter som har en nonzero prevalens.

Tabell 1: Definisjon av iboende Dynamics Pipeline- og Inherent Dynamics Visualizer-termer.

Supplemental File 1: Time series gene expression data (Replicate 1) hentet fra Orlando, 200813. Klikk her for å laste ned denne filen.

Supplemental File 2: Time series gene expression data (Replicate 2) hentet fra Orlando, 200813. Klikk her for å laste ned denne filen.

Supplemental File 3: Merknadsfil som inneholder alle gener som finnes i Supplemental File 1 og Supplemental File 2. Klikk her for å laste ned denne filen.

Tilleggsfil 4: Fullstendig parameterisert konfigurasjonsfil for Inherent Dynamics Pipeline. Klikk her for å laste ned denne filen.

Tilleggsfil 5: Genlistefil lastet ned fra nodesøk-siden i Inherent Dynamics Visualizer. Klikk her for å laste ned denne filen.

Tilleggsfil 6: Merknadsfil lastet ned fra siden Nodesøk i Inherent Dynamics Visualizer. Klikk her for å laste ned denne filen.

Tilleggsfil 7: Konfigurasjonsfil for iboende Dynamics Pipeline parameterisert for bare Edge Finding-trinnet. Klikk her for å laste ned denne filen.

Tilleggsfil 8: Frønettverksfil lastet ned fra Edge Finding-siden i Inherent Dynamics Visualizer. Klikk her for å laste ned denne filen.

Tilleggsfil 9: Edge-listefilen er lastet ned fra Edge Finding-siden i Inherent Dynamics Visualizer. Klikk her for å laste ned denne filen.

Tilleggsfil 10: Nodelistefil lastet ned fra Edge Finding-siden i Inherent Dynamics Visualizer. Klikk her for å laste ned denne filen.

Tilleggsfil 11: Konfigurasjonsfil for iboende Dynamics Pipeline parameterisert for bare trinnet Nettverksfunn. Klikk her for å laste ned denne filen.

Tilleggsfil 12: Oppdatert konfigurasjonsfil for iboende Dynamics Pipeline (tilleggsfil 11) parameterisert for bare trinnet Nettverksfunn. Klikk her for å laste ned denne filen.

Tilleggsfil 13: Mappe som inneholder resultatene fra delen Representative resultater. Klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Slutningen av GRN-er er en viktig utfordring i systembiologi. IDP genererer modell-GRNer fra genuttrykksdata ved hjelp av en sekvens av verktøy som bruker dataene på stadig mer komplekse måter. Hvert trinn krever beslutninger om hvordan dataene skal behandles og hvilke elementer (gener, funksjonelle interaksjoner) som skal sendes til neste lag i IDP. Virkningene av disse beslutningene på IDP-resultater er ikke like åpenbare. For å hjelpe i denne forbindelse gir IDV nyttige interaktive visualiseringer av utgangene fra individuelle trinn i GRN-inferensverktøyene i IDP. IDV effektiviserer og letter prosessen med å evaluere resultater fra disse beregningsmetodene for å fremskynde eksperimentering og informere analysevalg, noe som igjen vil tillate akselerert produksjon av høysikkerhets nettverksmodeller og hypoteser. IDV implementerer også funksjoner som utvider funksjonaliteten til IDP, inkludert filtrering av kanter etter LEM ODE-parametervalg, binning av gener etter uttrykkstid og klyngenettverk basert på likhet med et motiv eller nettverk. Det er viktig at IDV tillater manuelle intervensjoner mellom hvert IDP-trinn, noe som gjør at brukeren enkelt kan innlemme menneskelig kunnskap og forutgående informasjon fra litteraturen på måter som ikke lett kan automatiseres. En naiv kjøring av IDP vil ikke opprinnelig innlemme denne informasjonen, så bruken av IDV vil øke tilliten til resultatene når informasjon som er spesifikk for eksperimentet er tilgjengelig. Totalt sett tillater bruk av IDV i forbindelse med IDP brukere å lage nettverkshypoteser for biologiske prosesser med større tillit, selv med liten eller ingen kunnskap om den sanne GRN.

Det er tre kritiske trinn i IDV. Den første evaluerer IDP Node Finding-resultater i IDV. IDVs nodesøkingsside kan produsere en ny genliste og, om ønskelig, en genmerknadsfil. Kuratering av en ny genliste er et kritisk skritt, da det i stor grad reduserer det potensielle nettverksrommet ved å begrense hvilke gener som kan modelleres som GRN-mål og / eller regulatorer. I tillegg, ettersom GRN-er for det meste består av transkripsjonsfaktorer, vil det å ha genmerknader i stor grad bidra til å lage sammenhengende GRN-modeller.

Det neste trinnet er å evaluere IDP Edge Finding-resultater i IDV. Kuratering av et nytt frønettverk er et kritisk trinn siden det lokaliserer området med nettverksplass som skal prøves i trinnet Nettverksfunn. Å vite hvor du skal begynne er imidlertid ikke alltid åpenbart, så det anbefales å bruke kanter som har en form for eksperimentell bevis for å gi tillit til at man starter i et område med nettverksplass som inneholder kanter med høy tillit. IDVs Edge Finding-side muliggjør enkel montering av frønettverk og genererer den tilknyttede DSGRN-nettverksspesifikasjonsfilen samt node- og kantlister.

Det siste trinnet er å evaluere IDP Network Finding-resultater i IDV. IDVs network finding-side gjør det enkelt å utforske samplede nettverk og tilhørende resultater som estimerer kapasiteten til nettverket for å produsere den observerte dynamikken. Selv om Node- og Edge-søk alltid returnerer resultater (hvis minst to gener overføres fra Node-søk), kan Nettverksfunn returnere null resultater. Derfor vil det være tydeligere å vite om justeringer i parametere er nødvendig i Nettverksfunn enn i Node- og Edge-søk. Slike forekomster av få til ingen nettverk funnet kan være et resultat av begrensninger plassert på hvilke nettverk som kan analyseres. Disse begrensningene er: 1) om nettverkene alltid er sterkt tilkoblet eller ikke, 2) minimum og maksimalt antall inngangskanter til hver node, 3) sannsynligheten for å legge til og fjerne noder og kanter, og 4) antall tillegg og fjerning av noder og kanter tillatt. Hvis få eller ingen modell-tillatte nettverk blir funnet, som i figur 2, anbefales det å referere til IDP-dokumentasjonen for veiledning om omparametering av noen eller alle trinn i IDP med etterfølgende evaluering av resultatene i IDV.

En nåværende begrensning av denne tilnærmingen er at Nodesøk-siden for det meste er fokusert på oscillatorisk dynamikk, for eksempel de som er sett i transkripsjonsprogrammene til cellesyklusen og døgnklokken. Spesielt er IDP Node Finding-trinnet for øyeblikket konfigurert til å søke etter gener som viser oscillatorisk dynamikk i en bestemt periode. Etter hvert som IDP utvides til å omfatte analyser som kan kvantifisere ulike typer transkripsjonsdynamikk, vil også IDV bli oppdatert for å støtte visualisering og avhør av disse andre atferdene. Størrelsen på nettverk som søkes etter og analyseres i trinnet Nettverkssøk, er for tiden begrenset til nettverk av mindre størrelse, for eksempel rundt 10 gener. Dette er en nødvendighet ettersom beregninger i DSGRN-skalaen forekommer kombinatorisk. En annen begrensning er at det ikke er mulig å utforske modellparameterplass for et valgt nettverk i IDV. DSGRN-nettverksspesifikasjonsfilen for et gitt nettverk kan imidlertid lastes ned, og dynamikken knyttet til hver modellparameter kan visualiseres på DSGRN-visualiseringsnettstedet (https://sites.math.rutgers.edu/~gameiro/dsgrn_viz/). Til slutt har IDV blitt testet ved hjelp av Linux (Ubuntu) og iOS (Big Sur) systemer. IDV har blitt testet på Windows 10 ved hjelp av Windows Subsystem for Linux (WSL), som lar Windows 10-brukere kjøre Linux og IDV uten behov for en annen datamaskin, en virtuell maskin eller et oppsett for dobbeltoppstart. IDV kjører ikke på opprinnelige Windows.

Å studere GRN-er er vanskelig på grunn av deres iboende kompleksitet og nyttige slutningsverktøy som IDP kan være vanskelig å forstå og distribuere med tillit. IDV gir en metode for å redusere kompleksiteten ved å studere GRNer utledet ved hjelp av IDP samtidig som det letter inkluderingen av tilleggsinformasjon utover genuttrykksdynamikk. Ved å bruke IDV i forbindelse med IDP som beskrevet her, vil forskerne kunne utvikle og analysere funksjonelle modeller av godt studerte systemer, for eksempel den menneskelige cellesyklusen. Videre vil disse verktøyene generere testbare hypoteser for mindre forståtte prosesser, for eksempel malaria intra-erytrocytisk utviklingssyklus, som mistenkes å være kontrollert av en ^GRN24 , men som en modell ennå ikke er foreslått for.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

Dette arbeidet ble finansiert av NIH grant R01 GM126555-01 og NSF grant DMS-1839299.

Materials

Name	Company	Catalog Number	Comments
Docker			https://docs.docker.com/get-docker/
Git			https://git-scm.com/
Inherent Dynamics Pipeline			https://gitlab.com/biochron/inherent_dynamics_pipeline
Inherent Dynamics Visualizer			https://gitlab.com/bertfordley/inherent_dynamics_visualizer
Miniconda			https://docs.conda.io/en/latest/miniconda.html
Pip			https://pip.pypa.io/en/stable/

DOWNLOAD MATERIALS LIST

References

Karlebach, G., Shamir, R. Modelling and analysis of gene regulatory networks. Nature Reviews Molecular Cell Biology. 9 (10), 770-780 (2008).
Aijö, T., Lähdesmäki, H. Learning gene regulatory networks from gene expression measurements using non-parametric molecular kinetics. Bioinformatics. 25 (22), 2937-2944 (2009).
Huynh-Thu, V. A., Sanguinetti, G. Combining tree-based and dynamical systems for the inference of gene regulatory networks. Bioinformatics. 31 (10), 1614-1622 (2015).
Oates, C. J., et al. Causal network inference using biochemical kinetics. Bioinformatics. 30 (17), 468-474 (2014).
Marbach, D., et al. Wisdom of crowds for robust gene network inference. Nature Methods. 9 (8), 796-804 (2012).
Inherent Dynamics Pipeline. , Available from: https://gitlab.com/biochron/inherent_dynamics_pipeline (2021).
Motta, F. C., Moseley, R. C., Cummins, B., Deckard, A., Haase, S. B. Conservation of dynamic characteristics of transcriptional regulatory elements in periodic biological processes. bioRxiv. , (2020).
LEMpy. , Available from: https://gitlab.com/biochron/lempy (2021).
McGoff, K. A., et al. The local edge machine: inference of dynamic models of gene regulation. Genome Biology. 17, 214 (2016).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Model rejection and parameter reduction via time series. SIAM Journal on Applied Dynamical Systems. 17 (2), 1589-1616 (2018).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Database of Dynamic Signatures Generated by Regulatory Networks (DSGRN). Lecture Notes in Computer Science. (including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). , 300-308 (2017).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. DSGRN: Examining the dynamics of families of logical models. Frontiers in Physiology. 9. 9, 549 (2018).
DSGRN. , Available from: https://github.com/marciogameiro/DSGRN (2021).
Dsgm_Net_Gen. , Available from: https://github.com/breecummins/dsgrn_net_gen (2021).
Dsgrn_Net_Query. , Available from: https://github.com/breecummins/dsgrn_net_query (2021).
Orlando, D. A., et al. Global control of cell-cycle transcription by coupled CDK and network oscillators. Nature. 453 (7197), 944-947 (2008).
Monteiro, P. T., et al. YEASTRACT+: a portal for cross-species comparative genomics of transcription regulation in yeasts. Nucleic Acids Research. 48 (1), 642-649 (2020).
de Bruin, R. A. M., et al. Constraining G1-specific transcription to late G1 phase: The MBF-associated corepressor Nrm1 acts via negative feedback. Molecular Cell. 23 (4), 483-496 (2006).
Horak, C. E., et al. Complex transcriptional circuitry at the G1/S transition in Saccharomyces cerevisiae. Genes & Development. 16 (23), 3017-3033 (2002).
Cherry, J. M., et al. Saccharomyces genome database: The genomics resource of budding yeast. Nucleic Acids Research. 40, 700-705 (2012).
Zhu, G., et al. Two yeast forkhead genes regulate the cell cycle and pseudohyphal growth. Nature. 406 (6791), 90-94 (2000).
Loy, C. J., Lydall, D., Surana, U. NDD1, a high-dosage suppressor of cdc28-1N, is essential for expression of a subset of late-S-phase-specific genes in saccharomyces cerevisiae. Molecular and Cellular Biology. 19 (5), 3312-3327 (1999).
Cho, C. Y., Kelliher, C. M., Hasse, S. B. The cell-cycle transcriptional network generates and transmits a pulse of transcription once each cell cycle. Cell Cycle. 18 (4), 363-378 (2019).
Smith, L. M., et al. An intrinsic oscillator drives the blood stage cycle of the malaria parasite Plasmodium falciparum. Science. 368 (6492), 754-759 (2020).

Biology

Iboende Dynamics Visualizer, et interaktivt program for evaluering og visualisering av utdata fra en datasamlebånd for genregulatoriske nettverk

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.