Biology

Structuurgebaseerde simulatie en bemonstering van transcriptiefactoreiwitbewegingen langs DNA van atomaire schaalstappen naar grofkorrelige diffusie

Published: March 1, 2022 doi: 10.3791/63406

Chao E*¹, Liqiang Dai*^1,2, Jiaqi Tian^3,4, Lin-Tai Da⁴, Jin Yu^5,6,7

¹Beijing Computational Science Research Center, ²Shenzhen JL Computational Science and Applied Research Institute, ³School of Medical Informatics and Engineering, Xuzhou Medical University, ⁴Key Laboratory of Systems Biomedicine (Ministry of Education), Shanghai Center for Systems Biomedicine, Shanghai Jiao Tong University, ⁵Department of Physics and Astronomy, University of California, Irvine, ⁶Department of Chemistry, University of California, Irvine, ⁷NSF-Simons Center for Multiscale Cell Fate Research, University of California, Irvine

* These authors contributed equally

Summary

Het doel van dit protocol is om de structurele dynamiek van eendimensionale diffusie van eiwit langs DNA te onthullen, met behulp van een plantaardig transcriptiefactor WRKY-domeineiwit als een voorbeeldig systeem. Om dit te doen, zijn zowel atomistische als grofkorrelige moleculaire dynamicasimulaties samen met uitgebreide computationele bemonsteringen geïmplementeerd.

Abstract

Eendimensionaal (1-D) glijden van transcriptiefactor (TF) eiwit langs DNA is essentieel voor gefaciliteerde diffusie van de TF om de doel-DNA-site voor genetische regulatie te lokaliseren. Het detecteren van basenpaar (bp) resolutie van de TF glijden of stappen op het DNA is nog steeds experimenteel uitdagend. We hebben onlangs all-atom molecular dynamics (MD) simulaties uitgevoerd waarbij spontane 1-bp stappen van een klein WRKY domein TF-eiwit langs DNA worden vastgelegd. Op basis van het 10 μs WRKY-stappad verkregen uit dergelijke simulaties, laat het protocol hier zien hoe uitgebreidere conformatiemonsters van de TF-DNA-systemen kunnen worden uitgevoerd, door het Markov-toestandsmodel (MSM) te construeren voor de 1-bp eiwitstap, met verschillende aantallen micro- en macrotoestanden getest voor de MSM-constructie. Om processieve 1D diffusionele zoektocht van het TF-eiwit samen met structurele basis te onderzoeken, laat het protocol verder zien hoe grofkorrelige (CG) MD-simulaties kunnen worden uitgevoerd om de langetermijnschaaldynamiek van het systeem te bemonsteren. Dergelijke CG-modellering en simulaties zijn bijzonder nuttig om de eiwit-DNA elektrostatische effecten op de processieve diffusieve bewegingen van het TF-eiwit boven tientallen microseconden te onthullen, in vergelijking met sub-microseconden tot microseconden eiwitstapbewegingen onthuld uit de simulaties van alle atomen.

Introduction

Transcriptiefactoren (TF) zoeken naar het doel-DNA om gentranscriptie en gerelateerde activiteiten te binden en te reguleren¹. Afgezien van de driedimensionale (3D) diffusie, is gesuggereerd dat de gefaciliteerde diffusie van TF essentieel is voor doel-DNA-onderzoek, waarbij de eiwitten ook langs eendimensionaal (1D) DNA kunnen glijden of hoppen, of springen met intersegmentale overdracht op het DNA 2,3,4,5,6,7.

In een recente studie hebben we tientallen microseconden (μs) all-atom equilibrium molecular dynamics (MD) simulaties uitgevoerd op een plant TF - het WRKY-domeineiwit op het DNA⁸. Een volledige 1-bp stap van WRKY op poly-A DNA binnen microseconden is vastgelegd. De bewegingen van het eiwit langs de DNA-groef en waterstofbruggen (HBs) brekende-reformerende dynamiek zijn waargenomen. Hoewel een dergelijk traject één bemonsterd pad vertegenwoordigt, ontbreekt het nog steeds aan een algemeen eiwitstappenlandschap. Hier laten we zien hoe we computationele monsters rond het aanvankelijk gevangen eiwitstappad kunnen uitbreiden met het geconstrueerde Markov-toestandsmodel (MSM), dat op grote schaal is geïmplementeerd voor het simuleren van een verscheidenheid aan biomoleculaire systemen met substantiële conformatieveranderingen en tijdschaalscheiding ^{9,10,11,12,13,14,15,16}^, 17,18,19. Het doel is om het conformationele ensemble en de meta-stabiele toestanden van de TF-eiwitdiffusie langs DNA gedurende één cyclische stap te onthullen.

Hoewel de bovenstaande MD-simulatie atomaire resolutie van de eiwitbewegingen gedurende 1 bp op het DNA onthult, is de structurele dynamiek van langdurige processieve diffusie van de TF langs DNA met dezelfde hoge resolutie nauwelijks toegankelijk. Het uitvoeren van grofkorrelige (CG) MD-simulaties op residuniveau is echter technisch benaderbaar. De CG-simulatietijdschaal kan effectief worden uitgebreid tot tientallen of honderden keren langer dan de atoomsimulaties 20,21,22,23,24,25,26,27,28,29. Hier tonen we de CG-simulaties die zijn uitgevoerd door de Implementatie van de CafeMol-software ontwikkeld door Takada lab³⁰.

In het huidige protocol presenteren we eerst de atoomsimulaties van het WRKY-domeineiwit langs poly-A DNA en de MSM-constructie, die zich richten op het bemonsteren van de eiwitstappende bewegingen voor slechts 1 bp langs DNA. Vervolgens presenteren we de CG-modellering en simulaties van hetzelfde eiwit-DNA-systeem, die de computationele bemonstering uitbreiden naar de eiwitprocesve diffusie over tientallen bps langs DNA.

Hier gebruiken we GROMACS 31,32,33-software om MD-simulaties uit te voeren en MSMbuilder 34 om de MSM te construeren voor bemonsterde conformatiemomentopnamen, evenals om VMD³⁵ te gebruiken om de biomoleculen te visualiseren. Het protocol vereist dat de gebruiker de bovenstaande software kan installeren en implementeren. De installatie en implementatie van de CafeMol³⁰ software is dan noodzakelijk voor het uitvoeren van de CG MD simulaties. Verdere analyses van de trajecten en visualisatie worden ook uitgevoerd in VMD.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Constructie van het Markov-toestandsmodel (MSM) op basis van atomaire MD-simulaties

Spontane eiwitstaproute en initiële structurenverzameling
1. Gebruik een eerder verkregen MD-traject van 10 μs met alle atomen⁸ om 10000 frames gelijkmatig te extraheren uit een "voorwaarts" stappenpad van 1 bp (d.w.z. één frame voor elke nanoseconde). Het totale aantal frames moet voldoende groot zijn om alle representatieve conformaties te omvatten.
2. Bereid het overgangspad voor met 10000 frames in VMD door te klikken op Bestand > Coördinaten opslaan, eiwit of nucleïsch typen in het vak geselecteerde atomen en frames kiezen in het vak Frames, klik op Opslaan om de benodigde frames op te halen.
  OPMERKING: Een eerder verkregen 10 μs all-atom MD simulatietraject (hier "forward stepping trajectory" genoemd) voor WRKY stepping 1-bp afstand op een 34-bp homogeen poly-A DNA⁸ werd gebruikt als het eerste pad om verdere conformatiemonsters te lanceren. Merk op dat in de meeste praktijken echter een initieel pad wordt geconstrueerd door het uitvoeren van gestuurde of gerichte MD-simulaties, of het implementeren van algemene methoden voor het genereren van paden, ^{enz.36,37,38,39}.
3. Lijn de lange as van het referentie-DNA (van kristalstructuur) uit op de x-as en stel het initiële massamiddelpunt (COM) van het volledige 34-bp DNA in bij de oorsprong van de coördinatenruimte voor het gemak van verdere gegevensanalyse. Klik hiervoor op Extensies > Tk-console in VMD en typ in het opdrachtvenster van de Tk-console:
  bron rotate.tcl
  Het tcl-script is te vinden in Aanvullend bestand 3.
4. Bereken vervolgens de wortel-gemiddelde-kwadraatafstand (RMSD) van de eiwitruggegraat door het centrale 10 bp-DNA (A 14 tot 23 en T 14' tot 23') uit te lijnen met dat van de kristalstructuur⁴⁰, en de RMSD vertegenwoordigt geometrische metingen van de systemen (zie figuur 1A). Klik hiervoor op VMD > Extensies > Analyse > RMSD-trajectgereedschap en typ nucleïne en residu 14 tot en met 23 en 46 tot en met 55 in het vak Atoomselectie, klik op Uitlijnen en vervolgens op RMSD om de RMSD-waarden te berekenen.
5. Bereken de rotatiegraad van eiwit rond DNA Θ(t) op het y-z vlak in MATLAB door het commando te typen
  rad2deg(atan(z/y))
  met de initiële hoekpositie gedefinieerd als Θ(0)=0, zoals eerder uitgevoerd⁸.
6. Typ de volgende opdracht in MATLAB⁴¹ om K-means-methoden ^42,43,44 te gebruiken en de 10000 structuren in 25 clusters te classificeren door te typen:
  [idx, C]=kmeans( X, 25)
  hier X is een 2D-matrix van RMSD en rotatiehoek van WRKY op het DNA. Verzamel de structuren van deze 25 clustercentra voor verdere MD-simulaties.
  OPMERKING: Aangezien het eiwit RMSD dat ten opzichte van DNA is bemonsterd een bereik van ongeveer 25 Å beslaat, kiezen we 25 clusters om één cluster per angstrom te hebben.
Het uitvoeren van de^1e ronde md-simulaties en de simulatie-instellingen
1. Bouw atomistische systemen voor de 25 structuren met behulp van GROMACS 5.1.2 software³² onder parmbsc1 krachtveld⁴⁵ en met behulp van het buildsystem.sh bestand uit Aanvullend Bestand 2 in shell.
2. Voer 60-ns MD-simulaties uit voor deze 25 systemen onder NPT-ensemble met een tijdstap van 2 fs door het volgende commando in shell te typen:
  gmx_mpi grompp -f md.mdp -c npt.gro -p topol.top -o md.tpr
  gmx_mpi mdrun -deffnm md
Clustering van de 1^St ronde MD trajecten
1. Verwijder de eerste 10 ns van elk simulatietraject door in shell te typen:
  gmx_mpi trjcat -f md.xtc -b 10000 -e 600000 -o newtraj.xtc
  en verzamel conformaties van de 25 × 50 ns-trajecten voor clustering om de invoerstructuren voor te bereiden op de daaropvolgende uitgebreidere bemonsteringen (^2e ronde MD-simulaties).
  OPMERKING: Om de impact van het initiële pad te verminderen en lokale evenwichtsoefening mogelijk te maken, werden 10-ns van de initiële periode van simulaties verwijderd.
2. Kies afstandsparen tussen eiwit en DNA als invoerparameters voor de tijdonafhankelijke componentanalyse (tICA)46,47,48 projectie. Gebruik de opdracht make_ndx in GROMACS om dat te doen:
  gmx_mpi make_ndx -f input.pdb -o index.ndx
  OPMERKING: Hier werden de eiwit CA-atomen en de zware atomen (NH1, NH2, OH, NZ, NE2, ND2) van residu Y119, K122, K125, R131, Y133, Q146, K144, R135, W116, R117, Y134, K118, Q121 die waterstofbruggen (HBs) kunnen vormen met het DNA-nucleotide geselecteerd, die paren met de O1P O2P- en N6-atomen van het DNA-nucleotide (A14-20, T19-23). De geselecteerde aminozuren kunnen stabiele HBs of zoutbruggen vormen met DNA.
3. Kopieer de hierboven geselecteerde atoomindex van het bestand index.ndx naar een nieuw tekstbestand (index.dat). Haal de paarinformatie tussen deze atomen op door het python-script uit Aanvullend bestand 1 generate_atom_indices.py en typ:
  python2.6 generate_atom_indices.py index.dat > AtomIndices.txt
  Dit genereert de 415 afstandsparen tussen eiwit en DNA.
4. Bereken de 415 afstandsparen van elk traject door de volgende opdracht te typen in het MSMbuilder-opdrachtvenster:
  msmb AtomPairsFeaturizer -out pair_features --pair_indices AtomIndices.txt --top referenties.pdb --trjs "trajectories/*.xtc" --getransformeerde pair_features --stride 5
5. Voer tICA uit om de dimensie van gegevens te verminderen tot de eerste 2 tijdonafhankelijke componenten (tIC's) of vectoren door het volgende te typen:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0,05 -t tica_results,h5
  OPMERKING: tICA is een dimensiereductiemethode die de eigenwaarde van de tijd-vertraagde correlatiematrix berekent om de langzaamste ontspannende vrijheidsgraden van het simulatiesysteem te bepalen door de vergelijking:
  
  waarbij X_i(t) de waarde is van de i-de-reactiecoördinaat op tijdstip t, en X_j(t+Δt) de waarde is van de j-de-reactiecoördinaat op tijdstip t+Δt. = de verwachtingswaarde van het product van de X _i(t) en X_j(t + Δt) algemene simulatietrajecten. De richtingen langs de langzaamste ontspannende vrijheidsgraden komen overeen met de grootste eigenwaarden van de bovenstaande tijd-vertraagde correlatiematrix . Hier lijken 2 tIC's een minimale set te zijn om drie macrotoestanden te onderscheiden op onze MSM-constructie (later behandeld). Men kan bijvoorbeeld ook de gegeneraliseerde matrix Rayleigh quotient (GMRQ) score⁴⁹ berekenen om een optimale set componenten te verkennen die moeten worden gebruikt.
6. Gebruik de opdracht in MSMbuilder om de geprojecteerde gegevenssets te clusteren in 100 clusters volgens de K-center ^{43,44-methode} (zie Afbeelding 1B):
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 100.
  Selecteer de middenstructuur van elk cluster als de initiële structuur voor de^2e ronde md-simulaties. Onderhoud de simulatie-informatie van de gesimuleerde 100 structuren, inclusief posities, temperaturen, drukken, enz., Behalve de snelheden.
  OPMERKING: Na de eerste ronde van 25 simulaties is het geheugen van het initiële pad verminderd, dus genereren we meer clusters, bijvoorbeeld 100 clusters, in de tweede ronde, om de conformatiemonsters aanzienlijk uit te breiden.
Het uitvoeren van de^2e ronde uitgebreide MD simulaties
1. Voer 60-ns MD-simulaties uit vanaf deze 100 initiële structuren na het opleggen van willekeurige beginsnelheden op alle atomen. Voeg de willekeurige beginsnelheden toe door de snelheidsgeneratie in het mdp-bestand in te schakelen, d.w.z. het md.mdp-bestand te wijzigen gen_vel = nee in gen_vel = ja.
2. Verwijder de eerste 10 ns van elke simulatie zoals beschreven in stap 1.3.1, verzamel 2.500.000 snapshots van de 100 × 50 ns trajecten gelijkmatig om de MSM te construeren.
  OPMERKING: Merk op dat in de latere macrotoestandenconstructie een klein aantal off-path staten met een bijzonder lage bevolking (~ 0,2%, aan de onderkant van het X-Θ-vlak) werden gevonden. Deze off-path toestanden worden geclassificeerd als één macrostaat wanneer het totale aantal macrotoestanden is ingesteld op 3 tot 6 (figuur 2B). Aangezien zo'n lage bevolkingsmacrostaat slechts 3 trajecten omvat, die uiteindelijk zijn verwijderd, zijn de resultaten in dit protocol inderdaad verkregen uit 97 × 50 ns trajecten, met een totaal van 2.425.000 frames of snapshots.
Clustering van de^2e ronde MD trajecten
1. Voer tICA uit voor de^2e ronde trajecten zoals eerder gedaan. Type in MSMbuilder:
  msmb tICA -i .. /tica_rc_a/tmp/ -o tica_results --n_components 2 --lag_time 10 --gamma 0,05 -t tica_results,h5
2. Bereken de impliciete tijdschaal om parameters voor de correlatievertragingstijd Δt- en microtoestandsgetallen te valideren (zie figuur 1C);
  
  waarbij τ de vertragingstijd vertegenwoordigt die wordt gebruikt voor het bouwen van de overgangskansmatrix (TPM); μ_k(τ) vertegenwoordigt de kth eigenwaarde van de TPM onder een vertragingstijd van τ. Gebruik het python script uit Supplementary File 1 voor deze python BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 10 -n 20 -s 500.
3. Varieer de vertragingstijd τ en het aantal microtoestanden door de hierboven gebruikte parameters te wijzigen:
  python BuildMSMsAsVaryLagTime.py -d .. / -f .. /trajlist_num -i 50 -m 1000 -t 5 10 20 30 40 -n 20 -s 20 200 400 500 800 2000
  OPMERKING: Het systeem wordt als Markoviaans beschouwd wanneer de impliciete tijdschaalcurven beginnen af te vlakken met tijdschaalscheiding. Kies vervolgens de Dt als de correlatievertragingstijd en de τ de vertragingstijd waarbij de impliciete tijdschaal begint af te vlakken om MSM te bouwen.
4. Kies daarom een relatief groot (maar niet te groot) aantal toestanden, N = 500, en een relatief korte correlatievertragingstijd Δt = 10 ns. De vertragingstijd bleek τ =10 ns te zijn om MSM te bouwen.
5. Classificeer de conformaties in 500 clusters (zie figuur 1D) met behulp van de opdracht:
  msmb KCenters -i ./tica_results.h5 -o kcenters_output -t kcenters_output --n_clusters 500
MSM constructie
1. Gooi de 500 microtoestanden samen in 3-6 macrotoestanden om erachter te komen hoeveel macrotoestanden het beste passen volgens het PCCA + -algoritme⁵⁰ in MSMbuilder, door het python-script in aanvullend bestand 1 python msm_lumping_usingPCCAplus.py te gebruiken. Identificeer een gereduceerd kinetisch netwerk van modellen voor de meest essentiële conformationele veranderingen van biomoleculen, door een klein aantal macrotoestanden te construeren, d.w.z. bij het kinetisch op één hoop gooien van honderden microtoestanden zoals beschreven hieronder^17,51.
2. Breng de hoogdimensionale conformaties aan de X (eiwitbeweging langs de lange DNA-as) en rotatiehoek van het eiwit langs het DNA voor elke macrotoestand in kaart zoals beschreven in stap 1.1.3 en 1.1.4 (bijv. geen toestand met een te lage populatie < 1%; zie figuur 2C). Zoek vervolgens de 3 macrotoestanden die het systeem het beste weergeven (figuur 1E). Zie figuur 2D voor snapshots van de beweging van eiwit langs DNA en de eiwitrotatiehoek rond DNA.
  OPMERKING: In eerder werk dat het 10 μs spontane eiwit voorwaartse stappad genereerde, hebben we bovendien 5 x 4 μs evenwicht MD-simulaties uitgevoerd om de monsters matig uit te breiden. We toonden de mapping van het oorspronkelijke voorwaartse pad (zie figuur 2A links) en verdere 4-μs bemonsteringstrajecten op het voorwaartse pad dat eerder werd uitgevoerd (zie figuur 2A rechts)⁸. De mapping van de oorspronkelijke 100 × 50 ns (zie figuur 2B links)⁸ en de 97 × 50 ns trajecten die in dit werk zijn gebruikt, zijn weergegeven (zie figuur 2B rechts).
Berekening van de gemiddelde eerste passagetijden (MFPT)
1. Voer vijf 10-ms Monte Carlo (MC) trajecten uit op basis van de TPM van de 500 microstaat MSM met de vertragingstijd van 10 ns ingesteld als de tijdstap van MC. Bereken MFPT⁵² tussen elk paar macrotoestanden (figuur 3) door het python-script in aanvullend bestand 1 python python mfpt_msm3.py.
2. Bereken de gemiddelde en standaardfout van de MFPT met behulp van het bash-bestand in Aanvullend bestand 2, type:
  SH mfpt_analysis.bash

2. Het uitvoeren van grofkorrelige (CG) simulatie om langdurige dynamiek te bemonsteren

Voer een CG-simulatie uit met behulp van de CafeMol 3.0-software³⁰. Zie de CG-simulatie-instellingen die zijn opgegeven in het invoerconfiguratiebestand met de extensie .inp, inclusief invoerstructuren, simulatieparameters, uitvoerbestanden, enz. Typ de volgende opdracht op de terminal om de CG-simulatie uit te voeren:
Cafemol XXX.inp
Geef de volgende blokken op in het invoerbestand, waarbij elk blok begint met het label < and ending with >>>>.
1. Stel bestandsnamenblok (vereist) in om de werkmappen en het opslagpad voor invoer- en uitvoerbestanden op te geven. Typ het volgende voor het bestandsnamenblok voor deze simulaties:
  <<<< bestandsnamen
  pad = XXXXX (werkpad)
  bestandsnaam = wrky (de namen van het uitvoerbestand)
  OUTPUT psf pdb film dcd eerstet
  path_pdb = XXXXX (native structuurpad invoeren)
  path_ini = XXXXX (invoer initieel structuurpad)
  path_natinfo = XXXXX (native pad naar informatiebestand)
  path_para = XXXXX (pad naar parameterbestanden)
  >>>>
  OPMERKING: Aangezien het Go-model⁵³ wordt gebruikt in de CG-modellering, d.w.z. eiwit zal worden bevooroordeeld naar de native conformatie, dus men moet de gemodelleerde structuur instellen als de native conformatie. Hier werd de inputkristalstructuur ingesteld als de inheemse conformatie.
2. Stel het taakbeheerblok in (vereist) om de uitvoeringsmodus van de simulaties te definiëren. Typ de volgende opdracht:
  <<<< job_cntl
  i_run_mode = 2 (= 2 de constante temperatuur simulatie)
  i_simulate_type = 1 (=1 Langevin dynamica)
  i_initial_state = 2 (=2 betekent dat de initiële configuratie Native configuratie is)
  >>>>
  Selecteer de constante temperatuur Langevin dynamica simulaties.
3. Stel de eenheid en het statusblok in (vereist) om de informatie voor invoerstructuren te definiëren. Typ de volgende opdracht:
  <<<< unit_and_state
  i_seq_read_style = 1 (=1 betekent leessequenties uit PDB-bestand)
  i_go_native_read_style = 1 (=1 betekent dat de oorspronkelijke structuur afkomstig is van het PDB-bestand)
  1 eiwit eiwit.pdb (unit&state molecular_type native_structure)
  2-3 dna DNA.pdb (unit&state molecular_type native_structure)
  >>>>
  OPMERKING: De initiële invoerstructuurbestanden (eiwit.pdb en DNA.pdb hier) zijn nodig. De structuren zijn geschreven in het pdb-formaat. Hier zijn twee pdb-bestanden nodig: de ene is het eiwitstructuurbestand met de zware atoomcoördinaten van WRKY (eenheid 1) en de andere is de coördinaten van 200-bp dubbelstrengs (ds) DNA (eenheid 2-3). Het eiwit wordt in eerste instantie 15 Å verwijderd van het DNA geplaatst.
4. Stel het energiefunctieblok (vereist) in dat is gedefinieerd in het energy_function blok. Typ de volgende opdracht:
  <<<< energy_function
  LOKAAL(1) L_GO
  LOKAAL(2-3) L_DNA2
  NLOCAL(1/1) GA EXV ELE
  NLOCAL(2-3/2-3) ELE DNA
  NLOCAL(1/2-3) EXV ELE
  i_use_atom_protein = 0
  i_use_atom_dna = 0
  i_para_from_ninfo = 1
  i_triple_angle_term = 2
  >>>>
  OPMERKING: In de CG-simulaties wordt het eiwit grofkorrelig door het Go-model⁵³ met elk aminozuur vertegenwoordigd door een CG-deeltje op zijn Cα-positie. De eiwitconformatie zal dan worden vertekend naar de oorspronkelijke structuur, of kristalstructuur hier, onder de Go-potentiaal (figuur 4A links). Het DNA wordt beschreven door het 3SPN.2 model⁵⁴, waarin elk nucleotide wordt vertegenwoordigd door 3 CG-deeltjes S, P, N, die overeenkomen met respectievelijk suiker, fosfaat en stikstofhoudende base (figuur 4A rechts). De elektrostatische en vdW-interacties worden beschouwd tussen verschillende ketens. De elektrostatische interacties tussen eiwit en DNA in de CG-simulatie worden benaderd door de Debye-Hückel potentiaal⁵⁵. De vdW-afstotende energie neemt dezelfde vorm aan als in het Go-model.
5. Stel het md_information blok in (vereist) om de simulatie-informatie te definiëren. Typ de volgende opdracht:
  <<<< md_information
  n_step_sim = 1
  n_tstep(1) = 500000000
  tstep_size = 0,1
  n_step_save = 1000
  n_step_neighbor = 100
  i_com_zeroing = 0
  i_no_trans_rot = 0
  tempk = 300,0
  n_seed = -1
  >>>>
  De n_tstep is de simulatiestap. Stel de tstep_size in als de tijdsduur van elke MD-stap, elke CG Cafemol-tijdstap is ongeveer 200 fs³⁰, dus elke MD-stap hier is 200 × 0,1 fs in principe. Werk de burenlijst bij elke 100 MD-stappen (n_step_neighbor = 100). Stel de simulatietemperatuur in op 300 K. Regel de temperatuur door het Verlet-algoritme van het snelheidstype te gebruiken voor het bijwerken van de eiwitstructuur met de Berendsen-thermostaat⁵⁶.
  OPMERKING: De n_step_sim is het bekkennummer van de op het Go-model gebaseerde potentiaal, of het lokale minimale getal van de energiecurve. Een potentieel met meerdere bassins zorgt ervoor dat de eiwitconformatie bevooroordeeld is naar verschillende conformaties, zodat eiwitconformatie van het ene lokale minimum naar het andere kan veranderen. Hier wordt alleen het go-model met één bekken gebruikt, wat slechts één bevooroordeelde conformatie (kristalstructuur) voor eiwit in de simulaties betekent. Ondertussen, omdat er geen eiwit-DNA waterstofbindingsinteractie, enz. gemodelleerd is in de CG-context, kunnen de moleculaire bewegingen nog sneller worden bemonsterd, d.w.z. > 10 keer dan in de atoomsimulaties.
6. Stel elektrostatisch blok in (alleen vereist wanneer elektrostatische interactie wordt gebruikt) omdat de elektrostatische interactie wordt beschouwd tussen verschillende ketens, dus gebruik dit blok om de parameters voor elektrostatische interactie te definiëren door te typen:
  <<<< elektrostatisch
  cutoff_ele = 10,0
  ionic_strength = 0,15
  >>>>
  Stel de Debye-lengte in de elektrostatische interactie in op 10 Å, wat overeenkomt met de oplossingsconditie. Stel de ionische sterkte in op 0,15 M, zoals bij de fysiologische toestand.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Rotatie-gekoppelde glijding of 1 bp stap van WRKY uit de MSM-constructie
Alle eiwitconformaties op het DNA zijn in kaart gebracht aan de longitudinale beweging X en rotatiehoek van het eiwit COM langs DNA (zie figuur 3A). De lineaire koppeling van deze twee graden duidt op rotatie-gekoppelde stappen van het WRKY-domeineiwit op het DNA. De conformaties kunnen verder worden geclusterd in 3 macrotoestanden (S1, S2 en S3) in de MSM. De voorwaartse stap van WRKY volgt dan de macrostaatovergang S1->S2->S3. S1 verwijst naar een metastabiele toestand geïnitieerd door de gemodelleerde structuur (gebaseerd op de kristalstructuur van WRKY-DNA complex⁴⁰), met een populatie van ~ 6%. Merk op dat in de huidige modellering de initiële eiwitconformatie werd overgenomen van de kristalstructuur waarin het eiwit bindt met specifieke W-box DNA-sequentie⁴⁰. Zo'n gemodelleerd eiwit-poly A-DNA-complex leidt dus tot minder gunstige beginstructuren (S1) dan de getrapte of uiteindelijk ontspannen structuren (S3). Niettemin kan men vinden dat de waterstofbruggen (HBs) op de eiwit-DNA-interface zich herstellen in de buurt van het centrum van S3 als die nabij het centrum in S1 (zie figuur 3B). De HBs in de S1-staat zijn goed onderhouden: K125 met A15, R131, Q146 en Y133 met A16, K144 en Y119 met A17, R135 met A18 (figuur 3B linksboven). S3 verwijst naar een metastabiele toestand na de 1-bp eiwitstap, waarbij bijna alle HBs zijn verschoven voor 1-bp afstand (figuur 3B bodem), en de structuren lijken stabiel met de hoogste populatie (63%). De tussentoestand S2 verbindt S1 en S3, met een middelhoge bevolking (~30%). We ontdekten dat de R135 en K144 vrij flexibel zijn in deze tussentoestand en meestal HBs kunnen breken met het huidige nucleotide en dat kunnen hervormen met het volgende nucleotide (figuur 3B rechtsboven). Over het algemeen bewoog het WRKY-eiwit COM ~ 2,9 Å en draaide ~ 55 ° tot stap 1 bp hier. De snelheidsbeperkende stap voor de WRKY-stap is S2->S3, die in wezen collectief breken en hervormen van de HBs mogelijk maakt en gemiddeld ~ 7 μs vereist. Daarentegen kan S1 naar S2 zeer snel overgaan op een tijdstip van ~ 0,06 μs of 60-ns (figuur 3B), waarbij voornamelijk het eiwit COM-fluctuaties betrokken zijn (bijvoorbeeld als gevolg van eiwitoriëntatieveranderingen op het DNA).

Enkelstrengs bias van WRKY tijdens processieve diffusie in het CG-model
In onze recente studie ontdekten we dat het WRKY-domeineiwit zich bij voorkeur bindt aan één streng van het dsDNA, ongeacht tijdens 1-bp stap- of statische binding; en de enkelstrengs bias wordt zeer prominent, met name bij specifieke DNA-sequentiebinding⁸. Ondertussen is het niet duidelijk of zo'n trend blijft bestaan tijdens de processieve diffusie van het eiwit langs DNA. Hier hebben we geprobeerd de potentiële streng bias te onderzoeken via de CG-simulaties. Interessant is dat een significante enkelstrengs DNA-bindingsconfiguratie is geïdentificeerd in de CG-simulaties van de WRKY tijdens processieve diffusie. Om dat te zien, werden de contactnummers tussen eiwit en DNA berekend op de respectievelijke DNA-strengen (zie figuur 4B). Een contact wordt overwogen wanneer de afstand tussen eiwit CG-deeltje en DNA CG P (fosfaatgroep) deeltje kleiner is dan 7 Å. Het eiwit vertoont inderdaad een voorkeur voor een van de DNA-strengen (bijv. ~ 4 contacten met de ene streng en ~ 1 contact met de andere), d.w.z. zelfs wanneer gedetailleerde interacties zoals HBs op de eiwit-DNA-interface niet zijn gemodelleerd.

De gewenste DNA-streng kan echter van tijd tot tijd schakelen tussen de twee strengen van het DNA, afhankelijk van de bindingsoriëntatie of configuratie van het eiwit op het DNA. In het bijzonder, volgens het contactnummer gevormd tussen het eiwit en de respectieve DNA-strengen, zijn er hier voornamelijk 4 toestanden (zoals gelabeld 1, 2, 3 en 4 in figuur 4B, C). In toestand 1 en 3 bindt een zinkvingergebied in de richting van -Y, en de voorkeursstreng is de blauwe. In toestand 2 en 3 bindt het zinkvingergebied in de richting van +Y en wordt de gewenste streng de rode. Ook blijkt dat het zink-vijgengebied dominant interageert met het DNA (zie figuur 4D). Vandaar dat de DNA-streng die nauw verbonden is met het zinkvingergebied inderdaad de voorkeur heeft. Volgens bovenstaande bemonstering lijkt het er dus op dat de strengbias aanhoudt maar schakelt tussen de twee DNA-strengen in het CG-model van de processieve eiwitdiffusie.

Eiwit individuele reststap in de CG simulaties
Eerder werd opgemerkt uit onze CG-simulaties dat de stapgrootte van WRKY kan variëren op verschillende DNA-sequenties⁸. Het eiwit COM heeft de neiging om stap 1 bp te zetten op het homogene poly-A DNA. Terwijl op poly-AT DNA met 2 bp periodiciteit, lijkt het aandeel van 2-bp stappen toe te nemen.

Daarnaast hebben we hier onderzocht of individuele eiwitresiduen synchroon bewegen op het eiwit-DNA-grensvlak. We berekenden de stapgrootte van elk sterk geconserveerd residu in het WRKY-motief (WRKYGQK) voor elke 1000 tijdstappen (figuur 5A). De resterende stapgrootte van elk geconserveerd residu kan dus worden gemeten aan de hand van de CG-simulaties. De resultaten laten inderdaad zien dat de stapgroottes van deze individuele residuen meer gesynchroniseerd zijn op poly-A DNA dan op poly-AT of willekeurige DNA-sequenties (figuur 5B).

Figuur 1: De conformatiegeneratie en microtoestanden/macrotoestanden constructie. (A) Het initiële voorwaartse stappad in kaart gebracht op de eiwit-DNA RMSD en eiwitrotatiehoek rond het DNA. De initieel gekozen 25 structuren zijn gelabeld met rode cirkels. (B) De 100 conformatieclustercentra uit de^1e ronde 25 x 50 ns MD-simulatietrajecten in kaart gebracht op de twee hoogste eigenwaarde tIC-richting. (C) Waarnemingspunten van de impliciete tijdschaal als functie van de vertragingstijd voor de MSM-constructie via tICA met behulp van gekozen afstandsparen als input. Voor elke set werd MSM geconstrueerd door de conformaties op de bovenste 2 tIC's te projecteren, gevolgd door K-centers clustering om 20 tot 2000 microtoestanden te produceren (van links naar rechts kolom) met correlatievertragingstijd voor tICA gekozen uit 5 tot 40 ns (van boven naar beneden). (D) De 500 microtoestanden geconstrueerd en (E) de verder geconstrueerde 3 macrotoestanden, met overeenkomstige microstaatcentra in kaart gebracht langs de hoogste twee tIC-richting. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 2: Constructie van de macrotoestanden. (A) Het in kaart brengen van het initiële voorwaartse stappadtraject (links) en met een klein aantal extra microseconde trajectmonsters (rechts) op het eiwitcentrum van massa (COM) beweging langs DNA lange as (X) en rotatiehoek rond het DNA (eerder verkregen⁸). (B) Het in kaart brengen van de oorspronkelijke trajecten van 100 × 50 ns en de trajecten van 97 × 50 ns die in de huidige MSM-constructie worden gebruikt. (C) De constructie van 3-6 macrotoestanden en hun populaties uit de geconstrueerde MSM zijn gelabeld op de uitgebreide steekproefkaarten. (D) De eiwitbeweging X en de rotatiehoek rond DNA worden respectievelijk getoond. De bemonsterde conformaties worden uiteindelijk samengevoegd in 3 macrotoestanden, waarbij rood, blauw en grijs overeenkomen met respectievelijk de macrotoestand 1, 2 en 3. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 3: De MSM van het WRKY-domeineiwit stapt op poly-A DNA. (A) De projectie van de MD-conformatiemomentopnamen op coördinaten van het eiwit COM-beweging X en rotatiehoek ten opzichte van het DNA. De 3 macrotoestanden S1, S2 en S3 zijn respectievelijk rood, blauw en grijs gekleurd. (B) Representatieve conformaties en overgangsgemiddelde-eerste-passage-tijd (MFPT) van de geconstrueerde 3 macrotoestanden. De belangrijkste waterstofbruggen tussen eiwit en DNA worden getoond. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 4: Het grofkorrelige (CG) model en contacten gevormd tussen eiwit- en DNA-strengen in het CG-model. (A) De grofkorrelige korreling van eiwit (links) en DNA (rechts). (B) Het contactnummer tussen WRKY en elke DNA-streng langs de simulatie. (C) De moleculaire weergaven van de 4 contactmodi. Het eiwitgebied bij de zinkvinger is grijs gekleurd en het andere gebied is groen gekleurd. (D) De contactkans van elk eiwitaminozuur met DNA. Wanneer de afstand tussen het CG-deeltje van het aminozuur en eventuele DNA-CG-deeltjes kleiner is dan 7 Å, wordt het aminozuur geacht in contact te staan met DNA. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 5: De diffusiestapgroottes van individueel eiwitaminozuur in het WRKY-motief als WRKY bewegen langs DNA. (A) De sterk geconserveerde residuen (WRKYGQK) in atomaire structuur (links) en na grofkorrelig (rechts). (B) De stapgrootte voor elk geconserveerd residu op verschillende DNA-sequenties (poly-A; poly-AT; willekeurige sequenties) Klik hier om een grotere versie van deze figuur te bekijken.

Aanvullend dossier 1: De python-codes en -software die in dit protocol worden gebruikt. MSM wordt voornamelijk gebouwd met behulp van de MSMbuilder, de nodige python-codes zijn gekoppeld. Klik hier om dit bestand te downloaden.

Aanvullend dossier 2: De atomistische moleculaire dynamica simulaties worden uitgevoerd door GROMACS, de commando's en benodigde bestanden om all-atom simulaties te bouwen zijn ook bijgevoegd. De grofkorrelige simulaties worden uitgevoerd door CafeMol-software. De simulatieresultaten worden geanalyseerd door VMD en MATLAB. Klik hier om dit bestand te downloaden.

Aanvullend dossier 3: Het tcl-script om eiwit in VMD te roteren en te verplaatsen. Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Dit werk richt zich op het uitvoeren van op structuur gebaseerde computationele simulatie en bemonsteringen om een transcriptiefactor of TF-eiwit te onthullen dat langs DNA beweegt, niet alleen bij atomaire details van stappen, maar ook in de processieve diffusie, die essentieel is voor de gefaciliteerde diffusie van TF in het DNA-doelonderzoek. Om dat te doen, werd eerst het Markov-toestandsmodel of MSM van een klein TF-domeineiwit WRKY-stepping voor 1-bp langs homogeen poly-A-DNA geconstrueerd, zodat een ensemble van eiwitconformaties op het DNA samen met collectieve waterstofbinding of HB-dynamiek op de eiwit-DNA-interface kan worden onthuld. Om de MSM te verkrijgen, voerden we twee rondes uit van uitgebreide md-simulaties met alle atomen langs een spontaan eiwitstappad (verkregen uit eerdere 10-μs-simulatie), met stroommonsters in aggregatie van 7,5 μs (125 x 60 ns). Dergelijke uitgebreide bemonsteringen bieden ons snapshots voor conformatieclustering in honderden microtoestanden, waarbij gebruik wordt gemaakt van eiwit-DNA interfaciale paarafstanden als geometrische metingen voor de clustering. De Markovian-eigenschap van de MSM-constructie wordt gedeeltelijk gevalideerd door het detecteren van tijdschaalscheiding van de impliciete tijdschalen berekend voor verschillende lengtes of vertragingstijd van individuele MD-simulaties. 20-2000 microtoestanden werden vervolgens getest en vergeleken voor de tijdschaalscheidingseigenschappen, waarbij 500 microtoestanden werden geselecteerd voor de MSM-constructie. Verder werden de 500 microtoestanden kinetisch samengevoegd tot een klein aantal macrotoestanden, waarvoor we verschillende toestanden hebben getest en ontdekten dat drie macrotoestanden voldoende waren voor het huidige systeem. Het drietoestandenmodel laat eenvoudig zien dat toestand S1 relatief snel naar S2 overgaat (binnen tientallen ns), gedomineerd door eiwitcentrum van massa (COM) fluctuaties op het DNA, terwijl toestand S2 langzaam naar S3 overgaat en snelheidsbeperkend is (~ 7 μs gemiddeld), gedomineerd door collectieve HB-dynamiek voor stappen. Merk op dat kinetische klontering van de microtoestanden in een klein aantal kinetisch verschillende macrotoestanden nog steeds onderhevig is aan methodologische ontwikkelingen, met verschillende geteste algoritmen en machine learning-technieken voor verbeteringen 57,58,59,60,61,62,63 . De kritieke stappen om MSM te bouwen omvatten het kiezen van de afstandsparen die in tICA worden gebruikt en het bepalen van de parameters die worden gebruikt om microtoestanden te construeren. De keuze van afstandsparen is gebaseerd op kennis en het is belangrijk om de meest essentiële interactieparen te kiezen. De parameters voor het construeren van microtoestanden, zoals de correlatievertragingstijd, vertragingstijd, het muber van microtoestanden, moeten goed worden ingesteld om ervoor te zorgen dat het systeem Markovisch is.

Met dergelijke inspanningen kan de submicro- tot micro-seconden eiwitstructurele dynamiek met atomaire details systematisch worden onthuld voor eiwit dat 1-bp langs DNA stapt. In principe kan het systeem met de overgangskansmatrix verkregen uit de MSM-constructie worden geëvolueerd tot een lange tijdschaal voorbij microseconden, of bijvoorbeeld om milliseconden en boven ^13,17,64 te benaderen. Er zijn echter intrinsieke beperkingen van de MSM-bemonstering en -constructie, die afhankelijk zijn van individuele simulaties van submicroseconden rond een bepaald initieel pad, en de Markoviaanse eigenschap is mogelijk niet goed gegarandeerd ^65,66. In de meeste praktijken werd het initiële pad geconstrueerd onder forcering of versnelling, hoewel we in het huidige systeem profiteren van een spontaan eiwitstappenpad (zonder te forceren of te versnellen) verkregen uit een evenwichtssimulatie van 10 ms⁸. De conformatiemonsters in totaal zijn nog steeds beperkt met tientallen microseconden als gevolg van hoge rekenkosten van de atoomsimulaties. Het is onwaarschijnlijk dat dergelijke microsecondenmonsters van de eiwitstap voldoende conformaties opleveren om op lange tijd processieve TF-diffusie te verschijnen. Het geheugenprobleem zou significant worden als men de momenteel verkregen overgangskansmatrix implementeert buiten een bepaalde tijdschaal, en de Eigenschap Markovian is niet gegarandeerd om het juiste gebruik van de huidige MSM 14,52,66 te garanderen. Daarom, om de langdurige processieve diffusie van TF langs DNA te bemonsteren, worden in plaats daarvan grofkorrelige of CG-modellering en simulatie van het residuniveau geïmplementeerd, om te balanceren tussen het handhaven van de structurele basis en het verlagen van de computationele kosten.

In de CG-modellering en -simulatie worden de eiwitresiduen en DNA-nucleotiden weergegeven door kralen (d.w.z. één kraal voor één aminozuur en drie kralen voor één nucleotide), waarbij de eiwitconformatie wordt gehandhaafd via het Go-model naar een inheemse of vooraf gebalanceerde configuratie^30,53. Hoewel het atomaire niveau van HB-interacties afwezig wordt in het CG-model, worden de eiwit-DNA-elektrostatische interacties goed onderhouden, die in staat lijken te zijn om dominante dynamische kenmerken in de processieve diffusie van het eiwit langs DNA 67,68,69,70 vast te leggen. Gedetailleerde implementatieprotocollen worden hier gepresenteerd voor het modelleren en simuleren van het WRKY-DNA-systeem. De representatieve resultaten laten interessant zien dat ten eerste de enkelstrengs DNA-bias die werd gepresenteerd in de vorige atoomsimulatie van het WRKY-DNA-systeem blijft bestaan in het CG-model, terwijl een verscheidenheid aan eiwitoriëntaties / configuraties bemonsterd tijdens processieve diffusie van tijd tot tijd leidt tot het wisselen van de bias tussen de twee strengen. Vandaar dat een dergelijke DNA-strengbias niet noodzakelijkerwijs verband houdt met HB-associatie, maar voornamelijk lijkt te vertrouwen op de eiwit-DNA elektrostatische interacties, die variëren voor verschillende eiwitconfiguraties of oriëntaties op het DNA. Vervolgens vertonen individuele aminozuren op of nabij de eiwit-DNA-interface, zoals de sterk geconserveerde WRKQGQK-motieven, verschillende stapgroottes of synchronisatiepatronen voor verschillende DNA-sequenties. In onze vorige studie werden de variaties in stapgrootte alleen getoond voor de COM van eiwit, omdat het eiwit werd gemodelleerd om langs verschillende DNA-sequenties te diffunderen. Merk op dat het huidige CG-model van het DNA DNA-sequentievariaties ondersteunt met verschillende parametrering 54,71,72, hoewel atomaire details ontbreken. Een goede DNA-sequentie-afhankelijke parametrering in de structuurgebaseerde modellering van het eiwit-DNA-systeem, is dus van cruciaal belang om eiwit-DNA-zoek- en herkenningsmechanismen over meerdere tijd- en lengteschalen te onthullen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben geen belangenverstrengeling.

Acknowledgments

Dit werk is ondersteund door NSFC Grant #11775016 en #11635002. JY werd ondersteund door de CMCF van de UCI via NSF DMS 1763272 en de Simons Foundation grant #594598 en start-up fonds van UCI. LTD is ondersteund door Natural Science Foundation van Shanghai #20ZR1425400 en #21JC1403100. We erkennen ook de computationele ondersteuning van het Beijing Computational Science Research Center (CSRC).

Materials

Name	Company	Catalog Number	Comments
CafeMol	Kyoto University		coarse-grained (CG) simulations
GROMACS	University of Groningen Royal Institute of Technology Uppsala University		molecular dynamics simulations software
Matlab	MathWorks		Numerical calculation software
MSMbuilder	Stanford University		build MSM
VMD	UNIVERSITY OF ILLINOIS AT URBANA-CHAMPAIGN		molecular visualization program

DOWNLOAD MATERIALS LIST

References

Latchman, D. S. Transcription factors: an overview. The International Journal of Biochemistry & Cell Biology. 29 (12), 1305-1312 (1997).
Berg, O. G., von Hippel, P. H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. Journal of Molecular Biology. 193 (4), 723-750 (1987).
von Hippel, P. H., Berg, O. G. Facilitated target location in biological systems. The Journal of Biological Chemistry. 264 (2), 675-678 (1989).
Halford, S. E., Marko, J. F. How do site-specific DNA-binding proteins find their targets. Nucleic Acids Research. 32 (10), 3040-3052 (2004).
Slusky, M., Mirny, L. A. Kinetics of protein-DNA interaction: facilitated target location in sequence-dependent potential. Biophysical Journal. 87 (6), 4021-4035 (2004).
Bauer, M., Metzler, R. Generalized facilitated diffusion model for DNA-binding proteins with search and recognition states. Biophysical Journal. 102 (10), 2321-2330 (2012).
Shvets, A. A., Kochugaeva, M. P., Kolomeisky, A. B. Mechanisms of Protein Search for Targets on DNA: Theoretical Insights. Molecules. 23 (9), Basel, Switzerland. 2106 (2018).
Dai, L., Xu, Y., Du, Z., Su, X. D., Yu, J. Revealing atomic-scale molecular diffusion of a plant-transcription factor WRKY domain protein along DNA. Proceedings of the National Academy of Sciences of the United States of America. 118 (23), 2102621118 (2021).
Chodera, J. D., Singhal, N., Pande, V. S., Dill, K. A., Swope, W. C. Automatic discovery of metastable states for the construction of Markov models of macromolecular conformational dynamics. The Journal of Chemical Physics. 126 (15), 155101 (2007).
Pan, A. C., Roux, B. Building Markov state models along pathways to determine free energies and rates of transitions. The Journal of Chemical Physics. 129 (6), 064107 (2008).
Bowman, G. R., Huang, X., Pande, V. S. Using generalized ensemble simulations and Markov state models to identify conformational states. Methods. 49 (2), San Diego, California. 197-201 (2009).
Prinz, J. H., et al. Markov models of molecular kinetics: Generation and validation. The Journal of chemical physics. 134 (17), 174105 (2011).
Chodera, J. D., Noé, F. Markov state models of biomolecular conformational dynamics. Current Opinion in Structural Biology. 25, 135-144 (2014).
Malmstrom, R. D., Lee, C. T., Van Wart, A. T., Amaro, R. E. On the Application of Molecular-Dynamics Based Markov State Models to Functional Proteins. Journal of Chemical Theory and Computation. 10 (7), 2648-2657 (2014).
Husic, B. E., Pande, V. S. Markov State Models: From an Art to a Science. Journal of the American Chemical Society. 140 (7), 2386-2396 (2018).
Sittel, F., Stock, G. Perspective: Identification of collective variables and metastable states of protein dynamics. The Journal of chemical physics. 149 (15), 150901 (2018).
Wang, W., Cao, S., Zhu, L., Huang, X. Constructing Markov State Models to elucidate the functional conformational changes of complex biomolecules. WIREs Computational Molecular Science. 8, 1343 (2018).
Peng, S., et al. Target search and recognition mechanisms of glycosylase AlkD revealed by scanning FRET-FCS and Markov state models. Proceedings of the National Academy of Sciences of the United States of America. 117 (36), 21889-21895 (2020).
Tian, J., Wang, L., Da, L. T. Atomic resolution of short-range sliding dynamics of thymine DNA glycosylase along DNA minor-groove for lesion recognition. Nucleic Acids Research. 49 (3), 1278-1293 (2021).
Chu, J. -W., Izveko, S., Voth, G. The multiscale challenge for biomolecular systems: coarse-grained modeling. Molecular Simulation. 32 (3-4), 211-218 (2006).
Marrink, S. J., Risselada, H. J., Yefimov, S., Tieleman, D. P., De Vries, A. H. The MARTINI force field: coarse grained model for biomolecular simulations. The Journal of Physical Chemistry B. 111 (27), 7812-7824 (2007).
Givaty, O., Levy, Y. Protein sliding along DNA: dynamics and structural characterization. Journal of Molecular Biology. 385 (4), 1087-1097 (2009).
Khazanov, N., Levy, Y. Sliding of p53 along DNA can be modulated by its oligomeric state and by cross-talks between its constituent domains. Journal of Molecular Biology. 408 (2), 335-355 (2011).
Riniker, S., Allison, J. R., van Gunsteren, W. F. On developing coarse-grained models for biomolecular simulation: a review. Physical Chemistry Chemical Physics : PCCP. 14 (36), 12423-12430 (2012).
Kmiecik, S., et al. Coarse-Grained Protein Models and Their Applications. Chemical Reviews. 116 (14), 7898-7936 (2006).
Bhattacherjee, A., Krepel, D., Levy, Y. Coarse-grained models for studying protein diffusion along DNA. WIREs Computational Molecular Science. 6, 515-531 (2016).
Wang, J., et al. Machine Learning of Coarse-Grained Molecular Dynamics Force Fields. ACS Central Science. 5 (5), 755-767 (2019).
Joshi, S. Y., Deshmukh, S. A. A review of advancements in coarse-grained molecular dynamics simulations. Molecular Simulation. 47 (10-11), 786-803 (2021).
Bigman, L. S., Greenblatt, H. M., Levy, Y. What Are the Molecular Requirements for Protein Sliding along DNA. The Journal of Physical Chemistry B. 125 (12), 3119-3131 (2021).
Kenzaki, H., et al. CafeMol: A Coarse-Grained Biomolecular Simulator for Simulating Proteins at Work. Journal of Chemical Theory and Computation. 7 (6), 1979-1989 (2011).
Berendsen, H. J. C., vander Spoel, D., van Drunen, R. GROMACS: a message-passing parallel molecular dynamics implementation. Computer Physics Communications. 91 (1-3), 43-56 (1995).
vander Spoel, D., et al. GROMACS: fast, flexible, and free. Journal of Computational Chemistry. 26 (16), 1701-1718 (2005).
Abraham, M. J., et al. GROMACS: High performance molecular simulations through multi-level parallelism from laptops to supercomputers. SoftwareX. 1-2, 19-25 (2015).
Harrigan, M. P., et al. MSMBuilder: Statistical Models for Biomolecular Dynamics. Biophysical journal. 112 (1), 10-15 (2017).
Humphrey, W., Dalke, A., Schulten, K. VMD: visual molecular dynamics. Journal of Molecular Graphics. 14 (1), 33-38 (1996).
Izrailev, S., et al. Steered Molecular Dynamics. Computational Molecular Dynamics: Challenges, Methods, Ideas. 4, Springer. Berlin, Heidelberg. 39-65 (1999).
Schlitter, J., Engels, M., Krüger, P. Targeted molecular dynamics: a new approach for searching pathways of conformational transitions. Journal of Molecular Graphics. 12 (2), 84-89 (1994).
Maragliano, L., Fischer, A., Vanden-Eijnden, E., Ciccotti, G. String method in collective variables: minimum free energy paths and isocommittor surfaces. The Journal of Chemical Physics. 125 (2), 24106 (2006).
Weiss, D. R., Levitt, M. Can morphing methods predict intermediate structures. Journal of Molecular Biology. 385 (2), 665-674 (2009).
Xu, Y. P., Xu, H., Wang, B., Su, X. D. Crystal structures of N-terminal WRKY transcription factors and DNA complexes. Protein. 11 (3), 208-213 (2020).
Higham, D. J., Higham, N. J. MATLAB guide. Society for Industrial and Applied Mathematics. , (2016).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Gonzalez, T. F. Clustering to minimize the maximum intercluster distance. Theoretical Computer Science. 38, 293-306 (1985).
Zhao, Y., Sheong, F. K., Sun, J., Sander, P., Huang, X. A fast parallel clustering algorithm for molecular simulation trajectories. Journal of Computational Chemistry. 34 (2), 95-104 (2013).
Ivani, I., et al. Parmbsc1: a refined force field for DNA simulations. Nature Methods. 13 (1), 55-58 (2016).
Naritomi, Y., Fuchigami, S. Slow dynamics of a protein backbone in molecular dynamics simulation revealed by time-structure based independent component analysis. The Journal of Chemical Physics. 139 (21), 215102 (2013).
Naritomi, Y., Fuchigami, S. Slow dynamics in protein fluctuations revealed by time-structure based independent component analysis: the case of domain motions. The Journal of Chemical Physics. 134 (6), 065101 (2011).
Pérez-Hernández, G., Paul, F., Giorgino, T., De Fabritiis, G., Noé, F. Identification of slow molecular order parameters for Markov model construction. The Journal of Chemical Physics. 139 (1), 015102 (2013).
McGibbon, R. T., Pande, V. S. Variational cross-validation of slow dynamical modes in molecular kinetics. The Journal of Chemical Physics. 142 (12), 124105 (2015).
Deuflhard, P., Weber, M. Robust Perron cluster analysis in conformation dynamics. Linear Algebra and its Applications. 398, 161-184 (2005).
Silva, D. A., et al. Millisecond dynamics of RNA polymerase II translocation at atomic resolution. Proceedings of the National Academy of Sciences of the United States of America. 111 (21), 7665-7670 (2014).
Swope, W. C., Pitera, J. W., Suits, F. Describing Protein Folding Kinetics by Molecular Dynamics Simulations. 1. Theory. The Journal of Physical Chemistry B. 108 (21), 6571-6581 (2004).
Clementi, C., Nymeyer, H., Onuchic, J. N. Topological and energetic factors: what determines the structural details of the transition state ensemble and "en-route" intermediates for protein folding? An investigation for small globular proteins. Journal of molecular biology. 298 (5), 937-953 (2000).
Hinckley, D. M., Freeman, G. S., Whitmer, J. K., De Pablo, J. J. An experimentally-informed coarse-grained 3-Site-Per-Nucleotide model of DNA: structure, thermodynamics, and dynamics of hybridization. The Journal of chemical physics. 139 (14), 144903 (2013).
Debye, P., Huckel, E. The theory of the electrolyte II-The border law for electrical conductivity. Physikalische Zeitschrift. 24, 305-325 (1923).
Berendsen, H. J., Postma, J. V., van Gunsteren, W. F., DiNola, A., Haak, J. R. Molecular dynamics with coupling to an external bath. The Journal of Chemical Physics. 81, 3684-3690 (1984).
Bowman, G. R. Improved coarse-graining of Markov state models via explicit consideration of statistical uncertainty. The Journal of Chemical Physics. 137 (13), 134111 (2012).
Jain, A., Stock, G. Identifying metastable states of folding proteins. Journal of Chemical Theory and Computation. 8 (10), 3810-3819 (2012).
Röblitz, S., Weber, M. Fuzzy spectral clustering by PCCA+: application to Markov state models and data classification. Advances in Data Analysis and Classification. 7, 147-179 (2013).
Mardt, A., Pasquali, L., Wu, H., Noé, F. VAMPnets for deep learning of molecular kinetics. Nature Communications. 9 (1), 5 (2018).
Wang, W., Liang, T., Sheong, F. K., Fan, X., Huang, X. An efficient Bayesian kinetic lumping algorithm to identify metastable conformational states via Gibbs sampling. The Journal of Chemical Physics. 149 (7), 072337 (2018).
Chen, W., Sidky, H., Ferguson, A. L. Nonlinear discovery of slow molecular modes using state-free reversible VAMPnets. The Journal of Chemical Physics. 150 (21), 214114 (2019).
Gu, H., et al. RPnet: a reverse-projection-based neural network for coarse-graining metastable conformational states for protein dynamics. Physical Chemistry Chemical Physics :PCCP. 24 (3), 1462-1474 (2022).
Lane, T. J., Bowman, G. R., Beauchamp, K., Voelz, V. A., Pande, V. S. Markov state model reveals folding and functional dynamics in ultra-long MD trajectories. Journal of the American Chemical Society. 133 (45), 18413-18419 (2011).
Konovalov, K. A., Unarta, I. C., Cao, S., Goonetilleke, E. C., Huang, X. Markov State Models to Study the Functional Dynamics of Proteins in the Wake of Machine Learning. JACS Au. 1 (9), 1330-1341 (2021).
Cao, S., Montoya-Castillo, A., Wang, W., Markland, T. E., Huang, X. On the advantages of exploiting memory in Markov state models for biomolecular dynamics. The Journal of Chemical Physics. 153 (1), 014105 (2020).
Brandani, G. B., Takada, S. Chromatin remodelers couple inchworm motion with twist-defect formation to slide nucleosomal DNA. PLoS Computational Biology. 14 (11), 1006512 (2018).
Tan, C., Terakawa, T., Takada, S. Dynamic Coupling among Protein Binding, Sliding, and DNA Bending Revealed by Molecular Dynamics. Journal of the American Chemical Society. 138 (27), 8512-8522 (2016).
Terakawa, T., Takada, S. p53 dynamics upon response element recognition explored by molecular simulations. Scientific reports. 5, 17107 (2015).
Brandani, G. B., Niina, T., Tan, C., Takada, S. DNA sliding in nucleosomes via twist defect propagation revealed by molecular simulations. Nucleic Acids Research. 46 (6), 2788-2801 (2018).
Knotts, T. A., Rathore, N., Schwartz, D. C., de Pablo, J. J. A coarse grain model for DNA. The Journal of Chemical Physics. 126 (8), 084901 (2007).
Freeman, G. S., Hinckley, D. M., Lequieu, J. P., Whitmer, J. K., de Pablo, J. J. Coarse-grained modeling of DNA curvature. The Journal of Chemical Physics. 141 (16), 165103 (2014).

Biology

Structuurgebaseerde simulatie en bemonstering van transcriptiefactoreiwitbewegingen langs DNA van atomaire schaalstappen naar grofkorrelige diffusie

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.