Formålet med denne protokollen er å effektivt generere og kuratere småmolekylstrukturbiblioteker ved hjelp av åpen kildekode-programvare.
Uttømmende generering av molekylære strukturer har mange kjemiske og biokjemiske anvendelser som legemiddeldesign, molekylær databasekonstruksjon, utforskning av alternative biokjemier og mange flere. Matematisk sett er dette grafgeneratorer med kjemiske begrensninger. I felten er den mest effektive generatoren i dag (MOLGEN) et kommersielt produkt, noe som begrenser bruken. Alternativt til det er en annen molekylær strukturgenerator, MAYGEN, et nylig åpen kildekode-verktøy med effektivitet som kan sammenlignes med MOLGEN og kapasiteten for brukere til å øke ytelsen ved å legge til nye funksjoner. Et av forskningsfeltene som kan dra nytte av denne utviklingen er astrobiologi; strukturgeneratorer gjør det mulig for forskere å supplere eksperimentelle data med beregningsmuligheter for alternativ biokjemi. Denne protokollen beskriver ett brukstilfelle for strukturgenerering i astrobiologi, nemlig generering og kurasjon av alfa-aminosyrebiblioteker. Ved hjelp av åpen kildekode-strukturgeneratorer og cheminformatikkverktøy kan praksisen som er beskrevet her implementeres utover astrobiologi for lavkostnadsoppretting og kurasjon av kjemiske strukturbiblioteker for ethvert forskningsspørsmål.
Molekylær strukturgenerering tjener som en praktisk anvendelse av det generelle problemet med uttømmende grafgenerering; gitt flere noder (atomer) og begrensninger på deres tilkobling (f.eks. valenser, bindingsmultiteter, ønskede / uønskede understrukturer), hvor mange tilkoblede grafer (molekyler) er mulige? Strukturgeneratorer har sett omfattende anvendelse i legemiddeloppdagelse og farmasøytisk utvikling, hvor de kan skape store biblioteker med nye strukturer for i silicoscreening 1.
Den første strukturgeneratoren, CONGEN, ble utviklet for det første kunstige intelligensprosjektet i organisk kjemi, DENDRAL2 (forkortelse for DENDRitic ALgorithm). Flere programvarefølgere av DENDRAL ble rapportert i litteraturen; Imidlertid ble ikke alle av dem opprettholdt eller effektive. For tiden er MOLGEN3 den toppmoderne molekylære strukturgeneratoren. Dessverre for de fleste potensielle brukere er den lukket kilde og krever en lisensavgift. Dermed har det vært behov for en effektiv åpen kildekode-strukturgenerator som enkelt kan tilpasse seg spesifikke applikasjoner. En utfordring for en effektiv strukturgenerator er å håndtere kombinatorisk eksplosjon; Etter hvert som størrelsen på en molekylær formel øker, øker størrelsen på det kjemiske søkeområdet eksponentielt. En nylig gjennomgang utforsker historien og utfordringene til molekylær struktur generasjon4.
Før 2021 var Parallel Molecule Generator (PMG)5 den raskeste åpen kildekode-strukturgeneratoren, men den var fortsatt tregere enn MOLGEN etter størrelsesorden. MAYGEN6 er omtrent 47 ganger raskere enn PMG og rundt 3 ganger tregere enn MOLGEN, noe som gjør MAYGEN til den raskeste og mest effektive åpen kildekode-strukturgeneratoren som er tilgjengelig. Mer detaljerte sammenligninger og benchmarking tester finner du i avisen som introduserer MAYGEN6. Et sentralt trekk ved programmet er den leksikografiske bestillingsbaserte testen for kanoniske strukturer, en ordnet grafgenereringsmetode basert på Schreier-Sims 7-algoritmen. Programvaren kan enkelt integreres i andre prosjekter og forbedres for brukernes behov.
I likhet med MOLGEN og PMG tar MAYGEN en brukerdefinert molekylær formel og genererer alle strukturer som er mulige for den formelen. For eksempel, hvis en bruker kjører MAYGEN med formelen C5H12, vil MAYGEN generere alle mulige strukturer som inneholder fem karbonatomer og tolv hydrogenatomer. I motsetning til sin åpen kildekode-motpart PMG, kan MAYGEN også imøtekomme “fuzzy” molekylær formel som bruker intervaller i stedet for diskrete tall for telling av hvert element. For eksempel, hvis en bruker kjører MAYGEN med formelen C5-7H12-15, vil MAYGEN generere alle mulige strukturer som inneholder mellom fem og syv karbonatomer og tolv og femten hydrogenatomer, noe som muliggjør enkel generering av strukturer med et bredt spekter av atomsammensetninger.
Astrobiologi er et slikt felt som kan dra nytte av molekylære strukturgeneratorer. Et populært tema i astrobiologi er utviklingen av aminosyre alfabetet som deles av alt ekstant liv på jorden. En av de definerende egenskapene til Last Universal Common Ancestor (LUCA) er bruken av tjue genetisk kodede aminosyrer for proteinkonstruksjon 8,9. Basert på metaanalyser av arbeid på flere felt 10,11,12, ca 10 av disse aminosyrene (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) dannes lett under abiotiske forhold og sannsynligvis utgjør aminosyre alfabetet av pre-LUCA organismer. Over tid ble dette “tidlige” alfabetet utvidet som svar på forskjellige strukturelle og funksjonelle behov. For eksempel hevder en nylig gjennomgang fra Moosmann13 at tillegg av nyere medlemmer av de genetisk kodede aminosyrene (nemlig Met, Tyr og Trp) tillot overlevelse i oksygenrike miljøer ved å forhindre intracellulær spredning av reaktive oksygenarter.
En stadig voksende pakke med analytiske kjemiteknikker gir innsikt i aminosyrestrukturene som kan dannes under abiotiske forhold. En nylig gjennomgang14 av Simkus og andre beskriver metodene som brukes til å oppdage mange organiske forbindelser i meteoritter, samt organiske forbindelser fra in vitro-simuleringer av tidlige jordmiljøer 15,16,17. Systematisk generering av kjemiske strukturer gjør det mulig for forskere å utforske utover de organiske forbindelsene som oppdages via instrumentering, og fylle strukturrommet rundt strukturelle “øyer” identifisert av analytisk kjemi. Når det gjelder de “tidlige” aminosyrene, viser denne systematiske strukturgenereringen mulige proteinkjemier tilgjengelig for tidlig liv uten å begrense leting til strukturer som har blitt eksperimentelt påvist under abiotiske synteseforhold. Med åpen kildekode cheminformatics verktøysett og effektive struktur generatorer som MAYGEN, skape og utforske nye kjemiske struktur biblioteker er nå enklere enn noen gang før og kan veilede mer detaljerte undersøkelser av alternative kjemier i livet.
En funksjon av de “tidlige” aminosyrene er mangel på svovel. Metaanalysene nevnt tidligere anser generelt svovelholdige aminosyrer (Cys og Met) å ha vært relativt sene tillegg til den genetiske koden, konklusjoner støttet av mangel på svovelholdige aminosyrer i meteoritter og gnistrøreksperimenter. Imidlertid oppdages organosulfurforbindelser lett i kometer og meteoritter22, og reanalysering av gnistrørforsøk ved hjelp av H2S-gass fant aminosyrer og andre organiske forbindelser som inneholder svovel16. Når man vurderer et alternativt aminosyre alfabet, er en beriket i svovel verdt å utforske.
I protokollen ovenfor betraktes strukturgenerering og understrukturfiltrering som kritiske trinn; Avhengig av sammensetningen av det ferdige strukturbiblioteket, kan det hende at en forsker bare trenger å utføre disse to trinnene. Instruksjoner og programvare for ytterligere handlinger (pseudoatom erstatning og tilsetning av understrukturer (i dette tilfellet aminosyre capping)) er inkludert for mer relevant beskrivelse beregning (capping sikrer at XLogP beregninger påvirkes av sidechain og ikke ryggraden amin eller karboksyl grupper) og raskere struktur generasjon via bruk av en pseudoatom, som er diskutert mer detaljert nedenfor. I tillegg gjøres beskrivelsesberegning her som en enkel måte å visualisere mangfoldet av strukturene som genereres og sammenligne effekten av svovelberikelse i de ferdige bibliotekene.
Mens PaDEL-Descriptor kan beregne tusenvis av molekylære egenskaper, ble molekylært volum (som beregnet van der Waals-volum) og partisjonskoeffisient (som XLogP) brukt her av to forskjellige grunner. For det første måler disse to beskrivelsene molekylære egenskaper (henholdsvis størrelse og hydrofobiskhet) som er kjent for de fleste kjemikere og biologer. For det andre, når det gjelder aminosyrer, er disse to egenskapene signifikante. I flere tiår var aminosyrestørrelse og hydrofobiskhet kjent for å påvirke termodynamikken til proteinfolding23. Disse to egenskapene bidrar til å forklare aminosyre substitusjon frekvenser som har vært integrert i å forstå protein evolusjon24.
Eksemplet ovenfor viser at i de to beskrivelsene som studeres (molekylært volum og hydrofobiskhet), gir det ikke betydelige endringer å erstatte et divalent svovel for et karbon og to hydrogener. Den lille, ikke-ubetydelige økningen i gjennomsnittlig molekylært volum fra svovelerstatning (figur 3) kan tilskrives svovelens større kovalente radius (~103 pm) sammenlignet med enten sp3 (~75 pm) eller sp2 (~73 pm) carbon25. Tilsvarende har svovelerstatning minimal effekt på gjennomsnittlig XLogP (figur 4). Den største effekten var mellom VAIL og VAIL_S bibliotekene, sannsynligvis på grunn av at en kombinasjon av VAIL-biblioteket var spesielt hydrofob (sidekalinene er bare hydrokarboner) og sulfhydrylgrupper er mye surere enn metylgruppene de ville erstatte. Den minimale effekten av svovelerstatning er tydelig i figur 2, der biblioteker med svovelerstatning opptar samme kjemiske rom som analoge biblioteker uten svovelerstatning.
Nedgangen i antall strukturer (figur 5A) og tiden som trengs for å generere disse strukturene (figur 5B) ved bruk av pseudoatom er ikke overraskende. Bruk av en pseudoatom reduserer antall tunge atomer som må innlemmes i en kjemisk graf, reduserer antall grafnoder og gir eksponentielle reduksjoner i genereringstid og antall strukturer. Her stammer valget av trivalent fosfor som pseudoatom fra grunnleggende biokjemi (fraværende posttranslasjonell tilsetning av fosfatgrupper, ingen genetisk kodede aminosyrer inneholder fosfor) og valensen av atomet som vil erstatte det (en trivalent fosfor kan lett erstattes med et tetravalent karbon som er enkelt bundet til et annet atom eller en gruppe atomer). Mens den medfølgende koden for pseudoatomerstatning er spesifikk for å erstatte et trivalent fosfor med en alaninunderstruktur, kan brukerne tilpasse koden slik at den fungerer med forskjellige pseudoatomer eller erstatningsunderstrukturer, og potensielt bruke flere pseudoatomer under første strukturgenerering etterfulgt av å erstatte hver pseudoatom med en større molekylær understruktur.
Strukturgenereringsmetoder som ligner de som brukes av MAYGEN (og andre metoder som nevrale nettverk) brukes allerede i legemiddeloppdagelse for å generere sammensatte biblioteker for i silicoscreening ; en nylig gjennomgang4 diskuterer disse metodene mer detaljert. Siden disse metodene først og fremst er ment for opprettelsen av legemiddellignende molekyler, er det noen begrensninger på deres evne til å generere molekyler, for eksempel å bruke biologiske eller farmasøytiske egenskaper for å begrense strukturene som er opprettet (omvendt QSPR / QSAR) eller skape strukturer fra et forhåndsinnstilt antall understrukturbyggeblokker. Ettersom astrobiologi fokuserer mer på mangfoldet av organiske forbindelser som kan dannes abiotisk og mindre på noen sluttprodukter eller deres egenskaper, er MAYGEN’s uttømmende strukturgenerering ideell for å lage strukturbiblioteker for å ta opp astrobiologiske spørsmål. Tilnærmingen til understrukturfiltrering beskrevet her (utført etter strukturgenerering via et eksternt program) skiller seg fra konkurrentprogrammet MOLGEN ved at MOLGEN sin understrukturfiltrering skjer under strukturgenerering. Siden MAYGEN er åpen kildekode, er det ikke bare mer tilgjengelig enn MOLGEN på grunn av MOLGEN sine lisenskostnader, men enkeltpersoner kan implementere nye funksjoner som understrukturfiltrering under strukturgenerering.
Som skrevet er protokollen beskrevet her fokusert på å generere og kuratere biblioteker av relativt små alfa-aminosyrer. For å generere forskjellige biblioteker kan brukere gi forskjellige molekylære formler til MAYGEN, endre understrukturfiltreringen ved å endre maksimal tillatt ringstørrelse og bindingsvalens, eller redigere godbit- og badlistefilene for å legge til eller fjerne understrukturmønstre. Protokollendringer som innebærer å endre hvordan atomer og understrukturer legges til eller erstattes (pseudoatomerstatning og molekylær capping) er gjennomførbare, men vil kreve mer oppmerksomhet på valensbegrensninger for å unngå RDKit-feil om feil valens i modifiserte strukturer.
Protokollen beskrevet ovenfor er designet for små alfa-aminosyrer. Imidlertid er det generelle formatet (omfattende strukturgenerering ved hjelp av pseudoatomer, etterfulgt av understrukturfiltrering og molekylære modifikasjoner) svært fleksibelt for forbindelser utover små aminosyrer. Selv i astrobiologi ble en lignende nylig prosedyre ved hjelp av MOLGEN brukt til å undersøke konstitusjonelle isomerer av nukleinsyrer26. I tillegg til verktøyene beskrevet ovenfor, kan MAYGEN kombineres med andre cheminformatikkverktøy med åpen kildekode for å gjøre det rimelig og tilgjengelig for et bredt spekter av forskningsfelt å skape og analysere nye kjemiske strukturer.
The authors have nothing to disclose.
MAY anerkjenner finansiering fra Carl-Zeiss-stiftelsen. Alle tallene ble generert ved hjelp av Microsoft Excel.
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |