Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids

Kurasjon av beregningskjemiske biblioteker demonstrert med alfa-aminosyrer

Published: April 13, 2022

doi:

Christopher Mayer-Bacon, Mehmet Aziz Yirik

¹Biological Sciences Department,University of Maryland-Baltimore County, ²Institute for Inorganic and Analytical Chemistry,Friedrich-Schiller University

Summary

Formålet med denne protokollen er å effektivt generere og kuratere småmolekylstrukturbiblioteker ved hjelp av åpen kildekode-programvare.

Abstract

Uttømmende generering av molekylære strukturer har mange kjemiske og biokjemiske anvendelser som legemiddeldesign, molekylær databasekonstruksjon, utforskning av alternative biokjemier og mange flere. Matematisk sett er dette grafgeneratorer med kjemiske begrensninger. I felten er den mest effektive generatoren i dag (MOLGEN) et kommersielt produkt, noe som begrenser bruken. Alternativt til det er en annen molekylær strukturgenerator, MAYGEN, et nylig åpen kildekode-verktøy med effektivitet som kan sammenlignes med MOLGEN og kapasiteten for brukere til å øke ytelsen ved å legge til nye funksjoner. Et av forskningsfeltene som kan dra nytte av denne utviklingen er astrobiologi; strukturgeneratorer gjør det mulig for forskere å supplere eksperimentelle data med beregningsmuligheter for alternativ biokjemi. Denne protokollen beskriver ett brukstilfelle for strukturgenerering i astrobiologi, nemlig generering og kurasjon av alfa-aminosyrebiblioteker. Ved hjelp av åpen kildekode-strukturgeneratorer og cheminformatikkverktøy kan praksisen som er beskrevet her implementeres utover astrobiologi for lavkostnadsoppretting og kurasjon av kjemiske strukturbiblioteker for ethvert forskningsspørsmål.

Introduction

Molekylær strukturgenerering tjener som en praktisk anvendelse av det generelle problemet med uttømmende grafgenerering; gitt flere noder (atomer) og begrensninger på deres tilkobling (f.eks. valenser, bindingsmultiteter, ønskede / uønskede understrukturer), hvor mange tilkoblede grafer (molekyler) er mulige? Strukturgeneratorer har sett omfattende anvendelse i legemiddeloppdagelse og farmasøytisk utvikling, hvor de kan skape store biblioteker med nye strukturer for i silicoscreening ¹.

Den første strukturgeneratoren, CONGEN, ble utviklet for det første kunstige intelligensprosjektet i organisk kjemi, DENDRAL² (forkortelse for DENDRitic ALgorithm). Flere programvarefølgere av DENDRAL ble rapportert i litteraturen; Imidlertid ble ikke alle av dem opprettholdt eller effektive. For tiden er MOLGEN³ den toppmoderne molekylære strukturgeneratoren. Dessverre for de fleste potensielle brukere er den lukket kilde og krever en lisensavgift. Dermed har det vært behov for en effektiv åpen kildekode-strukturgenerator som enkelt kan tilpasse seg spesifikke applikasjoner. En utfordring for en effektiv strukturgenerator er å håndtere kombinatorisk eksplosjon; Etter hvert som størrelsen på en molekylær formel øker, øker størrelsen på det kjemiske søkeområdet eksponentielt. En nylig gjennomgang utforsker historien og utfordringene til molekylær struktur generasjon⁴.

Før 2021 var Parallel Molecule Generator (PMG)⁵ den raskeste åpen kildekode-strukturgeneratoren, men den var fortsatt tregere enn MOLGEN etter størrelsesorden. MAYGEN⁶ er omtrent 47 ganger raskere enn PMG og rundt 3 ganger tregere enn MOLGEN, noe som gjør MAYGEN til den raskeste og mest effektive åpen kildekode-strukturgeneratoren som er tilgjengelig. Mer detaljerte sammenligninger og benchmarking tester finner du i avisen som introduserer MAYGEN⁶. Et sentralt trekk ved programmet er den leksikografiske bestillingsbaserte testen for kanoniske strukturer, en ordnet grafgenereringsmetode basert på Schreier-Sims 7-algoritmen. Programvaren kan enkelt integreres i andre prosjekter og forbedres for brukernes behov.

I likhet med MOLGEN og PMG tar MAYGEN en brukerdefinert molekylær formel og genererer alle strukturer som er mulige for den formelen. For eksempel, hvis en bruker kjører MAYGEN med formelen C₅H₁₂, vil MAYGEN generere alle mulige strukturer som inneholder fem karbonatomer og tolv hydrogenatomer. I motsetning til sin åpen kildekode-motpart PMG, kan MAYGEN også imøtekomme “fuzzy” molekylær formel som bruker intervaller i stedet for diskrete tall for telling av hvert element. For eksempel, hvis en bruker kjører MAYGEN med formelen C_5-7H_12-15, vil MAYGEN generere alle mulige strukturer som inneholder mellom fem og syv karbonatomer og tolv og femten hydrogenatomer, noe som muliggjør enkel generering av strukturer med et bredt spekter av atomsammensetninger.

Astrobiologi er et slikt felt som kan dra nytte av molekylære strukturgeneratorer. Et populært tema i astrobiologi er utviklingen av aminosyre alfabetet som deles av alt ekstant liv på jorden. En av de definerende egenskapene til Last Universal Common Ancestor (LUCA) er bruken av tjue genetisk kodede aminosyrer for proteinkonstruksjon ^8,9. Basert på metaanalyser av arbeid på flere felt 10,11,12, ca 10 av disse aminosyrene (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) dannes lett under abiotiske forhold og sannsynligvis utgjør aminosyre alfabetet av pre-LUCA organismer. Over tid ble dette “tidlige” alfabetet utvidet som svar på forskjellige strukturelle og funksjonelle behov. For eksempel hevder en nylig gjennomgang fra Moosmann¹³ at tillegg av nyere medlemmer av de genetisk kodede aminosyrene (nemlig Met, Tyr og Trp) tillot overlevelse i oksygenrike miljøer ved å forhindre intracellulær spredning av reaktive oksygenarter.

En stadig voksende pakke med analytiske kjemiteknikker gir innsikt i aminosyrestrukturene som kan dannes under abiotiske forhold. En nylig gjennomgang¹⁴ av Simkus og andre beskriver metodene som brukes til å oppdage mange organiske forbindelser i meteoritter, samt organiske forbindelser fra in vitro-simuleringer av tidlige jordmiljøer 15,16,17. Systematisk generering av kjemiske strukturer gjør det mulig for forskere å utforske utover de organiske forbindelsene som oppdages via instrumentering, og fylle strukturrommet rundt strukturelle “øyer” identifisert av analytisk kjemi. Når det gjelder de “tidlige” aminosyrene, viser denne systematiske strukturgenereringen mulige proteinkjemier tilgjengelig for tidlig liv uten å begrense leting til strukturer som har blitt eksperimentelt påvist under abiotiske synteseforhold. Med åpen kildekode cheminformatics verktøysett og effektive struktur generatorer som MAYGEN, skape og utforske nye kjemiske struktur biblioteker er nå enklere enn noen gang før og kan veilede mer detaljerte undersøkelser av alternative kjemier i livet.

Protocol

MERK: Se figur 1 for et sammendrag av protokollen og materiallisten for mer informasjon om programvaren som brukes. Figur 1: Sammendrag flytskjema for protokollen. Klikk her for å se en større versjon av denne figuren. 1. Nedlasting av programvare og filer MERK: Alle programmer er gratis for individuell bruk og kan kjøres på en personlig datamaskin. Opprett en ny katalog for dette prosjektet. Plasser filene og kjørbare filer her for enkel tilgang. Last ned og installer de nødvendige programvarepakkene. Last ned den nyeste versjonen av MAYGEN som en .jar fil.MERK: MAYGEN er fritt tilgjengelig som en .jar fil fra https://github.com/MehmetAzizYirik/MAYGEN/releases Last ned og installer pakkebehandlingsprogramvaren Conda og cheminformatics toolkit RDKit18.MERK: RDKit filtrerer molekylstrukturene produsert av MAYGEN og kjører best i et Conda-miljø. Instruksjoner for nedlasting av Conda-plattformen finner du på https://conda.io/projects/conda/en/latest/user-guide/install/index.html. Du finner instruksjoner for installasjon og miljøoppsett for RDKit på https://www.rdkit.org/docs/Install.html. Installer RDKit i hovedmiljøet i Conda i stedet for et eget RDKit-miljø via Anaconda-ledeteksten. På Windows-systemer søker du etter “Anaconda prompt” og klikker på den resulterende snarveien for å kjøre. På MacOS- og Linux-systemer samhandler du med Conda gjennom terminalen uten å kjøre flere programmer. Deretter skriver du inn følgende kommando og trykker ENTER for å kjøre, og svarer ja på eventuelle spørsmål som dukker opp under installasjonen:conda installere -c rdkit rdkit.Selv om det er mange fritt tilgjengelige beregningsprogrammer for beskrivelse, bruker dette eksemplet PaDEL-Descriptor19, en gratis og rask kalkulator for molekylære beskrivelser og fingeravtrykk. Last ned og lagre .jar filen i prosjektmappen.MERK: PaDEL-Descriptor kan lastes ned gratis fra http://www.yapcwsoft.com/dd/padeldescriptor/. Last ned Jupyter-notatblokker og tekstfiler med understrukturmønstre fra Tilleggsfiler 1-5.MERK: Jupyter bærbare PC-er kan også lastes ned fra følgende GitHub-side: https://github.com/cmayerb1/AA-structure-manip. 2. Strukturgenerering ved hjelp av MAYGEN I en ledetekst navigerer du til mappen som inneholder maygen-.jar kjørbar fil. For hver kjemiske formel av interesse, kjør MAYGEN ved hjelp av følgende kommando:java -jar [MAYGEN .jar filnavn] -f [kjemisk formel] -v -o [mappe for MAYGEN-utdata] -m -sdf.MERK: Dette lagrer en .sdf fil i den angitte mappen, oppkalt etter formelen som brukes. Hvis formelen er en uklar formel i stedet for en atskilt formel, erstatter du -f-flagget med et -uklart flagg og omslutter eventuelle elementintervaller i parentes (bruk for eksempel C[5-7]H[12-15] for å sikre at alle strukturer som genereres, har mellom 5 og 7 karbonatomer og mellom 12 og 15 hydrogenatomer). 3. Filterforbindelser med uønskede understrukturer Åpne en Anaconda-ledetekst (se trinn 1.2.2.1) og naviger til mappen som inneholder Jupyter-notatblokkene lastet ned fra Tilleggsfil 1. Åpne Jupyter-notatblokken for filtrering av understrukturer ved hjelp av følgende kommando:jupyter bærbar PC [filnavn for notatblokk] I den angitte cellen i begynnelsen av notatblokken skriver du inn den fullstendige filbanen til inndatafilen .sdf fil (generert av MAYGEN), fullstendig filbane for ønsket .sdf utdatafil og filbane for “badlist”-filen som strenger (i anførselstegn). Se Tilleggsfil 2 for et eksempel på en ugyldig liste. Hvis noen understrukturer i det filtrerte biblioteket (en god liste) skal beholdes, oppretter du en .txt fil med SMARTS-mønstre20 for disse understrukturene (en god liste) og plasserer den gode filbanen på den angitte linjen i begynnelsen av notatblokken. Se Tilleggsfil 3 for et eksempel på en god liste. Start notatblokkkjernen på nytt og kjør alle celler (velg Kernel, Restart & Run All) fra menyen øverst for å få en .sdf fil med ønsket navn i den angitte utdatamappen. Gjenta de to foregående trinnene for hver strukturfil generert av MAYGEN i trinn 2. 4. (Valgfritt) Ytterligere strukturendringer MERK: Disse utføres i dette eksemplet, men er kanskje ikke nødvendige for å kuratere andre biblioteker. Pseudoatom erstatning.MERK: Her er en pseudoatom et unikt atom som brukes til å representere en større understruktur som deles av alle genererte strukturer, og dermed redusere MAYGEN generasjonstid. Se Tilleggsfil 4 for eksempel pseudoatomerstatning. Åpne en Anaconda-ledetekst (se trinn 1.2.2.1) og naviger til mappen som inneholder Jupyter-notatblokkene. Åpne Jupyter bærbar PC for pseudoatomerstatning:jupyter bærbar PC [filnavn for notatblokk] I den angitte cellen i begynnelsen av notatblokken skriver du inn den fullstendige filbanen til inndatafilen .sdf og den fullstendige filbanen til ønsket .sdf utdatafil som strenger (i anførselstegn). Start notatblokkkjernen på nytt og kjør alle cellene for å få en .sdf fil med ønsket navn i den angitte utdatamappen. Aminosyre N- og C-termini cappingMERK: Denne prosedyren er spesifikk for alfa-aminosyrer, og tilsetter molekylære hetter til N- og C-termini av alfa-aminosyre ryggrader. Se Tilleggsfil 5 for eksempel på aminosyrekappe. Åpne en Anaconda-ledetekst (se trinn 1.2.2.1) og naviger til mappen som inneholder Jupyter-notatblokkene. Åpne Jupyter bærbar PC for aminosyre capping:jupyter bærbar PC [filnavn for notatblokk] I den angitte cellen i begynnelsen av notatblokken skriver du inn den fullstendige filbanen til inndatafilen .sdf og den fullstendige filbanen til ønsket .sdf utdatafil som strenger (i anførselstegn). Start notatblokkkjernen på nytt og kjør alle cellene for å få en .sdf fil med ønsket navn i den angitte utdatamappen. 5. Generering av beskrivelse Før generering av beskrivelsen plasserer du alle .sdf filer som beskrivelser skal beregnes for, i én enkelt mappe.MERK: Hvis det ikke allerede er gjort, kan du gi disse filene beskrivende navn for enkel filtrering etter generering av beskrivelsen. Åpne en ledetekst, og naviger til mappen som inneholder .jar-filen PaDEL-Descriptor. Kjør PaDEL-Descriptor for de innsamlede .sdf filer ved hjelp av følgende kommando:java -jar PaDEL-Descriptor.jar -dir [mappe for .sdf filer] -fil [filbane til en .csv fil for resultater] -2d -retainorder -usefilenameasmolnameMERK: Resultatfilen vil ha molekylnavnet i den første kolonnen og hver beskrivelse i de påfølgende kolonnene. Eksporter disse dataene til en hvilken som helst regnearkprogramvare for videre analyse.

Representative Results

Bibliotek Formel Flere begrensninger “Tidlige” kodede aminosyrer Generasjonstid (ms) Strukturer Initial Finale 1 Gly C2H5NR2 inkluder Gly-understruktur Gly 192 84 1 2 VAIL PC0-3H3-9 Val, Ala, Ile, Leu 172 70 22 3 DEST PC0-3O1-2H3-5 Asp, Glu, Ser, Thr 481 1928 254 4 Proff C2-5NEI2H7-11 Inkluder understruktur av typen N-meGly eller N-meAla Proff 4035 79777 16 5 VAIL_S PSC0-2H3-7 122 65 31 6 DEST_S PSC0-2O1-2H3 349 1075 79 7 Pro_S C2-4SNO2H7-9 Inkluder understruktur av typen N-meGly eller N-meAla 3999 75734 10 Tabell 1: Sammensatte biblioteker som brukes i dette eksemplet. Biblioteker bygget av formel 1-4 (Gly, VAIL, DEST og Pro) er basert på tidligere publiserte fuzzy formel av de “tidlige” kodede aminosyrene21, mens biblioteker bygget av formel 5-7 (VAIL_S, DEST_S og Pro_S) er basert på varianter av formel 2-4 som forestiller seg en divalent svovel som erstatter en av karbonatomer. Strukturtellinger gjenspeiler antall molekyler generert av MAYGEN for hver formel (“Initial”) og antall molekyler som gjenstår etter filtrering av de med uønskede understrukturer (“Endelig”). Forkortelser: VAIL = valin, alanin, isoleucin, leucin; DEST = aspartinsyre, glutaminsyre, serin, treonin; X_S = Divalent svovel erstatter et av karbonene i bibliotek X; N-meX = N-metylX. De generelle metodene ovenfor ble brukt på formler basert på de “tidlige” kodede aminosyrene, etter prosedyren til Meringer et al.21 Badlist-strukturer ble tatt fra samme kilde og konvertert til SMARTS-strenger for enkelt å representere understrukturelle mønstre. To badlist understrukturer ble ikke brukt i dette eksemplet: struktur 018 (CH 3-CH-N) matchet nær-isomers av proline som ikke var selv ustabile; struktur 106 (R-C-C-OH, hvor R = alanin understruktur som festes ved betakarbon) matchet glutaminsyre, en kodet aminosyre. I tillegg til disse kjemiske formlene ble det opprettet varianter med divalent svovel som tar plassen til et karbonatom og to hydrogenatomer. Av ytelseshensyn bruker flere av disse formlene et trivalent fosforatom (f.eks. en “pseudoatom”) som erstatning for betakarbon av en alaninunderstruktur. Tabell 1 viser bibliotekene som genereres i dette eksemplet, formlene som brukes til å generere dem, og antall forbindelser i. Biblioteknavn er basert på de kodede aminosyrene som de er avledet fra: enten ved hjelp av forkortelsen på 3 bokstaver (Gly = glycin, Pro = proline) eller forkortelse på én bokstav (VAIL = Valine, Alanine, Isoleucine, Leucine; DEST = Asparaginsyre, glutaminsyre, serin, treonin). “_S”-suffikset indikerer at et svovel ble erstattet med et karbon i det opprinnelige bibliotekets formel (f.eks. VAIL_S er bygget med samme uklare formel som VAIL, men med et divalent svovel som erstatter et av karbonene). Etter strukturgenerering med MAYGEN ble de resulterende bibliotekene filtrert av forbindelser som inneholder minst en understruktur som finnes i badlisten. Etter denne filtreringen ble eventuelle fosforatomer erstattet med en alaninunderstruktur. Deretter ble “capped” versjoner av alle strukturer opprettet, med en acetylgruppe lagt til N-terminus og en N-metyl blant gruppen lagt til C-terminus. Dette ble gjort for å fjerne effekten på hydrofobiskheten til de frie amin- og karboksylsyregruppene i alfa-aminosyre ryggraden. PaDEL-Descriptor ble brukt til å beregne XLogP for alle begrensede strukturer og beregnet van der Waals-volum (VABC) for alle ikke-brukte strukturer. Figur 2 viser det kjemiske rommet til de filtrerte bibliotekene, som definert av VABC- og XLogP-beskrivelser. Her øker utvalget av mulige logP-verdier med molekylært volum, selv innenfor biblioteker som mangler eksplisitt hydrofile sidechains (f.eks. VAIL, Pro). Kodede aminosyrer med hydrokarbon sidechains var mer hydrofobe enn de fleste andre aminosyrer av et sammenlignbart volum fra deres respektive bibliotek. Dette ser også ut til å være tilfelle for Met og Cys sammenlignet med andre medlemmer av VAIL_S bibliotek med lignende volumer. Kodede aminosyrer med hydroksylsidekjeder (Ser og Thr) var blant de minste medlemmene av DEST-biblioteket, med Asp bare litt større enn Thr. Figur 3 og figur 4 viser virkningene på volum og logP når et divalent svovel erstatter et karbon i en alfa-aminosyre sidekjede. Svovelerstatning førte til en liten økning i molekylært volum i alle biblioteker (figur 3). Effekten av svovelerstatning på logP er ikke så homogen som for volum (figur 4). Gjennomsnittlig logP for VAIL_S biblioteket er litt lavere enn vail-bibliotekets, men denne effekten vises ikke i noen av de andre bibliotekparene (DEST og DEST_S, Pro og Pro_S). Figur 5 kvantifiserer effektene på strukturgenerering av en pseudoatom som står i for en felles understruktur; her, en trivalent P erstattet med en alanin moiety under struktur generasjon. Bruk av en pseudoatom i strukturgenerering reduserte i stor grad antall strukturer generert av ~ 3 størrelsesordener (figur 5A) og den totale tiden som trengs for å generere disse strukturene med 1-2 størrelsesordener (figur 5B). Figur 2: Kjemisk plass til alle filtrerte aminosyrebiblioteker. Svarte markører representerer aminosyrer fra biblioteker uten svovel; gule markører representerer aminosyrer fra svovelberikede biblioteker. Sirkler: VAIL og VAIL_S; firkanter: DEST og DEST_S; trekanter: Pro og Pro_S; stjerner: kodede aminosyrer. Legg merke til at de to svovelholdige aminosyrene (Met og Cys) ikke regnes som “tidlige” aminosyrer, men er til stede i biblioteket VAIL_S. Forkortelser: XLogP = partisjonskoeffisient; VAIL = valin, alanin, isoleucin, leucin; DEST = aspartinsyre, glutaminsyre, serin, treonin; X_S = Divalent svovel erstatter et av karbonene i bibliotek X. Klikk her for å se en større versjon av denne figuren. Figur 3: Gjennomsnittlig van der Waals volumer (i Å3) av biblioteker med og uten svovel. Svarte stolper representerer gjennomsnittsvolumene av biblioteker uten svovel (VAIL, DEST, Pro), mens gule barer representerer gjennomsnittlige volumer av de svovelerstatnede versjonene av disse bibliotekene (VAIL_S, DEST_S Pro_S). Feilfelt viser standardavvik. Forkortelser: VAIL = valin, alanin, isoleucin, leucin; DEST = aspartinsyre, glutaminsyre, serin, treonin; X_S = Divalent svovel erstatter et av karbonene i bibliotek X. Klikk her for å se en større versjon av denne figuren. Figur 4: Gjennomsnittlige XLogP-verdier for biblioteker med og uten svovel. Svarte stolper representerer biblioteker uten svovel (VAIL, DEST, Pro), mens gule barer representerer svovel-erstattede versjoner av disse bibliotekene (VAIL_S, DEST_S, Pro_S). Feilfelt viser standardavvik. Forkortelser: XLogP = partisjonskoeffisient; VAIL = valin, alanin, isoleucin, leucin; DEST = aspartinsyre, glutaminsyre, serin, treonin; X_S = Divalent svovel erstatter et av karbonene i bibliotek X. Klikk her for å se en større versjon av denne figuren. Figur 5: Effekter av en trivalent pseudoatom på MAYGEN-strukturgenerering. Alle testene ble utført på en PC med en Intel i7-7700HQ-prosessor på 2,8 GHz, 16 GB RAM, ingen lagringsstrukturer til en fil og alternativet -m for å bruke flertråding. Tester ved hjelp av en pseudoatom brukte den uklare formelen som beskrevet i tabell 1. For tester uten pseudoatom var den fuzzy formelen som ble brukt, det samme som beskrevet i tabell 1 med følgende endringer: P ble erstattet med N; karbontallene ble økt med 3; hydrogentallene ble økt med 7; oksygentallene ble økt med 2. Svarte stolper viser biblioteker generert med en pseudoatom. Grå felt viser biblioteker generert uten pseudoatom. (A) Antall strukturer generert ved hjelp av den uklare formelen som brukes til å bygge VAIL- og DEST-bibliotekene med og uten en trivalent fosfor som erstatter en alaninunderstruktur. (B) Tid (i ms) som trengs for å bygge VAIL- og DEST-bibliotekene med og uten en trivalent fosfor som erstatter en alaninunderstruktur. Forkortelser: VAIL = valin, alanin, isoleucin, leucin; DEST = asparaginsyre, glutaminsyre, serin, treonin. Klikk her for å se en større versjon av denne figuren. Tilleggsfil 1: Notatbok for understrukturering. Klikk her for å laste ned denne filen. Tilleggsfil 2: Eksempel på ugyldig liste. Klikk her for å laste ned denne filen. Tilleggsfil 3: Eksempel på goodlist. Klikk her for å laste ned denne filen. Tilleggsfil 4: Pseudoatom erstatning bærbar PC. Klikk her for å laste ned denne filen. Tilleggsfil 5: Aminosyre capping notatbok. Klikk her for å laste ned denne filen.

Discussion

En funksjon av de “tidlige” aminosyrene er mangel på svovel. Metaanalysene nevnt tidligere anser generelt svovelholdige aminosyrer (Cys og Met) å ha vært relativt sene tillegg til den genetiske koden, konklusjoner støttet av mangel på svovelholdige aminosyrer i meteoritter og gnistrøreksperimenter. Imidlertid oppdages organosulfurforbindelser lett i kometer og meteoritter²², og reanalysering av gnistrørforsøk ved hjelp av H₂S-gass fant aminosyrer og andre organiske forbindelser som inneholder svovel¹⁶. Når man vurderer et alternativt aminosyre alfabet, er en beriket i svovel verdt å utforske.

I protokollen ovenfor betraktes strukturgenerering og understrukturfiltrering som kritiske trinn; Avhengig av sammensetningen av det ferdige strukturbiblioteket, kan det hende at en forsker bare trenger å utføre disse to trinnene. Instruksjoner og programvare for ytterligere handlinger (pseudoatom erstatning og tilsetning av understrukturer (i dette tilfellet aminosyre capping)) er inkludert for mer relevant beskrivelse beregning (capping sikrer at XLogP beregninger påvirkes av sidechain og ikke ryggraden amin eller karboksyl grupper) og raskere struktur generasjon via bruk av en pseudoatom, som er diskutert mer detaljert nedenfor. I tillegg gjøres beskrivelsesberegning her som en enkel måte å visualisere mangfoldet av strukturene som genereres og sammenligne effekten av svovelberikelse i de ferdige bibliotekene.

Mens PaDEL-Descriptor kan beregne tusenvis av molekylære egenskaper, ble molekylært volum (som beregnet van der Waals-volum) og partisjonskoeffisient (som XLogP) brukt her av to forskjellige grunner. For det første måler disse to beskrivelsene molekylære egenskaper (henholdsvis størrelse og hydrofobiskhet) som er kjent for de fleste kjemikere og biologer. For det andre, når det gjelder aminosyrer, er disse to egenskapene signifikante. I flere tiår var aminosyrestørrelse og hydrofobiskhet kjent for å påvirke termodynamikken til proteinfolding²³. Disse to egenskapene bidrar til å forklare aminosyre substitusjon frekvenser som har vært integrert i å forstå protein evolusjon²⁴.

Eksemplet ovenfor viser at i de to beskrivelsene som studeres (molekylært volum og hydrofobiskhet), gir det ikke betydelige endringer å erstatte et divalent svovel for et karbon og to hydrogener. Den lille, ikke-ubetydelige økningen i gjennomsnittlig molekylært volum fra svovelerstatning (figur 3) kan tilskrives svovelens større kovalente radius (~103 pm) sammenlignet med enten sp³ (~75 pm) eller sp² (~73 pm) carbon²⁵. Tilsvarende har svovelerstatning minimal effekt på gjennomsnittlig XLogP (figur 4). Den største effekten var mellom VAIL og VAIL_S bibliotekene, sannsynligvis på grunn av at en kombinasjon av VAIL-biblioteket var spesielt hydrofob (sidekalinene er bare hydrokarboner) og sulfhydrylgrupper er mye surere enn metylgruppene de ville erstatte. Den minimale effekten av svovelerstatning er tydelig i figur 2, der biblioteker med svovelerstatning opptar samme kjemiske rom som analoge biblioteker uten svovelerstatning.

Nedgangen i antall strukturer (figur 5A) og tiden som trengs for å generere disse strukturene (figur 5B) ved bruk av pseudoatom er ikke overraskende. Bruk av en pseudoatom reduserer antall tunge atomer som må innlemmes i en kjemisk graf, reduserer antall grafnoder og gir eksponentielle reduksjoner i genereringstid og antall strukturer. Her stammer valget av trivalent fosfor som pseudoatom fra grunnleggende biokjemi (fraværende posttranslasjonell tilsetning av fosfatgrupper, ingen genetisk kodede aminosyrer inneholder fosfor) og valensen av atomet som vil erstatte det (en trivalent fosfor kan lett erstattes med et tetravalent karbon som er enkelt bundet til et annet atom eller en gruppe atomer). Mens den medfølgende koden for pseudoatomerstatning er spesifikk for å erstatte et trivalent fosfor med en alaninunderstruktur, kan brukerne tilpasse koden slik at den fungerer med forskjellige pseudoatomer eller erstatningsunderstrukturer, og potensielt bruke flere pseudoatomer under første strukturgenerering etterfulgt av å erstatte hver pseudoatom med en større molekylær understruktur.

Strukturgenereringsmetoder som ligner de som brukes av MAYGEN (og andre metoder som nevrale nettverk) brukes allerede i legemiddeloppdagelse for å generere sammensatte biblioteker for i silicoscreening ; en nylig gjennomgang⁴ diskuterer disse metodene mer detaljert. Siden disse metodene først og fremst er ment for opprettelsen av legemiddellignende molekyler, er det noen begrensninger på deres evne til å generere molekyler, for eksempel å bruke biologiske eller farmasøytiske egenskaper for å begrense strukturene som er opprettet (omvendt QSPR / QSAR) eller skape strukturer fra et forhåndsinnstilt antall understrukturbyggeblokker. Ettersom astrobiologi fokuserer mer på mangfoldet av organiske forbindelser som kan dannes abiotisk og mindre på noen sluttprodukter eller deres egenskaper, er MAYGEN’s uttømmende strukturgenerering ideell for å lage strukturbiblioteker for å ta opp astrobiologiske spørsmål. Tilnærmingen til understrukturfiltrering beskrevet her (utført etter strukturgenerering via et eksternt program) skiller seg fra konkurrentprogrammet MOLGEN ved at MOLGEN sin understrukturfiltrering skjer under strukturgenerering. Siden MAYGEN er åpen kildekode, er det ikke bare mer tilgjengelig enn MOLGEN på grunn av MOLGEN sine lisenskostnader, men enkeltpersoner kan implementere nye funksjoner som understrukturfiltrering under strukturgenerering.

Som skrevet er protokollen beskrevet her fokusert på å generere og kuratere biblioteker av relativt små alfa-aminosyrer. For å generere forskjellige biblioteker kan brukere gi forskjellige molekylære formler til MAYGEN, endre understrukturfiltreringen ved å endre maksimal tillatt ringstørrelse og bindingsvalens, eller redigere godbit- og badlistefilene for å legge til eller fjerne understrukturmønstre. Protokollendringer som innebærer å endre hvordan atomer og understrukturer legges til eller erstattes (pseudoatomerstatning og molekylær capping) er gjennomførbare, men vil kreve mer oppmerksomhet på valensbegrensninger for å unngå RDKit-feil om feil valens i modifiserte strukturer.

Protokollen beskrevet ovenfor er designet for små alfa-aminosyrer. Imidlertid er det generelle formatet (omfattende strukturgenerering ved hjelp av pseudoatomer, etterfulgt av understrukturfiltrering og molekylære modifikasjoner) svært fleksibelt for forbindelser utover små aminosyrer. Selv i astrobiologi ble en lignende nylig prosedyre ved hjelp av MOLGEN brukt til å undersøke konstitusjonelle isomerer av nukleinsyrer²⁶. I tillegg til verktøyene beskrevet ovenfor, kan MAYGEN kombineres med andre cheminformatikkverktøy med åpen kildekode for å gjøre det rimelig og tilgjengelig for et bredt spekter av forskningsfelt å skape og analysere nye kjemiske strukturer.

Declarações

The authors have nothing to disclose.

Acknowledgements

MAY anerkjenner finansiering fra Carl-Zeiss-stiftelsen. Alle tallene ble generert ved hjelp av Microsoft Excel.

Materials

conda v. 4.10.3			https://www.anaconda.com/products/individual
Java 17			https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8			https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21			http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11			included in Anaconda environment
RDKit v. 2020.09.1.0			https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

Referências

Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -. L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
Buchanan, B. G., Feigenbaum, E. A., Webber, B. L., Nilsson, N. J. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. , 313-322 (1981).
Gugisch, R., Basak, S. C., Restrepo, G., Villaveces, J. L., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. , 113-138 (2015).
Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
Sims, C. C., Leech, J. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. , 169-183 (1970).
Mat, W. -. K., Xue, H., Wong, J. T. -. F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
Bada, J. L. New insights into prebiotic chemistry from Stanley Miller’s spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
SMARTS – A language for describing molecular patterns. Daylight Chemical Information Systems, Inc Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019)
Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citar este artigo

Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

Kurasjon av beregningskjemiske biblioteker demonstrert med alfa-aminosyrer

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Declarações

Acknowledgements

Materials

Referências

Tags

Play Video

Citar este artigo

View Video

Kurasjon av beregningskjemiske biblioteker demonstrert med alfa-aminosyrer

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Declarações

Acknowledgements

Materials

Referências

Tags

Play Video

Citar este artigo

View Video

✖

To prove you're not a robot, please enter the text in the image below