Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids

Curation de bibliothèques chimiques computationnelles démontrée avec des acides alpha-aminés

Published: April 13, 2022

doi:

Christopher Mayer-Bacon, Mehmet Aziz Yirik

¹Biological Sciences Department,University of Maryland-Baltimore County, ²Institute for Inorganic and Analytical Chemistry,Friedrich-Schiller University

Summary

Le but de ce protocole est de générer et d’organiser efficacement des bibliothèques de structures de petites molécules à l’aide de logiciels open source.

Abstract

La génération exhaustive de structures moléculaires a de nombreuses applications chimiques et biochimiques telles que la conception de médicaments, la construction de bases de données moléculaires, l’exploration de biochimies alternatives et bien d’autres. Mathématiquement parlant, ce sont des générateurs de graphes avec des contraintes chimiques. Sur le terrain, le générateur le plus efficace actuellement (MOLGEN) est un produit commercial, limitant son utilisation. Alternativement à cela, un autre générateur de structure moléculaire, MAYGEN, est un outil open-source récent avec une efficacité comparable à MOLGEN et la capacité pour les utilisateurs d’augmenter ses performances en ajoutant de nouvelles fonctionnalités. L’un des domaines de recherche qui peuvent bénéficier de ce développement est l’astrobiologie; Les générateurs de structure permettent aux chercheurs de compléter les données expérimentales avec des possibilités de calcul pour une biochimie alternative. Ce protocole détaille un cas d’utilisation pour la génération de structures en astrobiologie, à savoir la génération et la curation de bibliothèques d’acides alpha-aminés. En utilisant des générateurs de structures open source et des outils de cheminformatique, les pratiques décrites ici peuvent être mises en œuvre au-delà de l’astrobiologie pour la création et la conservation à faible coût de bibliothèques de structures chimiques pour toute question de recherche.

Introduction

La génération de structures moléculaires sert d’application pratique au problème général de la génération exhaustive de graphes; étant donné plusieurs nœuds (atomes) et des contraintes sur leur connectivité (par exemple, valences, multiplicités de liaison, sous-structures souhaitées/indésirables), combien de graphes connectés (molécules) sont possibles? Les générateurs de structures ont vu une application étendue dans la découverte de médicaments et le développement pharmaceutique, où ils peuvent créer de vastes bibliothèques de nouvelles structures pour le dépistage in silico ¹.

Le premier générateur de structure, CONGEN, a été développé pour le premier projet d’intelligence artificielle en chimie organique, DENDRAL² (abréviation de DENDRitic ALgorithm). Plusieurs logiciels successeurs de DENDRAL ont été rapportés dans la littérature; cependant, tous n’ont pas été entretenus ou efficaces. Actuellement, MOLGEN³ est le générateur de structure moléculaire de pointe. Malheureusement pour la plupart des utilisateurs potentiels, il s’agit d’une source fermée et nécessite des frais de licence. Ainsi, il y a eu le besoin d’un générateur de structure open-source efficace qui peut facilement s’adapter à des applications spécifiques. L’un des défis pour un générateur de structure efficace est la gestion de l’explosion combinatoire; à mesure que la taille d’une formule moléculaire augmente, la taille de l’espace de recherche chimique augmente de façon exponentielle. Une revue récente explore plus en détail l’histoire et les défis de la génération de structure moléculaire⁴.

Avant 2021, le générateur de molécules parallèles (PMG)⁵ était le générateur de structure open source le plus rapide, mais il était encore plus lent que MOLGEN par ordre de grandeur. MAYGEN⁶ est environ 47 fois plus rapide que PMG et environ 3 fois plus lent que MOLGEN, ce qui fait de MAYGEN le générateur de structure open source le plus rapide et le plus efficace disponible. Des comparaisons plus détaillées et des tests d’analyse comparative peuvent être trouvés dans le document présentant MAYGEN⁶. Une caractéristique clé du programme est son test lexicographique basé sur l’ordre pour les structures canoniques, une méthode ordonnée de génération de graphes basée sur l’algorithme schreier-Sims⁷ . Le logiciel peut être facilement intégré dans d’autres projets et amélioré pour les besoins des utilisateurs.

Comme MOLGEN et PMG, MAYGEN prend une formule moléculaire définie par l’utilisateur et génère toutes les structures possibles pour cette formule. Par exemple, si un utilisateur exécute MAYGEN avec la formule C₅H₁₂, MAYGEN générera toutes les structures possibles contenant cinq atomes de carbone et douze atomes d’hydrogène. Contrairement à son homologue open source PMG, MAYGEN peut également accueillir des formules moléculaires « floues » qui utilisent des intervalles au lieu de nombres discrets pour le nombre de chaque élément. Par exemple, si un utilisateur exécute MAYGEN avec la formule_C5-7H_12-15, MAYGEN générera toutes les structures possibles qui contiennent entre cinq et sept atomes de carbone et douze et quinze atomes d’hydrogène, permettant une génération simple de structures avec un large éventail de compositions atomiques.

L’astrobiologie est l’un de ces domaines qui peuvent bénéficier de générateurs de structures moléculaires. Un sujet populaire en astrobiologie est l’évolution de l’alphabet des acides aminés partagé par toute la vie existante sur Terre. L’une des caractéristiques déterminantes du dernier ancêtre commun universel (LUCA) est son utilisation de vingt acides aminés génétiquement codés pour la construction des protéines ^8,9. Sur la base de méta-analyses de travaux dans de multiples domaines 10,11,12, environ 10 de ces acides aminés (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) se forment facilement dans des conditions abiotiques et constituent probablement l’alphabet des acides aminés des organismes pré-LUCA. Au fil du temps, cet alphabet « précoce » a été élargi en réponse à différents besoins structurels et fonctionnels. Par exemple, une revue récente de Moosmann¹³ affirme que l’ajout de membres plus récents des acides aminés génétiquement codés (à savoir Met, Tyr et Trp) a permis la survie dans des environnements riches en oxygène en empêchant la prolifération intracellulaire des espèces réactives de l’oxygène.

Une suite sans cesse croissante de techniques de chimie analytique permet de mieux comprendre les structures d’acides aminés qui peuvent se former dans des conditions abiotiques. Une revue récente¹⁴ par Simkus et d’autres détaille les méthodes utilisées pour détecter de nombreux composés organiques dans les météorites, ainsi que des composés organiques à partir de simulations in vitro des premiers environnements terrestres 15,16,17. La génération systématique de structures chimiques permet aux chercheurs d’explorer au-delà des composés organiques détectés par instrumentation, en peuplant l’espace structurel autour des « îles » structurelles identifiées par la chimie analytique. Dans le cas des acides aminés « précoces », cette génération systématique de structures montre des chimies protéiques possibles disponibles pour les débuts de la vie sans limiter l’exploration aux structures qui ont été détectées expérimentalement dans des conditions de synthèse abiotique. Avec des boîtes à outils de cheminformatique open source et des générateurs de structures efficaces tels que MAYGEN, la création et l’exploration de nouvelles bibliothèques de structures chimiques sont maintenant plus faciles que jamais et peuvent guider des recherches plus détaillées sur les chimies alternatives de la vie.

Protocol

REMARQUE : Voir la Figure 1 pour un résumé du protocole et le Tableau des matériaux pour plus de détails sur le logiciel utilisé. Figure 1 : Organigramme récapitulatif du protocole. Veuillez cliquer ici pour afficher une version agrandie de cette figure. 1. Téléchargements de logiciels et de fichiers REMARQUE: Tous les programmes sont gratuits pour un usage individuel et peuvent être exécutés sur un ordinateur personnel. Créez un nouveau répertoire pour ce projet. Placez les fichiers et les exécutables ici pour un accès facile. Téléchargez et installez les progiciels nécessaires. Téléchargez la dernière version de MAYGEN en tant que fichier .jar.REMARQUE: MAYGEN est disponible gratuitement en tant que fichier .jar à partir de https://github.com/MehmetAzizYirik/MAYGEN/releases Téléchargez et installez le logiciel de gestion de paquets Conda et la boîte à outils cheminformatics RDKit18.REMARQUE: RDKit filtrera les structures moléculaires produites par MAYGEN et fonctionnera mieux dans un environnement Conda. Vous trouverez des instructions pour télécharger la plateforme Conda à l’adresse https://conda.io/projects/conda/en/latest/user-guide/install/index.html. Les instructions d’installation et de configuration de l’environnement de RDKit sont disponibles sur https://www.rdkit.org/docs/Install.html. Installez RDKit dans l’environnement Conda principal au lieu d’un environnement RDKit séparé via l’invite Anaconda. Sur les systèmes Windows, recherchez « Invite Anaconda » et cliquez sur le raccourci résultant pour exécuter. Sur les systèmes MacOS et Linux, interagissez avec Conda via le terminal sans exécuter de programmes supplémentaires. Ensuite, tapez la commande suivante et appuyez sur Entrée pour exécuter, puis répondez oui à toutes les questions qui se posent pendant l’installation :conda install -c rdkit rdkit.Bien qu’il existe de nombreux programmes de calcul de descripteurs disponibles gratuitement, cet exemple utilise PaDEL-Descriptor19, une calculatrice gratuite et rapide pour les descripteurs moléculaires et les empreintes digitales. Téléchargez et enregistrez le fichier .jar dans le dossier du projet.REMARQUE: PaDEL-Descriptor peut être téléchargé gratuitement à partir de http://www.yapcwsoft.com/dd/padeldescriptor/. Téléchargez les blocs-notes Jupyter et les fichiers texte des modèles de sous-structure à partir des fichiers supplémentaires 1 à 5.REMARQUE: Les blocs-notes Jupyter peuvent également être téléchargés à partir de la page GitHub suivante: https://github.com/cmayerb1/AA-structure-manip. 2. Génération de structure à l’aide de MAYGEN Dans une invite de commandes, accédez au répertoire contenant le fichier exécutable MAYGEN .jar. Pour chaque formule chimique d’intérêt, exécutez MAYGEN à l’aide de la commande suivante :java -jar [NOM du fichier .jar MAYGEN] -f [formule chimique] -v -o [dossier pour la sortie MAYGEN] -m -sdf.Remarque : Cela enregistrera un fichier .sdf dans le dossier désigné, nommé d’après la formule utilisée. Si la formule est une formule floue au lieu d’une formule discrète, remplacez l’indicateur -f par un indicateur -fuzzy et placez tous les intervalles d’éléments entre parenthèses (par exemple, utilisez C[5-7]H[12-15] pour vous assurer que toutes les structures générées ont entre 5 et 7 atomes de carbone et entre 12 et 15 atomes d’hydrogène). 3. Composés filtrants avec des sous-structures indésirables Ouvrez une invite Anaconda (voir étape 1.2.2.1) et accédez au dossier contenant les blocs-notes Jupyter téléchargés à partir du fichier supplémentaire 1. Ouvrez le bloc-notes Jupyter pour le filtrage des sous-structures à l’aide de la commande suivante :jupyter notebook [nom du fichier du bloc-notes] Dans la cellule désignée au début du bloc-notes, entrez le chemin d’accès complet du fichier .sdf d’entrée (généré par MAYGEN), le chemin d’accès complet du fichier de sortie .sdf souhaité et le chemin d’accès au fichier « badlist » sous forme de chaînes (entre guillemets). Voir Fichier supplémentaire 2 pour un exemple de liste d’incorrects. Si certaines sous-structures de la bibliothèque filtrée (une goodlist) doivent être conservées, créez un fichier .txt de modèles SMARTS20 pour ces sous-structures (une goodlist) et placez le chemin du fichier goodlist dans la ligne désignée au début du bloc-notes. Voir Fichier supplémentaire 3 pour un exemple de liste de marchandises. Redémarrez le noyau du bloc-notes et exécutez toutes les cellules (dans le menu en haut, sélectionnez Noyau, Redémarrer et Exécuter tout) pour obtenir un fichier .sdf avec le nom souhaité dans le dossier de sortie spécifié. Répétez les deux étapes précédentes pour chaque fichier de structure généré par MAYGEN à l’étape 2. 4. (Facultatif) Modifications supplémentaires de la structure Remarque : Celles-ci sont effectuées dans cet exemple mais peuvent ne pas être nécessaires pour organiser d’autres bibliothèques. Remplacement du pseudoatome.REMARQUE: Ici, un pseudoatome est un atome unique utilisé pour représenter une sous-structure plus grande partagée par toutes les structures générées, réduisant ainsi le temps de génération de MAYGEN. Voir le fichier supplémentaire 4 pour un exemple de remplacement de pseudotom. Ouvrez une invite Anaconda (voir étape 1.2.2.1) et accédez au dossier contenant les blocs-notes Jupyter. Ouvrez le bloc-notes Jupyter pour le remplacement des pseudo-atomes :jupyter notebook [nom du fichier du bloc-notes] Dans la cellule désignée au début du bloc-notes, entrez le chemin d’accès complet du fichier d’entrée .sdf et le chemin d’accès complet du fichier de sortie .sdf souhaité sous forme de chaînes (entre guillemets). Redémarrez le noyau du bloc-notes et exécutez toutes les cellules pour obtenir un fichier .sdf avec le nom souhaité dans le dossier de sortie spécifié. Acide aminé N- et C-termini capsulageREMARQUE: Cette procédure est spécifique aux acides alpha-aminés, en ajoutant des capuchons moléculaires aux N- et C-termini des épines dorsales des acides alpha-aminés. Voir le dossier supplémentaire 5 pour un exemple de plafonnement des acides aminés. Ouvrez une invite Anaconda (voir étape 1.2.2.1) et accédez au dossier contenant les blocs-notes Jupyter. Ouvrez le bloc-notes Jupyter pour le recouvrement des acides aminés:jupyter notebook [nom du fichier du bloc-notes] Dans la cellule désignée au début du bloc-notes, entrez le chemin d’accès complet du fichier d’entrée .sdf et le chemin d’accès complet du fichier de sortie .sdf souhaité sous forme de chaînes (entre guillemets). Redémarrez le noyau du bloc-notes et exécutez toutes les cellules pour obtenir un fichier .sdf avec le nom souhaité dans le dossier de sortie spécifié. 5. Génération de descripteurs Avant la génération du descripteur, placez tous les fichiers .sdf pour lesquels les descripteurs doivent être calculés dans un seul dossier.REMARQUE: Si ce n’est pas déjà fait, donnez à ces fichiers des noms descriptifs pour faciliter le filtrage après la génération du descripteur. Ouvrez une invite de commandes et accédez au dossier contenant le fichier paDEL-Descriptor .jar. Exécutez PaDEL-Descriptor pour les fichiers .sdf collectés à l’aide de la commande suivante :java -jar PaDEL-Descriptor.jar -dir [répertoire des fichiers .sdf] -file [chemin d’accès d’un fichier .csv pour les résultats] -2d -retainorder -usefilenameasmolnameREMARQUE: Le fichier de résultats aura le nom de la molécule dans la première colonne et chaque descripteur dans les colonnes suivantes. Exportez ces données vers n’importe quel tableur pour une analyse plus approfondie.

Representative Results

Bibliothèque Formule Contraintes supplémentaires Acides aminés codés « précoces » Temps de génération (ms) Structures Initial Final 1 Gly C2H5NO2 inclure la sous-structure de Gly Gly 192 84 1 2 VAIL PC0-3H3-9 Val, Ala, Ile, Leu 172 70 22 3 LE PC0-3O1-2H3-5 Asp, Glu, Ser, Thr 481 1928 254 4 Pro C2-5NO2H7-11 Inclure la sous-structure N-meGly ou N-meAla Pro 4035 79777 16 5 VAIL_S CFP0-2H3-7 122 65 31 6 DEST_S CFP0-2O1-2H3 349 1075 79 7 Pro_S C2-4SNO2H7-9 Inclure la sous-structure N-meGly ou N-meAla 3999 75734 10 Tableau 1 : Bibliothèques composées utilisées dans cet exemple. Les bibliothèques construites à partir des formules 1 à 4 (Gly, VAIL, DEST et Pro) sont basées sur des formules floues précédemment publiées des acides aminés codés « précoces »21, tandis que les bibliothèques construites à partir des formules 5 à 7 (VAIL_S, DEST_S et Pro_S) sont basées sur des variantes de formules 2 à 4 qui imaginent un soufre divalent remplaçant l’un des atomes de carbone. Les nombres de structures reflètent le nombre de molécules générées par MAYGEN pour chaque formule (« Initial ») et le nombre de molécules restantes après avoir filtré celles avec des sous-structures indésirables (« Final »). Abréviations : VAIL = valine, alanine, isoleucine, leucine ; DEST = acide aspartique, acide glutamique, sérine, thréonine; X_S = Le soufre divalent remplace l’un des carbones de la bibliothèque X ; N-meX = N-méthylX. Les méthodes générales ci-dessus ont été appliquées à des formules basées sur les acides aminés codés « précoces », suivant la procédure de Meringer et al.21 Les structures Badlist ont été prises à partir de cette même source et converties en chaînes SMARTS pour représenter facilement des modèles sous-structurels. Deux sous-structures de badlist n’ont pas été utilisées dans cet exemple : la structure 018 (CH 3-CH-N) correspondait à des quasi-isomères de proline qui n’étaient pas eux-mêmes instables ; la structure 106 (R-C-C-OH, où R = sous-structure d’alanine se fixant au bêta-carbone) correspondait à l’acide glutamique, un acide aminé codé. En plus de ces formules chimiques, des variantes avec du soufre divalent prenant la place d’un atome de carbone et deux atomes d’hydrogène ont été créées. Pour des raisons de performance, plusieurs de ces formules utilisent un atome de phosphore trivalent (par exemple, un « pseudoatome ») comme substitut au bêta-carbone d’une sous-structure d’alanine. Le tableau 1 répertorie les bibliothèques générées dans cet exemple, les formules utilisées pour les générer et le nombre de composés qu’ils contiennent. Les noms des bibliothèques sont basés sur les acides aminés codés dont ils sont dérivés: soit en utilisant l’abréviation à 3 lettres (Gly = glycine, Pro = proline) ou l’abréviation à une seule lettre (VAIL = Valine, Alanine, Isoleucine, Leucine; DEST = acide aspartique, acide glutamique, sérine, thréonine). Le suffixe « _S » indique qu’un soufre a été substitué à un carbone dans la formule de la bibliothèque originale (par exemple, VAIL_S est construit avec la même formule floue que VAIL, mais avec un soufre divalent remplaçant l’un des carbones). Après la génération de structure avec MAYGEN, les bibliothèques résultantes ont été filtrées des composés contenant au moins une sous-structure contenue dans la badlist. Suite à ce filtrage, tous les atomes de phosphore ont été remplacés par une sous-structure d’alanine. Ensuite, des versions « coiffées » de toutes les structures ont été créées, avec un groupe acétyle ajouté au N-terminus et un groupe N-méthyl amide ajouté au C-terminus. Cela a été fait pour éliminer l’effet sur l’hydrophobicité des groupes amine libre et acide carboxylique dans l’épine dorsale des acides alpha-aminés. PaDEL-Descriptor a été utilisé pour calculer XLogP pour toutes les structures plafonnées et calculé le volume de van der Waals (VABC) pour toutes les structures non plafonnées. La figure 2 montre l’espace chimique des bibliothèques filtrées, tel que défini par les descripteurs VABC et XLogP. Ici, la plage de valeurs logP possibles augmente avec le volume moléculaire, même dans les bibliothèques qui manquent de chaînes latérales explicitement hydrophiles (par exemple, VAIL, Pro). Les acides aminés codés avec des chaînes latérales d’hydrocarbures étaient plus hydrophobes que la plupart des autres acides aminés d’un volume comparable de leur bibliothèque respective. Cela semble également être le cas pour Met et Cys par rapport à d’autres membres de la bibliothèque VAIL_S avec des volumes similaires. Les acides aminés codés avec des chaînes latérales hydroxyles (Ser et Thr) étaient parmi les plus petits membres de la bibliothèque DEST, Asp n’étant que légèrement plus grand que Thr. Les figures 3 et 4 montrent les impacts sur le volume et le logP lorsqu’un soufre divalent remplace un carbone dans une chaîne latérale d’acide alpha-aminé. La substitution du soufre a entraîné une légère augmentation du volume moléculaire dans toutes les bibliothèques (Figure 3). L’effet de la substitution du soufre sur le logP n’est pas aussi homogène que pour le volume (Figure 4). Le logP moyen de la bibliothèque VAIL_S est légèrement inférieur à celui de la bibliothèque VAIL, mais cet effet n’est observé dans aucune des autres paires de bibliothèques (DEST et DEST_S, Pro et Pro_S). La figure 5 quantifie les effets sur la génération de structure d’un pseudotom remplaçant une sous-structure commune; ici, un P trivalent substitué à une fraction alanine lors de la génération de la structure. L’utilisation d’un pseudoatome dans la génération de structures a considérablement réduit le nombre de structures générées d’environ 3 ordres de grandeur (Figure 5A) et le temps total nécessaire pour générer ces structures de 1 à 2 ordres de grandeur (Figure 5B). Figure 2 : Espace chimique de toutes les bibliothèques d’acides aminés filtrés. Les marqueurs noirs représentent les acides aminés des bibliothèques sans soufre; Les marqueurs jaunes représentent les acides aminés des bibliothèques enrichies en soufre. Cercles : VAIL et VAIL_S ; carrés: DEST et DEST_S; triangles: Pro et Pro_S; étoiles : acides aminés codés. Notez que les deux acides aminés codés contenant du soufre (Met et Cys) ne sont pas considérés comme des acides aminés « précoces » mais sont présents dans la bibliothèque VAIL_S. Abréviations : XLogP = coefficient de partage ; VAIL = valine, alanine, isoleucine, leucine; DEST = acide aspartique, acide glutamique, sérine, thréonine; X_S = Le soufre divalent remplace l’un des carbones de la bibliothèque X. Veuillez cliquer ici pour voir une version plus grande de cette figure. Figure 3: Volumes moyens de van der Waals (en Å3) de bibliothèques avec et sans soufre. Les barres noires représentent les volumes moyens des bibliothèques sans soufre (VAIL, DEST, Pro), tandis que les barres jaunes représentent les volumes moyens des versions substituées par le soufre de ces bibliothèques (VAIL_S, DEST_S, Pro_S). Les barres d’erreur indiquent l’écart-type. Abréviations : VAIL = valine, alanine, isoleucine, leucine ; DEST = acide aspartique, acide glutamique, sérine, thréonine; X_S = Le soufre divalent remplace l’un des carbones de la bibliothèque X. Veuillez cliquer ici pour voir une version plus grande de cette figure. Figure 4 : Valeurs XLogP moyennes des bibliothèques avec et sans soufre. Les barres noires représentent les bibliothèques sans soufre (VAIL, DEST, Pro), tandis que les barres jaunes représentent les versions substituées par le soufre de ces bibliothèques (VAIL_S, DEST_S, Pro_S). Les barres d’erreur indiquent l’écart-type. Abréviations : XLogP = coefficient de partage ; VAIL = valine, alanine, isoleucine, leucine; DEST = acide aspartique, acide glutamique, sérine, thréonine; X_S = Le soufre divalent remplace l’un des carbones de la bibliothèque X. Veuillez cliquer ici pour voir une version plus grande de cette figure. Figure 5 : Effets d’un pseudoatome trivalent sur la génération de la structure MAYGEN. Tous les tests ont été effectués sur un PC équipé d’un processeur Intel i7-7700HQ à 2,8 GHz, de 16 Go de RAM, d’aucune structure d’enregistrement dans un fichier et de l’option -m pour utiliser le multithreading. Les tests utilisant un pseudoatome ont utilisé les formules floues décrites dans le tableau 1. Pour les essais sans pseudoatome, les formules floues utilisées étaient les mêmes que celles décrites dans le tableau 1 avec les modifications suivantes : P a été remplacé par N ; le nombre de carbones a été augmenté de 3; le nombre d’hydrogène a augmenté de 7; le nombre d’oxygène a été augmenté de 2. Les barres noires montrent les bibliothèques générées avec un pseudoatome; les barres grises montrent les bibliothèques générées sans pseudoatome. (A) Nombre de structures générées à l’aide des formules floues utilisées pour construire les bibliothèques VAIL et DEST avec et sans phosphore trivalent substituant une sous-structure d’alanine. (B) Temps (en ms) nécessaire pour construire les bibliothèques VAIL et DEST avec et sans phosphore trivalent substituant une sous-structure d’alanine. Abréviations : VAIL = valine, alanine, isoleucine, leucine ; DEST = acide aspartique, acide glutamique, sérine, thréonine. Veuillez cliquer ici pour voir une version agrandie de cette figure. Fichier supplémentaire 1 : Cahier de criblage de la sous-structure. Veuillez cliquer ici pour télécharger ce fichier. Fichier supplémentaire 2 : Exemple de liste de fichiers indésirables. Veuillez cliquer ici pour télécharger ce fichier. Fichier supplémentaire 3 : Exemple de liste de produits. Veuillez cliquer ici pour télécharger ce fichier. Fichier supplémentaire 4 : Ordinateur portable de remplacement pseudo-atome. Veuillez cliquer ici pour télécharger ce fichier. Fichier supplémentaire 5 : Carnet de recouvrement d’acides aminés. Veuillez cliquer ici pour télécharger ce fichier.

Discussion

Une caractéristique des acides aminés « précoces » est un manque de soufre. Les méta-analyses mentionnées précédemment considèrent généralement que les acides aminés codés contenant du soufre (Cys et Met) ont été des ajouts relativement tardifs au code génétique, conclusions étayées par le manque d’acides aminés contenant du soufre dans les météorites et les expériences sur les tubes d’étincelles. Cependant, les composés organosulfurés sont facilement détectés dans les comètes et les météorites²², et la réanalyse des expériences de tubes d’étincelles utilisant le gaz H₂S trouvé des acides aminés et d’autres composés organiques contenant du soufre¹⁶. Lorsque l’on envisage un alphabet alternatif d’acides aminés, un alphabet enrichi en soufre vaut la peine d’être exploré.

Dans le protocole ci-dessus, la génération de structure et le filtrage de sous-structure sont considérés comme des étapes critiques; selon la composition de la bibliothèque de structure finie, un chercheur peut n’avoir besoin que d’effectuer ces deux étapes. Des instructions et des logiciels pour des actions supplémentaires (remplacement de pseudoatome et ajout de sous-structures (dans ce cas, plafonnement d’acides aminés)) sont inclus pour un calcul de descripteur plus pertinent (le capsulage garantit que les calculs XLogP sont influencés par la chaîne latérale et non par les groupes amine ou carboxyle de base) et une génération de structure plus rapide via l’utilisation d’un pseudoatome, qui est discuté plus en détail ci-dessous. De plus, le calcul du descripteur est effectué ici comme un moyen facile de visualiser la diversité des structures générées et de comparer les effets de l’enrichissement en soufre dans les bibliothèques finies.

Alors que PaDEL-Descriptor peut calculer des milliers de propriétés moléculaires, le volume moléculaire (tel que calculé volume de van der Waals) et le coefficient de partition (comme XLogP) ont été utilisés ici pour deux raisons distinctes. Tout d’abord, ces deux descripteurs mesurent des propriétés moléculaires (taille et hydrophobicité, respectivement) qui sont familières à la plupart des chimistes et des biologistes. Deuxièmement, dans le cas des acides aminés, ces deux propriétés sont significatives. Pendant des décennies, la taille des acides aminés et l’hydrophobicité étaient connues pour influencer la thermodynamique du repliement des protéines²³. Ces deux propriétés aident à expliquer les fréquences de substitution des acides aminés qui ont fait partie intégrante de la compréhension de l’évolution des protéines²⁴.

L’exemple ci-dessus montre que, dans les deux descripteurs étudiés (volume moléculaire et hydrophobicité), substituer un soufre divalent à un carbone et deux hydrogènes n’entraîne pas de changements significatifs. La légère augmentation non significative du volume moléculaire moyen due à la substitution du soufre (Figure 3) pourrait être attribuée au rayon covalent plus grand du soufre (~103 pm) par rapport au carbone²⁵ sp³ (~75 pm) ou sp² (~73 pm). De même, la substitution du soufre a un effet minimal sur le XLogP moyen (Figure 4). L’effet le plus important a été entre les bibliothèques VAIL et VAIL_S, probablement en raison d’une combinaison de la bibliothèque VAIL étant particulièrement hydrophobe (les chaînes latérales ne sont que des hydrocarbures) et les groupes sulfhydryle étant beaucoup plus acides que les groupes méthyle qu’ils remplaceraient. L’effet minimal de la substitution du soufre est apparent dans la figure 2, où les bibliothèques avec substitution du soufre occupent le même espace chimique que les bibliothèques analogues sans substitution du soufre.

La diminution du nombre de structures (Figure 5A) et du temps nécessaire pour générer ces structures (Figure 5B) lors de l’utilisation d’un pseudoatome n’est pas surprenante. L’utilisation d’un pseudoatome réduit le nombre d’atomes lourds qui doivent être incorporés dans un graphique chimique, réduisant le nombre de nœuds de graphe et produisant des diminutions exponentielles du temps de génération et du nombre de structures. Ici, le choix du phosphore trivalent comme pseudoatome découle de la biochimie de base (en l’absence d’ajout post-traductionnel de groupes phosphate, aucun acide aminé génétiquement codé ne contient de phosphore) et de la valence de l’atome qui le remplacerait (un phosphore trivalent peut facilement être remplacé par un carbone tétravalent qui est lié individuellement à un autre atome ou groupe d’atomes). Bien que le code fourni pour la substitution des pseudoatomes soit spécifique pour remplacer un phosphore trivalent par une sous-structure d’alanine, les utilisateurs peuvent personnaliser le code pour qu’il fonctionne avec différents pseudoatomes ou sous-structures de remplacement, en utilisant potentiellement plusieurs pseudoatomes lors de la génération initiale de la structure, puis en remplaçant chaque pseudoatome par une sous-structure moléculaire plus grande.

Des méthodes de génération de structures similaires à celles employées par MAYGEN (et d’autres méthodes telles que les réseaux de neurones) sont déjà utilisées dans la découverte de médicaments pour générer des bibliothèques de composés pour le dépistage in silico ; une revue récente⁴ examine ces méthodes plus en détail. Comme ces méthodes sont principalement destinées à la création de molécules de type médicament, leur capacité à générer des molécules est limitée, par exemple en utilisant des propriétés biologiques ou pharmaceutiques pour limiter les structures créées (QSPR / QSAR inverse) ou en créant des structures à partir d’un nombre prédéfini de blocs de construction de sous-structure. Comme l’astrobiologie se concentre davantage sur la multitude de composés organiques qui peuvent se former de manière abiotique et moins sur les produits finaux ou leurs propriétés, la génération exhaustive de structures de MAYGEN est idéale pour créer des bibliothèques de structures pour répondre à des questions astrobiologiques. L’approche du filtrage de sous-structure décrite ici (effectuée après génération de structure via un programme externe) diffère du programme concurrent MOLGEN en ce que le filtrage de sous-structure de MOLGEN se produit lors de la génération de structure. Comme MAYGEN est open-source, non seulement il est plus accessible que MOLGEN en raison du coût de licence de MOLGEN, mais les individus pourraient implémenter de nouvelles fonctionnalités telles que le filtrage des sous-structures lors de la génération de structures.

Tel qu’il est écrit, le protocole décrit ici est axé sur la génération et la conservation de bibliothèques d’acides alpha-aminés relativement petits. Pour générer différentes bibliothèques, les utilisateurs peuvent donner différentes formules moléculaires à MAYGEN, modifier le filtrage de la sous-structure en modifiant la taille maximale autorisée de l’anneau et la valence de liaison, ou modifier les fichiers goodlist et badlist pour ajouter ou supprimer des modèles de sous-structure. Les modifications de protocole qui impliquent de changer la façon dont les atomes et les sous-structures sont ajoutés ou remplacés (substitution de pseudoatomes et capsulage moléculaire) sont réalisables, mais nécessiteront plus d’attention aux restrictions de valence pour éviter les erreurs RDKit sur les valences incorrectes dans les structures modifiées.

Le protocole détaillé ci-dessus est conçu pour les petits acides alpha-aminés. Cependant, le format général (génération complète de structures à l’aide de pseudoatomes, suivie d’un filtrage de sous-structure et de modifications moléculaires) est très flexible pour les composés au-delà des petits acides aminés. Même en astrobiologie, une procédure récente similaire utilisant MOLGEN a été utilisée pour étudier les isomères constitutionnels des acides nucléiques²⁶. En plus des outils décrits ci-dessus, MAYGEN peut être associé à d’autres outils de cheminformatique open source pour rendre la création et l’analyse de nouvelles structures chimiques abordables et accessibles à un large éventail de domaines de recherche.

Declarações

The authors have nothing to disclose.

Acknowledgements

MAY reconnaît le financement de la Fondation Carl-Zeiss. Tous les chiffres ont été générés à l’aide de Microsoft Excel.

Materials

conda v. 4.10.3			https://www.anaconda.com/products/individual
Java 17			https://java.com/en/download/help/download_options.html
MAYGEN v. 1.8			https://github.com/MehmetAzizYirik/MAYGEN/releases
PaDEL-Descriptor v. 2.21			http://www.yapcwsoft.com/dd/padeldescriptor/
python v. 3.7.11			included in Anaconda environment
RDKit v. 2020.09.1.0			https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit
*These specific versions were used for this manuscript; user can obtain more recent versions if available.

Referências

Ruddigkeit, L., van Deursen, R., Blum, L. C., Reymond, J. -. L. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. Journal of Chemical Information and Modeling. 52 (11), 2864-2875 (2012).
Buchanan, B. G., Feigenbaum, E. A., Webber, B. L., Nilsson, N. J. Dendral and Meta-Dendral: their applications dimension. Readings in Artificial Intelligence. , 313-322 (1981).
Gugisch, R., Basak, S. C., Restrepo, G., Villaveces, J. L., et al. MOLGEN 5.0, A Molecular Structure Generator. Advances in Mathematical Chemistry and Applications. , 113-138 (2015).
Yirik, M. A., Steinbeck, C. Chemical graph generators. PLOS Computational Biology. 17 (1), 1008504 (2021).
Jaghoori, M. M., et al. PMG: multi-core metabolite identification. Electronic Notes in Theoretical Computer Science. 299, 53-60 (2013).
Yirik, M. A., Sorokina, M., Steinbeck, C. MAYGEN: an open-source chemical structure generator for constitutional isomers based on the orderly generation principle. Journal of Cheminformatics. 13 (1), 48 (2021).
Sims, C. C., Leech, J. Computational methods in the study of permutation groups. Computational Problems in Abstract Algebra. , 169-183 (1970).
Mat, W. -. K., Xue, H., Wong, J. T. -. F. The genomics of LUCA. Frontiers in Bioscience. 13, 5605-5613 (2008).
Fournier, G. P., Alm, E. J. Ancestral reconstruction of a pre-LUCA aminoacyl-tRNA synthetase ancestor supports the late addition of Trp to the genetic code. Journal of Molecular Evolution. 80 (3-4), 171-185 (2015).
Higgs, P. G., Pudritz, R. E. A Thermodynamic basis for prebiotic amino acid synthesis and the nature of the first genetic code. Astrobiology. 9 (5), 483-490 (2009).
Trifonov, E. N. Consensus temporal order of amino acids and evolution of the triplet code. Gene. 261 (1), 139-151 (2000).
Cleaves, H. J. The origin of the biologically coded amino acids. Journal of Theoretical Biology. 263 (4), 490-498 (2010).
Moosmann, B. Redox biochemistry of the genetic code. Trends in Biochemical Sciences. 46 (2), 83-86 (2021).
Simkus, D. N., et al. Methodologies for analyzing soluble organic compounds in extraterrestrial samples: amino acids, amines, monocarboxylic acids, aldehydes, and ketones. Life. 9 (2), 47 (2019).
Criado-Reyes, J., Bizzarri, B. M., García-Ruiz, J. M., Saladino, R., Di Mauro, E. The role of borosilicate glass in Miller-Urey experiment. Scientific Reports. 11 (1), 21009 (2021).
Parker, E. T., et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. Proceedings of the National Academy of Sciences of the United States of America. 108 (14), 5526-5531 (2011).
Bada, J. L. New insights into prebiotic chemistry from Stanley Miller’s spark discharge experiments. Chemical Society Reviews. 42 (5), 2186-2196 (2013).
Yap, C. W. PaDEL-descriptor: An open source software to calculate molecular descriptors and fingerprints. Journal of Computational Chemistry. 32 (7), 1466-1474 (2011).
SMARTS – A language for describing molecular patterns. Daylight Chemical Information Systems, Inc Available from: https://www.daylight.com/html/doc/theory/theory.smarts.html (2019)
Meringer, M., Cleaves, H. J., Freeland, S. J. Beyond terrestrial biology: charting the chemical universe of α-amino acid structures. Journal of Chemical Information and Modeling. 53 (11), 2851-2862 (2013).
Zherebker, A., et al. Speciation of organosulfur compounds in carbonaceous chondrites. Scientific Reports. 11 (1), 7410 (2021).
Tanford, C. The hydrophobic effect and the organization of living matter. Science. 200 (4345), 1012-1018 (1978).
Grantham, R. Amino acid difference formula to help explain protein evolution. Science. 185 (4154), 862-864 (1974).
Cordero, B., et al. Covalent radii revisited. Dalton Transactions. (21), 2832-2838 (2008).
Cleaves, H. J., Butch, C., Burger, P. B., Goodwin, J., Meringer, M. One among millions: the chemical space of nucleic acid-like molecules. Journal of Chemical Information and Modeling. 59 (10), 4266-4277 (2019).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citar este artigo

Mayer-Bacon, C., Yirik, M. A. Curation of Computational Chemical Libraries Demonstrated with Alpha-Amino Acids. J. Vis. Exp. (182), e63632, doi:10.3791/63632 (2022).

Curation de bibliothèques chimiques computationnelles démontrée avec des acides alpha-aminés

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Declarações

Acknowledgements

Materials

Referências

Tags

Play Video

Citar este artigo

View Video

Curation de bibliothèques chimiques computationnelles démontrée avec des acides alpha-aminés

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Declarações

Acknowledgements

Materials

Referências

Tags

Play Video

Citar este artigo

View Video

✖

To prove you're not a robot, please enter the text in the image below