Ce protocole illustre comment explorer, comparer et interpréter les glycomes de protéines humaines avec des ressources en ligne.
L’initiative Glyco@Expasy a été lancée en tant que collection de bases de données et d’outils interdépendants couvrant plusieurs aspects des connaissances en glycobiologie. En particulier, il vise à mettre en évidence les interactions entre les glycoprotéines (telles que les récepteurs de surface cellulaire) et les protéines de liaison aux glucides médiées par les glycanes. Ici, les principales ressources de la collection sont présentées à travers deux exemples illustratifs centrés sur le N-glycome de l’antigène spécifique de la prostate humaine (PSA) et l’O-glycome des protéines sériques humaines. À travers différentes requêtes de base de données et à l’aide d’outils de visualisation, cet article montre comment explorer et comparer le contenu dans un continuum pour recueillir et corréler des éléments d’information autrement dispersés. Les données collectées sont destinées à alimenter des scénarios plus élaborés de la fonction du glycane. La glycoinformatique introduite ici est donc proposée comme un moyen de renforcer, de façonner ou de réfuter les hypothèses sur la spécificité d’un glycome protéique dans un contexte donné.
Les glycanes, protéines auxquelles ils sont attachés (glycoprotéines) et protéines auxquelles ils se lient (lectines ou protéines liant les glucides) sont les principaux acteurs moléculaires à la surface de la cellule1. Malgré ce rôle central dans la communication cellule-cellule, les études à grande échelle, y compris les données sur la glycomique, la glycoprotéomique ou l’interactomique des glycanes, sont encore rares par rapport à leur homologue en génomique et en protéomique.
Jusqu’à récemment, les méthodes permettant de caractériser les structures ramifiées des glucides complexes tout en étant conjuguées à la protéine porteuse n’avaient pas été développées. La biosynthèse des glycoprotéines est un processus non piloté par un modèle dans lequel les donneurs de monosaccharides, les substrats de glycoprotéines acceptants, les glycosyltransférases et les glycosidases jouent un rôle interactif. Les glycoprotéines résultantes peuvent porter des structures complexes avec de multiples points de ramification où chaque composant monosaccharidique peut être l’un des nombreux types présents dans la nature1. Le processus non piloté par modèle impose l’analyse biochimique comme seule option pour générer des données structurelles sur les oligosaccharides. Le processus analytique des structures glycanes attachées à une protéine native est souvent difficile car il nécessite des technologies sensibles, quantitatives et robustes pour déterminer la composition des monosaccharides, les liaisons et les séquences de ramification2.
Dans ce contexte, la spectrométrie de masse (SEP) est la technique la plus largement utilisée dans les expériences de glycomique et de glycoprotéomique. Au fil du temps, ceux-ci sont effectués dans des paramètres de débit plus élevé et les données s’accumulent maintenant dans les bases de données. Les structures de glycanes dans divers formats3, remplissent GlyTouCan4, le référentiel universel de données sur les glycanes où chaque structure est associée à un identificateur stable, quel que soit le niveau de précision avec lequel le glycane est défini (par exemple, le type de liaison manquant ou la composition ambiguë). Des structures très similaires sont collectées, mais leurs différences mineures sont clairement rapportées. Les glycoprotéines sont décrites et organisées dans GlyConnect5 et GlyGen6, deux bases de données qui se croisent. Les données sur la SEP à l’appui des éléments de preuve structurels sont de plus en plus stockées dans GlycoPOST7. Pour une couverture plus large des ressources en ligne, le chapitre 52 du manuel de référence, Essentials of Glycobiology, est consacré à la glycoinformatique8. Fait intéressant, les logiciels d’identification des glycopeptides ont proliféré ces dernières années9,10 mais pas au profit de la reproductibilité. Cette dernière préoccupation a incité les dirigeants de l’Initiative HUPO GlycoProteomics (HGI) à relever un défi logiciel en 2019. Les données sur la SEP obtenues à partir du traitement de mélanges complexes de protéines sériques humaines N- et O-glycosylées dans les modes de fragmentation CID, ETD et EThcD, ont été mises à la disposition des concurrents, qu’il s’agisse d’utilisateurs de logiciels ou de développeurs. Le rapport complet sur les résultats de ce défi11 n’est présenté qu’ici. Pour commencer, une propagation des identifications a été observée. Il a été principalement interprété comme étant causé par la diversité des méthodes mises en œuvre dans les moteurs de recherche, de leurs paramètres et de la façon dont les sorties étaient filtrées et les peptides « comptés ». La conception expérimentale peut également avoir mis certains logiciels et approches à un (dés)avantage. Il est important de noter que les participants utilisant le même logiciel ont signalé des résultats incohérents, mettant ainsi en évidence de graves problèmes de reproductibilité. Il a été conclu en comparant différentes soumissions que certaines solutions logicielles fonctionnent mieux que d’autres et que certaines stratégies de recherche donnent de meilleurs résultats. Cette rétroaction est susceptible de guider l’amélioration des méthodes automatisées d’analyse des données sur les glycopeptides et aura à son tour un impact sur le contenu de la base de données.
L’expansion de la glycoinformatique a conduit à la création de portails Web qui fournissent de l’information et un accès à de multiples ressources similaires ou complémentaires. Les plus récents et les plus à jour sont décrits dans un chapitre de la série de livres Comprehensive Glycoscience12 et, grâce à la coopération, une solution au partage de données et à l’échange d’informations est proposée en mode libre accès. L’un de ces portails a été développé, qui s’appelait à l’origine Glycomics@ExPASy 13 et a été rebaptisé Glyco@Expasy, à la suite de la refonte majeure de la plate-forme Expasy14 qui héberge une grande collection d’outils et de bases de données utilisés dans plusieurs -omiques pendant des décennies, l’élément le plus populaire étant UniProt15 – la base de connaissances universelle sur les protéines. Glyco@Expasy offre une découverte didactique de la finalité et de l’utilisation des bases de données et des outils, basée sur une catégorisation visuelle et un affichage de leurs interdépendances. Le protocole suivant illustre les procédures d’exploration des données glycomiques et glycoprotéomiques avec une sélection de ressources de ce portail qui rend le lien entre la glycoprotéomique et l’interactomique glycane explicite via la glycomique. En l’état, les expériences en glycomique produisent des structures où les monosaccharides sont entièrement définis et les liens partiellement ou entièrement déterminés, mais leur fixation au site protéique est mal, voire pas du tout, caractérisée. En revanche, les expériences de glycoprotéomique génèrent des informations précises sur la fixation du site, mais avec une mauvaise résolution des structures glycanes, souvent limitées aux compositions monosaccharidiques. Ces informations sont rassemblées dans la base de données GlyConnect. En outre, les outils de recherche de GlyConnect peuvent être utilisés pour détecter les ligands glycanes potentiels qui sont décrits avec les protéines les reconnaissant dans UniLectin16, liés à GlyConnect via des glycanes. Le protocole présenté ici est divisé en deux sections pour couvrir les questions spécifiques aux glycanes et glycoprotéines liés à l’azote et à l’O.
GlyConnect Octopus comme outil pour révéler des corrélations inattendues
GlyConnect Octopus a été conçu à l’origine pour interroger la base de données avec une définition lâche des glycanes. En effet, la littérature rapporte souvent les principales caractéristiques des glycanes dans un glycome comme être fucosylé ou sialylé, être constitué de deux antennes ou plus, etc. En outre, les glycanes, qu’ils soient liés à N ou à O, sont classés en noyaux, comme détaillé dans<sup cla…
The authors have nothing to disclose.
L’auteur reconnaît chaleureusement les membres passés et présents du Proteome Informatics Group impliqués dans le développement des ressources utilisées dans ce tutoriel, en particulier Julien Mariethoz et Catherine Hayes pour GlyConnect, François Bonnardel pour UniLectin, Davide Alocci et Frederic Nikitin pour octopus, et Thibault Robin pour Compozitor et final touch on Octopus.
Le développement du projet glyco@Expasy est soutenu par la Confédération suisse par l’intermédiaire du Secrétariat d’Etat à la formation, à la recherche et à l’innovation (SEFRI) et est actuellement complété par le Fonds national suisse (FNS: 31003A_179249). ExPASy est géré par l’Institut suisse de bioinformatique et hébergé au Vital-IT Competency Center. L’auteur remercie également Anne Imberty pour sa coopération exceptionnelle sur la plateforme UniLectin soutenue conjointement par ANR PIA Glyco@Alps (ANR-15-IDEX-02), Alliance Campus Rhodanien Co-funds (http://campusrhodanien.unige-cofunds.ch) Labex Arcane/CBH-EUR-GS (ANR-17-EURE-0003).
internet connection | user's choice | ||
recent version of web browser | user's choice |