Este protocolo ilustra como explorar, comparar e interpretar as proteínas humanas com recursos on-line.
A iniciativa Glyco@Expasy foi lançada como uma coleção de bases de dados interdependentes e ferramentas que abrangem diversos aspectos do conhecimento em glicobiologia. Em particular, tem como objetivo destacar interações entre glicoproteínas (como receptores de superfície celular) e proteínas de ligação de carboidratos mediadas por glicanos. Aqui, os principais recursos da coleção são introduzidos através de dois exemplos ilustrativos centrados na N-glycome do antígeno específico da próstata humana (PSA) e na O-glycome das proteínas de soro humano. Por meio de diferentes consultas de banco de dados e com a ajuda de ferramentas de visualização, este artigo mostra como explorar e comparar conteúdo em um contínuo para coletar e correlacionar peças de informação dispersas. Os dados coletados são destinados a alimentar cenários mais elaborados da função glican. A glicoinformática introduzida aqui é, portanto, proposta como um meio de fortalecer, moldar ou refutar suposições sobre a especificidade de uma glycome proteica em um determinado contexto.
Os glicanos, proteínas a que estão ligados (glicoproteínas) e proteínas às quais se ligam (lectinas ou proteínas de ligação de carboidratos) são os principais atores moleculares na superfície celular1. Apesar desse papel central na comunicação celular, estudos em larga escala, incluindo glicomics, glicoproteomics ou dados de glicocano-interactômica ainda são escassos em comparação com sua contrapartida em genômica e proteômica.
Até recentemente, não haviam sido desenvolvidos métodos para caracterizar as estruturas ramificadas de carboidratos complexos, ainda conjugados à proteína portadora. A biossíntese das glicoproteínas é um processo não orientado por modelos no qual os doadores de monossacarídeos, os substratos de glicoproteína aceitadores e as glicosyltransferases e glicosidases desempenham um papel interativo. As glicoproteínas resultantes podem suportar estruturas complexas com múltiplos pontos de ramificação onde cada componente monossacarídeo pode ser um dos vários tipos presentes na natureza1. O processo não orientado por modelos impõe a análise bioquímica como a única opção para gerar dados estruturais de oligossacarídeos. O processo analítico das estruturas glicas ligadas a uma proteína nativa é muitas vezes desafiador, pois requer tecnologias sensíveis, quantitativas e robustas para determinar a composição de monossacarídeos, as ligações e sequências ramificadas2.
Neste contexto, a espectrometria de massa (MS) é a técnica mais utilizada em experimentos de glicoprotetomia e glicoproteômica. Com o passar do tempo, estes são realizados em configurações de rendimento mais elevado e os dados agora estão se acumulando em bancos de dados. Estruturas glíricas em vários formatos3, povoam o GlyTouCan4, o repositório universal de dados glicanos onde cada estrutura está associada a um identificador estável, independentemente do nível de precisão com que o glicano é definido (por exemplo, possivelmente faltando tipo de linkage ou composição ambígua). Estruturas muito semelhantes são coletadas, mas suas pequenas diferenças são claramente relatadas. Glicoproteínas são descritas e curadas em GlyConnect5 e GlyGen6, dois bancos de dados cruzando entre si. Os dados de MS que suportam evidências estruturais são cada vez mais armazenados no GlycoPOST7. Para uma cobertura mais ampla dos recursos on-line, o capítulo 52 do manual de referência, Essentials of Glicobiology, é dedicado à glicoinformática8. Curiosamente, o software de identificação de glicoptoptídeos proliferou nos últimos anos9,10, embora não em benefício da reprodutibilidade. Esta última preocupação levou os líderes da Hupo GlycoProteomics Initiative (HGI) a definir um desafio de software em 2019. Os dados de MS obtidos a partir do processamento de misturas complexas de proteínas de soro humano N e O-glicosylated nos modos de fragmentação CID, ETD e EThcD, foram disponibilizados aos concorrentes, sejam usuários de software ou desenvolvedores. O relatório completo sobre os resultados deste desafio11 é apenas descrito aqui. Para começar, observou-se uma disseminação de identificações. Foi interpretado principalmente como causado pela diversidade de métodos implementados nos mecanismos de busca, de suas configurações e como as saídas foram filtradas, e peptídeos “contados”. O design experimental também pode ter colocado alguns softwares e abordagens em uma (des)vantagem. É importante ressaltar que os participantes que utilizam o mesmo software relataram resultados inconsistentes, destacando problemas sérios de reprodutibilidade. Concluiu-se comparando diferentes submissões que algumas soluções de software têm melhor desempenho do que outras e algumas estratégias de pesquisa produzem melhores resultados. Esse feedback provavelmente guiará a melhoria dos métodos automatizados de análise de dados de glycopeptide e, por sua vez, afetará o conteúdo do banco de dados.
A expansão da glicoinformática levou à criação de portais web que fornecem informações e acesso a múltiplos recursos similares ou complementares. Os mais recentes e atualizados são descritos em um capítulo da série de livros de Glicociência Abrangente12 e através da cooperação, uma solução para compartilhamento de dados e troca de informações é oferecida em um modo de acesso aberto. Um desses portais foi desenvolvido que foi originalmente chamado de Glycomics@ExPASy 13 e renomeado Glyco@Expasy, após a grande revisão da plataforma Expasy14 que hospedou uma grande coleção de ferramentas e bancos de dados usados em várias omics por décadas, sendo o item mais popular UniProt15-a base universal de conhecimentos proteicos. Glyco@Expasy oferece uma descoberta didática do propósito e uso de bancos de dados e ferramentas, com base em uma categorização visual e uma exibição de suas interdependências. O protocolo a seguir ilustra procedimentos para explorar dados de glicomics e glicoproteomics com uma seleção de recursos deste portal que torna explícita a conexão entre glicoproteomia e glicomica através de glicomics. Como é, experimentos de glicomics produzem estruturas onde monossacarídeos são totalmente definidos e ligações parcial ou totalmente determinadas, mas seu apego ao local de proteína é mal caracterizado, se em tudo. Em contraste, experimentos de glicoproteomia geram informações precisas de anexo do local, mas com uma resolução ruim de estruturas glicas, muitas vezes limitadas a composições de monossacarídeos. Essas informações são reunidas no banco de dados GlyConnect. Além disso, ferramentas de pesquisa no GlyConnect podem ser usadas para detectar potenciais ligantes glicanos que são descritos juntamente com as proteínas que as reconhecem no UniLectin16, ligada ao GlyConnect via glicocanos. O protocolo aqui apresentado é dividido em duas seções para cobrir questões específicas de glicocanos ligados a N e o-ligados a O e glicoproteínas.
GlyConnect Octopus como uma ferramenta para revelar correlações inesperadas
O GlyConnect Octopus foi originalmente projetado para consultar o banco de dados com uma definição frouxa de glicocanos. De fato, a literatura frequentemente relata as principais características dos glicanos em uma glycome, como ser fucosylated ou sialylated, ser feito de duas ou mais antenas, etc. Além disso, os glicocanos, sejam N ou O-vinculados, são classificados em núcleos, conforme detalhado no manual de referên…
The authors have nothing to disclose.
O autor reconhece calorosamente membros passados e atuais do Grupo de Informática Proteome envolvidos no desenvolvimento dos recursos utilizados neste tutorial, especificamente, Julien Mariethoz e Catherine Hayes para GlyConnect, François Bonnardel para UniLectin, Davide Alocci, e Frederic Nikitin para o Polvo, e Thibault Robin para Compozitor e toque final em Octopus.
O desenvolvimento do projeto glyco@Expasy é apoiado pelo Governo Federal suíço, por meio da Secretaria de Estado da Educação, Da Pesquisa e Inovação (SERI) e atualmente é complementado pela Fundação Nacional de Ciências da Suíça (SNSF: 31003A_179249). A ExPASy é mantida pelo Instituto Suíço de Bioinformática e hospedada no Vital-IT Competency Center. A autora também reconhece Anne Imberty pela excelente cooperação na plataforma UniLectin apoiada conjuntamente pela ANR PIA Glyco@Alps (ANR-15-IDEX-02), Alliance Campus Rhodanien Co-funds (http://campusrhodanien.unige-cofunds.ch) Labex Arcane/CBH-EUR-GS (ANR-17-EURE-0003).
internet connection | user's choice | ||
recent version of web browser | user's choice |