Summary

Interactome-Seq: Um protocolo para a construção da biblioteca de Domainome, a validação e a seleção por Phage Display e a próxima geração de sequenciamento

Published: October 03, 2018
doi:

Summary

Os protocolos descritos permitem a construção, caracterização e seleção (contra o destino de escolha), de uma biblioteca de “domainome”, feita a partir de qualquer fonte de DNA. Isto é conseguido por um pipeline de pesquisa que combina diferentes tecnologias: a exibição do fago, repórter dobrável e sequenciamento de próxima geração com uma ferramenta web para análise de dados.

Abstract

Repórteres de dobramento são proteínas com fenótipos facilmente identificáveis, tais como a resistência aos antibióticos, cujo dobramento e a função fica comprometida quando fundido ao mal dobrar proteínas ou frames de leitura abertos ao acaso. Temos desenvolvido uma estratégia onde, por meio de β-lactamases de TEM-1 (a enzima que confere resistência à ampicilina) em escala genômica, podemos selecionar coleções de domínios da proteína dobrada corretamente da porção codificação do DNA de qualquer intronless genoma. Os fragmentos de proteína obtidos por esta abordagem, o chamado “domainome”, será bem expresso e solúvel, tornando-os adequados para estudos estrutural/funcional.

Clonagem e exibindo o “domainome” diretamente em um sistema de exibição do fago, mostramos que é possível selecionar domínios de proteínas específicas com as propriedades de vinculação desejado (por exemplo, para outras proteínas ou anticorpos), proporcionando assim essencial informações experimentais para identificação de anotação ou antígeno gene.

A identificação dos clones mais enriquecidos em uma população de polyclonal selecionado pode ser alcançada usando tecnologias romance sequenciamento de próxima geração (NGS). Por estes motivos, apresentamos a análise profunda de sequenciamento da biblioteca em si e as saídas de seleção para fornecer informações completas sobre a diversidade, abundância e mapeamento preciso de cada um do fragmento selecionado. Os protocolos aqui apresentados mostram as principais etapas para a construção da biblioteca, caracterização e validação.

Introduction

Aqui, descrevemos um método de alta produtividade para a construção e seleção das bibliotecas de domínios da proteína dobrada e solúvel de qualquer fonte de partida genic/genômica. A abordagem combina três tecnologias diferentes: phage display, o uso de um repórter de dobramento e sequenciamento de próxima geração (NGS) com uma ferramenta de web específica para análise de dados. Os métodos podem ser usados em muitos contextos diferentes de pesquisa à base de proteínas, para a identificação e a anotação de novos domínios de proteínas/proteína, a caracterização das propriedades estruturais e funcionais de proteínas conhecidas, bem como a definição de rede de interação de proteínas.

Muitas questões estão ainda presentes na pesquisa baseada em proteína e o desenvolvimento de métodos para a produção de proteína ideal é uma necessidade importante para vários campos de investigação. Por exemplo, apesar da disponibilidade dos milhares de genomas de procariotas e eucariotas1, mapa correspondente do proteomes relativa com uma anotação direta dos peptídeos e proteínas codificadas ainda está faltando para a grande maioria dos organismos. O catálogo de proteomes completa está emergindo como um objetivo desafiador que exige um grande esforço em termos de tempo e recursos. O padrão ouro para anotação experimental permanece a clonagem de todos o Open Frames de leitura (ORFs) de um genoma, construindo o chamado “ORFeome”. Geralmente, função do gene é atribuída com base na homologia de genes relacionados de actividade conhecida mas esta abordagem é mal exata devido à presença de muitas anotações incorretas na referência bases de dados2,3,4, 5. Além disso, mesmo para as proteínas que foram identificadas e anotadas, estudos adicionais são necessários para atingir a caracterização em termos de abundância, padrões de expressão em diferentes contextos, incluindo propriedades estruturais e funcionais, bem como redes de interação.

Além disso, uma vez que as proteínas são compostas de diferentes domínios, cada um deles apresentando características específicas e contribuindo de forma diferente para funções de proteína, o estudo e a definição exata destes domínios podem permitir que um quadro mais abrangente, tanto para o single Gene e no nível do genoma completo. Toda esta informação necessária faz pesquisa baseada em proteína um campo amplo e desafiador.

Nesta perspectiva, um importante contributo poderia ser dada por métodos imparciais e alta produtividade para a produção de proteína. No entanto, o sucesso de tais abordagens, ao lado do considerável investimento necessário, conta com a capacidade de produzir construções de proteína solúvel/estável. Esta é uma grande limitação do fator desde que estima-se que apenas cerca de 30% de proteínas pode ser com êxito expressa e produzido em níveis suficientes para ser experimentalmente úteis6,7,8. Uma abordagem para superar essa limitação é baseada na utilização de DNA fragmentado aleatoriamente para produzir diferentes polipeptídeos, que juntos fornecem sobrepostos representação fragmento de genes individuais. Apenas uma pequena percentagem dos fragmentos de DNA gerados aleatoriamente são ORFs funcionais, enquanto a grande maioria deles é não-funcional (devido à presença de códons de parada dentro de suas sequências) ou codifica para un-natural (ORF em uma moldura que não seja o original) polipeptídeos com nenhum significado biológico.

Para resolver todos esses problemas, o nosso grupo desenvolveu uma plataforma de análise com proteína de alta produtividade expressão e interação que pode ser usada em uma escala genômica9,10,11,12. Esta plataforma integra as seguintes técnicas: 1) um método para selecionar conjuntos de domínios da proteína correctamente dobrada da parte codificação do DNA de qualquer organismo; 2) a tecnologia de exibição do fago para selecionar parceiros de interações; 3) o NGS completamente caracterizam a interactome toda sob estudo e identificar os clones de interesse; e 4) uma ferramenta web para análise de dados para usuários sem conhecimento de programação ou bioinformática executar análise Interactome-Seq de forma fácil e amigável.

O uso desta plataforma oferece vantagens importantes sobre estratégias alternativas de investigação; acima de tudo, o método é completamente imparcial, alta produtividade e modular para estudo que variam de um único gene até um genoma inteiro. A primeira etapa do gasoduto é a criação de uma biblioteca de DNA fragmentado aleatoriamente sob estudo, que então profundamente caracteriza-se por NGS. Esta biblioteca é gerada usando um vetor de engenharia onde/fragmentos de genes de interesse são clonados entre uma sequência de sinal para a secreção de proteínas para o espaço periplasmático (ou seja, um líder Sec) e o gene de β-lactamase TEM1. A proteína de fusão irá conferir resistência à ampicilina e a capacidade de sobreviver sob pressão de ampicilina somente se fragmentos clonados são em-frame com esses elementos e a proteína de fusão resultante é corretamente dobrado10,13 ,14. Todos os clones resgataram após seleção de antibióticos, os chamados “clones de filtrado”, são ORFs e, a grande maioria deles (mais de 80%), são derivados de genes real9. Além disso, o poder desta estratégia encontra-se nas conclusões que todos os clones ORF filtrado são codificação para proteínas corretamente dobrado/solúvel/domínios15. Como muitos clones, presentes na biblioteca e mapeamento de mesmo região/domínio, têm pontos diferentes inicial e final, isto permite a identificação imparcial, passo a passo dos fragmentos mínimos que poderão resultar em produtos solúveis.

Uma melhoria na tecnologia é dada pelo uso de NGS para caracterizar a biblioteca. A combinação dessa plataforma e uma ferramenta de web específico para análise de dados fornece importante informação imparcial sobre as sequências de nucleótidos exata e sobre a localização das ORFs selecionados na referência de DNA em estudo, sem a necessidade de mais extensas análises ou esforço experimental.

Domainome bibliotecas podem ser transferidas para um contexto de seleção e usadas como um instrumento universal para realizar estudos funcionais. A proteína do elevado-throughput expressão e interação análise plataforma que estamos integrados e que chamamos Interactome-Seq aproveita a tecnologia de exibição do fago, transferindo a ORF filtrada em um vetor de phagemid e criando um fago-ORF biblioteca. Uma vez re-clonado em um contexto de exibição do fago, proteína domínios são exibidos na superfície das partículas de M13; desta forma domainome bibliotecas podem ser selecionadas diretamente para fragmentos do gene codificação domínios com actividades enzimáticas específicas ou vincular propriedades, permitindo interactome redes de criação de perfil. Esta abordagem foi inicialmente descrita por et al . Zacchi 16 e mais tarde usado em vários outros contexto13,17,18.

Em comparação com outras tecnologias utilizadas para estudar a interação da proteína-proteína (incluindo dois sistema híbrido de levedura e espectrometria de massa19,20), uma das principais vantagens é a amplificação do parceiro de ligação que ocorre durante o fago exiba várias rodadas de seleção. Isto aumenta a sensibilidade de seleção, permitindo a identificação dos domínios dos baixo abundantes proteínas presentes na biblioteca. A eficiência da seleção realizada com biblioteca ORF-filtrado é ainda maior devido à ausência de clones não-funcional. Finalmente, a tecnologia permite que a seleção para ser executada contra tanto da proteína e da proteína não iscas21,22,23,24,25.

Seleções do fago usando a biblioteca do fago-domainome podem ser realizadas usando anticorpos proveniente de soros de pacientes com diferentes condições patológicas, por exemplo, doenças auto-imunes13, câncer ou infecção doenças como isca. Esta abordagem é usada para obter a chamado “assinatura de anticorpo” da doença em estudo, permitindo-se maciçamente, identificar e caracterizar os antígenos/epítopos especificamente reconhecidos por anticorpos dos pacientes ao mesmo tempo. Em comparação com outros métodos, o uso do phage display permite a identificação de epítopos antigênicos lineares e conformacionais. A identificação de uma assinatura específica potencialmente poderia ter um impacto importante para a patogênese da compreensão, novo design de vacina, identificação de novos alvos terapêuticos e o desenvolvimento de ferramentas de diagnósticos e prognósticos de novas e específicas. Além disso, quando o estudo é focado em doenças infecciosas, uma grande vantagem é que a descoberta de proteínas imunogênicas é independente do cultivo de organismos patogénicos.

Nossa abordagem confirma que os repórteres dobráveis podem ser usados em escala genômica para selecionar o “domainome”: uma coleção de domínios corretamente dobrado, bem expressa, as proteínas solúveis da porção codificação do DNA ou cDNA de qualquer organismo. Uma vez isolados os fragmentos de proteína são úteis para muitos propósitos, fornecendo informações essenciais de experimentais para anotação de gene, bem como para estudos estruturais, mapeamento de epítopo de anticorpos, identificação de antígeno, etc. A completude da elevado-throughput de dados fornecidos pelo NGS permite a análise de amostras altamente complexas, tais como bibliotecas de exibição do fago e detém o potencial para contornar a tradicional colheita trabalhosa e ensaio de clones individuais do fago resgatado.

Ao mesmo tempo graças as funcionalidades da biblioteca de filtrado e a extrema sensibilidade e poder de análise o NGS, é possível identificar o domínio de proteína responsável de cada interação diretamente em uma tela inicial, sem a necessidade de criar bibliotecas adicionais para cada um ligado a proteínas. NGS permite para obter uma definição abrangente do domainome inteiro de qualquer fonte de partida genic/genômica e a ferramenta de web de análise de dados permite a obtenção de uma caracterização altamente específica de um ponto de vista qualitativo e quantitativo do domínios dos interactome proteínas.

Protocol

1. a construção da biblioteca ORF (Figura 1) Preparação do ADN da inserção Preparação de fragmentos de DNA genômico ou sintético Extrato/purifica DNA usando métodos padrão26. Fragmento de DNA pelo sonication. Se usando um sonicador padrão, como um começo de sugestão geral com 30 pulsos de s a 100% potência de saída.Nota: As experiências piloto devem ser feitas com poder…

Representative Results

A abordagem de filtragem é esquematizada na Figura 1. Cada tipo de DNA intronless pode ser usado. Na figura 1A é representada a primeira parte da abordagem de filtragem: após o carregamento em um gel de agarose ou um bioanalyzer, uma boa fragmentação do DNA de interesse aparece como uma mancha de fragmentos com uma distribuição de comprimento no tamanho desejado da bp 150-750. Uma imagem de gel de virtual representativa do…

Discussion

A criação de uma biblioteca filtrada altamente diversificada de alta qualidade ORFs é o primeiro passo crítico em todo o processo desde que afetará todas as etapas subsequentes do pipeline.

Uma característica importante e vantajosa do nosso método é que qualquer fonte de DNA (intronless) (cDNA, DNA genômico, PCR derivado ou DNA sintético) é apropriado para a construção da biblioteca. O primeiro parâmetro que deve ser levado em conta é que o comprimento dos fragmentos do DNA clon…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi financiado por um subsídio do Ministério italiano da educação e Universidade (2010P3S8BR_002 para CP).

Materials

Sonopuls  ultrasonic homogenizer Bandelin HD2070 or equivalent
GeneRuler 100 bp Plus DNA Ladder Thermo Scientific SM0321 or equivalent
GeneRuler 1 kb DNA Ladder Thermo Fisher Scientific SM0311 or equivalent
Molecular Biology Agarose BioRad 161-3102 or equivalent
Green Gel Plus Fisher Molecular Biology FS-GEL01 or equivalent
6x DNA Loading Dye Thermo Fisher Scientific R0611 or equivalent
QIAquick Gel Extraction Kit Qiagen 28704 or equivalent
Quick Blunting Kit New England Biolabs E1201S
NanoDrop 2000 UV-Vis Spectrophotometer Thermo Fisher Scientific ND-2000
High-Capacity cDNA Reverse Transcription Kit Thermo Fisher Scientific 4368813
Streptavidin Magnetic Beads New England Biolabs S1420S or equivalent
QIAquick PCR purification Kit Qiagen 28104 or equivalent
EcoRV New England Biolabs R0195L
Antarctic Phosphatase New England Biolabs M0289S
T4 DNA Ligase New England Biolabs M0202T
Sodium Acetate 3M pH5.2 general lab supplier
Ethanol for molecular biology Sigma-Aldrich E7023 or equivalent
DH5aF' bacteria cells Thermo Fisher Scientific
0,2 ml tubes general lab supplier
1,5 ml tubes general lab supplier
0,1 cm electroporation cuvettes Biosigma 4905020
Electroporator 2510 Eppendorf
2x YT medium Sigma-Aldrich Y1003
Ampicillin sodium salt Sigma-Aldrich A9518
Chloramphenicol Sigma-Aldrich C0378
DreamTaq DNA Polymerase Thermo Fisher Scientific EP0702
Deoxynucleotide (dNTP) Solution Mix New England Biolabs N0447S
96-well thermal cycler (with heated lid) general lab supplier
150 mm plates general lab supplier
100 mm plates general lab supplier
Glycerol Sigma-Aldrich G5516
BssHII New England Biolabs R0199L
NheI New England Biolabs R0131L
QIAprep Spin Miniprep Kit Qiagen 27104 or equivalent
M13KO7 Helper Phage GE Healthcare Life Sciences 27-1524-01 
Kanamycin sulfate from Streptomyces kanamyceticus Sigma-Aldrich K1377
Polyethylene glycol (PEG) Sigma-Aldrich P5413
Sodium Cloride (NaCl) Sigma-Aldrich S3014
PBS general lab supplier
Dynabeads Protein G for Immunoprecipitation Thermo Fisher Scientific 10003D or equivalent
MagnaRack Magnetic Separation Rack Thermo Fisher Scientific CS15000 or equivalent
Tween 20 Sigma-Aldrich P1379
Nonfat dried milk powder EuroClone EMR180500
KAPA HiFi HotStart ReadyMix  Kapa Biosystems, Fisher Scientific 7958935001
AMPure XP beads  Agencourt, Beckman Coulter A63881
Nextera XT dual Index  Primers  Illumina FC-131-2001 or FC-131-2002 or FC-131-2003 or FC-131-2004
MiSeq or Hiseq2500  Illumina
Spectrophotomer Nanodrop
Agilent Bioanalyzer or TapeStation Agilent
Forward PCR primer general lab supplier 5’ TACCTATTGCCTACGGCAGCCGCTGGATTGTTATTACTC 3’
Reverse PCR primer general lab supplier 5’ TGGTGATGGTGAGTACTATCCAGGCCCAGCAGTGGGTTTG 3’
Forward primer for NGS general lab supplier  5’ TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGGCAGCAAGCGGCGCGCATGC 3’;
Reverse primer for NGS general lab supplier 5’ GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGGGATTGGTTTGCCGCTAGC 3’;

References

  1. Loman, N. J., Pallen, M. J. Twenty years of bacterial genome sequencing. Nat Rev Microbiol. 13 (12), 787-794 (2015).
  2. Jones, C. E., Brown, A. L., Baumann, U. Estimating the annotation error rate of curated GO database sequence annotations. BMC Bioinformatics. 8 (1), 170 (2007).
  3. Andorf, C., Dobbs, D., Honavar, V. Exploring inconsistencies in genome-wide protein function annotations: a machine learning approach. BMC Bioinformatics. 8 (1), 284 (2007).
  4. Wong, W. -. C., Maurer-Stroh, S., Eisenhaber, F. More Than 1,001 Problems with Protein Domain Databases: Transmembrane Regions, Signal Peptides and the Issue of Sequence Homology. PLoS Comput Biol. 6 (7), e1000867 (2010).
  5. Bioinformatics, B., et al. Identification and correction of abnormal, incomplete and mispredicted proteins in public databases. BMC Bioinformatics. 9 (9), (2008).
  6. Phizicky, E., Bastiaens, P. I. H., Zhu, H., Snyder, M., Fields, S. Protein analysis on a proteomic scale. Nature. 422 (6928), 208-215 (2003).
  7. DiDonato, M., Deacon, A. M., Klock, H. E., McMullan, D., Lesley, S. A. A scaleable and integrated crystallization pipeline applied to mining the Thermotoga maritima proteome. J Struct Funct Genomics. 5 (1-2), 133-146 (2004).
  8. Nordlund, P., et al. Protein production and purification. Nat Methods. 5 (2), 135-146 (2008).
  9. Zacchi, P., Sblattero, D., Florian, F., Marzari, R., Bradbury, A. R. M. Selecting open reading frames from DNA. Genome Res. 13 (5), 980-990 (2003).
  10. Di Niro, R., et al. Rapid interactome profiling by massive sequencing. Nucleic Acids Res. 38 (9), e110 (2010).
  11. Gourlay, L. J., et al. Selecting soluble/foldable protein domains through single-gene or genomic ORF filtering: Structure of the head domain of Burkholderia pseudomallei antigen BPSL2063. Acta Crystallogr Sect D Biol Crystallogr. 71 (Pt 11), 2227-2235 (2015).
  12. D’Angelo, S., et al. Filtering "genic" open reading frames from genomic DNA samples for advanced annotation. BMC Genomics. 12 (Suppl 1), S5 (2011).
  13. D’Angelo, S., et al. Profiling celiac disease antibody repertoire. Clin Immunol. 148 (1), 99-109 (2013).
  14. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: A Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  15. Heger, A., Holm, L. Exhaustive enumeration of protein domain families. J Mol Biol. 328 (3), 749-767 (2003).
  16. Zacchi, P., Sblattero, D., Florian, F., Marzari, R., Bradbury, A. R. M. Selecting open reading frames from DNA. Genome Res. 13 (5), 980-990 (2003).
  17. Faix, P. H., Burg, M. A., Gonzales, M., Ravey, E. P., Baird, A., Larocca, D. Phage display of cDNA libraries: Enrichment of cDNA expression using open reading frame selection. Biotechniques. 36 (6), 1018-1029 (2004).
  18. Patrucco, L., et al. Identification of novel proteins binding the AU-rich element of α-prothymosin mRNA through the selection of open reading frames (RIDome). RNA Biol. 12 (12), 1289-1300 (2015).
  19. Collins, M. O., Choudhary, J. S. Mapping multiprotein complexes by affinity purification and mass spectrometry. Curr Opin Biotechnol. 19 (4), 324-330 (2008).
  20. Suter, B., Kittanakom, S., Stagljar, I. Two-hybrid technologies in proteomics research. Curr Opin Biotechnol. 19 (4), 316-323 (2008).
  21. Nakai, Y., Nomura, Y., Sato, T., Shiratsuchi, A., Nakanishi, Y. Isolation of a Drosophila gene coding for a protein containing a novel phosphatidylserine-binding motif. J Biochem. 137 (5), 593-599 (2005).
  22. Deng, S. J., et al. Selection of antibody single-chain variable fragments with improved carbohydrate binding by phage display. J Biol Chem. 269 (13), 9533-9538 (1994).
  23. Danner, S., Belasco, J. G. T7 phage display: A novel genetic selection system for cloning RNA-binding proteins from cDNA libraries. Proc Natl Acad Sci. 98 (23), 12954-12959 (2001).
  24. Gargir, A., Ofek, I., Meron-Sudai, S., Tanamy, M. G., Kabouridis, P. S., Nissim, A. Single chain antibodies specific for fatty acids derived from a semi-synthetic phage display library. Biochim Biophys Acta – Gen Subj. 1569 (1-3), 167-173 (2002).
  25. Patrucco, L., et al. Identification of novel proteins binding the AU-rich element of α-prothymosin mRNA through the selection of open reading frames (RIDome). RNA Biol. 12 (12), 1289-1300 (2015).
  26. Ausubel, F. M., et al. Current Protocols in Molecular Biology. Mol Biol. 1 (2), 146 (2003).
  27. Sblattero, D., Bradbury, A. Exploiting recombination in single bacteria to make large phage antibody libraries. Nat Biotechnol. 18, 75-80 (2000).
  28. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10 (2011).
  29. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10 (1), 421 (2009).
  30. Li, H., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
  31. Quinlan, A. R. BEDTools: The Swiss-Army tool for genome feature analysis. Curr Protoc Bioinforma. , (2014).
  32. Skinner, M. E., Uzilov, A. V., Stein, L. D., Mungall, C. J., Holmes, I. H. JBrowse: A next-generation genome browser. Genome Res. 19 (9), 1630-1638 (2009).
  33. Gourlay, L. J., et al. Selecting soluble/foldable protein domains through single-gene or genomic ORF filtering: Structure of the head domain of Burkholderia pseudomallei antigen BPSL2063. Acta Crystallogr Sect D Biol Crystallogr. 71, 2227-2235 (2015).
  34. D’Angelo, S., et al. Filtering "genic" open reading frames from genomic DNA samples for advanced annotation. BMC Genomics. 12 (Suppl 1), S5 (2011).
  35. Di Niro, R., et al. Characterizing monoclonal antibody epitopes by filtered gene fragment phage display. Biochem J. 388 (Pt 3), 889-894 (2005).
  36. D’Angelo, S., et al. Profiling celiac disease antibody repertoire. Clin Immunol. 148 (1), 99-109 (2013).
check_url/56981?article_type=t

Play Video

Cite This Article
Soluri, M. F., Puccio, S., Caredda, G., Grillo, G., Licciulli, V. F., Consiglio, A., Edomi, P., Santoro, C., Sblattero, D., Peano, C. Interactome-Seq: A Protocol for Domainome Library Construction, Validation and Selection by Phage Display and Next Generation Sequencing. J. Vis. Exp. (140), e56981, doi:10.3791/56981 (2018).

View Video