Summary

Interactoma-Seq: Un protocolo para la biblioteca de Domainome construcción, validación y selección de Phage Display y la siguiente secuencia de generación

Published: October 03, 2018
doi:

Summary

Los protocolos descritos permiten la construcción, caracterización y selección (contra el blanco de la opción) de una biblioteca de “domainome” de cualquier fuente de ADN. Esto se logra mediante una tubería de investigación que combina diferentes tecnologías: exhibición phage, un reportero plegable y próxima generación la secuencia con una herramienta web de análisis de datos.

Abstract

Plegable de reporteros son proteínas con fenotipos fácilmente identificables, tales como resistencia a los antibióticos, cuyo plegamiento y función está comprometido cuando fusionado al mal plegamiento de proteínas o marcos de lectura abierto al azar. Hemos desarrollado una estrategia que, mediante el uso de β-lactamasa TEM-1 (la enzima que confiere resistencia a la ampicilina) en una escala genomic, podemos seleccionar colecciones de dominios de la proteína plegada correctamente desde la parte de codificación de la DNA de cualquier genoma intronless. Los fragmentos de proteína obtenidos por este planteamiento, el así llamado “domainome”, será bien expresado y soluble, haciéndolas adecuadas para estudios estructurales/funcionales.

Por clonación y mostrando la “domainome” directamente en un sistema de visualización de fagos, hemos demostrado que es posible seleccionar los dominios de la proteína específica con las propiedades de enlace deseado (por ejemplo, a otras proteínas o anticuerpos), proporcionando así esencial información experimental para la identificación de genes anotación o antígeno.

La identificación de los clones más enriquecidos en una población policlonal seleccionada puede lograrse mediante el uso de tecnologías de secuenciación de próxima generación novela (NGS). Por estas razones, presentamos análisis de secuenciación profunda de la propia biblioteca y las salidas de selección para proveer información completa sobre la diversidad, abundancia y asignación precisa de cada uno de lo fragmento seleccionado. Los protocolos presentados aquí muestran los pasos para la construcción de la biblioteca, caracterización y validación.

Introduction

Aquí, describimos un método de alto rendimiento para la construcción y selección de las bibliotecas de los dominios de la proteína soluble y doblado de cualquier fuente partida genic/genómica. El enfoque combina tres tecnologías diferentes: exhibición phage, el uso de un reportero plegable y siguiente generación de secuenciación (NGS) con una herramienta específica para análisis de datos. Los métodos se pueden utilizar en muchos contextos diferentes de investigación basados en proteínas, para la identificación y anotación de nuevos dominios de las proteínas/proteína, caracterización de propiedades estructurales y funcionales de las proteínas conocidas como definición de red de interacción de la proteína.

Muchas preguntas abiertas todavía están presentes en la investigación basada en la proteína y el desarrollo de métodos para la producción de proteína óptima es una necesidad importante de varios campos de investigación. Por ejemplo, a pesar de la disponibilidad de miles de genomas procariotas y eucariotas1correspondiente mapa de proteomas relativa con una anotación directa de los péptidos y proteínas codificadas es todavía faltando para la gran mayoría de los organismos. El catálogo de proteomas completos está emergiendo como una meta difícil que requiere un gran esfuerzo en términos de tiempo y recursos. El estándar de oro para anotación experimental sigue siendo la clonación de todos los abiertos marcos de lectura (ORFs) de un genoma, construyendo el llamado “ORFeome”. Funciones de los genes es asignado generalmente basada en homología con genes relacionados de actividad conocida, pero esta aproximación es poco exacta debido a la presencia de muchas anotaciones incorrectas en referencia bases de datos2,3,4, 5. Por otra parte, incluso para las proteínas que se han identificado y anotado, estudios adicionales son necesarios para lograr la caracterización en términos de abundancia, patrones de expresión en diversos contextos, incluyendo propiedades estructurales y funcionales, así como redes de interacción.

Además, puesto que las proteínas se componen de diferentes dominios, cada uno de ellos que muestran características específicas y diferentemente que contribuyen a las funciones de la proteína, el estudio y la definición exacta de estos dominios pueden permitir una imagen más amplia, tanto en el solo gen y a nivel de genoma completo. Toda esta información necesaria hace investigación basada en la proteína un campo amplio y desafiante.

En esta perspectiva, podría darse una importante contribución por métodos imparciales y alto rendimiento para la producción de proteína. Sin embargo, el éxito de estos enfoques, al lado de la inversión considerable, se basa en la capacidad de producir construcciones de la proteína soluble/estable. Esto es una gran limitación de factor ya que se estima que sólo alrededor del 30% de proteínas puede correctamente expresado y producido en suficientes niveles experimentalmente útil6,7,8. Un enfoque para superar esta limitación se basa en el uso de ADN fragmentado al azar para producir polipéptidos diferentes, que juntos proporcionan representación superpuestos de fragmento de genes individuales. Sólo un pequeño porcentaje de los fragmentos de ADN generados al azar son ORFs funcionales mientras que la gran mayoría de ellos es no-funcionales (debido a la presencia de codones de parada dentro de sus secuencias) o codifica para no natural (ORF en un marco que no sea la original) polipéptidos con ningún significado biológico.

Para abordar todas estas cuestiones, nuestro grupo ha desarrollado una proteína de alto rendimiento expresión e interacción plataforma de análisis que puede utilizarse en una escala genomic9,10,11,12. Esta plataforma integra las siguientes técnicas: 1) un método para seleccionar colecciones de dominios de la proteína correctamente doblada de la parte de codificación de ADN de cualquier organismo; 2) la tecnología phage para la selección de socios de las interacciones; 3) la NGS completamente caracterizar el interactoma conjunto objeto de estudio e identificar los clones de interés; y 4) una herramienta web para el análisis de datos para usuarios sin conocimientos de programación ni bioinformática realizar análisis de Seq interactoma en forma sencilla y fácil de usar.

El uso de esta plataforma ofrece ventajas importantes sobre estrategias alternativas de investigación; sobre todo el método es completamente imparcial, alto rendimiento y modular para el estudio de un solo gen hasta un genoma entero. El primer paso de la tubería es la creación de una biblioteca de ADN fragmentado aleatoriamente bajo estudio, que luego se caracteriza profundamente por NGS. Esta biblioteca se genera usando un vector de ingeniería donde se clonan genes/fragmentos de interés entre una secuencia de la señal para la secreción de proteínas en el espacio periplasmic (es decir, un líder de la Sec) y el gen de β-lactamasa TEM1. La proteína de fusión confiere resistencia a la ampicilina y la capacidad de sobrevivir bajo la presión de la ampicilina solamente si fragmentos clonados en marco con estos elementos y la proteína de fusión resultante es correctamente doblada10,13 ,14. Todos los clones rescataron después de la selección de antibióticos, los llamados “clones de filtrado”, son ORFs y, una gran mayoría de ellos (más del 80%), se derivan de genes reales9. Por otra parte, el poder de esta estrategia radica en los resultados que todos los clones ORF filtrado son codificación de proteínas correctamente doblado/soluble/dominios15. Como muchos clones, presentes en la biblioteca y la cartografía en el misma región/dominio, tienen diferentes empezando y terminando puntos, esto permite identificar imparcial, solo paso los fragmentos mínimos que pueden resultar en productos solubles.

Otra mejora en la tecnología se da por el uso de NGS para caracterizar a la biblioteca. La combinación de esta plataforma y de una herramienta de web específica para el análisis de los datos da importante información imparcial sobre las secuencias de nucleótido exacta y la ubicación de las ORFs en la referencia de ADN objeto de estudio sin necesidad de análisis más extensos o esfuerzo experimental.

Bibliotecas de Domainome pueden ser transferidas en un contexto de selección y utilizadas como un instrumento universal para llevar a cabo estudios funcionales. El alto rendimiento proteína expresión e interacción plataforma de análisis que integramos y que llamamos interactoma Seq se aprovecha de la tecnología de exhibición phage por transferir el ORF filtrado en un vector de phagemid y la creación de una fago-ORF Biblioteca. Una vez volver a clonar en un contexto de exhibición phage, proteína dominios aparecen en la superficie de las partículas de M13; de esta manera domainome las bibliotecas pueden seleccionarse directamente para fragmentos génicos codifican dominios con actividades enzimáticas específicas o enlace propiedades, permitiendo redes interactoma perfiles. Este enfoque fue inicialmente descrito por Zacchi et al. 16 y utilizado más adelante en varios otros contexto13,17,18.

En comparación con otras tecnologías utilizadas para el estudio de la interacción de proteínas (incluyendo sistema de híbrido dos levaduras y espectrometría de masas19,20), una ventaja importante es la amplificación del socio de enlace que se produce durante el fago Mostrar múltiples rondas de selección. Esto aumenta la sensibilidad de selección permitiendo así la identificación de dominios de bajo abundantes proteínas presentes en la biblioteca. La eficiencia de la selección realizada con filtrado de ORF biblioteca es incrementada debido a la ausencia de clones no funcional. Por último, la tecnología permite la selección a realizar contra la proteína y la proteína no cebos21,22,23,24,25.

Selección de fagos usando la biblioteca domainome-phage se puede realizar usando los anticuerpos procedentes de sueros de pacientes con diferentes condiciones patológicas, por ejemplo enfermedades autoinmunes13, cáncer o infección enfermedades como cebo. Este enfoque se utiliza para obtener la llamada “firma del anticuerpo” de la enfermedad bajo estudio permitiendo masivamente identificar y caracterizar los antígenos/epitopos específicamente reconocidos por los anticuerpos de los pacientes al mismo tiempo. En comparación con otros métodos el uso de phage display permite la identificación de epítopos antigénicos lineal y conformacional. La identificación de una firma específica podría potencialmente tener un impacto importante para entender patogenesia, nuevo diseño de la vacuna, identificación de nuevas dianas terapéuticas y el desarrollo de herramientas nuevas y específicas de diagnósticos y pronósticos. Por otra parte, cuando el estudio se centra en las enfermedades infecciosas, una ventaja importante es que el descubrimiento de proteínas inmunogénicas es independiente de cultivo del patógeno.

Nuestro enfoque confirma que los reporteros plegables se pueden utilizar en una escala genomic para seleccionar “domainome”: una colección de dominios correctamente doblada, bien expresado, solubilidad de la proteína de la parte de codificación de la DNA o cDNA de cualquier organismo. Una vez aislados los fragmentos de proteínas son útiles para muchos propósitos, que proporciona información experimental esencial para anotación del gene así como por los estudios estructurales, Mapeo epitopo de anticuerpo, identificación de antígeno, etcetera. La integridad de datos de alto rendimiento NGS permite el análisis de muestras altamente complejos, tales como bibliotecas de exhibición phage y tiene el potencial para eludir la tradicional cosecha laboriosa y prueba de clones individuales phage rescatado.

Al mismo tiempo gracias a las características de la biblioteca de filtrado y a la extrema sensibilidad y potencia de los análisis NGS, es posible identificar el dominio de la proteína responsable de cada interacción directamente en una pantalla inicial, sin necesidad de crear bibliotecas adicionales para cada destino proteína. NGS permite para obtener una definición completa de la domainome entera de cualquier fuente partida genic/genómica y la herramienta web de análisis de datos permite la obtención de una caracterización muy específica desde un punto de vista cualitativo y cuantitativo de la Dominios del interactoma proteínas.

Protocol

1. construcción de la biblioteca de la ORF (figura 1) Preparación del inserto de ADN Preparación de fragmentos de ADN genómico o sintético Extracto/purificar DNA usando métodos estándar26. Fragmento de ADN por sonicación. Si utilizando un sonicador estándar, como un comienzo de sugerencia general con 30 pulsos de s al 100% de potencia.Nota: Los experimentos piloto deben hacerse …

Representative Results

El enfoque de filtrado es esquematizado en la figura 1. Puede utilizarse cada tipo de ADN intronless. En la figura 1A se representa la primera parte de lo filtrado: después de la carga en un gel de agarosa o un equipo bioanalyzer, una buena fragmentación de la DNA de interés aparece como un borrón de transferencia de los fragmentos con una distribución de longitud en el tamaño deseado de 150-750 bp. Se da una imagen de repr…

Discussion

La creación de una biblioteca alta calidad muy diversa ORFs filtrada es el primer paso crítico en todo el procedimiento ya que afectará a todos los pasos subsecuentes de la tubería.

Una característica importante de la ventaja de nuestro método es que cualquier fuente de ADN (intronless) (ADNc, ADN genómico, derivado de la PCR o ADN sintético) es conveniente para la construcción de la biblioteca. El primer parámetro que debe tenerse en cuenta es que la longitud de los fragmentos de AD…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue financiado por una subvención del Ministerio de Educación Italiano y la Universidad (2010P3S8BR_002 CP).

Materials

Sonopuls  ultrasonic homogenizer Bandelin HD2070 or equivalent
GeneRuler 100 bp Plus DNA Ladder Thermo Scientific SM0321 or equivalent
GeneRuler 1 kb DNA Ladder Thermo Fisher Scientific SM0311 or equivalent
Molecular Biology Agarose BioRad 161-3102 or equivalent
Green Gel Plus Fisher Molecular Biology FS-GEL01 or equivalent
6x DNA Loading Dye Thermo Fisher Scientific R0611 or equivalent
QIAquick Gel Extraction Kit Qiagen 28704 or equivalent
Quick Blunting Kit New England Biolabs E1201S
NanoDrop 2000 UV-Vis Spectrophotometer Thermo Fisher Scientific ND-2000
High-Capacity cDNA Reverse Transcription Kit Thermo Fisher Scientific 4368813
Streptavidin Magnetic Beads New England Biolabs S1420S or equivalent
QIAquick PCR purification Kit Qiagen 28104 or equivalent
EcoRV New England Biolabs R0195L
Antarctic Phosphatase New England Biolabs M0289S
T4 DNA Ligase New England Biolabs M0202T
Sodium Acetate 3M pH5.2 general lab supplier
Ethanol for molecular biology Sigma-Aldrich E7023 or equivalent
DH5aF' bacteria cells Thermo Fisher Scientific
0,2 ml tubes general lab supplier
1,5 ml tubes general lab supplier
0,1 cm electroporation cuvettes Biosigma 4905020
Electroporator 2510 Eppendorf
2x YT medium Sigma-Aldrich Y1003
Ampicillin sodium salt Sigma-Aldrich A9518
Chloramphenicol Sigma-Aldrich C0378
DreamTaq DNA Polymerase Thermo Fisher Scientific EP0702
Deoxynucleotide (dNTP) Solution Mix New England Biolabs N0447S
96-well thermal cycler (with heated lid) general lab supplier
150 mm plates general lab supplier
100 mm plates general lab supplier
Glycerol Sigma-Aldrich G5516
BssHII New England Biolabs R0199L
NheI New England Biolabs R0131L
QIAprep Spin Miniprep Kit Qiagen 27104 or equivalent
M13KO7 Helper Phage GE Healthcare Life Sciences 27-1524-01 
Kanamycin sulfate from Streptomyces kanamyceticus Sigma-Aldrich K1377
Polyethylene glycol (PEG) Sigma-Aldrich P5413
Sodium Cloride (NaCl) Sigma-Aldrich S3014
PBS general lab supplier
Dynabeads Protein G for Immunoprecipitation Thermo Fisher Scientific 10003D or equivalent
MagnaRack Magnetic Separation Rack Thermo Fisher Scientific CS15000 or equivalent
Tween 20 Sigma-Aldrich P1379
Nonfat dried milk powder EuroClone EMR180500
KAPA HiFi HotStart ReadyMix  Kapa Biosystems, Fisher Scientific 7958935001
AMPure XP beads  Agencourt, Beckman Coulter A63881
Nextera XT dual Index  Primers  Illumina FC-131-2001 or FC-131-2002 or FC-131-2003 or FC-131-2004
MiSeq or Hiseq2500  Illumina
Spectrophotomer Nanodrop
Agilent Bioanalyzer or TapeStation Agilent
Forward PCR primer general lab supplier 5’ TACCTATTGCCTACGGCAGCCGCTGGATTGTTATTACTC 3’
Reverse PCR primer general lab supplier 5’ TGGTGATGGTGAGTACTATCCAGGCCCAGCAGTGGGTTTG 3’
Forward primer for NGS general lab supplier  5’ TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGGCAGCAAGCGGCGCGCATGC 3’;
Reverse primer for NGS general lab supplier 5’ GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGGGATTGGTTTGCCGCTAGC 3’;

Riferimenti

  1. Loman, N. J., Pallen, M. J. Twenty years of bacterial genome sequencing. Nat Rev Microbiol. 13 (12), 787-794 (2015).
  2. Jones, C. E., Brown, A. L., Baumann, U. Estimating the annotation error rate of curated GO database sequence annotations. BMC Bioinformatics. 8 (1), 170 (2007).
  3. Andorf, C., Dobbs, D., Honavar, V. Exploring inconsistencies in genome-wide protein function annotations: a machine learning approach. BMC Bioinformatics. 8 (1), 284 (2007).
  4. Wong, W. -. C., Maurer-Stroh, S., Eisenhaber, F. More Than 1,001 Problems with Protein Domain Databases: Transmembrane Regions, Signal Peptides and the Issue of Sequence Homology. PLoS Comput Biol. 6 (7), e1000867 (2010).
  5. Bioinformatics, B., et al. Identification and correction of abnormal, incomplete and mispredicted proteins in public databases. BMC Bioinformatics. 9 (9), (2008).
  6. Phizicky, E., Bastiaens, P. I. H., Zhu, H., Snyder, M., Fields, S. Protein analysis on a proteomic scale. Nature. 422 (6928), 208-215 (2003).
  7. DiDonato, M., Deacon, A. M., Klock, H. E., McMullan, D., Lesley, S. A. A scaleable and integrated crystallization pipeline applied to mining the Thermotoga maritima proteome. J Struct Funct Genomics. 5 (1-2), 133-146 (2004).
  8. Nordlund, P., et al. Protein production and purification. Nat Methods. 5 (2), 135-146 (2008).
  9. Zacchi, P., Sblattero, D., Florian, F., Marzari, R., Bradbury, A. R. M. Selecting open reading frames from DNA. Genome Res. 13 (5), 980-990 (2003).
  10. Di Niro, R., et al. Rapid interactome profiling by massive sequencing. Nucleic Acids Res. 38 (9), e110 (2010).
  11. Gourlay, L. J., et al. Selecting soluble/foldable protein domains through single-gene or genomic ORF filtering: Structure of the head domain of Burkholderia pseudomallei antigen BPSL2063. Acta Crystallogr Sect D Biol Crystallogr. 71 (Pt 11), 2227-2235 (2015).
  12. D’Angelo, S., et al. Filtering "genic" open reading frames from genomic DNA samples for advanced annotation. BMC Genomics. 12 (Suppl 1), S5 (2011).
  13. D’Angelo, S., et al. Profiling celiac disease antibody repertoire. Clin Immunol. 148 (1), 99-109 (2013).
  14. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: A Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  15. Heger, A., Holm, L. Exhaustive enumeration of protein domain families. J Mol Biol. 328 (3), 749-767 (2003).
  16. Zacchi, P., Sblattero, D., Florian, F., Marzari, R., Bradbury, A. R. M. Selecting open reading frames from DNA. Genome Res. 13 (5), 980-990 (2003).
  17. Faix, P. H., Burg, M. A., Gonzales, M., Ravey, E. P., Baird, A., Larocca, D. Phage display of cDNA libraries: Enrichment of cDNA expression using open reading frame selection. Biotechniques. 36 (6), 1018-1029 (2004).
  18. Patrucco, L., et al. Identification of novel proteins binding the AU-rich element of α-prothymosin mRNA through the selection of open reading frames (RIDome). RNA Biol. 12 (12), 1289-1300 (2015).
  19. Collins, M. O., Choudhary, J. S. Mapping multiprotein complexes by affinity purification and mass spectrometry. Curr Opin Biotechnol. 19 (4), 324-330 (2008).
  20. Suter, B., Kittanakom, S., Stagljar, I. Two-hybrid technologies in proteomics research. Curr Opin Biotechnol. 19 (4), 316-323 (2008).
  21. Nakai, Y., Nomura, Y., Sato, T., Shiratsuchi, A., Nakanishi, Y. Isolation of a Drosophila gene coding for a protein containing a novel phosphatidylserine-binding motif. J Biochem. 137 (5), 593-599 (2005).
  22. Deng, S. J., et al. Selection of antibody single-chain variable fragments with improved carbohydrate binding by phage display. J Biol Chem. 269 (13), 9533-9538 (1994).
  23. Danner, S., Belasco, J. G. T7 phage display: A novel genetic selection system for cloning RNA-binding proteins from cDNA libraries. Proc Natl Acad Sci. 98 (23), 12954-12959 (2001).
  24. Gargir, A., Ofek, I., Meron-Sudai, S., Tanamy, M. G., Kabouridis, P. S., Nissim, A. Single chain antibodies specific for fatty acids derived from a semi-synthetic phage display library. Biochim Biophys Acta – Gen Subj. 1569 (1-3), 167-173 (2002).
  25. Patrucco, L., et al. Identification of novel proteins binding the AU-rich element of α-prothymosin mRNA through the selection of open reading frames (RIDome). RNA Biol. 12 (12), 1289-1300 (2015).
  26. Ausubel, F. M., et al. Current Protocols in Molecular Biology. Mol Biol. 1 (2), 146 (2003).
  27. Sblattero, D., Bradbury, A. Exploiting recombination in single bacteria to make large phage antibody libraries. Nat Biotechnol. 18, 75-80 (2000).
  28. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10 (2011).
  29. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10 (1), 421 (2009).
  30. Li, H., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
  31. Quinlan, A. R. BEDTools: The Swiss-Army tool for genome feature analysis. Curr Protoc Bioinforma. , (2014).
  32. Skinner, M. E., Uzilov, A. V., Stein, L. D., Mungall, C. J., Holmes, I. H. JBrowse: A next-generation genome browser. Genome Res. 19 (9), 1630-1638 (2009).
  33. Gourlay, L. J., et al. Selecting soluble/foldable protein domains through single-gene or genomic ORF filtering: Structure of the head domain of Burkholderia pseudomallei antigen BPSL2063. Acta Crystallogr Sect D Biol Crystallogr. 71, 2227-2235 (2015).
  34. D’Angelo, S., et al. Filtering "genic" open reading frames from genomic DNA samples for advanced annotation. BMC Genomics. 12 (Suppl 1), S5 (2011).
  35. Di Niro, R., et al. Characterizing monoclonal antibody epitopes by filtered gene fragment phage display. Biochem J. 388 (Pt 3), 889-894 (2005).
  36. D’Angelo, S., et al. Profiling celiac disease antibody repertoire. Clin Immunol. 148 (1), 99-109 (2013).
check_url/it/56981?article_type=t

Play Video

Citazione di questo articolo
Soluri, M. F., Puccio, S., Caredda, G., Grillo, G., Licciulli, V. F., Consiglio, A., Edomi, P., Santoro, C., Sblattero, D., Peano, C. Interactome-Seq: A Protocol for Domainome Library Construction, Validation and Selection by Phage Display and Next Generation Sequencing. J. Vis. Exp. (140), e56981, doi:10.3791/56981 (2018).

View Video