Summary

Interactome-Seq : Un protocole pour la Construction de la bibliothèque de Domainome, de Validation et de sélection par Phage Display et de prochaine génération séquençage

Published: October 03, 2018
doi:

Summary

Les protocoles décrits permettent la construction, la caractérisation et la sélection (contre une cible de choix) d’une bibliothèque « domainome » fabriquée à partir de n’importe quelle source d’ADN. Ceci est réalisé par un pipeline de recherche qui combine différentes technologies : affichage de phage, reporter pliant et séquençage de génération suivant avec un outil web pour l’analyse des données.

Abstract

Pliage de reporters sont des protéines avec des phénotypes facilement identifiables, telles que la résistance aux antibiotique, dont pliage et la fonction est compromise lorsque fusionnés mal pliage des protéines ou des cadres ouverts de lecture aléatoire. Nous avons mis au point une stratégie où, à l’aide de TEM-1 β-lactamase (l’enzyme conférant la résistance à l’ampicilline) sur une échelle génomique, nous pouvons sélectionner collections de domaines protéiques correctement pliée de la partie codante de l’ADN de n’importe quel génome intronless. Les fragments de protéines obtenues par cette approche, la soi-disant « domainome », sera bien exprimés et solubles, ce qui les rend appropriés pour des études structurales et fonctionnelles.

Par clonage et en affichant le « domainome » directement dans un système d’affichage de phage, nous avons montré qu’il est possible de sélectionner les domaines de la protéine spécifique avec les propriétés de liaison souhaitée (par exemple, aux autres protéines ou à des anticorps), ce qui essentiel données expérimentales pour l’identification des gènes annotation ou antigène.

L’identification des clones plus enrichis dans une population polyclonale choisie est possible en utilisant les technologies de nouvelle génération séquençage (NGS). Pour ces raisons, nous introduisons analyse de séquençage en profondeur de la bibliothèque elle-même et les sorties de la sélection à fournir des renseignements complets sur la diversité, l’abondance et une cartographie précise de chaque fragment sélectionné. Les protocoles présentés ici montrent les principales étapes pour la construction de la bibliothèque, la caractérisation et validation.

Introduction

Nous décrivons ici une méthode de haut-débit pour la construction et la sélection des bibliothèques de domaines de protéines solubles et plissés de toute source de départ génique/génomique. L’approche combine trois technologies différentes : affichage de phage, l’utilisation de reporter pliant et séquençage de prochaine génération (NGS) avec un outil web spécifique pour l’analyse des données. Les méthodes peuvent être utilisées dans différents contextes de recherche axée sur les protéines, pour l’identification et l’annotation de nouveaux domaines de protéines/protéines, caractérisation des propriétés structurales et fonctionnelles des protéines connues, ainsi que la définition de réseau d’interaction de la protéine.

Nombreuses questions en suspens sont encore présentes dans la recherche axée sur les protéines et l’élaboration de méthodes pour la production de protéines optimal est un besoin important pour plusieurs champs d’investigation. Par exemple, malgré la disponibilité de milliers de génomes procaryotes et eucaryotes1, une carte correspondante des protéomes relatives avec une annotation directe des peptides et des protéines codées est toujours manquante pour la grande majorité des organismes. Le catalogue des protéomes complète s’impose comme un objectif difficile qui exige un effort considérable en termes de temps et de ressources. L’étalon-or pour l’annotation expérimentale reste le clonage de tous l’Open cadres de lecture (ORF) d’un génome, bâtiment le soi-disant « ORFeome ». Généralement la fonction du gène est assignée basée sur l’homologie avec des gènes apparentés d’activité connue, mais cette approche est mal juste en raison de la présence de nombreuses annotations incorrectes dans la référence bases2,3,4, 5. Par ailleurs, même pour des protéines qui ont été identifiées et annotées, autres études soient nécessaires pour réaliser la caractérisation en termes d’abondance, profils d’expression dans des contextes différents, y compris les propriétés structurales et fonctionnelles ainsi que réseaux d’interactions.

En outre, étant donné que les protéines sont composées de différents domaines, chacun d’eux montrant des caractéristiques spécifiques et différemment qui contribuent aux fonctions de la protéine, l’étude et la définition exacte de ces domaines peuvent permettre à un tableau plus complet, tant à l’unique gène au niveau du génome complet. Toutes ces informations nécessaires rend recherche axée sur la protéine un champ vaste et difficile.

Dans cette perspective, on pourrait envisager une contribution importante par des méthodes non biaisées et haut-débit pour la production de protéines. Cependant, le succès de ces approches, à côté de l’investissement considérable nécessaire, repose sur la capacité de produire des protéines solubles/stable des constructions. Il s’agit d’un important facteur limitant car il a été estimé que seulement environ 30 % des protéines peut être correctement exprimée et dressée à un niveau suffisant pour être expérimentalement utile6,7,8. Une approche à surmonter cette limitation est basée sur l’utilisation de l’ADN fragmenté au hasard pour produire différents polypeptides, qui fournissent ensemble la représentation qui se chevauchent de fragments de gènes individuels. Seul un faible pourcentage de fragments d’ADN générés de façon aléatoire sont fonctionnels ORFs tandis que la grande majorité d’entre eux est non fonctionnelles (en raison de la présence de codons stop à l’intérieur de leurs séquences) ou coder pour contre nature (ORF dans un cadre autre que l’original) POLYPEPTIDES sans signification biologique.

Pour répondre à toutes ces questions, notre groupe a développé un high-throughput protein expression et interaction plateforme d’analyse qui peut être utilisée sur une échelle génomique9,10,11,12. Cette plate-forme intègre les techniques suivantes : 1) une méthode pour sélectionner les collections de domaines protéiques correctement plié dans la partie codante de l’ADN de n’importe quel organisme ; 2) la technologie d’affichage de le phage de sélection de partenaires d’interactions ; 3) l’end complètement caractériser l’interactome toute l’étude et identifier les clones d’intérêt ; et 4) un outil web pour l’analyse des données pour les utilisateurs sans connaissance en programmation ni de bioinformatique pour effectuer une analyse de l’Interactome-Seq de manière simple et conviviale.

L’utilisation de cette plate-forme offre des avantages importants sur des stratégies alternatives d’enquête ; la méthode est surtout complètement impartiale, haut débit et modulaire pour étude allant d’un seul gène jusqu’à un génome entier. La première étape du pipeline est la création d’une bibliothèque à partir au hasard de fragments d’ADN à l’étude, qui est alors profondément caractérisé par NGS. Cette bibliothèque est générée à l’aide d’un vecteur d’ingénierie où les gènes/fragments d’intérêt sont clonés entre une séquence de signaux pour la sécrétion de protéine dans l’espace périplasmique (c.-à-d., un dirigeant de la Sec) et le gène de β-lactamase TEM1. La protéine de fusion conférera la résistance à l’ampicilline et la capacité de survivre sous la pression de l’ampicilline uniquement si des fragments clonés sont dans le cadre des ces éléments et la protéine de fusion qui en résulte est correctement pliée10,13 ,14. Tous les clones secourus après sélection antibiotique, les clones ce qu’on appelle « filtrés », sont ORFs et, une grande majorité d’entre eux (plus de 80 %) proviennent de gènes real9. En outre, la puissance de cette stratégie réside dans les conclusions que tous les clones de l’ORF filtré encodez pour correctement plié/soluble de protéines/domaines15. Comme nombreux clones, présents dans la bibliothèque et de la cartographie dans la même région/domaine, ont différentes commençant et finissant points, cela permet d’identifier non biaisée, seule étape les fragments minimales qui sont susceptibles d’entraîner des produits solubles.

Une autre amélioration dans la technologie est donnée par l’utilisation de NGS pour caractériser la bibliothèque. La combinaison de cette plate-forme et d’un outil web spécifique pour l’analyse des données donne importante information impartiale sur les séquences nucléotidiques exacte et sur l’emplacement de l’ORF sélectionné sur la référence ADN étudiée sans avoir besoin de plus amples analyses approfondies ou effort expérimental.

Domainome bibliothèques peuvent être transférés dans un contexte de sélection et utilisés comme un instrument universel pour réaliser des études fonctionnelles. La protéine de haut débit expression et interaction plateforme d’analyse que nous avons intégré et que nous avons appelé Interactome-Seq profite de la technologie d’affichage de phage en transférant l’ORF filtrée dans un vecteur de phagemid et en créant un phage-ORF bibliothèque. Une fois re-cloné dans un contexte d’affichage bactériophage, protéine domaines apparaissent à la surface des particules de M13. de cette façon domainome bibliothèques peuvent être directement sélectionnés pour des fragments de gènes codant les domaines avec des activités enzymatiques spécifiques ou lier des propriétés, permettant aux réseaux interactome profilage. Cette approche a été initialement décrite par Zacchi et al. 16 et plus tard utilisé dans plusieurs d’autres contexte13,17,18.

Par rapport aux autres technologies utilisées pour étudier l’interaction protéine-protéine (y compris les deux système hybride de levure et de spectrométrie de masse19,20), un avantage majeur est l’amplification de la partenaire de liaison qui se produit pendant le phage afficher plusieurs séries de sélection. Ceci augmente la sensibilité de sélection permettant ainsi l’identification des domaines des protéines se liant abondante faible présents dans la bibliothèque. L’efficacité de la sélection effectuée avec bibliothèque ORF filtré est encore accrue en raison de l’absence de clones non fonctionnel. Enfin, la technologie permet la sélection à effectuer contre les protéines et non protéique appâts21,22,23,24,25.

Sélections de phage à l’aide de la bibliothèque de domainome-phage peuvent être effectuées en utilisant des anticorps provenant de sérums de patients atteints de différentes pathologies, maladies13, cancer ou infection par exemple les maladies autoimmunes comme appât. Cette approche est utilisée pour obtenir la soi-disant « anticorps signature » de la maladie à l’étude permettant d’identifier et de caractériser les antigènes/épitopes expressément reconnus par les anticorps du patient en même temps massivement. Par rapport aux autres méthodes, l’utilisation du phage display permet l’identification des linéaires et conformationnelles des épitopes antigéniques. L’identification d’une signature spécifique pourrait avoir un impact important pour la pathogénie de la compréhension, nouvelle conception de vaccins, identification de nouvelles cibles thérapeutiques et le développement d’outils diagnostiques et pronostiques nouvelles et spécifiques. En outre, lorsque l’étude est axée sur les maladies infectieuses, un avantage majeur est que la découverte des protéines immunogènes est indépendante de la culture de l’agent pathogène.

Notre approche confirme que les journalistes pliants utilisable à l’échelle génomique pour sélectionner le « domainome » : une collection des domaines de protéine soluble, bien exprimé et correctement plié de la partie codante de l’ADN ou de cDNA de tout organisme. Une fois isolés les fragments de protéines sont utiles à des fins multiples, fournissant des informations essentielles expérimentales pour l’annotation des gènes, aussi bien en ce qui concerne les études structurales, la cartographie des épitopes anticorps, identification de l’antigène, etc.. L’exhaustivité des données haut débit fournies par NGS permet l’analyse des échantillons très complexes, tels que les bibliothèques de phage display et détient le potentiel de contourner la cueillette traditionnelle laborieuse et les essais des clones individuels phage secouru.

En même temps grâce aux fonctionnalités de la bibliothèque filtrée et la sensibilité extrême et la puissance de l’analyse de la NGS, il est possible d’identifier le domaine de la protéine responsable de chaque interaction directement dans l’écran initial, sans la nécessité de créer des bibliothèques supplémentaires pour chaque lié de protéine. NGS permet d’obtenir une définition exhaustive de l’ensemble domainome de n’importe quelle source de départ génique/génomique et l’outil d’analyse de données web permet l’obtention d’une qualification très spécifique d’un point de vue qualitatif et quantitatif de la domaines des interactome protéines.

Protocol

1. construction de la bibliothèque de l’ORF (Figure 1) Préparation de l’ADN de l’insert Préparation de fragments de DNA génomique ou synthétique Extrait/purifier l’ADN à l’aide de méthodes standard26. Des fragments de DNA par sonication. Si en utilisant un sonicateur standard, comme un début de suggestion générale 30 impulsions de s à 100 % puissance de sortie.NOTE …

Representative Results

L’approche de filtrage est schématisé à la Figure 1. Chaque type d’ADN intronless peut être utilisé. La première partie de l’approche de filtrage est représentée Figure 1 a : après le chargement sur gel d’agarose ou un bioanalyzer, une bonne fragmentation de l’ADN d’intérêt apparaît comme un frottis des fragments avec une distribution de longueur à la taille désirée de bp 150-750. Une image représentan…

Discussion

La création d’une bibliothèque filtrée de haute qualité sur ORF très diversifiée est la première étape critique dans l’ensemble de la procédure puisque cela affectera toutes les étapes subséquentes de l’oléoduc.

Une importante caractéristique avantageuse de notre méthode est que n’importe quelle source d’ADN (intronless) (ARN, ADN génomique, PCR dérivées ou ADN synthétique) est adapté à la construction de la bibliothèque. Le premier paramètre qui doit être pris…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par une subvention du ministère italien de l’éducation et l’Université (2010P3S8BR_002 au CP).

Materials

Sonopuls  ultrasonic homogenizer Bandelin HD2070 or equivalent
GeneRuler 100 bp Plus DNA Ladder Thermo Scientific SM0321 or equivalent
GeneRuler 1 kb DNA Ladder Thermo Fisher Scientific SM0311 or equivalent
Molecular Biology Agarose BioRad 161-3102 or equivalent
Green Gel Plus Fisher Molecular Biology FS-GEL01 or equivalent
6x DNA Loading Dye Thermo Fisher Scientific R0611 or equivalent
QIAquick Gel Extraction Kit Qiagen 28704 or equivalent
Quick Blunting Kit New England Biolabs E1201S
NanoDrop 2000 UV-Vis Spectrophotometer Thermo Fisher Scientific ND-2000
High-Capacity cDNA Reverse Transcription Kit Thermo Fisher Scientific 4368813
Streptavidin Magnetic Beads New England Biolabs S1420S or equivalent
QIAquick PCR purification Kit Qiagen 28104 or equivalent
EcoRV New England Biolabs R0195L
Antarctic Phosphatase New England Biolabs M0289S
T4 DNA Ligase New England Biolabs M0202T
Sodium Acetate 3M pH5.2 general lab supplier
Ethanol for molecular biology Sigma-Aldrich E7023 or equivalent
DH5aF' bacteria cells Thermo Fisher Scientific
0,2 ml tubes general lab supplier
1,5 ml tubes general lab supplier
0,1 cm electroporation cuvettes Biosigma 4905020
Electroporator 2510 Eppendorf
2x YT medium Sigma-Aldrich Y1003
Ampicillin sodium salt Sigma-Aldrich A9518
Chloramphenicol Sigma-Aldrich C0378
DreamTaq DNA Polymerase Thermo Fisher Scientific EP0702
Deoxynucleotide (dNTP) Solution Mix New England Biolabs N0447S
96-well thermal cycler (with heated lid) general lab supplier
150 mm plates general lab supplier
100 mm plates general lab supplier
Glycerol Sigma-Aldrich G5516
BssHII New England Biolabs R0199L
NheI New England Biolabs R0131L
QIAprep Spin Miniprep Kit Qiagen 27104 or equivalent
M13KO7 Helper Phage GE Healthcare Life Sciences 27-1524-01 
Kanamycin sulfate from Streptomyces kanamyceticus Sigma-Aldrich K1377
Polyethylene glycol (PEG) Sigma-Aldrich P5413
Sodium Cloride (NaCl) Sigma-Aldrich S3014
PBS general lab supplier
Dynabeads Protein G for Immunoprecipitation Thermo Fisher Scientific 10003D or equivalent
MagnaRack Magnetic Separation Rack Thermo Fisher Scientific CS15000 or equivalent
Tween 20 Sigma-Aldrich P1379
Nonfat dried milk powder EuroClone EMR180500
KAPA HiFi HotStart ReadyMix  Kapa Biosystems, Fisher Scientific 7958935001
AMPure XP beads  Agencourt, Beckman Coulter A63881
Nextera XT dual Index  Primers  Illumina FC-131-2001 or FC-131-2002 or FC-131-2003 or FC-131-2004
MiSeq or Hiseq2500  Illumina
Spectrophotomer Nanodrop
Agilent Bioanalyzer or TapeStation Agilent
Forward PCR primer general lab supplier 5’ TACCTATTGCCTACGGCAGCCGCTGGATTGTTATTACTC 3’
Reverse PCR primer general lab supplier 5’ TGGTGATGGTGAGTACTATCCAGGCCCAGCAGTGGGTTTG 3’
Forward primer for NGS general lab supplier  5’ TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGGCAGCAAGCGGCGCGCATGC 3’;
Reverse primer for NGS general lab supplier 5’ GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGGGATTGGTTTGCCGCTAGC 3’;

Riferimenti

  1. Loman, N. J., Pallen, M. J. Twenty years of bacterial genome sequencing. Nat Rev Microbiol. 13 (12), 787-794 (2015).
  2. Jones, C. E., Brown, A. L., Baumann, U. Estimating the annotation error rate of curated GO database sequence annotations. BMC Bioinformatics. 8 (1), 170 (2007).
  3. Andorf, C., Dobbs, D., Honavar, V. Exploring inconsistencies in genome-wide protein function annotations: a machine learning approach. BMC Bioinformatics. 8 (1), 284 (2007).
  4. Wong, W. -. C., Maurer-Stroh, S., Eisenhaber, F. More Than 1,001 Problems with Protein Domain Databases: Transmembrane Regions, Signal Peptides and the Issue of Sequence Homology. PLoS Comput Biol. 6 (7), e1000867 (2010).
  5. Bioinformatics, B., et al. Identification and correction of abnormal, incomplete and mispredicted proteins in public databases. BMC Bioinformatics. 9 (9), (2008).
  6. Phizicky, E., Bastiaens, P. I. H., Zhu, H., Snyder, M., Fields, S. Protein analysis on a proteomic scale. Nature. 422 (6928), 208-215 (2003).
  7. DiDonato, M., Deacon, A. M., Klock, H. E., McMullan, D., Lesley, S. A. A scaleable and integrated crystallization pipeline applied to mining the Thermotoga maritima proteome. J Struct Funct Genomics. 5 (1-2), 133-146 (2004).
  8. Nordlund, P., et al. Protein production and purification. Nat Methods. 5 (2), 135-146 (2008).
  9. Zacchi, P., Sblattero, D., Florian, F., Marzari, R., Bradbury, A. R. M. Selecting open reading frames from DNA. Genome Res. 13 (5), 980-990 (2003).
  10. Di Niro, R., et al. Rapid interactome profiling by massive sequencing. Nucleic Acids Res. 38 (9), e110 (2010).
  11. Gourlay, L. J., et al. Selecting soluble/foldable protein domains through single-gene or genomic ORF filtering: Structure of the head domain of Burkholderia pseudomallei antigen BPSL2063. Acta Crystallogr Sect D Biol Crystallogr. 71 (Pt 11), 2227-2235 (2015).
  12. D’Angelo, S., et al. Filtering "genic" open reading frames from genomic DNA samples for advanced annotation. BMC Genomics. 12 (Suppl 1), S5 (2011).
  13. D’Angelo, S., et al. Profiling celiac disease antibody repertoire. Clin Immunol. 148 (1), 99-109 (2013).
  14. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: A Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  15. Heger, A., Holm, L. Exhaustive enumeration of protein domain families. J Mol Biol. 328 (3), 749-767 (2003).
  16. Zacchi, P., Sblattero, D., Florian, F., Marzari, R., Bradbury, A. R. M. Selecting open reading frames from DNA. Genome Res. 13 (5), 980-990 (2003).
  17. Faix, P. H., Burg, M. A., Gonzales, M., Ravey, E. P., Baird, A., Larocca, D. Phage display of cDNA libraries: Enrichment of cDNA expression using open reading frame selection. Biotechniques. 36 (6), 1018-1029 (2004).
  18. Patrucco, L., et al. Identification of novel proteins binding the AU-rich element of α-prothymosin mRNA through the selection of open reading frames (RIDome). RNA Biol. 12 (12), 1289-1300 (2015).
  19. Collins, M. O., Choudhary, J. S. Mapping multiprotein complexes by affinity purification and mass spectrometry. Curr Opin Biotechnol. 19 (4), 324-330 (2008).
  20. Suter, B., Kittanakom, S., Stagljar, I. Two-hybrid technologies in proteomics research. Curr Opin Biotechnol. 19 (4), 316-323 (2008).
  21. Nakai, Y., Nomura, Y., Sato, T., Shiratsuchi, A., Nakanishi, Y. Isolation of a Drosophila gene coding for a protein containing a novel phosphatidylserine-binding motif. J Biochem. 137 (5), 593-599 (2005).
  22. Deng, S. J., et al. Selection of antibody single-chain variable fragments with improved carbohydrate binding by phage display. J Biol Chem. 269 (13), 9533-9538 (1994).
  23. Danner, S., Belasco, J. G. T7 phage display: A novel genetic selection system for cloning RNA-binding proteins from cDNA libraries. Proc Natl Acad Sci. 98 (23), 12954-12959 (2001).
  24. Gargir, A., Ofek, I., Meron-Sudai, S., Tanamy, M. G., Kabouridis, P. S., Nissim, A. Single chain antibodies specific for fatty acids derived from a semi-synthetic phage display library. Biochim Biophys Acta – Gen Subj. 1569 (1-3), 167-173 (2002).
  25. Patrucco, L., et al. Identification of novel proteins binding the AU-rich element of α-prothymosin mRNA through the selection of open reading frames (RIDome). RNA Biol. 12 (12), 1289-1300 (2015).
  26. Ausubel, F. M., et al. Current Protocols in Molecular Biology. Mol Biol. 1 (2), 146 (2003).
  27. Sblattero, D., Bradbury, A. Exploiting recombination in single bacteria to make large phage antibody libraries. Nat Biotechnol. 18, 75-80 (2000).
  28. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10 (2011).
  29. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10 (1), 421 (2009).
  30. Li, H., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
  31. Quinlan, A. R. BEDTools: The Swiss-Army tool for genome feature analysis. Curr Protoc Bioinforma. , (2014).
  32. Skinner, M. E., Uzilov, A. V., Stein, L. D., Mungall, C. J., Holmes, I. H. JBrowse: A next-generation genome browser. Genome Res. 19 (9), 1630-1638 (2009).
  33. Gourlay, L. J., et al. Selecting soluble/foldable protein domains through single-gene or genomic ORF filtering: Structure of the head domain of Burkholderia pseudomallei antigen BPSL2063. Acta Crystallogr Sect D Biol Crystallogr. 71, 2227-2235 (2015).
  34. D’Angelo, S., et al. Filtering "genic" open reading frames from genomic DNA samples for advanced annotation. BMC Genomics. 12 (Suppl 1), S5 (2011).
  35. Di Niro, R., et al. Characterizing monoclonal antibody epitopes by filtered gene fragment phage display. Biochem J. 388 (Pt 3), 889-894 (2005).
  36. D’Angelo, S., et al. Profiling celiac disease antibody repertoire. Clin Immunol. 148 (1), 99-109 (2013).
check_url/it/56981?article_type=t

Play Video

Citazione di questo articolo
Soluri, M. F., Puccio, S., Caredda, G., Grillo, G., Licciulli, V. F., Consiglio, A., Edomi, P., Santoro, C., Sblattero, D., Peano, C. Interactome-Seq: A Protocol for Domainome Library Construction, Validation and Selection by Phage Display and Next Generation Sequencing. J. Vis. Exp. (140), e56981, doi:10.3791/56981 (2018).

View Video