Summary

Interactoma-Seq: Un protocollo per la costruzione della libreria Domainome, la convalida e la selezione di Phage Display e sequenziamento di nuova generazione

Published: October 03, 2018
doi:

Summary

I protocolli descritti consentono la costruzione, la caratterizzazione e la selezione (contro il bersaglio di scelta) di una libreria di “domainome” fatta da qualsiasi fonte di DNA. Questo risultato è ottenuto da una pipeline di ricerca che combina diverse tecnologie: phage display, un reporter pieghevole e sequenziamento di nuova generazione con uno strumento web per l’analisi dei dati.

Abstract

Pieghevole reporter sono proteine con fenotipi facilmente identificabili, quali resistenza agli antibiotici, cui pieghevole e la funzione è compromessa quando fusa a mal pieghevole proteine o casuale open reading frame. Abbiamo sviluppato una strategia dove, utilizzando TEM-1 β-lactamase (l’enzima che conferisce resistenza all’ampicillina) su scala genomica, possiamo selezionare collezioni di domini proteina correttamente piegata dalla parte codifica del DNA del genoma qualsiasi intronless. I frammenti di proteine ottenuti da questo approccio, il cosiddetto “domainome”, sarà ben espresso e solubile, che li rende adatti per studi strutturali/funzionali.

Clonazione e visualizzando il “domainome” direttamente in un sistema di visualizzazione dei fagi, abbiamo mostrato che è possibile selezionare domini proteici specifici con le proprietà di associazione desiderata (ad es., per altre proteine o anticorpi), fornendo così essenziale informazioni sperimentali per l’identificazione dell’antigene o annotazione genetica.

L’identificazione dei cloni più arricchiti in una popolazione policlonale selezionata può essere realizzato utilizzando tecnologie di sequenziamento di nuova generazione romanzo (NGS). Per queste ragioni, abbiamo introdurre l’analisi di sequenziamento profondo della biblioteca stessa e le uscite di selezione per fornire informazioni complete sulla diversità, abbondanza e mappatura precisa di ogni frammento selezionato. I protocolli qui presentati mostrano i passaggi chiavi per la costruzione della libreria, la caratterizzazione e la convalida.

Introduction

Qui, descriviamo un metodo di alto-rendimento per la costruzione e la selezione delle biblioteche di domini proteici piegato e solubile da qualsiasi fonte di partenza genica/genomica. L’approccio combina tre diverse tecnologie: phage display, l’uso di un reporter pieghevole e sequenziamento di nuova generazione (NGS) con uno strumento di web specifico per l’analisi dei dati. I metodi possono essere utilizzati in diversi contesti di ricerca basati su proteine, identificazione e annotazione di nuovi domini di proteine/proteine, caratterizzazione delle proprietà strutturali e funzionali di proteine note come pure la definizione di rete di interazione della proteina.

Molte questioni aperte sono ancora presenti nella ricerca di base di proteine e lo sviluppo di metodi per la produzione di proteine ottimale è un bisogno importante per diversi campi di indagine. Ad esempio, nonostante la disponibilità di migliaia di genomi procarioti ed eucarioti1, mappa corrispondente dei proteomi relativi con un’annotazione diretta delle proteine codificate e peptidi è ancora manca per la grande maggioranza degli organismi. Il catalogo dei proteomi completi sta emergendo come un obiettivo impegnativo che richiede uno sforzo enorme in termini di tempo e risorse. Il gold standard per annotazione sperimentale rimane la clonazione di tutti l’Open Reading Frame (ORF) di un genoma, costruendo il così chiamato “ORFeome”. Di solito funzione genica viene assegnato in base su omologia di geni correlati di attività nota ma questo approccio è poco accurato a causa della presenza di molte annotazioni errate in riferimento database2,3,4, 5. Inoltre, anche per le proteine che sono state identificate e annotate, ulteriori studi sono richiesti per ottenere la caratterizzazione in termini di abbondanza, modelli di espressione in contesti diversi, incluse le proprietà strutturali e funzionali, nonché reti di interazione.

Inoltre, poiché le proteine sono composte da domini diversi, ognuno di loro che mostrano le caratteristiche specifiche e che contribuiscono in modo diverso alle funzioni della proteina, lo studio e la definizione esatta di questi domini possono consentire un quadro più completo, entrambi presso il singolo gene e a livello del genoma completo. Tutte le informazioni necessarie rendono la ricerca di base di proteine un campo ampio e impegnativo.

In questa prospettiva, un contributo importante potrebbe essere dato dai metodi imparziali e ad alta produttività per la produzione di proteine. Tuttavia, il successo di tali approcci, accanto a notevoli investimenti necessari, si basa sulla capacità di produrre la proteina solubile/stabile costrutti. Questo è un grande fattore di limitazione poiché è stato stimato che solo circa il 30% delle proteine può essere espresso con successo e prodotto a livelli sufficienti per essere sperimentalmente utile6,7,8. Un approccio per superare questa limitazione è basato sull’uso di DNA in modo casuale frammentato per produrre diversi polipeptidi, che insieme offrono sovrapposti rappresentazione di frammento di singoli geni. Solo una piccola percentuale dei frammenti di DNA generati casualmente sono ORFs funzionale mentre la grande maggioranza di loro è non funzionali (per la presenza di codoni di stop all’interno di loro sequenze) o codifica per un naturale (ORF in un frame diverso da quello originale) polipeptidi con nessun significato biologico.

Per affrontare tutti questi problemi, il nostro gruppo ha sviluppato una piattaforma di analisi conforme agli standard della proteina di alto-rendimento espressione e interazione che può essere utilizzata su una scala genomica9,10,11,12. Questa piattaforma integra le seguenti tecniche: 1) un metodo per selezionare raccolte di domini proteina correttamente piegata dalla parte codifica del DNA da qualsiasi organismo; 2) la tecnologia di visualizzazione dei fagi per selezionare i partner delle interazioni; 3) il NGS completamente Interactoma intero sotto studio di caratterizzare e identificare i cloni di interesse; e 4) uno strumento web per l’analisi dei dati per gli utenti senza competenze di programmazione o bioinformatica eseguire analisi Interactoma-Seq in modo semplice e facile da usare.

L’utilizzo di questa piattaforma offre importanti vantaggi rispetto alle strategie alternative di indagine; soprattutto il metodo è completamente imparziale, ad alta produttività e modulare per lo studio che vanno da un singolo gene fino a un intero genoma. Il primo passo della pipeline è la creazione di una libreria dal DNA frammentato in modo casuale in fase di studio, che quindi è profondamente caratterizzata da NGS. Questa libreria viene generata utilizzando un vettore di derivati dal dove vengono clonati geni/frammenti di interesse tra una sequenza di segnale per la secrezione della proteina nello spazio periplasmico (cioè, un leader di Sec) ed il gene di β-lactamase TEM1. La proteina di fusione conferisce resistenza all’ampicillina e la capacità di sopravvivere sotto pressione di ampicillina solo se frammenti clonati sono in-frame con entrambi questi elementi e la proteina di fusione risultante è correttamente piegato10,13 ,14. Tutti i cloni salvato dopo selezione antibiotica, i cosiddetti “cloni filtrata”, sono ORFs e, a grande maggioranza di loro (più dell’80%), sono derivati da veri geni9. Inoltre, la potenza di questa strategia sta nei risultati che tutti i cloni di ORF filtrati sono codifica per proteine correttamente piegato/solubile/domini15. Come molti cloni, presenti nella biblioteca e mappatura nella stesso regione/dominio, hanno punti diversi iniziale e finale, in questo modo imparziale, passo singolo identificazione dei frammenti minimi che possono portare a prodotti solubili.

Un ulteriore miglioramento nella tecnologia è dato dall’utilizzo di NGS per caratterizzare la libreria. La combinazione di questa piattaforma e di uno strumento web specifico per l’analisi dei dati dà importanti informazioni imparziali sulle sequenze del nucleotide esatto e sulla posizione di ORFs selezionato sul riferimento del DNA in fase di studio senza la necessità di ulteriori analisi estese o sforzo sperimentale.

Domainome librerie possono essere trasferite in un contesto di selezione e utilizzate come uno strumento universale per eseguire studi funzionali. La proteina di alto-rendimento espressione e interazione analisi piattaforma che abbiamo integrato e che abbiamo chiamato Interactoma-Seq sfrutta la tecnologia di visualizzazione dei fagi trasferimento ORF filtrato in un vettore phagemid e creando un fago-ORF biblioteca. Una volta ri-clonato in un contesto di visualizzazione dei fagi, proteina domini vengono visualizzati sulla superficie delle particelle di M13; in questo modo le librerie domainome possono essere selezionate direttamente per frammenti del gene codifica i domini con specifiche attività enzimatiche o associazione proprietà, permettendo di reti Interactoma profilatura. Questo approccio è stato inizialmente descritto da Zacchi et al. 16 e più tardi usato in diversi altri contesto13,17,18.

Rispetto ad altre tecnologie usate per studiare l’interazione proteina-proteina (tra cui due sistema ibrido del lievito e spettrometria di massa19,20), uno dei principali vantaggi è l’amplificazione del partner associazione che si verifica durante dei fagi visualizzare più cicli di selezione. Questo aumenta la sensibilità della selezione permettendo così l’identificazione dei domini delle proteine bassa associazione abbondanti presenti nella libreria. L’efficienza della selezione eseguita con biblioteca filtrato ORF è ulteriormente incrementata grazie all’assenza di cloni non funzionali. Infine, la tecnologia permette la selezione deve essere eseguita contro proteine e non proteici esche21,22,23,24,25.

Le selezioni dei fagi utilizzando la libreria domainome-fago possono essere eseguite utilizzando anticorpi provenienti dai sieri di pazienti con diverse condizioni patologiche, ad es. malattie di13, cancro o infezione malattie autoimmuni come esca. Questo approccio viene utilizzato per ottenere la cosiddetta “firma di anticorpo” della malattia in fase di studio che permette di identificare e caratterizzare gli antigeni/epitopi specificamente riconosciuti dagli anticorpi dei pazienti allo stesso tempo massiccio. Rispetto ad altri metodi l’uso del fago display permette l’identificazione di epitopi antigenici conformazionali e lineari. L’identificazione di una firma specifica potrebbe potenzialmente avere un impatto importante per la patogenesi di comprensione, nuovo vaccino design, identificazione di nuovi bersagli terapeutici e lo sviluppo di nuovi e specifici strumenti diagnostici e prognostici. Inoltre, quando lo studio si concentra sulle malattie infettive, dei principali vantaggi è che la scoperta delle proteine immunogeniche è indipendente dalla coltivazione di agente patogeno.

Il nostro approccio conferma che i reporter pieghevoli possono essere utilizzati su scala genomica per selezionare il “domainome”: un insieme di domini proteici correttamente piegato, bene espresso, solubile dalla parte codifica del DNA e/o cDNA da alcun organismo. Una volta isolato i frammenti di proteine sono utili per molti scopi, fornendo informazioni essenziali sperimentale per l’annotazione del gene anche per quanto riguarda gli studi strutturali, anticorpo epitope mapping, identificazione dell’antigene, ecc. La completezza dei dati ad alta velocità forniti da NGS permette l’analisi di campioni altamente complessi, come ad esempio librerie dei fagi della visualizzazione e possiede il potenziale per eludere la tradizionale raccolta laboriosa e test dei cloni individuali dei fagi salvato.

Allo stesso tempo grazie alle caratteristiche della biblioteca filtrata e per l’estrema sensibilità e la potenza dell’analisi NGS, è possibile identificare il dominio della proteina responsabile di ogni interazione direttamente in una schermata iniziale, senza la necessità di creare librerie aggiuntive per ogni associato della proteina. NGS permette di ottenere una definizione esaustiva dell’intero domainome di qualsiasi origine genica/genomica di partenza e lo strumento di web analisi dati consente l’ottenimento di un’altamente specifica caratterizzazione da un punto di vista qualitativo e quantitativo della domini delle proteine Interactoma.

Protocol

1. costruzione della biblioteca ORF (Figura 1) Preparazione del DNA di inserto Preparazione di frammenti da DNA genomico o sintetico Estratto/purificare il DNA utilizzando metodi standard26. Frammento di DNA tramite sonicazione. Se utilizzando un sonicatore standard, come un suggerimento generale inizio con 30 impulsi di s al 100% potenza di uscita.Nota: Gli esperimenti pilota dovrebbero…

Representative Results

L’approccio di filtraggio è schematizzato nella Figura 1. Può essere utilizzato ogni tipo di DNA intronless. In Figura 1A è rappresentata la prima parte dell’approccio filtraggio: dopo il caricamento su un gel dell’agarosi o un bioanalyzer, una buona frammentazione del DNA di interesse appare come una macchia di frammenti con una distribuzione di lunghezza nella grandezza desiderata di 150-750 bp. Un’immagine rappresentante vi…

Discussion

La creazione di una libreria alta qualità altamente diversificata ORFs filtrata è il primo passaggio fondamentale in tutta la procedura poiché interesserà tutti i passaggi successivi della pipeline.

Un’importante caratteristica vantaggiosa del nostro metodo è che qualsiasi fonte di (intronless) del DNA (cDNA, DNA genomic, PCR derivato o DNA sintetico) è adatto per la costruzione della libreria. Il primo parametro che deve essere preso in considerazione è che la lunghezza dei frammenti d…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato supportato da una sovvenzione dal Ministero della pubblica istruzione e Università (2010P3S8BR_002 CP).

Materials

Sonopuls  ultrasonic homogenizer Bandelin HD2070 or equivalent
GeneRuler 100 bp Plus DNA Ladder Thermo Scientific SM0321 or equivalent
GeneRuler 1 kb DNA Ladder Thermo Fisher Scientific SM0311 or equivalent
Molecular Biology Agarose BioRad 161-3102 or equivalent
Green Gel Plus Fisher Molecular Biology FS-GEL01 or equivalent
6x DNA Loading Dye Thermo Fisher Scientific R0611 or equivalent
QIAquick Gel Extraction Kit Qiagen 28704 or equivalent
Quick Blunting Kit New England Biolabs E1201S
NanoDrop 2000 UV-Vis Spectrophotometer Thermo Fisher Scientific ND-2000
High-Capacity cDNA Reverse Transcription Kit Thermo Fisher Scientific 4368813
Streptavidin Magnetic Beads New England Biolabs S1420S or equivalent
QIAquick PCR purification Kit Qiagen 28104 or equivalent
EcoRV New England Biolabs R0195L
Antarctic Phosphatase New England Biolabs M0289S
T4 DNA Ligase New England Biolabs M0202T
Sodium Acetate 3M pH5.2 general lab supplier
Ethanol for molecular biology Sigma-Aldrich E7023 or equivalent
DH5aF' bacteria cells Thermo Fisher Scientific
0,2 ml tubes general lab supplier
1,5 ml tubes general lab supplier
0,1 cm electroporation cuvettes Biosigma 4905020
Electroporator 2510 Eppendorf
2x YT medium Sigma-Aldrich Y1003
Ampicillin sodium salt Sigma-Aldrich A9518
Chloramphenicol Sigma-Aldrich C0378
DreamTaq DNA Polymerase Thermo Fisher Scientific EP0702
Deoxynucleotide (dNTP) Solution Mix New England Biolabs N0447S
96-well thermal cycler (with heated lid) general lab supplier
150 mm plates general lab supplier
100 mm plates general lab supplier
Glycerol Sigma-Aldrich G5516
BssHII New England Biolabs R0199L
NheI New England Biolabs R0131L
QIAprep Spin Miniprep Kit Qiagen 27104 or equivalent
M13KO7 Helper Phage GE Healthcare Life Sciences 27-1524-01 
Kanamycin sulfate from Streptomyces kanamyceticus Sigma-Aldrich K1377
Polyethylene glycol (PEG) Sigma-Aldrich P5413
Sodium Cloride (NaCl) Sigma-Aldrich S3014
PBS general lab supplier
Dynabeads Protein G for Immunoprecipitation Thermo Fisher Scientific 10003D or equivalent
MagnaRack Magnetic Separation Rack Thermo Fisher Scientific CS15000 or equivalent
Tween 20 Sigma-Aldrich P1379
Nonfat dried milk powder EuroClone EMR180500
KAPA HiFi HotStart ReadyMix  Kapa Biosystems, Fisher Scientific 7958935001
AMPure XP beads  Agencourt, Beckman Coulter A63881
Nextera XT dual Index  Primers  Illumina FC-131-2001 or FC-131-2002 or FC-131-2003 or FC-131-2004
MiSeq or Hiseq2500  Illumina
Spectrophotomer Nanodrop
Agilent Bioanalyzer or TapeStation Agilent
Forward PCR primer general lab supplier 5’ TACCTATTGCCTACGGCAGCCGCTGGATTGTTATTACTC 3’
Reverse PCR primer general lab supplier 5’ TGGTGATGGTGAGTACTATCCAGGCCCAGCAGTGGGTTTG 3’
Forward primer for NGS general lab supplier  5’ TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGGCAGCAAGCGGCGCGCATGC 3’;
Reverse primer for NGS general lab supplier 5’ GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGGGATTGGTTTGCCGCTAGC 3’;

Riferimenti

  1. Loman, N. J., Pallen, M. J. Twenty years of bacterial genome sequencing. Nat Rev Microbiol. 13 (12), 787-794 (2015).
  2. Jones, C. E., Brown, A. L., Baumann, U. Estimating the annotation error rate of curated GO database sequence annotations. BMC Bioinformatics. 8 (1), 170 (2007).
  3. Andorf, C., Dobbs, D., Honavar, V. Exploring inconsistencies in genome-wide protein function annotations: a machine learning approach. BMC Bioinformatics. 8 (1), 284 (2007).
  4. Wong, W. -. C., Maurer-Stroh, S., Eisenhaber, F. More Than 1,001 Problems with Protein Domain Databases: Transmembrane Regions, Signal Peptides and the Issue of Sequence Homology. PLoS Comput Biol. 6 (7), e1000867 (2010).
  5. Bioinformatics, B., et al. Identification and correction of abnormal, incomplete and mispredicted proteins in public databases. BMC Bioinformatics. 9 (9), (2008).
  6. Phizicky, E., Bastiaens, P. I. H., Zhu, H., Snyder, M., Fields, S. Protein analysis on a proteomic scale. Nature. 422 (6928), 208-215 (2003).
  7. DiDonato, M., Deacon, A. M., Klock, H. E., McMullan, D., Lesley, S. A. A scaleable and integrated crystallization pipeline applied to mining the Thermotoga maritima proteome. J Struct Funct Genomics. 5 (1-2), 133-146 (2004).
  8. Nordlund, P., et al. Protein production and purification. Nat Methods. 5 (2), 135-146 (2008).
  9. Zacchi, P., Sblattero, D., Florian, F., Marzari, R., Bradbury, A. R. M. Selecting open reading frames from DNA. Genome Res. 13 (5), 980-990 (2003).
  10. Di Niro, R., et al. Rapid interactome profiling by massive sequencing. Nucleic Acids Res. 38 (9), e110 (2010).
  11. Gourlay, L. J., et al. Selecting soluble/foldable protein domains through single-gene or genomic ORF filtering: Structure of the head domain of Burkholderia pseudomallei antigen BPSL2063. Acta Crystallogr Sect D Biol Crystallogr. 71 (Pt 11), 2227-2235 (2015).
  12. D’Angelo, S., et al. Filtering "genic" open reading frames from genomic DNA samples for advanced annotation. BMC Genomics. 12 (Suppl 1), S5 (2011).
  13. D’Angelo, S., et al. Profiling celiac disease antibody repertoire. Clin Immunol. 148 (1), 99-109 (2013).
  14. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: A Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  15. Heger, A., Holm, L. Exhaustive enumeration of protein domain families. J Mol Biol. 328 (3), 749-767 (2003).
  16. Zacchi, P., Sblattero, D., Florian, F., Marzari, R., Bradbury, A. R. M. Selecting open reading frames from DNA. Genome Res. 13 (5), 980-990 (2003).
  17. Faix, P. H., Burg, M. A., Gonzales, M., Ravey, E. P., Baird, A., Larocca, D. Phage display of cDNA libraries: Enrichment of cDNA expression using open reading frame selection. Biotechniques. 36 (6), 1018-1029 (2004).
  18. Patrucco, L., et al. Identification of novel proteins binding the AU-rich element of α-prothymosin mRNA through the selection of open reading frames (RIDome). RNA Biol. 12 (12), 1289-1300 (2015).
  19. Collins, M. O., Choudhary, J. S. Mapping multiprotein complexes by affinity purification and mass spectrometry. Curr Opin Biotechnol. 19 (4), 324-330 (2008).
  20. Suter, B., Kittanakom, S., Stagljar, I. Two-hybrid technologies in proteomics research. Curr Opin Biotechnol. 19 (4), 316-323 (2008).
  21. Nakai, Y., Nomura, Y., Sato, T., Shiratsuchi, A., Nakanishi, Y. Isolation of a Drosophila gene coding for a protein containing a novel phosphatidylserine-binding motif. J Biochem. 137 (5), 593-599 (2005).
  22. Deng, S. J., et al. Selection of antibody single-chain variable fragments with improved carbohydrate binding by phage display. J Biol Chem. 269 (13), 9533-9538 (1994).
  23. Danner, S., Belasco, J. G. T7 phage display: A novel genetic selection system for cloning RNA-binding proteins from cDNA libraries. Proc Natl Acad Sci. 98 (23), 12954-12959 (2001).
  24. Gargir, A., Ofek, I., Meron-Sudai, S., Tanamy, M. G., Kabouridis, P. S., Nissim, A. Single chain antibodies specific for fatty acids derived from a semi-synthetic phage display library. Biochim Biophys Acta – Gen Subj. 1569 (1-3), 167-173 (2002).
  25. Patrucco, L., et al. Identification of novel proteins binding the AU-rich element of α-prothymosin mRNA through the selection of open reading frames (RIDome). RNA Biol. 12 (12), 1289-1300 (2015).
  26. Ausubel, F. M., et al. Current Protocols in Molecular Biology. Mol Biol. 1 (2), 146 (2003).
  27. Sblattero, D., Bradbury, A. Exploiting recombination in single bacteria to make large phage antibody libraries. Nat Biotechnol. 18, 75-80 (2000).
  28. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10 (2011).
  29. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10 (1), 421 (2009).
  30. Li, H., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
  31. Quinlan, A. R. BEDTools: The Swiss-Army tool for genome feature analysis. Curr Protoc Bioinforma. , (2014).
  32. Skinner, M. E., Uzilov, A. V., Stein, L. D., Mungall, C. J., Holmes, I. H. JBrowse: A next-generation genome browser. Genome Res. 19 (9), 1630-1638 (2009).
  33. Gourlay, L. J., et al. Selecting soluble/foldable protein domains through single-gene or genomic ORF filtering: Structure of the head domain of Burkholderia pseudomallei antigen BPSL2063. Acta Crystallogr Sect D Biol Crystallogr. 71, 2227-2235 (2015).
  34. D’Angelo, S., et al. Filtering "genic" open reading frames from genomic DNA samples for advanced annotation. BMC Genomics. 12 (Suppl 1), S5 (2011).
  35. Di Niro, R., et al. Characterizing monoclonal antibody epitopes by filtered gene fragment phage display. Biochem J. 388 (Pt 3), 889-894 (2005).
  36. D’Angelo, S., et al. Profiling celiac disease antibody repertoire. Clin Immunol. 148 (1), 99-109 (2013).
check_url/it/56981?article_type=t

Play Video

Citazione di questo articolo
Soluri, M. F., Puccio, S., Caredda, G., Grillo, G., Licciulli, V. F., Consiglio, A., Edomi, P., Santoro, C., Sblattero, D., Peano, C. Interactome-Seq: A Protocol for Domainome Library Construction, Validation and Selection by Phage Display and Next Generation Sequencing. J. Vis. Exp. (140), e56981, doi:10.3791/56981 (2018).

View Video