Biology

Genomica risonanza magnetica - una risorsa pubblica per lo Studio Patterns sequenza all'interno del DNA genomico

Published: May 9, 2011 doi: 10.3791/2663

Ashwin Prakash¹, Jason Bechtel¹, Alexei Fedorov¹

¹Department of Medicine, University of Toledo Health Science Campus

Summary

Vi presentiamo un sito web pubblico computazionali per l'analisi di sequenze genomiche. Rileva schemi sequenza di DNA con diverse composizioni nucleotide non casuale. Questa risorsa genera anche sequenze randomizzati con diversi livelli di complessità.

Abstract

Regioni non codificanti genomiche negli eucarioti complesso, comprese le zone intergeniche, introni, e segmenti non tradotti degli esoni, sono profondamente non casuale nella loro composizione nucleotidica e consistono in un complesso mosaico di modelli di sequenza. Questi modelli includono i cosiddetti Mid-Range disomogeneità (MRI) le regioni - sequenze di 3-10 nucleotidi di lunghezza che si arricchiscono di una base particolare o una combinazione di basi (ad esempio (G + T)-ricchi, ricchi di purine, ecc ). Regioni risonanza magnetica sono associati con le strutture del DNA insolito (non-B-forma) che sono spesso coinvolte nella regolazione dell'espressione dei geni, ricombinazione e altri processi genetici (Fedorova e Fedorov 2010). L'esistenza di un pregiudizio forte fissazione all'interno delle regioni risonanza magnetica contro le mutazioni che tendono a ridurre la loro disomogeneità sequenza supporta inoltre la funzionalità e l'importanza di queste sequenze genomiche (Prakash et al. 2009).

Qui mostriamo una risorsa liberamente disponibile su Internet - il pacchetto di Genomic MRI programma - (. Bechtel et al 2008) progettato per l'analisi computazionale di sequenze genomiche al fine di individuare e caratterizzare i vari modelli di risonanza magnetica al loro interno. Questo pacchetto permette inoltre la generazione di sequenze randomizzati con diverse proprietà e il livello di corrispondenza alle sequenze naturali del DNA di ingresso. L'obiettivo principale di questa risorsa è quello di facilitare l'esame di vaste regioni di DNA non codificante, che sono ancora poco indagato e attendono l'esplorazione approfondita e riconoscimento.

Protocol

Tutti i programmi usati nel documento sono stati scritti usando perl, e tutte le pagine web sono stati creati utilizzando PHP.

1. Punto di partenza:

Aprire la home page del pacchetto on-line Genomic RM http://mco321125.meduohio.edu/ ~ jbechtel / gmri /. La risorsa web fornisce anche istruzioni / spiegazioni sui programmi nella "Guida (How-to/README)" anello di collegamento, mentre tutto il materiale pubblicato sul Genomic algoritmi di risonanza magnetica e simili sono elencati nella sezione "Links a risorse rilevanti".

2. Preparazione e caricamento della sequenza di ingresso (s).

Creare un file con formato FASTA-sequenza (s) per avviare una sessione di analisi GMRI. Ogni sequenza nucleotidica in questo formato dovrebbe essere preceduto da una singola linea di partenza con il carattere ">" che rappresenta un identificatore, seguito sulla stessa linea da una breve descrizione di questa sequenza. Sequenze nucleotidiche per l'analisi GMRI permette anche personaggi come R, Y, N, X, ecc Hwever, non-A, T, C, G personaggi non saranno trattati dal programma e verrà ignorato. Le sequenze in cui gli elementi ripetitivi sono state "mascherate" (sostituito da "N" s) può essere utilizzato come input. Nota che i caratteri sequenza sono case insensitive.

Iniziare una sessione GMRI cliccando sul pulsante "Start o Riprendi" sulla pagina Genomic casa risonanza magnetica. Questo porta l'utente a una pagina in cui sequenze nucleotidiche può essere caricato.
Copia e incolla il tuo FASTA formattati sequenze o caricare un file contenente le sequenze dal computer locale utilizzando il tasto "scegli file".
Clicca sul "nuovo inizio sessione con questo file" pulsante. Un messaggio di conferma apparirà sopra la finestra di input affermando che "La sequenza è stato caricato con successo" e si dovrebbe anche ottenere una alfanumerico "GMRI identificatore" [il sito lo definisce un "marchio di sessione"] per la sessione (ad esempio b16yMj), che può essere utilizzato per recuperare e continuare una sessione per un massimo di due settimane dopo il primo utilizzo.

NOTA: D'ora in poi le sequenze di ingresso sono denominati "userfile".

3. Ottenere una distribuzione di frequenza Oligonucleotide delle sequenze di input (opzionale).

Clicca su "SRI Analyzer" scheda (riga in alto) al fine di ottenere una distribuzione di frequenze oligonucleotide per l'intero set di sequenze di input. L'acronimo sta per SRI a corto raggio disomogeneità. A questo punto, l'utente può specificare la lunghezza massima di oligonucleotidi (da 2 fino a 9 nucleotidi, predefinito 6 NTS) per i quali frequenze verranno calcolati. Questa selezione viene fatta cliccando sull'opzione desiderata all'interno del "Dimensione massima oligomeri" casella di riepilogo. Quindi premere il pulsante "Analizza File" per avviare il calcolo. Una rappresentazione approssimativa della composizione sequenza di input verrà immediatamente visualizzato come una tabella breve nel mezzo di questa pagina web e scaricabile come "userfile.comp.tbl". Questo tavolo rappresenta solo gli oligonucleotidi più e il meno abbondante nei sequenze di input.

La tabella di frequenza per tutti gli oligonucleotidi possibile è generato come un file chiamato "userfile.comp", che può essere ottenuto attraverso il "Download file di composizione" link.

NOTA: SRI analizzatore conta l'intero insieme di tutte le oligonucleotidi che si sovrappongono.

4. Generare sequenze casuali con la stessa composizione oligonucleotidi Come in sequenze di input (opzionale).

(Completamento della fase 3 del protocollo è necessario per questo compito).

Clicca su "Generatore di SRI" scheda (riga in alto) per aprire una nuova pagina web che crea sequenze casuali. Scegli il numero di campioni di sequenze casuali da generare utilizzando la casella di riepilogo in questa pagina web. Ognuno di questi file di esempio contengono sequenze casuali del numero e della stessa lunghezza, come le sequenze di ingresso in "userfile". Inoltre, se una sequenza di input contiene non-A, T, C, G o caratteri, la sequenza casuale avrà s "N" esattamente le stesse posizioni nella sequenza di input.
Scegli la più lunga durata di oligonucleotidi per i quali frequenze sarà approssimato nelle sequenze casuali. Questo può essere scelto selezionando il pulsante di opzione per il livello oligomero desiderato (ad esempio "4-mers" per quattro-base oligonucleotidi) nella tabella al centro dello schermo. E 'da notare che sequenze casuali sarà composto non solo le frequenze approssimativa a livello oligomero scelto, ma anche le frequenze dei corrispondenti livelli di oligomeri più brevi, come nelle sequenze di input. Piccole fluttuazioni nella oligonucleotidefrequenze di ingresso e di sequenze casuali sono possibili in base al metodo del modello di Markov applicato per la generazione di sequenze casuali.
Avviare il programma facendo clic sul pulsante "Generate File". Se le sequenze di input sono di grandi dimensioni potrebbe richiedere un paio di minuti per generare sequenze casuali. Quindi, un utente deve attendere blu "Download" link appaiono in fondo a questa pagina. I set casuali sono posti in file con nomi come "userfile.randX_Y" dove X è il numero del set casuale e Y è il livello oligomero scelto (ad esempio "userfile_rand2_4").

5. Analisi di Mid-Range disomogeneità (MRI) di ingresso e sequenze casuali.

Clicca su "MRI Analyzer" scheda (riga superiore), che apre una nuova pagina web che analizza il mid-range disomogeneità della composizione delle sequenze nucleotidiche.
Selezionare una sequenza da analizzare dalla "File da analizzare" casella di riepilogo (una scelta tra la sequenza di input e set di sequenze casuali generati possono essere fatti qui).
Scegli il tipo di contenuto della risonanza magnetica da analizzare attraverso la casella di riepilogo in dotazione. (Sette opzioni contenuti sono disponibili: G + C, G + A, G + T, A, G, C o T.)
Scegliere la lunghezza della finestra per cui le sequenze ricche di contenuti e povero di contenuti sarà esaminato tramite la casella "dimensioni Finestra" lista (di default è di 50 nucleotidi, l'intervallo valido da 30 a 1000).
Scegli la soglia superiore e inferiore della soglia per le regioni ricche di contenuti e povero di contenuti, rispettivamente. Queste soglie possono essere definite in base al numero esatto di nucleotidi particolare nella finestra corrente (utilizzando l'opzione di numero nella casella di riepilogo) o in percentuale di questi nucleotidi nella finestra (utilizzando l'opzione di percentuale)
Dopo che tutte e cinque le scelte sono state fatte (per esempio: Sequenza = "userfile" Content = GC; dimensioni della finestra = 50; soglia superiore = 35; soglia inferiore = 15), richiamare il programma premendo il pulsante Analizza file. Il programma esegue una scansione di tutte le sequenze da l'ingresso selezionato consecutivamente. Ad ogni passo si ottiene un segmento della sequenza corrente con durata pari alla dimensione della finestra specificata e calcola se il numero o la percentuale di nucleotidi del contenuto scelto è al di sopra della soglia superiore o inferiore alla soglia inferiore. Se la finestra non corrisponde né criteri, la finestra successiva sovrapposizione (spostato di un solo nucleotide) viene selezionata per la stessa analisi. Quando una finestra in cui si trova la sequenza soddisfa uno dei requisiti di soglia per i contenuti ricchi o poveri di composizione, il programma salva la sequenza di questa finestra nel file di output e genera un picco in uscita grafica. Dopo di ciò, il programma salta alla prossima non sovrapponibili finestra adiacente e riprende il processo di scansione fino alla fine della sequenza è raggiunta.
Dopo il completamento del programma, un collegamento al file di output (con il nome "userfile_GC_50_35 .. 15" per l'esempio sopra) appare e una rappresentazione grafica dei risultati viene visualizzato al centro della pagina web (vedi Figura 1). Su questo display grafico tutte le sequenze di input dal userfile sono concatenati in un'unica stringa e presentata come una linea nera orizzontale sull'asse X, con lunghezza in kilobasi (kb) mostrato di seguito. Tutti i contenuti regioni ricche lungo sequenze di input sono contrassegnati come blu "in alto" picchi e contenuti regioni povere come il rosso "in basso" punte. Il numero totale delle finestre di contenuti ricchi e poveri di contenuti sono riportati nella parenthses nella legenda in fondo di questa figura (32 e 19, rispettivamente). La figura serve ad illustrare l'abbondanza relativa e la disposizione delle regioni risonanza magnetica. Nel frattempo i dettagli specifici sono presentati nel file di output (vedi Figura 3). In questo file, tutti i segmenti di sequenza di nucleotidi che corrispondono contenuti ricchi o poveri criteri e le loro coordinate sono disponibili per un utente come un elenco in base alla loro posizioni consecutive lungo le file di input.
Dopo il completamento di analisi MRI per la sequenza scelta l'utente può avviare un nuovo processo nella stessa pagina web apportando modifiche ai parametri e / o file di input. Per esempio, per esaminare il campione precedentemente casuali generati # 1 con gli stessi parametri RMN, l'utente deve solo modificare il file di analizzare opzione e selezionare il file "userfile_rand1_4", e quindi premere il pulsante Analizza file. Un nuovo file e la visualizzazione grafica andrà a sostituire quello vecchio. I risultati e le cifre di tutti gli esami sotto ogni "sessione di etichetta" (GMRI identificativo) verrà salvato e reso disponibile per due settimane dalla ultima attività. Al fine di salvare i risultati / ficoUres in modo permanente, l'utente deve selezionare l'opzione "Scarica file" scheda (riga superiore) e scaricare l'intera sessione o singoli file, se necessario.
Con questa pagina web MRI Analyzer un utente può studiare
- (G + C)-ricchi e (A + T)-regioni ricche
- Purina (A + G)-ricchi e pirimidina (C + T) le regioni ricche di
- Keto (G + T)-ricchi e aminoacidi (A + C)-regioni ricche
- Regioni ricche A-e A-poveri
- Le regioni ricche di G e G-poveri
- T-regioni ricche e T-poveri
- C-C-ricchi e poveri regioni
L'ultima versione di Genomic risonanza magnetica ha una nuova opzione per lo studio delle regioni ricche in purine (R) / pirimidina (Y) modelli di alternanza che potrebbero formarsi Z-DNA conformazioni. Attualmente questa opzione è disponibile dal link "Z-DNA" e funziona sulla stessa base di altre regioni di cui sopra risonanza magnetica. Un utente deve selezionare le soglie inferiori e superiori per il numero di (RY + YR) dinucleotidi sovrapposizione nella finestra di scansione. Il programma produce un output simile grafica e un file di segmenti di DNA arricchito e impoverito, alternando purine e pirimidine. Il presunto Z-DNA regioni devono essere altamente arricchito alternando R / Y basi (vedi recensione F & F 2011).

6. I programmi nel quadro del pacchetto Genomic RM (opzionale).

La risorsa Genomic RM ha inoltre due opzioni avanzate per la generazione di sequenze casuali molto specifiche. Sono disponibili attraverso il "Generatore di risonanza magnetica" e "CDS Generator" schede nella riga superiore.

Generatore di risonanza magnetica crea sequenze randomizzati con la stessa composizione oligonucleotide come il file di input (simile a SRI generatore). Tuttavia, in aggiunta, le sequenze randomizzati imitare un modello particolare risonanza magnetica specificato dall'utente. All'interno di questa pagina web che un utente deve specificare da una casella di riepilogo un modello particolare risonanza magnetica per essere imitato. La casella di riepilogo contiene tutti i modelli che sono stati esaminati in questa sessione di analizzatore di risonanza magnetica (es. "userfile_GC_50_35 .. 15"). Una sequenza casuale generato con questa opzione hanno la stessa composizione oligonucleotide del file di input selezionato e anche lo stesso GC-ricchi e poveri di modelli di come si è visto in "userfile_GC_50_35 .. 15".
CDS generatore è utilizzato per la randomizzazione di sequenze codificanti proteine. Conserva la stessa sequenza aminoacidica come quella codificata dalla specificati dall'utente ingresso. Inoltre, il programma conserva la codone stesso e di-codone pregiudizi, come specificato nel scelto dall'utente tabella di input. La versione online del generatore CDS accetta anche una sequenza di proteine come input. Tutte le altre opzioni per il programma sono offerte solo tramite script Perl stand-alone disponibile per il download dalla pagina Web principale di Genomic risonanza magnetica.

7. Rappresentante Risultati

Questo protocollo permette ad un utente di studio disomogeneità compositiva delle sequenze nucleotidiche. Importante, supporta anche la generazione di una serie di sequenze randomizzati con una composizione oligonucleotide approssimazione che delle sequenze di input. Di solito, le sequenze genomiche di eucarioti complessi non sono omogenei nella composizione, ma rappresentano invece un complesso mosaico di segmenti di sequenza di nucleotidi arricchito da particolari (ad esempio, ricchi di purine, (G + T)-ricchi, (A + T)-ricchi, ecc.) Questi modelli di fascia media scala (3-10 bp) sono visualizzati con l'output grafico di analizzatore di risonanza magnetica che mostra selezionato ricchi di contenuti come i segmenti superiori picchi blu e poveri di contenuti, come i segmenti più bassi picchi rossi (vedi figure 1 e 2). Tipicamente, il numero di regioni ricche di contenuti e povero di contenuti in una sequenza naturale (Figura 1) è nell'ordine di volte superiore al numero degli stessi tipi di regioni corrispondenti sequenze randomizzati (Figura 2) avere la stessa oligonucleotide composizione. Questi segmenti sequenza con mid-range disomogeneità nella composizione dei nucleotidi possono essere di interesse per l'utente. Sono disponibili i file di output Genomic risonanza magnetica per ulteriori indagini.

Figura 1. Un esempio di output analizzatore di risonanza magnetica grafico a partire dal punto 5.7. I risultati sono stati ottenuti su un campione di 44 introni umani. Barre blu rappresentano le posizioni di GC regioni ricche lungo questi introni. Barre rosse rappresentano GC-poveri (o ricchi) MRI regioni. L'asse y contiene soglie inferiori e superiori per il tipo di contenuti.

Figura 2. MRI uscita analizzatore per la sequenza casuale "userfile.rand1_4".
Il graficamentecal rappresentazione di risonanza magnetica all'interno di una sequenza generata in modo casuale utilizzando il programma generatore di SRI.

Figura 3. Un esempio l'inizio di un file di output testuale da analizzatore di risonanza magnetica.
Tutte le sequenze ricche di contenuti e povero di contenuti individuati dal programma sono presentati negli ultimi (quarto) colonna. Le loro posizioni relative, misurata in numero di finestre, sono riportati nella prima colonna. La seconda e terza colonna sono indicatori per le regioni ricche di contenuti e povero di contenuti, rispettivamente.

Discussion

Regioni con disomogenea composizione nucleotide al mid-range scale (3-10 nucleotidi) sono sovrabbondante nel genoma degli eucarioti complessi e possono essere trovati ovunque (regioni intergeniche, introni, regioni non tradotte degli esoni, elementi ripetitivi). Queste regioni sono frequentemente associate con conformazioni del DNA insolito. Per esempio, le sequenze purine-/pyrimidine-rich tendono a formare triplexes DNA (H-DNA), con alternanza di sequenze purina / pirimidina basi sono associati con Z-DNA conformazioni; (G + C)-regioni ricche mostrano anomalie strutturali in B- DNA e potrebbe essere soggetta a scissione spina dorsale; (A + T)-regioni ricche potrebbe formare un insolito struttura - un elemento di svolgimento del DNA, ecc (recensito da Fedorov & Fedorova 2010). Alcuni di questi modelli di fascia media (ad esempio (G + T)-regioni ricche) sono scarsamente indagato e ancora in attesa di esplorazione approfondita e riconoscimento. L'obiettivo principale della nostra risorsa Genomic web MRI è quello di aiutare gli utenti nella individuazione di queste regioni MRI per la loro ulteriore analisi sperimentale e per l'esplorazione delle loro funzioni possibili. Conoscenza delle regioni MRI potrebbero essere inserite in e migliorare la nuova generazione di programmi predittore gene (Shepard 2010) e migliorare la nostra comprensione delle funzioni del genoma e proprietà.

Disclosures

Nessun conflitto di interessi dichiarati.

Acknowledgments

Siamo grati a Samuel Shepard, Peter Bazeley e John David Bell per la gestione delle pagine web Genomic risonanza magnetica. Questo lavoro è stato sostenuto dal National Science Foundation Career "Indagine su introne ruoli cellulare" premio [codice di autorizzazione MCB-0643542].

Materials

Name	Company	Catalog Number	Comments
Computer with Internet
Files with nucleotide sequences for examination

DOWNLOAD MATERIALS LIST

References

Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. , 65-91 (2010).
Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. , The University of Toledo. 57-157 (2010).

Biology

Genomica risonanza magnetica - una risorsa pubblica per lo Studio Patterns sequenza all'interno del DNA genomico

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.